数据仓库与数据挖掘 数据仓库( DW : Data Warehouse ):数据 仓库是支持管理决策过程的、面向主题的、集 成的、随时间变化的、但信息本身相对稳定数 据集合。 数据仓库与数据库的不同之处 – 数据仓库只 从数据库中抽取需要的数据 – 数据仓库是多维的 – 数据仓库支持决策处理,而不是事务处理
数据仓库的特点 面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统 之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主 题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点 方面,一个主题通常与多个操作型信息系统相关。 集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数 据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原 有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得 到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于 整个企业的一致的全局信息。 相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时 发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操 作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被 长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操 作很少,通常只需要定期的加载、刷新。 反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而 数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点 ( 如开始应用数据仓库的时点 ) 到目前的各个阶段的信息,通过这些信息, 可以对企业的发展历程和未来趋势做出定量分析和预测。
数据仓库建立过程 数据挖掘工具 数据仓库 数据转换、 装载 数据提取、 净化 主题 销售数据库 客户数据库 财务数据库 。。。。 生产数据库 辅助决策
数据挖掘 分析报告给你后见之明 (hindsight) ; 统计分析给你先见之明 (foresight) ;数 据挖掘给你洞察力 (insight) 数据挖掘( DM : Data Mining ):是一种决策 支持过程,从大量数据库中发现并提取隐藏在 其中合理有效的信息。帮助企业管理人员寻找 规律,发现被忽略的要素,预测趋势,进行决 策。
数据挖掘的应用 零售业 – 用于识别顾客的购买模式,在顾客的统计特征中发现关联,预测促销活 动的反应,进行市场分析。如 在购买面包和黄油的顾客中,有 90% 的人 同时也买了牛奶 ” : ( 面包 + 黄油 )→( 牛奶 ) 。 银行 – 二八定律 保险 – 如;保险客户流失性判断保险客户流失性判断 医疗 – 探求各种疾病之间的相互关系、各种疾病的发展规律,总结各种治疗 方案的治疗效果,以及对疾病的诊断、治疗和医学研究是非常有价值 和发展前景的。同时,医疗数据是既有文本、 如: 预测肝癌患者存活 期 预测肝癌患者存活 期 。。。。。。
收入 >5 万元 年龄 >35 岁 不易流失易流失 是否事业单位 不易流失易 流 失易 流 失 Y N Y Y N N 例:保险客户流失性判断的决策树
据《日经产业新闻》报道,专家们采用了被称为 “ 数据挖掘 ” 的分析方法,其 特点是没有主观色彩,利用所掌握的全部数据来研究相互间的关系,消除了 过去先按经验假设再验证的不准确之处。 这次研究中,专家们搜集 1990 年到 2002 年间因肝癌死亡的 456 名患者的 各方面状况,把患者血液检查结果、症状等详细信息数字化,所涉及的数据 达 77 万种,然后用 “ 数据挖掘 ” 软件分析其相关性。结果发现,某些数据和肝 癌患者的存活期密切相关,比如代表一种 “PIVKA” 蛋白质异常程度的数值到 一定标准以上, 90 %以上的肝癌患者存活期不到一年。这种蛋白质与肝癌关 系密切,但与患者存活期的关系还是第一次发现。 使用新方法不仅可以较准确地预测肝癌患者的存活期,而且有助于选择恰当 的治疗方法,来保持或者改善那些与存活期密切相关的数值,进而延长患者 生命。今后,研究人员还计划集中日本各地的检查数据,对乳腺癌、胃癌、 子宫癌等癌症情况用软件进行分析,以对这些癌症患者的存活期作出正确预 测。