虽然存在数据仓库并不是数据挖掘的先决条件,但实际上,若能访问数据仓库,数据挖掘的任务就会变得容易的多。
数据仓库的主要目标是增加决策过程的“情报”和此过程的相关人员的知识。数据仓库对不同的人来说有不同的意义。
数据仓库是一个集成的,面向主题的数据库集合,用于实现决策支持功能(DSF),其中的每个数据单元都和某个时刻相关。
根据这个定义,数据仓库也可看成是某个组织的数据存储库,用于支持战略决策。数据仓库的功能是以集成的方式存储某组织的历史数据,来反应这个组织和企业的多个方面。数据仓库中的数据永远不会更新,仅用于相应终端用户的查询。一般来说,数据仓库非常的大,存储了数以亿计的记录。
要更好的理解数据仓库的设计过程,最重要的是两个方面:
第一是数据仓库中存储的数据的特定类型(分类);
第二是对数据进行什么转换才能使数据变成有利于决策的最终形式。
数据仓库包括一下数据类别,这个分类适用于依赖时间的数据源。
1、过去细节数据
2、当前(新)细节数据
3、轻度综合数据
4、高度综合数据
5、元数据(数据目录或者向导)
为了在数据仓库中准备这5种基本数据或者导出数据,数据转换的基本类型已经标准化。有以下4中主要转换形式,每一种转换形式都有自己的特点:
第一种 简单转换—— 这种转换是所有其他复杂类型转换的基石。这种类型的转换包括一次只操作一个字段中的数据,而不考虑相关字段的值。
第二种 清洁和净化——这种转换确保一个字段或一组相关的字段采用一致的格式和用法。
第三种 集成——这个过程从一个或者多个数据源中提取操作类型数据,并逐个字段地把它们映射到数据仓库中的新数据结构上。在构建数据仓库时,常见的标识符问题是最难的继承问题之一。当同一个实体有多个系统源,但无法将这些实体区分开时,就会出现这种情况。
第四种 聚合和总结——这个方法将操作环境中的数据实例浓缩成数据仓库环境中更少的实例。总结是一维或者多维数据值的简单相加。聚合指的是不同商业元素相加得到一个总计,它高度依赖于域。
这些转换是把数据仓库作为数据挖掘过程的数据源的主要原因。如果数据仓库可用,数据挖掘的预处理阶段就可以极大地简化,有时候甚至可以去掉。数据准备是最耗时间的阶段。
数据仓库的开发过程可概括为3个阶段:
1、建模——简单地说,就是花时间了解商业过程,这些过程的信息需求以及在这些过程中做出的当前的决策。
2、构建——确定对工具的需求,该工具符合目标商业过程所需的决策支持类型;创建一个有助于进一步定义信息需求的数据模型;把问题分解为数据规范和实际的数据存储库,数据存储最终会表示为数据集市或者更加全面的数据仓库。
3、部署—— 用户研究存储库(了解可用的和应当可用的数据)和实际数据仓库的早期版本。这会使数据仓库出现演化,包括增加更多的数据扩充历史周期或重新回到构建阶段,以方便通过数据模型来扩展数据仓库的范围。
数据仓库的唯一功能是向终端用户提供信息已作出决策。数据仓库也允许终端用户提取隐藏的,重要的信息。这种信息虽然更加难以提取,但能提供更大的商业和科学利益。
与其他典型的数据仓库应用(如结构化查询语言SQL)和联机分析处理工具(OLAP)的不同
SQL:一种标准的关系数据库语言,善于进行在数据库数据上强加一些约束条件以获取答案;
数据挖掘:进行另外一种本质上的探测性分析:获取隐藏的,不那么明显的信息。
OLAP:是决策支持的一部分。他回答了为什么某些事情是正确的。用户可以建立一个关联假设,二队数据执行一系列查询来验证该假设。OLAP分析实际上是一个推导过程。OLAP工具不依赖与数据,也不创造新的知识。它们通常是根据图形化浓缩的数据,帮助终端用用户做出结论和决策的。具有专门用途的可视化工具。