数据挖掘——数据仓库

56309f00d7d9a5ca6c97d4903fe010c1503cba36

虽然存在数据仓库并不是数据挖掘的先决条件,但实际上,若能访问数据仓库,数据挖掘的任务就会变得容易的多


数据仓库主要目标是增加决策过程的“情报”和此过程的相关人员的知识。数据仓库对不同的人来说有不同的意义。


数据仓库是一个集成的,面向主题的数据库集合,用于实现决策支持功能(DSF),其中的每个数据单元都和某个时刻相关。


根据这个定义,数据仓库也可看成是某个组织的数据存储库,用于支持战略决策。数据仓库的功能是以集成的方式存储某组织的历史数据,来反应这个组织和企业的多个方面。数据仓库中的数据永远不会更新,仅用于相应终端用户的查询。一般来说,数据仓库非常的大,存储了数以亿计的记录。


要更好的理解数据仓库的设计过程最重要的是两个方面:

   第一是数据仓库中存储的数据的特定类型(分类);

   第二是对数据进行什么转换才能使数据变成有利于决策的最终形式。


数据仓库包括一下数据类别,这个分类适用于依赖时间的数据源。

  1、过去细节数据

  2、当前(新)细节数据

  3、轻度综合数据

  4、高度综合数据

  5、元数据(数据目录或者向导)


为了在数据仓库中准备这5种基本数据或者导出数据,数据转换的基本类型已经标准化。有以下4中主要转换形式,每一种转换形式都有自己的特点:


  第一种 简单转换—— 这种转换是所有其他复杂类型转换的基石。这种类型的转换包括一次只操作一个字段中的数据,而不考虑相关字段的值。

 

  第二种 清洁和净化——这种转换确保一个字段或一组相关的字段采用一致的格式和用法。


  第三种 集成——这个过程从一个或者多个数据源中提取操作类型数据,并逐个字段地把它们映射到数据仓库中的新数据结构上。在构建数据仓库时,常见的标识符问题是最难的继承问题之一。当同一个实体有多个系统源,但无法将这些实体区分开时,就会出现这种情况。


  第四种 聚合和总结——这个方法将操作环境中的数据实例浓缩成数据仓库环境中更少的实例。总结是一维或者多维数据值的简单相加。聚合指的是不同商业元素相加得到一个总计,它高度依赖于域。


 这些转换是把数据仓库作为数据挖掘过程的数据源的主要原因。如果数据仓库可用,数据挖掘的预处理阶段就可以极大地简化,有时候甚至可以去掉。数据准备是最耗时间的阶段。


数据仓库的开发过程可概括为3个阶段:

   1、建模——简单地说,就是花时间了解商业过程,这些过程的信息需求以及在这些过程中做出的当前的决策。

  

   2、构建——确定对工具的需求,该工具符合目标商业过程所需的决策支持类型;创建一个有助于进一步定义信息需求的数据模型;把问题分解为数据规范和实际的数据存储库,数据存储最终会表示为数据集市或者更加全面的数据仓库。


  3、部署—— 用户研究存储库(了解可用的和应当可用的数据)和实际数据仓库的早期版本。这会使数据仓库出现演化,包括增加更多的数据扩充历史周期或重新回到构建阶段,以方便通过数据模型来扩展数据仓库的范围。


  数据仓库的唯一功能是向终端用户提供信息已作出决策。数据仓库也允许终端用户提取隐藏的,重要的信息。这种信息虽然更加难以提取,但能提供更大的商业和科学利益。


  与其他典型的数据仓库应用(如结构化查询语言SQL)和联机分析处理工具(OLAP)的不同

       SQL:一种标准的关系数据库语言,善于进行在数据库数据上强加一些约束条件以获取答案;

       数据挖掘:进行另外一种本质上的探测性分析:获取隐藏的,不那么明显的信息。

      OLAP:是决策支持的一部分。他回答了为什么某些事情是正确的。用户可以建立一个关联假设,二队数据执行一系列查询来验证该假设。OLAP分析实际上是一个推导过程。OLAP工具不依赖与数据,也不创造新的知识。它们通常是根据图形化浓缩的数据,帮助终端用用户做出结论和决策的。具有专门用途的可视化工具。









本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/291010.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

c2000 汇编语言指令,C2000系CMD文件的配置理解

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。您需要 登录 才可以下载或查看,没有帐号?注册x推荐CMD的专业名称叫链接器配置文件,是存放链接器的配置信息的,我们简称为命令文件&#…

OxyPlot 导出图片及 WPF 元素导出为图片的方法

OxyPlot 导出图片及 WPF 元素导出为图片的方法目录OxyPlot 导出图片及 WPF 元素导出为图片的方法一、OxyPlot 自带导出方法二、导出 WPF 界面元素的方法三、通过附加属性来使用独立观察员 2022 年 2 月 26 日最近有个需求,就是将 OxyPlot 图形导出图片。经过尝试&am…

java实现各种算法

package sortAlgorithm;import java.io.File;import java.io.IOException;import java.sql.Time;import java.util.Random;* author sky* 该类给出各种排序算法public class sort{private static Integer[] elem(int n){int Nn;Random randomnew Random();Integer elem[]new In…

BDB (Berkeley DB)简要数据库(转载)

使用最近DBD。然后搜了下相关资料,首先公布的是一门科学: 转会http://www.javaeye.com/topic/202990 DB综述DB最初开发的目的是以新的HASH訪问算法来取代旧的hsearch函数和大量的dbm实现(如AT&T的dbm,Berkeley的ndbm。GNU项目…

C语言之rand()和srand()函数

1、rand()、srand()函数介绍 srand 初始化随机种子,rand 产生随机数 定义函数:int rand(void) 函数功能:产生随机数 函数说明:rand的内部实现是用线性同余法做的,不是真的随机数,因为其周期特别长,一定的范围里可看成是随机的。rand()会返回一随机数值,范围在0至RAND_…

delphi中利用Indy的TIdFtp控件实现FTP协议

2019独角兽企业重金招聘Python工程师标准>>> delphi中利用Indy的TIdFtp控件实现FTP协议版权声明:本文为博主原创文章,未经博主允许不得转载。现在很多应用都需要上传与下载大型文件,通过HTTP方式上传大文件有一定的局限性。幸好FT…

一篇文章了解Liquid模版引擎

背景平常比如开发个代码生成器一般是定一个模板,然后里面很多变量,根据数据生成文件。这时候模版引擎就派上了用场。下面我们来介绍下Liquid。什么是Liquid 呢,就像java、c#等编程语言一样,Liquid也是一种独立的语言,没…

C++之map插入数据相同的key不能覆盖value解决办法

1、问题 C里面,如果map里面插入之前的<key, value>,如果key在map里面有的话&#xff0c;不会覆盖之前的value,一般先判断之前有没有数据&#xff0c;有的话先删除&#xff0c;然后再去添加。 2、代码实现 3、运行结果

【BZOJ】【4145】【AMPPZ2014】The Prices

状压DP/01背包 Orz Gromah 容易发现m的范围很小……只有16&#xff0c;那么就可以状压&#xff0c;用一个二进制数来表示买了的物品的集合。 一种简单直接的想法是&#xff1a;令$f[i][j]$表示前$i$个商店买了状态集合为$j$的商品的最小代价&#xff0c;那么我们转移的时候就需…

Java中的String,StringBuilder,StringBuffer三者的区别

最近在学习Java的时候&#xff0c;遇到了这样一个问题&#xff0c;就是String,StringBuilder以及StringBuffer这三个类之间有什么区别呢&#xff0c;自己从网上搜索了一些资料&#xff0c;有所了解了之后在这里整理一下&#xff0c;便于大家观看&#xff0c;也便于加深自己学习…

WPF 实现人脸检测

WPF开发者QQ群此群已满340500857 &#xff0c;请加新群458041663由于微信群人数太多入群请添加小编微信号yanjinhuawechat 或 W_Feng_aiQ 邀请入群需备注WPF开发者 PS&#xff1a;有更好的方式欢迎推荐。接着上一篇利用已经训练好的数据文件,检测人脸 地址如下&#xff1a;http…

C++之函数的默认值参数说明

1、思考 今天看到C代码的时候&#xff0c;发现文件里面的函数定义和实现都有3个参数&#xff0c;特码调用的时候只有2个参数了&#xff0c;日了狗&#xff0c;java里面好像没有这种方式&#xff0c;后来才发现是默认参数 2、代码实现 3、展示结果 4、总结 注意默认参数需要写…

如何用c语言验证一个定理,验证动量定理方法一

【目的和要求】验证物体做直线运动时&#xff0c;其动量的增量等于合外力的冲量&#xff0c;以加深学生对动量定理的理解。【仪器和器材】电磁打点计时器(J0203型)&#xff0c;学生电源(J1202型)&#xff0c;斜面(带定滑轮)&#xff0c;小车&#xff0c;纸带&#xff0c;天平(托…

Merge Two Sorted Lists leetcode java

题目&#xff1a; Merge two sorted linked lists and return it as a new list. The new list should be made by splicing together the nodes of the first two lists. 题解&#xff1a;这道题是链表操作题&#xff0c;题解方法很直观。首先&#xff0c;进行边界条件判断&am…

插头DP

AC HDU1693 不能再简单了的插头DP 1 #include <cstdio>2 #include <fstream>3 #include <iostream>4 5 #include <cstdlib>6 #include <cstring>7 #include <algorithm>8 #include <cmath>9 10 #include <queue>11 #include…

自定义控件详解(四):Paint 画笔路径效果

Paint 画笔 &#xff0c;即用来绘制图形的"笔" 前面我们知道了Paint的一些基本用法&#xff1a; paint.setAntiAlias(true);//抗锯齿功能 paint.setColor(Color.RED); //设置画笔颜色 paint.setStyle(Style.FILL);//设置填充样式 paint.setStrokeWidth(10);//设…

C++之undefined reference to “ssl::first::first()“

1、错误 只写了一个简单的C继承类&#xff0c;就出现了这个错误 undefined reference to "ssl::first::first()" 2、原因 我在second类里面继承了first类&#xff0c;但是在first类里面&#xff0c;我把构造函数写成了 first();然后这个函数有没有实现&#xff0c;…

qt中c语言怎么显示图片和文字,Qt中在图片上叠加显示文字

如何在win7上安装ant-design1.首先要安装务必确认 Node.js 已经升级到 v4.x 或以上. 2.打开cmd,输入"npm install antd-init -g",安装antd(可以自己先指定安装目 ...&lbrack;TopCoder&rsqb; SRM&lowbar;594&lowbar;DIV2&period;250好长一段时间没…

2021 .NET Conf China 主题分享之-轻松玩转.NET大规模版本升级

去年.NET Conf China 技术大会上&#xff0c;我给大家分享了主题《轻松玩转.NET大规模版本升级》&#xff0c;今天把具体分享的内容整理成一篇博客&#xff0c;供大家研究参考学习。一、先说一下技术挑战和业务背景我们公司&#xff1a;特来电新能源股份有限公司&#xff1a;中…

HDU4462-稻草人

思想不难&#xff0c;代码不易&#xff0c;且敲且珍惜。 枚举的方式&#xff0c;假设有十个位置可以放稻草人&#xff0c;用二进制的形式转换一下&#xff0c;对每种情况判断是否全被覆盖&#xff0c;记录成功时稻草人的个数&#xff0c;每次比较选出最小的。 注意一个陷阱&…