数据挖掘——数据仓库

56309f00d7d9a5ca6c97d4903fe010c1503cba36

虽然存在数据仓库并不是数据挖掘的先决条件,但实际上,若能访问数据仓库,数据挖掘的任务就会变得容易的多


数据仓库主要目标是增加决策过程的“情报”和此过程的相关人员的知识。数据仓库对不同的人来说有不同的意义。


数据仓库是一个集成的,面向主题的数据库集合,用于实现决策支持功能(DSF),其中的每个数据单元都和某个时刻相关。


根据这个定义,数据仓库也可看成是某个组织的数据存储库,用于支持战略决策。数据仓库的功能是以集成的方式存储某组织的历史数据,来反应这个组织和企业的多个方面。数据仓库中的数据永远不会更新,仅用于相应终端用户的查询。一般来说,数据仓库非常的大,存储了数以亿计的记录。


要更好的理解数据仓库的设计过程最重要的是两个方面:

   第一是数据仓库中存储的数据的特定类型(分类);

   第二是对数据进行什么转换才能使数据变成有利于决策的最终形式。


数据仓库包括一下数据类别,这个分类适用于依赖时间的数据源。

  1、过去细节数据

  2、当前(新)细节数据

  3、轻度综合数据

  4、高度综合数据

  5、元数据(数据目录或者向导)


为了在数据仓库中准备这5种基本数据或者导出数据,数据转换的基本类型已经标准化。有以下4中主要转换形式,每一种转换形式都有自己的特点:


  第一种 简单转换—— 这种转换是所有其他复杂类型转换的基石。这种类型的转换包括一次只操作一个字段中的数据,而不考虑相关字段的值。

 

  第二种 清洁和净化——这种转换确保一个字段或一组相关的字段采用一致的格式和用法。


  第三种 集成——这个过程从一个或者多个数据源中提取操作类型数据,并逐个字段地把它们映射到数据仓库中的新数据结构上。在构建数据仓库时,常见的标识符问题是最难的继承问题之一。当同一个实体有多个系统源,但无法将这些实体区分开时,就会出现这种情况。


  第四种 聚合和总结——这个方法将操作环境中的数据实例浓缩成数据仓库环境中更少的实例。总结是一维或者多维数据值的简单相加。聚合指的是不同商业元素相加得到一个总计,它高度依赖于域。


 这些转换是把数据仓库作为数据挖掘过程的数据源的主要原因。如果数据仓库可用,数据挖掘的预处理阶段就可以极大地简化,有时候甚至可以去掉。数据准备是最耗时间的阶段。


数据仓库的开发过程可概括为3个阶段:

   1、建模——简单地说,就是花时间了解商业过程,这些过程的信息需求以及在这些过程中做出的当前的决策。

  

   2、构建——确定对工具的需求,该工具符合目标商业过程所需的决策支持类型;创建一个有助于进一步定义信息需求的数据模型;把问题分解为数据规范和实际的数据存储库,数据存储最终会表示为数据集市或者更加全面的数据仓库。


  3、部署—— 用户研究存储库(了解可用的和应当可用的数据)和实际数据仓库的早期版本。这会使数据仓库出现演化,包括增加更多的数据扩充历史周期或重新回到构建阶段,以方便通过数据模型来扩展数据仓库的范围。


  数据仓库的唯一功能是向终端用户提供信息已作出决策。数据仓库也允许终端用户提取隐藏的,重要的信息。这种信息虽然更加难以提取,但能提供更大的商业和科学利益。


  与其他典型的数据仓库应用(如结构化查询语言SQL)和联机分析处理工具(OLAP)的不同

       SQL:一种标准的关系数据库语言,善于进行在数据库数据上强加一些约束条件以获取答案;

       数据挖掘:进行另外一种本质上的探测性分析:获取隐藏的,不那么明显的信息。

      OLAP:是决策支持的一部分。他回答了为什么某些事情是正确的。用户可以建立一个关联假设,二队数据执行一系列查询来验证该假设。OLAP分析实际上是一个推导过程。OLAP工具不依赖与数据,也不创造新的知识。它们通常是根据图形化浓缩的数据,帮助终端用用户做出结论和决策的。具有专门用途的可视化工具。









本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/291010.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OxyPlot 导出图片及 WPF 元素导出为图片的方法

OxyPlot 导出图片及 WPF 元素导出为图片的方法目录OxyPlot 导出图片及 WPF 元素导出为图片的方法一、OxyPlot 自带导出方法二、导出 WPF 界面元素的方法三、通过附加属性来使用独立观察员 2022 年 2 月 26 日最近有个需求,就是将 OxyPlot 图形导出图片。经过尝试&am…

delphi中利用Indy的TIdFtp控件实现FTP协议

2019独角兽企业重金招聘Python工程师标准>>> delphi中利用Indy的TIdFtp控件实现FTP协议版权声明:本文为博主原创文章,未经博主允许不得转载。现在很多应用都需要上传与下载大型文件,通过HTTP方式上传大文件有一定的局限性。幸好FT…

C++之map插入数据相同的key不能覆盖value解决办法

1、问题 C里面,如果map里面插入之前的<key, value>,如果key在map里面有的话&#xff0c;不会覆盖之前的value,一般先判断之前有没有数据&#xff0c;有的话先删除&#xff0c;然后再去添加。 2、代码实现 3、运行结果

【BZOJ】【4145】【AMPPZ2014】The Prices

状压DP/01背包 Orz Gromah 容易发现m的范围很小……只有16&#xff0c;那么就可以状压&#xff0c;用一个二进制数来表示买了的物品的集合。 一种简单直接的想法是&#xff1a;令$f[i][j]$表示前$i$个商店买了状态集合为$j$的商品的最小代价&#xff0c;那么我们转移的时候就需…

WPF 实现人脸检测

WPF开发者QQ群此群已满340500857 &#xff0c;请加新群458041663由于微信群人数太多入群请添加小编微信号yanjinhuawechat 或 W_Feng_aiQ 邀请入群需备注WPF开发者 PS&#xff1a;有更好的方式欢迎推荐。接着上一篇利用已经训练好的数据文件,检测人脸 地址如下&#xff1a;http…

C++之函数的默认值参数说明

1、思考 今天看到C代码的时候&#xff0c;发现文件里面的函数定义和实现都有3个参数&#xff0c;特码调用的时候只有2个参数了&#xff0c;日了狗&#xff0c;java里面好像没有这种方式&#xff0c;后来才发现是默认参数 2、代码实现 3、展示结果 4、总结 注意默认参数需要写…

插头DP

AC HDU1693 不能再简单了的插头DP 1 #include <cstdio>2 #include <fstream>3 #include <iostream>4 5 #include <cstdlib>6 #include <cstring>7 #include <algorithm>8 #include <cmath>9 10 #include <queue>11 #include…

自定义控件详解(四):Paint 画笔路径效果

Paint 画笔 &#xff0c;即用来绘制图形的"笔" 前面我们知道了Paint的一些基本用法&#xff1a; paint.setAntiAlias(true);//抗锯齿功能 paint.setColor(Color.RED); //设置画笔颜色 paint.setStyle(Style.FILL);//设置填充样式 paint.setStrokeWidth(10);//设…

2021 .NET Conf China 主题分享之-轻松玩转.NET大规模版本升级

去年.NET Conf China 技术大会上&#xff0c;我给大家分享了主题《轻松玩转.NET大规模版本升级》&#xff0c;今天把具体分享的内容整理成一篇博客&#xff0c;供大家研究参考学习。一、先说一下技术挑战和业务背景我们公司&#xff1a;特来电新能源股份有限公司&#xff1a;中…

ASP.NET Core基于滑动窗口算法实现限流控制

前言在实际项目中&#xff0c;为了保障服务器的稳定运行&#xff0c;需要对接口的可访问频次进行限流控制&#xff0c;避免因客户端频繁请求导致服务器压力过大。而AspNetCoreRateLimit[1]是目前ASP.NET Core下最常用的限流解决方案。查看它的实现代码&#xff0c;我发现它使用…

linux操作系统cp命令

转载于:https://www.cnblogs.com/skl374199080/p/3863918.html

sql必读的九本书

2019独角兽企业重金招聘Python工程师标准>>> 原文地址 直接上书(书籍以后会陆续加上去)书籍下载地址 《MySQL必知必会》《SQL学习指南&#xff08;第2版 修订版&#xff09;》《MySQL技术内幕——InnoDB存储引擎》《Redis设计与实现》《ZooKeeper&#xff1a;分布式…

C语言之加入头文件<stdbool.h>可以使用true和false

1、头文件<stdbool.h>介绍 &#xff08;1&#xff09;使用了<stdbool.h>后&#xff0c;可使用true和false来表示真假。 &#xff08;2&#xff09;在循环语句中进行变量声明是C99中才有的&#xff0c;因此编译时显式指明 gcc -stdc99 prime.c 2、最简单的例子 3、…

Nginx负载均衡+转发策略

负载均衡负载均衡(详解)https://cloud.tencent.com/developer/article/1526664--示例1upstream www_server_pool { server 10.0.0.5; server 10.0.0.6&#xff1a;80 weight1 max_fails1 fails_timeout10s; server 10.0.0.7&#xff1a;80 weight1 max_fails2 fails_timeo…

教育行业的互联网焦虑症

2019独角兽企业重金招聘Python工程师标准>>> 文/阑夕 2007年&#xff0c;前新东方名师刘一男在新东方在线&#xff08;网校&#xff09;上的全年课程收入是三千元&#xff0c;四年之后的2011年&#xff0c;这个数字飙升到了四十万&#xff0c;已经和刘一男当年实体…

零基础学人工智能:TensorFlow 入门例子

识别手写图片 因为这个例子是 TensorFlow 官方的例子&#xff0c;不会说的太详细&#xff0c;会加入了一点个人的理解&#xff0c;因为TensorFlow提供了各种工具和库&#xff0c;帮助开发人员构建和训练基于神经网络的模型。TensorFlow 中最重要的概念是张量&#xff08;Tenso…

CA周记 - 用 Visual Studio Code 做基于 .NET MAUI 跨平台移动应用开发

自2010年以来&#xff0c;移动应用开发是非常热门的一个方向&#xff0c;从技术上我们经历了原生应用开发、基于 H5 的 Web App、混合模式的移动应用开发&#xff0c;再到跨平台移动应用开发。.NET 不仅是一个跨平台的应用&#xff0c;也是一个跨应用场景的平台。.NET的移动应用…

P2P网络穿越 NAT穿越

http://blog.csdn.net/mazidao2008/article/details/4933730 —————————————————————————————————————————————————————————————— 穿越NAT的意义&#xff1a; NAT是为了节省IP地址而设计的&#xff0c;但它隐藏了…

C#导入导出.CSV文件

欢迎您成为我的读者&#xff0c;希望这篇文章能给你一些帮助。前言大家好&#xff0c;我是阿辉。今天和大家一起来看看&#xff0c;C#在处理流文件时,我们最常用的导出Excel文件是如何操作的。在日常的业务编码过程中&#xff0c;很多时候需求就要求导出Office能打开的表格文件…

奋斗逼,真牛逼!

▲点击上方第二个findyi关注&#xff0c;回复“1”领取职场资料职场&认知洞察 丨 作者 / 易洋 这是findyi公众号的第304篇原创文章今天下午一个读者咨询我一个问题&#xff1a;这名读者感觉卷不过身边的加班狂人&#xff0c;但又感觉这些人丝毫不给公司创造价值&#xff0…