一个数据仓库转型者眼中的数据挖掘

一个数据仓库转型者眼中的数据挖掘

对于大多数非从业者或者初学者来说,数据仓库(Data Warehousing)与数据挖掘(Data Mining)是很容易混淆的两个概念。有个形象的比喻说:如果把数据仓库比做一个大型的矿坑,那么数据挖掘就是入坑采矿的工作,数据挖掘需要有非常好的数据基础,没有丰富完整的数据,是挖掘不出好内容的。数据仓库可以说是数据挖掘最理想的地基。

笔者从事数据仓库BI行业多年,先给各位简单介绍一下什么是数据仓库。
数据仓库
要将非常庞大又复杂的数据转化成有用的信息,首先需要做的是有效率地收集数据,于是数据仓库应运而生。数据仓库是一个环境,而不是一件产品;数据仓库是面向主题的、集成的、相对稳定的、随时间不断变化(不同时间)的数据集合,提供用户用于决策支持的当前和历史数据。数据仓库技术是为了有效的把操作型数据集成到统一的环境中,以提供决策型数据访问的各种技术和模块的总称。
数据仓库的数据全部来源于外部,它本身并不“生产”任何数据,同时自身也不需要“消费”任何数据。在数据架构上面,数据仓库通常采用层次化的模型架构,这种模式成本最低,基础数据和应用指标的一致性最好,以某银行数据仓库逻辑架构设计为代表:

第一层为贴源/标准数据层:这一层为“数据缓冲层”,在这一层中主要保存最原始的贴源数据,有些设计会将数据的清洗及标准化操作也放到这一层中,用以保证不同系统的数据在数据结构标准方面保持统一,如性别、日期、行业代码等。另一些设计则不在这一层对数据进行哪怕最基础的清洗及格式化等工作,确保数据的贴源一致性,由后面的数据需求方自己处理。
第二层为主题数据层:这一层为数据仓库的核心层,涵盖内容包括多个数据来源的数据整合、分类体系和业务实体的统一、不同系统数据关联关系搭建等,形成客户、机构、协议、事件、产品等不同的主题,为后续的数据使用奠定基础。建设数据仓库主题区对于提高竞争力、提高服务性收入并有效规避各种风险有其重要意义。例如:基于客户主题可快速、准确寻找出潜在客户及各类型、资产规模、年龄段客户的资产状况和偏好,从而有效制定营销策略吸引更多客户在银行开办更多的业务,提高营业收入和服务收入;基于机构主题勾勒出我行账务机构及管理机构之间的层级关系,便于内部管理,可从不同角度、不同层级查看机构架设是否合理,查看机构变迁历史;基于协议主题能更清晰明了看出客户的资产变化情况和当前存贷款规模、现状,能更有效规避风险等。
第三层为数据汇总层/数据集市层,在这一层中通常会建立针对某些业务领域作更深层次的指标体系分析。数据集市以主题数据层为基础,但不再面向全行数据,而主要面向部门级业务,并且只面向某个特定的主题,如建设对公数据集市,是为满足对公业务管理需要,支持最新的对公业务管理方针,通过整合对公客户的数据信息,进一步分析对公客户的价值信息,更好的支持公司业务客户营销、管理分析工作的开展。
总而言之数据仓库可以看做一个非常大的数据库,它存储着由各个源头数据库中抽取过来的数据,然后利用这些数据更有效率的给公司的决策者提供决策支持。其中,转换及整合数据的过程是整个数据仓库建立遇到的最大挑战,需要将杂乱的数据按照各主题转换成有用的策略数据是数据仓库的重点。数据仓库通过把所有的数据放在一个地方,方便存取的同时,极大的减少了重复的数据处理和分析,实现数据文件统一出口。
当笔者转型、真正来到一个数据挖掘的团队,在一大堆统计学硕博身边熏陶了一段时间后,我理解的数据挖掘是这个样子的:
数据挖掘
数据挖掘是综合了统计分析、人工智能、机器学习、数据库等诸多方面的研究成果而成,用一个人大统计硕士同事的说法:从某方面来讲其实数据挖掘是从大量的数据中提取隐含在其中的、人们事先未知但又是潜在有用的信息和知识的过程。
数据挖掘的结果是事先未知的,这与固定报表有着本质的区别,虽然固定报表应用模式已经存在很多年,由于其非常简单明了直观的特点,现在依然是各行业内部各级管理人员分析数据应用形态的主力,但固定报表首先得知道报表的样式,这是一个查证假设的过程,而数据挖掘是用来帮助使用者产生假设,用工具帮助使用者做探索。
数据挖掘是一个过程,而不是一个技术,它更偏重于实际应用,所以数据挖掘不能只是知道挖掘算法等技术,更需要实现具体的业务目标,只有落地到现实的业务中才能体现数据挖掘的价值,因此业务目标是数据挖掘的核心。在数据挖掘项目的实现过程中,挖掘出来的数据仅能表示现实世界的一部分,数据和现实世界之间是有差距的,只有业务知识可以弥补这一差距,从业者需要丰富的业务知识才能够解释数据中发现的相关结论,业务知识是数据挖掘的基础,好的数据挖掘者需要有深厚的行业业务功底。
数据挖掘有一个著名的格言论调,我的博士领导也经常提到这段话,数据挖掘项目中最费力的是数据的获取与预处理,其占用整个项目的时间高达60%-80%。在笔者了解的几个项目中实际情况也确实如此。数据预处理的目的是把数据挖掘问题转化为格式化的数据,使各项分析技术挖掘算法更容易去使用它。一般的数据处理有两种办法,一种是将数据转化成完全结构化的基础分析数据,根据对应算法可能需要的数据形式,将数据转化成合格的格式。第二种是将尽可能多的业务问题涉及的数据都涵盖进来,然后找到合适的技术解决方案来实现挖掘的结果。但数据会随着清洗、转换、数据量变化而相应发生变化,这种分析只能是探索性的。因此,即使有一个非常成熟的数据仓库,但数据预处理仍然是必不可少的,它仍然要占用数据挖掘项目一半以上的时间。
数据挖掘的过程同样也是一个不断试验、不断试错的过程,一个正确的模型只有通过不断的试验才能被发现,在数据挖掘的过程中会经常发现一个算法对某一个数据集是合适的,但是对另一个数据集又是不利的,没有一个算法是适合每一个问题的。因此数据挖掘就是一个方法不合适再试用其他方法的过程,但是在有条件的限制约束下,比如业务目标比较稳定、数据变化相对规律的情况下,一个可接受的算法或算法组合是可以解决问题的。http://www.cda.cn/view/17579.html
数据挖掘与数据仓库之间的关系
数据挖掘可以说是从数据仓库中发现并提取隐藏在其中有用信息的一种过程。数据挖掘就是从大量数据中挖取数据的过程,而数据仓库就是汇集所有相关数据的一个过程,数据仓库为数据挖掘提供了更好的、更广泛的数据源。当然,在有些情况下,数据仓库并没有建立起来,但是数据挖掘工作还是可以依托业务源数据先行的,只是在挖掘数据预处理阶段去整合多个源系统的数据源时可能工作量会增大,效率也肯定不如从数据仓库中取数要高,因为数据仓库中的数据是经过预处理的结构化数据,能够为数据挖掘提供非常好的支持平台,同样数据挖掘也对数据仓库的构建提出了更高的要求,两者是互相促进的。

转载于:https://www.cnblogs.com/amengduo/p/9587500.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/395973.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql的告警日志_运维日记|MySQL关于aborted告警日志的分析

又是一个季度一次的现场巡检,期待数据库能跑的又快又稳,毕竟这是对DBA最大的馈赠了。​结果不遂人意发现在错误日志内存在大量的如下报错:查看当前数据库的状态值:查看数据库关于数据库会话的关键参数:数据库环境及相关…

html怎样将单元格的字竖式,数学竖式计算的标准格式是怎样的?需要注意哪些问题?...

小学阶段数学计算题是重中之重,也是为日后打基础的时间段,所以在小学的时候,要让孩子熟练掌握数学计算。数学计算在这段时期一般比较简单,通常情况下学生可以采用口算、心算的形式,但是有的学生因为这两个能力不强。于…

linux中安装多个mysql_liunx系统下安装多个MySql数据库并做主从配置

在网上搜索了很多资料,都没有看到像样的文档,思路不是很清晰,对第一次安装的朋友来说较为困难,经过长时间的安装尝试和查询网上零碎的知识点,终于成功的完成Linux系统下多MySql数据库安装和主从配置,现在分…

江苏省高等学校计算机一级成绩查询,江苏计算机一级考试成绩查询

想要了解江苏2020年9月计算机一级考试成绩查询入口的小伙伴快来看看吧!下面由出国留学网小编为你精心准备了“江苏2020年9月计算机一级考试成绩查询入口公布”,持续关注本站将可以持续获取更多的考试资讯!江苏2020年9月计算机一级考试成绩查询…

《树莓派实战秘籍》——1.17 技巧17添加重启按钮

本节书摘来异步社区《树莓派实战秘籍》一书中的第1章,第1.17节,作者:【美】Ruth Suehle ,Tom Callaway,更多章节内容可以访问云栖社区“异步社区”公众号查看 1.17 技巧17添加重启按钮 树莓派实战秘籍也许你已经注意到Pi缺少了某…

mysql临时关闭索引功能_MySQL优化之索引优化

$1.WHY : 找到MySQL Query执行慢的原因1.1 EXPLAIN通过Explain查看SQL Query语句的执行情况&#xff0c;从中找出导致MySQL查询性能差的原因EXPLAIN QUERY语句【字段解释】<1> id -- 表的读取顺序id相同时&#xff0c;按照从上至下的顺序执行id不同时&#xff0c;id值越…

K8S Calico

NetworkPolicy是kubernetes对pod的隔离手段&#xff0c;是宿主机上的一系列iptables规则。 Egress 表示出站流量&#xff0c;就是pod作为客户端访问外部服务&#xff0c;pod地址作为源地址。策略可以定义目标地址或者目的端口 Ingress 表示入站流量&#xff0c;pod地址和服务作…

每周总结(第十一周)

转载于:https://www.cnblogs.com/qinlihong/p/5510026.html

10个关于linux中Squid代理服务器的实用面试问答

10个关于linux中Squid代理服务器的实用面试问答 不仅是系统管理员和网络管理员时不时会听到“代理服务器”这个词&#xff0c;我们也经常听到。代理服务器已经成为一种企业常态&#xff0c;而且经常会接触到它。它现在也出现在一些小型的学校或者大型跨国公司的自助餐厅里。Squ…

北京矿大计算机考研每年分数线,2021中国矿业大学北京考研国家线公布时间_国家线是多少分...

中国矿业大学北京考研国家线怎么看&#xff1f;中国矿业大学北京考研国家线是多少分&#xff1f;山西人事考试网整理中国矿业大学北京考研考研国家线怎么看、国家线公布时间、历年中国矿业大学北京考研国家线&#xff0c;希望考生及时关注考研成绩国家线公布信息&#xff0c;为…

工厂模式-依赖倒置原则

老板&#xff1a;阿飞啊&#xff0c;我们公司最近接了个项目&#xff0c;你看着设计一下&#xff0c;我给你说下需求。项目组长阿飞&#xff1a;好啊&#xff0c;什么需求&#xff1f;老板&#xff1a;我们找了一个合作的商铺&#xff0c;他们要设计一套面包销售系统。主要功能…

(6)css盒子模型(基础下)

一、理解多个盒子模型之间的相互关系 现在大部分的网页都是很复杂的&#xff0c;原因是一个“给人用的”网页中是可能存在着大量的盒子&#xff0c;并且它们以各种关系相互影响着。 html与DOM的关系 详情了解“DOM” &#xff1a;http://baike.baidu.com/link?urlSeSj8sRDE-JZ…

easyui获取下拉框选中的文本值_Word中文本显示不全的常见3种情况及解决方法

在日常工作使用Word文档时&#xff0c;经常会遇到文本显示不全的情况&#xff0c;比如文本框或表格里的文本显示不全等情况&#xff0c;你一般是怎么操作呢&#xff1f;以下这3种常见情况你可能也遇到过&#xff0c;一起看看是什么原因并解决它们吧&#xff01;1、文本显示不全…

CSS中属性的值和单位

CSS中值的单位 1.颜色值 被各种浏览器支持&#xff0c;并且作为 CSS 规范推荐的颜色名称只有 16 种&#xff0c;如下表所示。 百分比表示 color: rgb(100%, 100%, 100%); 这个声明将红、蓝、绿 3 种原色都设置为最大值&#xff0c;结果组合显示为白色。相反&#xff0c;可以设置…

《走进SAP(第2版)》——2.8 SAP的目标是什么

本节书摘来自异步社区《走进SAP&#xff08;第2版&#xff09;》一书中的第2章&#xff0c;第2.8节,作者&#xff1a; 【德】Nancy Muir , Ian Kimbell , 等 更多章节内容可以访问云栖社区“异步社区”公众号查看。 2.8 SAP的目标是什么 走进SAP&#xff08;第2版&#xff09;…

8 包含min函数的栈

0 引言 题目&#xff1a;定义栈的数据结构&#xff0c;请在该类型中实现一个能够得到栈的最小元素的min函数。在该栈中&#xff0c;调用min、push及pop的时间复杂度都是O&#xff08;1&#xff09;. 1 抽象问题具体化 2 具体问题抽象分析 需要解决的两个主要问题如下。 &#x…

《Adobe Illustrator大师班:经典作品与完美技巧赏析》—Svetlana Makarova

本节书摘来自异步社区《Adobe Illustrator大师班&#xff1a;经典作品与完美技巧赏析》一书中的Svetlana Makarova&#xff0c;作者【英】Sharon Milne,更多章节内容可以访问云栖社区“异步社区”公众号查看。 Svetlana MakarovaAdobe Illustrator大师班&#xff1a;经典作品与…

有关软件测试的证书,软件测试证书有用吗

要想知道证书有什么用&#xff0c;我们就要详细了解软件评测师考试&#xff0c;以及拿到证书的价值。那么下面和小编来看看这篇软件测试证书有用吗&#xff0c;一定会有收获。一、证书考试软件评测师考试是全国计算机技术与软件技术资格考试的一个中级考试。考试不规定学历和资…

python D29 socketserver以及FTB

一、socketserver 基于tcp协议下的socket只能和一个客户端通信&#xff0c;如果用socketserver可以实现和多个客户端通信。 他是在socket的基础上进行封装&#xff0c;也就是说底层还是调用的socket&#xff0c;在py2.7里面叫做SocketServer也就是大写了两个S&#xff0c;在py3…

sphinx mysql存储引擎_基于Sphinx+MySQL的千万级数据全文检索(搜索引擎)架构设计...

Sphinx&#xff0c;单一索引最大可包含1亿条记录&#xff0c;在1千万条记录情况下的查询速度为0.x秒(毫秒级)。Sphinx创建索引的速度为&#xff1a;创建100万条记录的索引只需3&#xff5e;4分钟&#xff0c;创建1000万条记录的索引可以在50分钟内完成&#xff0c;而只包含最新…