大数据相关技术说明(一)

1.什么是ETL

   ETL,Extraction-Transformation-Loading的缩写,中文名为数据抽取、转换和加载。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库数据集市中,成为联机分析处理数据挖掘的基础。ETL是BI项目最重要的一个环节,通常情况下ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关接到BI项目的成败。ETL也是一个长期的过程,只有不断的发现问题并解决问题,才能使ETL运行效率更高,为项目后期开发提供准确的数据。

   ETL作为BI/DW(Business Intelligence)的核心和灵魂,能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。如果说数据仓库的模型设计是一座大厦的设计蓝图,数据是砖瓦的话,那么ETL就是建设大厦的过程。在整个项目中最难部分是用户需求分析和模型设计,而ETL规则设计和实施则是工作量最大的,约占整个项目的60%~80%,这是国内外从众多实践中得到的普遍共识。

   ETL是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程。是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。

 

在技术上,ETL主要涉及到关联、转换、增量、调度和监控等几个方面;数据仓库系统中数据不要求与联机事务处理系统中数据实时同步,所以ETL可以定时进行。但多个ETL的操作时间、顺序和成败对数据仓库中信息的有效性至关重要。

ETL工具有:OWB(Oracle Warehouse Builder)、ODI(Oracle Data Integrator)、Informatic PowerCenter、Trinity、AICloudETL、DataStage、Repository Explorer、Beeload、Kettle、DataSpider。

ETL工具的典型代表有:nformatica、Datastage、OWB、微软DTS、Beeload、Kettle……

2.什么是数据仓库?

 

(1)定义:

数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。

数据仓库 ,由数据仓库之父比尔·恩门(Bill Inmon)于1990年提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。

数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。

2.数据仓库的特点

1、数据仓库是面向主题的;操作型数据库的数据组织面向事务处理任务,而数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。

2、数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓库;

数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。

数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。

数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

3、数据仓库是不可更新的,数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询;

4、数据仓库是随时间而变化的,传统的关系数据库系统比较适合处理格式化的数据,能够较好的满足商业商务处理的需求。稳定的数据以只读格式保存,且不随时间改变。

5、汇总的。操作性数据映射成决策可用的格式。

6、大容量。时间序列数据集合通常都非常大。

7、非规范化的。Dw数据可以是而且经常是冗余的。

8、元数据。将描述数据的数据保存起来。

9、数据源。数据来自内部的和外部的非集成操作系统。

数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它并不是所谓的“大型数据库”。数据仓库的方案建设的目的,是为前端查询和分析作为基础,由于有较大的冗余,所以需要的存储也较大。为了更好地为前端应用服务,数据仓库往往有如下几点特点:

1.效率足够高。数据仓库的分析数据一般分为日、周、月、季、年等,可以看出,日为周期的数据要求的效率最高,要求24小时甚至12小时内,客户能看到前一天的数据分析。由于有的企业每日的数据量很大,设计不好的数据仓库经常会出问题,延迟1-3日才能给出数据,显然不行的。

2.数据质量。数据仓库所提供的各种信息,肯定要准确的数据,但由于数据仓库流程通常分为多个步骤,包括数据清洗,装载,查询,展现等等,复杂的架构会更多层次,那么由于数据源有脏数据或者代码不严谨,都可以导致数据失真,客户看到错误的信息就可能导致分析出错误的决策,造成损失,而不是效益。

3.扩展性。之所以有的大型数据仓库系统架构设计复杂,是因为考虑到了未来3-5年的扩展性,这样的话,未来不用太快花钱去重建数据仓库系统,就能很稳定运行。主要体现在数据建模的合理性,数据仓库方案中多出一些中间层,使海量数据流有足够的缓冲,不至于数据量大很多,就运行不起来了。

从上面的介绍中可以看出,数据仓库技术可以将企业多年积累的数据唤醒,不仅为企业管理好这些海量数据,而且挖掘数据潜在的价值,从而成为通信企业运营维护系统的亮点之一。正因为如此,

广义的说,基于数据仓库的决策支持系统由三个部件组成:数据仓库技术,联机分析处理技术和数据挖掘技术,其中数据仓库技术是系统的核心,在这个系列后面的文章里,围绕数据仓库技术,介绍现代数据仓库的主要技术和数据处理的主要步骤,讨论在通信运营维护系统中如何使用这些技术为运营维护带来帮助。

4.面向主题

操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的。主题是与传统数据库的面向应用相对应的,是一个抽象概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。每一个主题对应一个宏观的分析领域。数据仓库排除对于决策无用的数据,提供特定主题的简明视图。

(3)数据仓库的用途

信息技术与数据智能大环境下,数据仓库在软硬件领域、Internet 和企业内部网解决方案以及数据库方面提供了许多经济高效的计算资源,可以保存极大量的数据供分析使用,且允许使用多种数据访问技术。

开放系统技术使得分析大量数据的成本趋于合理,并且硬件解决方案也更为成熟。在数据仓库应用中主要使用的技术如下:

并行

计算的硬件环境、操作系统环境、 数据库管理系统和所有相关的数据库操作、查询工具和技术、应用程序等各个领域都可以从并行的最新成就中获益。

分区

分区功能使得支持大型表和索引更容易,同时也提高了数据管理和查询性能。

数据压缩

数据压缩功能降低了数据仓库环境中通常需要的用于存储大量数据的磁盘系统的成本,新的数据压缩技术也已经消除了压缩数据对查询性能造成的负面影响。[1]

 

3.什么是数据集市?

数据集市

为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(subjectarea)。在数据仓库的实施过程中往往可以从一个部门的数据集市着手,以后再用几个数据集市组成一个完整的数据仓库。需要注意的就是在实施不同的数据集市时,同一含义的字段定义一定要相容,这样在以后实施数据仓库时才不会造成大麻烦。

国外知名的Garnter关于数据集市产品报告中,位于第一象限的敏捷商业智能产品有QlikView, Tableau和SpotView,都是全内存计算的数据集市产品,在大数据方面对传统商业智能产品巨头形成了挑战。国内BI产品起步较晚,知名的敏捷型商业智能产品有PowerBI, 永洪科技的Z-Suite,SmartBI等,其中永洪科技的Z-Data Mart是一款热内存计算的数据集市产品。国内的德昂信息也是一家数据集市产品的系统集成商

 

4.什么是数据挖掘(DM--Data Mining

   数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在 其中的、人们所不知道的、但又是潜在有用信息和知识的过程。

数据挖掘可以用来做什么?

数据挖掘能做以下七种不同事情(分析方法):

  · 分类 (Classification)

  · 估值(Estimation)

  · 预言(Prediction)

  · 相关性分组或关联规则(Affinity grouping or association rules)

  · 聚集(Clustering)

  · 描述和可视化(Description and Visualization)

  · 复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)

 

转载于:https://www.cnblogs.com/duanwxue1128/p/5860809.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/573169.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

catia利用宏批量改名的方法_谁有CATIA批量改名的宏程序啊

-----------------------------------------------------------批量重命名后批量保存程序说明:程序实现在Product下,对第一层结构树内零件批量重命名,并将重命名后的零件以新零件名保存在当前路径下。程序运行前应先手动将不需要重命名的零部…

上海大学计算机组成原理实验13,上海大学计算机组成原理实验报告11.doc

上海大学计算机组成原理实验报告11上海大学计算机组成原理实验报告11上海大学_计算机组成原理实验报告8 2011级上海大学计算机学院 《计算机组成原理二实验》报告8 姓名:学号: 教师:xxx 时间:xxx 地点:xxx机位&#xf…

股票交易日

题目描述: 在股市的交易日中,假设最多可进行两次买卖(即买和卖的次数均小于等于2),规则是必须一笔成交后进行另一笔(即买-卖-买-卖的顺序进行)。给出一天中的股票变化序列,请写一个程序计算一天可以获得的最大收益。请采用实践复杂…

python小老鼠编程_成都python函数学习教程,Python编写课程

1.urllib2/urllib实现urllib2和urllib是Python中的两个内置模块,要实现HTTP功能,实现方式是以urllib2为主,urllib为辅。1.1首先实现一个完整的请求与响应模型urllib2提供一个基础函数urlopen,通过向指定的URL发出请求来获取数据。…

计算机房防火要求,信息机房如何进行防火设计

众所周知,根据机房的使用性质、管理要求及重要数据丢失或网络中断在经济或社会上造成的损失或影响程度,可将电子信息机房分为A、B、C三级。那么,信息机房如何进行防火设计呢?信息机房如何进行防火设计一、选址计算机房建筑规模大、…

js图片前端压缩多图上传(旋转其实已经好了只是手机端有问题要先压缩再旋转)...

var filechooser document.getElementById("choose");// 用于压缩图片的canvasvar canvas document.createElement("canvas");var ctx canvas.getContext(2d);// 瓦片canvasvar tCanvas document.createElement("canvas");var tctx t…

python 案例串接_Python基础系例--字典串操作

字符串字符串是由数字,字母、下划线组成的一串字符创建字符串,可以使用单引号和双引号:var1 Hello World!var2"Hello World!"访问字符串中的值var “Hello World”print(var[0])#运行结果H字符串更新实例:print(var1[0…

计算机串口通信的作用,串口通信的具体用途是什么

串行接口简称串口,也称串行通信接口或串行通讯接口(通常指COM接口),是采用串行通信方式的扩展接口。串行接口 (Serial Interface) 是指数据一位一位地顺序传送,其特点是通信线路简单,只要一对传输线就可以实现双向通信(可以直接利…

网络连接

网络连接状态: C: S: SYN_SEND             SYN_RECVESTABLISH             ESTABLISH FIN_WAIT1             CLOSE_WAITFIN_WAIT2             LAST_ACK TIME_WAIT      …

拯救者r7000怎么关闭触控板_联想拯救者R7000(2020版)上手体验,有没有AMD Yes?

联想作为一个老品牌,它的产品线有很多系列(电脑、手机、平板、智能家居),而我们今天来聊一聊电脑系列中的联想拯救者系列电脑。今年的R7000在五月份发布,而我也在六月份入手了一台,被它的外观吸引。硬件方面的参数:小编…

warframe计算机拒绝访问,Win10运行warframe出现蓝屏DRIVER_CORRUPTED_EXPOOL怎么办

warframe是一款科幻题材的第三人称射击网游,一些用户在windows10系统运行warframe过程中经常出现了电脑蓝屏的现象,并且提示“DRIVER_CORRUPTED_EXPOOL”,这是怎么回事?RIVER CORRUPTED EXPOOL错误是由于Windows 10/8/7上的设备驱…

【SpringMVC学习07】SpringMVC中的统一异常处理

我们知道,系统中异常包括:编译时异常和运行时异常RuntimeException,前者通过捕获异常从而获取异常信息,后者主要通过规范代码开发、测试通过手段减少运行时异常的发生。在开发中,不管是dao层、service层还是controller…

vue取通过key取value_彻底理解Vue中的Watcher、Observer、Dep

思考以下代码new Vue({el: #example,data(){return{obj:{a:1}}}, })当我们写下这行代码时,vue将我们在data内定义的obj对象进行依赖追踪.具体做法为执行new Observer(obj)//经过上面的代码,我们的obj对象会变为以下的样子 {obj:{a:1,__ob__:{ //Observer…

浏览器打开服务器上的图片无法显示,网页中的图片打不开怎么办?原因与解决办法...

最近有网友问小编这样一个很泛的问题:网页中的图片打不开怎么办?对于这个问题,其实导致的原因有很多,但也很好排除原因,主要从网络,网页,平台等当面综合去分析,就很容易可以找到答案…

WCF学习之旅—实现支持REST客户端应用(二十四)

WCF学习之旅—实现REST服务(二十二) WCF学习之旅—实现支持REST服务端应用(二十三) 在上二篇文章中简单介绍了一下RestFul与WCF支持RestFul所提供的方法,及创建一个支持REST的WCF服务端程序,本文介绍如何调…

arduino智能浇花系统_创新成果 | 养花神器——智能浇花机

养花的人应该多少都会遇到这样的问题:需要根据花的习性定时浇水,但给花浇水是个「技术活」,不记得浇水或水浇多了,都会影响花的生长。针对这个问题,可以研究制作一个简单、实用的自动浇花机。根据检测土壤的湿度&#…

服务器新手装备无限拿指令,【新手指南】服务器指令大全

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼【领地指令】/res ? 领地指令帮助页面/res select 选择命令/res create XX 创建名为XX的领地/res remove XX 删除名为XX的领地/res padd 玩家 给某玩家在领地的所有权限(container bucket build use tp)/res pdel 玩家 取消某玩家…

导出怎么用_微信好友账号怎么导出?微信怎么备份通讯录?

微信好友账号怎么导出?微信怎么备份通讯录?对于经常使用微信社交的朋友,都有一个共同的烦恼,那就是微信只能加5000多个好友,平时还怕一个不小心误删了微信好友,不要烦恼,小编教你导出微信好友!情景一:登录…

什么是 css,关于css是什么

层叠样式表是一种用来表现HTML(标准通用标记语言的一个应用)或XML(标准通用标记语言的一个子集)等文件样式的计算机语言,关于css是什么CSS是Cascading Style Sheet的缩写。译作”层叠样式表单“。是用于(增强)控制网页样式并允许将样式信息与网页内容分离的一种标记…

pickle模块的基本使用

pickle是python的biult-in模块; python的pickle模块实现了基本的数据序列和反序列化。通过pickle模块的序列化操作我们能够将程序中运行的对象信息保存到文件中去,永久存储;通过pickle模块的反序列化操作,我们能够从文件中创建上一…