etlgr是什么服务器_ETL是指什么 - 金融行业 - ITPUB论坛-中国专业的IT技术社区

ETL 简介  frim  www

ETL是建置或更新数据仓储中的内容时,对于所需之数据进行数据撷取、转换、加载的过程,由字面上即能得知它是由三个环环相扣的步骤所组成:Extract - 数据撷取、Transform - 数据转换与Load - 数据加载 。

ETL ( Extract-Transform-Load ) 是建置或更新数据仓储 ( Data Warehouse ) 中的内容时,对于所需之数据进行数据撷取、转换、加载的过程,由字面上即能得知它是由下述三个环环相扣的步骤所组成:

•        Extract — 资料撷取:从数据源处撷取所需之数据数据。

•        Transform — 数据转换:针对所撷取出之数据数据,依照商业逻楫的需求,针对数据数据作适当的转换。

•        Load — 数据加载:最后将已作适当转换过的数据数据加载到目的地。

以下分别说明。

Extract

大多数的数据仓储项目,包含着必须从各个不同的数据源系统来撷取所需之数据数据,来源系统可能位于不同的组织、部门,以各自不同的架构、格式、方法储存数据数据。不论是自行撰写程序,或购买工具来执行数据撷取的工作,都必须注意到程序或工具对于撷取接口的可扩充性及多样性。一般常见的数据源为文本文件格式和关系数据库系统,而非关系数据库系统和特殊数据格式内容的系统或文件格式,如:VSAM、ISAM、Excel、Http Web Page、XML、PDF、binary data ...等也极有可能是数据源。这些源数据具有下列特性:通常为距现在时间较近、较实时的交易性数据;因为需要能够将数据较快速地反应给前端的使用者,通常都已经针对数据结构进行过优化的微调;数据可能己进行过正规化或反正规化的过程。

在这个阶段通常还会针对资料做二件事:

•        数据格式转换 ( convert data type )

由于可能有各式各样的数据源和不同的数据格式,在利用程序语言开发或使用现有工具时,有必要把源数据转换成共同数据格式,例如一个程序语言内部使用的数据格式( 在 Java 中的UTF-8 数据格式 ) 或者现有ETL工具内部使用的数据格式 ( 在Informatica PowerCenter中的UCS-2数据格式 )。藉由共同数据格式,在下一个步骤“数据转换”中,数据彼此之间就可以作相对应的转换和比较。

•        初步资料核验 ( parsing )

针对所撷取出来的数据,比对其格式和结构是否符合所需,例如:是固定字段长度内容的数据、还是用区隔符号定义的数据,亦或区隔符号是否为所定义的。如果不符合,则依照相对应的游戏规则以决定该采取何种反应,如:停止整个ETL流程;或者将有问题的部份数据另外纪录起来并发出警告,但整个ETL流程仍持续进行。

Transform

不论是因数据散落在各个不同的部门,对于相同商业意涵的数据,以各自不同的格式、方法储存数据数据,故而需要整合;还是基于商业逻楫上的需求,必须依照应用程序数据的特性来分类、汇归、转换数据型态;亦或是把经年累月所聚积的历史资料来作合并、统计、分折及计算;前述这些需求都必须经由“数据转换”的动作。由于可能有各式各样千奇百怪的转换需求,因此ETL工具中关于数据转换的组成组件通常是最多元、最丰富的,往往也是决定ETL产品的重要考虑之一。原则上数据转换就是将所撷取出之数据数据 ( 流 ),交给这些数据转换组件,一个一个的、循序地依照所设计好的规则去做数据的转换,通常会包含下列动作:

•        过滤出某些想要的数据,清除掉某些笔不需要的数据,或是按照设定的逻楫规则去验证数据;

•        转换或设定部份字段的数据值,或是经由各式各样的文字或数值运算产出新字段的数据值;

•        针对数据的某些字段作排序、分组,或是数据分组后作加总之类的数据运算以产出新字段的数据值;

•        同质或异类数据来源的数据作关连 ( Join ) 或合并 ( Union ) 之数据运算;

•        利用组件去产出序列值 ( Sequence number ) 或是独特的辨识值 ( Unique ID );

•        依照部份字段的数据值来分割数据流,或将多个数据流统合成单一数据流;

•        呼叫使用外部的函数或组件 ( 呼叫 Stored Procedure, Web Services, ... );

•        资料的倒置 ( Transpose or Pivot )

等等。

Load

相同于“数据撷取”阶段,程序或工具对于加载接口的可扩充性及多样性,也是一个要考虑的重点。在这个阶段,数据最后加载的目的地通常是数据仓储或是数据市集 ( Data Mart )。但常常因为数据的安全性、商业逻辑流程上的考虑,希望数据永不遗失,或是在任何ETL过程 ( process ) 出错时,能够在其中某一阶段重新开始执行部份流程,而不需要全部重新开始,故通常会把数据先加载到暂存 ( Temp ) 或阶段区 ( Stage )。之后可能等到所有所需的数据都己到位,或是所排定的行程 ( Schedule ) 触发后,才由另外的ETL过程,来把数据加载到数据仓储或是数据市集中。这些被加载数据具有下列特性:通常为距现在时间较远、历史性的数据,而常常都是依照某一个时间区间的历史数据,所计算加总后出来的数据值,也因此相对的影响到ETL过程,将数据更新或加载到目的地的频率及时间。

ETL工具的选择考虑

在自行开发或购买商用ETL工具时,基本上需考虑系列因素:

•        成本及时效性

技术人员的能力,项目的成本及时程,后续维护及监控管理的难易与人力,未来扩充的成本。

•        工具的支持能力

是否支持现有的软硬件平台,可否读取现有的数据库系统及文件格式,是否有搭配的程序开发工具包 ( SDK ),未来扩充的能力。

•        数据转换的复杂性 数据转换的内容愈复杂,愈适合购买一套ETL工具。

•        数据清理的需要性

在加载数据仓储或是数据市集前,是否需要繁复的数据清理 ( Cleaning )?

•         数据数据量的大小

现有的商业ETL工具,都有各自特殊的技术来提升搬移大量资料的效能。

由此作出正确的选择,以衔接数据源与数据仓储系统,充分支持商业智能的应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/426264.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

楚留香手游系统互通的服务器,楚留香手游互通服务器汇总 哪些服能一起玩

楚留香手游互通服务器汇总 哪些服能一起玩由第一手游网小编为大家带来,游戏中有一些服务器它的安卓和ios是互通的可以一起玩的,楚留香手游哪些服能一起玩?哪些服务器互通?来看看吧!楚留香手游互通服务器汇总少侠不必担…

1001 A+B Format (20 分)

题意&#xff1a;给出俩个整数a,b(不超过10^9) &#xff0c;求ab的值 &#xff0c;并按照xxx,xxx,xxx的格式输出 #include <iostream> using namespace std; int main() {int a, b;cin >> a >> b;string s to_string(a b);int len s.length();for (int i …

java学习(110):日期date类

import java.util.Date; import java.util.Scanner;public class test51 {public static void main(String[] args){Scanner innew Scanner(System.in);System.out.println("请输入员工信息");test50 empnew test50();System.out.println("请输入员工姓名"…

上传文件Base64格式(React)

记录一下上传文件时将文件数据转为Base64的方法 通过 FileReader对象创建一个实例&#xff0c;然后使用 readAsDataURL方法将数据转为Base64格式 注意: 读取过程是异步的 绑定onload事件&#xff0c;该事件在数据读取完成后触发 具体代码&#xff08;react项目中&#xff09;&a…

修改fragment的进入动画_3DsMax—牛顿摆球(动量守恒摆球)动画

最终效果本篇为图文教程&#xff0c;已经将牛顿摆球动画视频教程放到3dsmax学习网中&#xff0c;需要看视频教程的请到3DsMax学习网(www.dddmax.cn)教程中观看。01打开一个牛顿摆球模型&#xff0c;如图所示。(模型素材链接在底部)02进入层次面板&#xff0c;开启【仅影响轴】&…

服务器水厂物资管理系统,水处理管理系统及水处理管理服务器 Water management systems and water treatment management server...

摘要&#xff1a;The present invention relates to a water treatment management system and a water treatment management server. As adjustment for the operators which are related with the water source is difficult, utilization of the regenerated water from th…

java学习(111):日期时间格式化

package com.zx; import java.text.DateFormat; import java.util.Date; //员工信息类 //date类 public class test50 {private String name;private String sex;private Date birth;public void showme(){System.out.println(this.getName());System.out.println(this.getSex(…

Java中组合、继承与代理之间的关系。

在Java中如何将一个已经定义好的类尽可能多的重复使用是提高开发效率和质量的关键。而下面我们要讲述的三种方式便是涉及到怎样去复用类让代码更优雅。 一、组合 定义&#xff1a;在新的类中产生现有类的对象。 组合的例子其实随处可见&#xff0c;比如说我们在类中定义一个Str…

鳗鱼刺多怎么处理图像_怎么在做鱼前去除鳗鱼刺?

展开全部去除鳗鱼鱼32313133353236313431303231363533e59b9ee7ad9431333365633937刺的方法: 鳃除法和背除法一、鳃除法1、将鱼洗净&#xff0c;去鳞、鳃、鳍后&#xff0c;从鳃部取出内脏。2、擦干水分&#xff0c;平放在菜墩上&#xff0c;掀起鳃盖&#xff0c;把头与脊骨连接…

游戏服务器红点系统,Unity简易的红点系统RedPoint System

由于是展示&#xff0c;主要就三个脚本using System.Collections;using System.Collections.Generic;using UnityEngine;public class RedPointConst{public const string main "Main";public const string mail "Main.Mail";public const string mailSy…

java学习(112):simpledateformat进行格式化

package com.zx; import java.text.DateFormat; import java.text.SimpleDateFormat; import java.util.Date; //员工信息类 //date类 public class test50 {private String name;private String sex;private Date birth;public void showme(){System.out.println(this.getName…

[转帖]什么是α射线、β射线、γ射线

什么是α射线、β射线、γ射线 https://www.sohu.com/a/230945619_1001247211、α射线 放射性核素发生衰变时放出α粒子&#xff0c;产生α射线。α粒子是一个高速运动的氦原子核。对于天然放射系列的核素放出α粒子的能量一般在4&#xff5e;8兆电子伏(MeV)范围&#xff0c;初…

matlab 写excel 慢_我在12w+的Python库中,发现了让Excel快到起飞的秘密......

Amber | 作者图片源自网络在这篇文章里&#xff0c;小编向大家介绍了Excel在数据分析中的妙用。不知大家在看完后&#xff0c;有没有亲自动手去体验下呢&#xff1f;有没有遇到什么问题呢&#xff1f;虽说Excel在处理小批量数据时的优势显而易见&#xff0c;但软件终究不是万能…

华为云服务器安装win10系统,云服务器可以安装win10吗

云服务器可以安装win10吗 内容精选换一换本节定义了云耀云服务器上报云监控的监控指标的命名空间&#xff0c;监控指标列表&#xff0c;各项监控指标的具体含义与使用说明&#xff0c;用户可以通过云监控检索云耀云服务器服务产生的监控指标和告警信息。SYS.ECS对于不同的操作系…

java学习(113):Calendar类

import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date; public class test53 {public static void main(String[] args){//获取当前时间并且获取当前系统时间创建一个日历实例Calendar calCalendar.getInstance();//获取当前时间的年月日int …

CEF 添加F5刷新快捷键

Keyboardcodes&#xff1a;https://www.androidos.net.cn/android/4.3_r1/xref/external/webkit/Source/WebCore/platform/chromium/KeyboardCodes.h 1.首先要让我们自己的CefClient这个类公有继承CefKeyboardHandler 2.添加键盘事件构造函数 virtual CefRefPtr<CefKeyboard…

python 离散数据时间序列图_每个人都学的会的数据分析

数据分析已经成为数据时代各行各业突破各自行业发展瓶颈的最有效手段&#xff0c;无论是公司职员还是个体商户或大公司管理者&#xff0c;都需要有数据分析的能力。很多人认为数据分析能力就是对数据进行描述和做出漂亮的统计图形的能力&#xff0c;这是狭隘的理解。数据分析能…

java学习(114):Calendar类方法before

import java.text.DateFormat; import java.text.SimpleDateFormat; import java.util.Date; //员工信息类 //date类 public class test50 {private String name;private String sex;private Date birth;public void showme(){System.out.println(this.getName());System.out.p…

12.06

尝试编写&#xff0c;多种方法实验&#xff0c;先学会表格控件的导入导出转载于:https://www.cnblogs.com/qss520/p/10101524.html

notion函数_Notion使用指南 | Database篇

注&#xff1a;本篇文章为「侦探学园」&#xff08;BestDet&#xff09;专栏「学习利器锻造铺」中的稿件&#xff0c;首发于「侦探学园」。上篇文章给大家介绍了Notion的一些基本内容&#xff0c;但对于小白来说&#xff0c;上手还是有一定难度的。简单回顾一下上一篇文章的内容…