大家好,本篇文章是在新年之际写的,所以在这里先给大家拜个年。
今天要介绍的名词为ETL:
ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。
ETL常用于大数据和数据治理的过程中,对于2025年来说,数据资产已经越来越重要,因为数据在未来将会驱动一切,来代替人来做判断。
常与ETL一起出现的还有ELT:
ELT是利用数据库的处理能力,E=从源数据库抽取数据,L=把数据加载到目标库的临时表中,T=对临时表中的数据进行转换,然后加载到目标库目标表中。
这两个名词常常会和BI一起出现使用,BI为:
商业智能(Business Intelligence,简称:BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。
商业智能的概念在1996年最早由加特纳集团(Gartner Group)提出,加特纳集团将商业智能定义为:商业智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各处。
数据质量与商业智能
数据质量角色
对于增强数据资产准确度和价值而言,将数据质量规则与活动(探查、清洗和监测)和MDM流程相集成显得十分关键。在启动任何MDM项目之前,您都需要了解源数据的内容、质量和结构。在数据源进行的数据探查使数据管理员和数据仓库管理员能够在数据进入MDM系统之前,快速发现和分析跨所有数据源的所有数据异常。此流程可极大加快从MDM实施中获取价值。
由于数据清洗增强了数据的准确度,带来了数据完整性,并从源头增进了数据的可信度,因此数据清洗改善了MDM系统中的数据一致性。一旦源数据进入MDM系统,它将接受数据质量处理,其中包括验证、更正和标准化。MDM系统存储了在数据清洗前后的整个历史记录,从而开发人员不必再跟踪数据仓库中的数据沿袭。
最后,数据质量度量标准使数据仓库管理员能够更好地监控参考数据的质量,并确保可以长期持续使用高质量的数据。
因此,从技术角度看,实施MDM和Informatica Data Quality,作为数据仓库中主数据的确定来源,可以从提取、转换和加载(ETL)流程中简化数据集成。此方法可极大减低与数据仓库有关的整个开发和维护工作。通过建立数据质量度量标准和定义数据质量目标,数据仓库管理员和数据管理员能够更好地监控参考数据的质量,并确保随着时间的推移能够跨企业持续使用高质量的数据。MDM简化了对数据仓库维度更新的处理,因为用于确定更改内容的所有逻辑均封装在MDM系统中。
此外,MDM系统可以卸除大多数数据仓库的历史记录跟踪负担,使数据仓库仅管理它需要为进行聚合而应跟踪的变更。此系统可带来更小的数据仓库维度以及对负荷和查询性能的重大改进。运用MDM和Informatica Data Quality将最终降低数据集成的工作量,提高从商业智能和报表推导的洞察分析的质量,确保能够从为商业智能增效的数据仓库方案中获得预期的价值和投资回报。
数据质量水平与商业智能的关系
当无法通过商业智能系统和报告系统提供准确的数据时,业务总体上都会受到影响。以下是为创建报表的商业智能系统提供不可靠数据所造成的一些后果:
业务负责人:不准确的管理报告导致决策不够明智。
合规主管:合规性法案要求公司能为其财务和合规报表提供一定的透明度和可审计性。
业务分析师:如果业务分析师花费过多时间在多个商业智能系统间手动搜索和整理信息以更新和修正报表,则业务分析师的生产率会受到影响。此低效的工作会直接影响成本和营利能力。
这些业务问题的根源在于没有关于客户、产品、渠道合作伙伴和供应商的唯一真实版本。由于在处理每个业务流程的不同系统间收集、存储和管理这些数据(亦称之为参考数据或主数据),因此,需要正确地解析重叠和冲突的参考数据,以获得唯一真实版本,从而带来宝贵而可操作的洞察力。许多组织拥有数十或数百数据库,并且在这些数据库中有维护相同核心参考对象的数十个(有时为数百个)不同的应用程序,而这些核心参考对象还具有重叠的属性。
商业智能系统的用途是以中立的视角报告取自多个系统的现有数据。商业智能系统可以为维度分析进行一些累积工作,但是设计或配备商业智能系统并非为了创建唯一的真实版本。在取自应用程序孤岛的客户或产品数据中存在的不一致会对数据仓库中运行的分析可靠性产生消极的影响。
总而言之,企业的商业智能只会与企业的数据质量水平相当。
数据质量与五种形式的商业智能。
商业智能已经发展成为多种形式,旨在满足企业不断增长的要求和任务关键型活动日益增长的水平。这些形式都有其自己的一套数据质量要求。
仪表板
记分卡和仪表板正被广泛采用,越来越多的用户利用它们获取财务,业务和绩效监控的鸟瞰图。通过可视化的图形、图标和计量表,这些传输机制帮助跟踪性能指标并向员工通知相关趋势和可能需要的决策。提供集成视图所需的数据元素通常跨越多个部门和学科,需要绝对最新才能有效。
数据质量会影响记分卡和仪表板用户,因此这些用户必须能够:
1. 使用仪表板中计量表和刻度盘上的完整数据,并迅速采取措施。
2. 获取集成视图并使用标准化数据进行协作。
3. 利用具有一致数据的正式记分卡方法。
4. 向下钻取以查看组或个人级别绩效的准确数据。
5. 找到能够生成明显趋势且重复数据最少的业务流程。
6. 推导关联性并通过验证的数据执行交叉影响分析。
企业报告
企业报告为所有级别的个人提供来自企业资源规划(ERP)、客户关系管理(CRM)、合作伙伴关系管理(PRM)、发票和帐单系统,以及整个企业内其他源系统的各种运营报告和其他业务报告。这些报告分布广泛,而薪酬和其他激励计划通常与报告的结果有关。
数据质量会影响组织报告,因为组织必须:
1. 浏览多个报告,将它们显示到从不同来源聚合数据的多个表单中。
2. 选择各种参数并通过标准化数据为用户定制报告。
3. 利用各种性能指标的协调数据呈现多个表格和图表。
4. 使业务用户能够利用高精准数据创建自己的报告,无需IT部门参与。
5. 通过清洗和匹配的数据减少合规性管理的人工检查和审计。
6. 利用完整财务数据直接从商业智能报告开具发票和帐单。
本篇文章要介绍的就是这么多,我们下篇文章再见。