原则:重要的数据先开始。
重点:PDCA;评估数据质量维度;根因分析;数据质量报告
13.1 引言
有数据质量团队(Data Quality Program Team)。
数据质量团队负责与业务和技术数据管理专业人员协作,并推动将质量管理技能应用于数据工作,以确保数据适用于各种需求。与数据治理和整体数据管理一样,数据质量管理不是一个项目,而是一项持续性工作。它包括项目和维护工作,以及承诺进行沟通和培训。最重要的是,数据质量改进取得长期成功取决于组织文化的改变及质量观念的建立。
13.1.1 业务驱动因素
高质量数据本身并不是目的,它只是组织获取成功的一种手段。
Q:数据管理直接目标?
A:提高数据质量。
Q:数据管理终极目标?
A:实现数据价值。
13.1.2目标和原则
数据质量管理原则:
1)重要性。
数据质量管理应关注对企业及其客户最重要的数据,改进的优先顺序应根据数据的重要性以及数据不正确时的风险水平来判定。
2)全生命周期管理。
数据质量管理应覆盖从创建或采购直至处置的数据全生命周期,包括其在系统内部和系统之间流转时的数据管理(数据链中的每个环节都应确保数据具有高质量的输出)。
3)预防。
数据质量方案的重点应放在预防数据错误和降低数据可用性等情形上,不应放在简单的纠正记录上。
4)根因修正。
提高数据质量不只是纠正错误,因为数据质量问题通常与流程或系统设计有关,所以提高数据质量通常需要对流程和支持它们的系统进行更改,而不仅仅是从表象来理解和解决。
5)治理。数据治理活动必须支持高质量数据的开发,数据质量规划活动必须支持和维持受治理的数据环境。
6)标准驱动。
数据生命周期中的所有利益相关方都会有数据质量要求。在可能的情况下,对于可量化的数据质量需求应该以可测量的标准和期望的形式来定义。
7)客观测量和透明度。
数据质量水平需要得到客观、一致的测量。应该与利益相关方一同讨论与分享测量过程和测量方法,因为他们是质量的裁决者。
8)嵌入业务流程。
业务流程所有者对通过其流程生成的数据质量负责,他们必须在其流程中实施数据质量标准。
9)系统强制执行。
系统所有者必须让系统强制执行数据质量要求。
10)与服务水平关联。
数据质量报告和问题管理应纳入服务水平协议(SLA)。
13.1.3 基本概念
1.数据质量
数据质量如达到数据消费者的期望和需求,也就是说,如果数据满足数据消费者应用需求的目的,就是高质量的;反之,如果不满足数据消费者应用需求的目的,就是低质量的。因此,数据质量取决于使用数据的场景和数据消费者的需求。
2.关键数据
虽然关键的特定驱动因素因行业而异,但组织间存在共同特征,可根据以下要求评估关键数据:
1)监管报告。
2)财务报告。
3)商业政策。
4)持续经营。
5)商业战略,尤其是差异化竞争战略
3.数据质量维度
Q:关于数据质量的大咖
A:Strong-Wang 框架 Thomas Redman《信息时代的数据质量》 Larry English《改善数据仓库和业务信息质量》
2013 年,DAMA UK 发布了一份白皮书,描述了数据质量的
6 个核心维度:
1)完备性。
存储数据量与潜在数据量的百分比。
2)唯一性。
在满足对象识别的基础上不应多次记录实体实例(事物)。
3)及时性。
数据从要求的时间点起代表现实的程度。
4)有效性。
如数据符合其定义的语法(格式、类型、范围),则数据有效。
5)准确性。
数据正确描述所描述的“真实世界”对象或事件的程度。
6)一致性。
比较事物多种表述与定义的差异。
5.数据质量ISO标准
国际标准ISO 8000
6.数据质量改进生命周期
戴明环----PDCA ----休哈特图
以下四个方便会开启PDCA:
①现有测量值低于阈值。
②新数据集正在调查中。
③对现有数据集提出新的数据质量要求。
④业务规则、标准或期望变更。
Q:每天表整合为每月表,是否需要 PDCA?A:不需要
8.数据质量问题的常见原因【非常重要】
从创建到处置,数据质量问题在数据生命周期的任何节点都可能出现。在调查根本原因时,分析师应该寻找潜在的原因,如数据输入、数据处理、系统设计,以及自动化流程中的手动干预问题
Q:数据质量最常见问题?A:缺乏领导力导致。
(1)缺乏领导力【和企业文化】导致的问题
(2)数据输入过程引起的问题
(3)数据处理功能引起的问题
(4)系统设计引起的问题
(5)解决问题引起的问题
9.数据剖析
Q:数据剖析是解决数据质量的方法。
A:错,数据剖析不是解决数据质量的方法。
数据剖析(Data Profiling)是一种用于检查数据和评估质量的数据分析形式。数据剖析使用统计技术来发现数据集合的真实结构、内容和质量(Olson,2003)。剖析引擎生成统计信息,分析人员可以使用这些统计信息识别数据内容和结构中的模式。
例如:
1)空值数。标识空值存在,并检查是否允许空值。
2)最大/最小值。识别异常值,如负值。
3)最大/最小长度。确定具有特定长度要求的字段的异常值或无效值。
4)单个列值的频率分布。能够评估合理性(如交易的国家代码分布、频繁或不经常发生的值的检查,以及用默认值填充的记录百分比)。
5)数据类型和格式。识别不符合格式要求的水平,以及意外格式识别(如小数位数、嵌入空格、样本值)。
13.4 方法
13.4.4 有效的数据质量指标
Q:基于 DAMA 理解,数据质量指标可以定性也可以定量。
A:错,必须是可度量的。
1)可度量性。
数据质量指标必须是可度量的——它必须是可被量化的东西。例如,数据相关性是不可度量的,除非设置了明确的数据相关性标准。即便是数据完整性这一指标也需要得到客观的定义才能被测量。预期的结果应在离散范围内可量化。
2)业务相关性。
虽然很多东西是可测量的,但并不能全部转化为有用的指标。测量需要与数据消费者相关。如果指标不能与业务操作或性能的某些方面相关,那么它的价值是有限的。每个数据质量指标都应该与数据对关键业务期望的影响相关联。
3)可接受性。
数据质量指标构成了数据质量的业务需求,根据已确定的指标进行量化提供了数据质量级别的有力证据。根据指定的可接受性阈值确定数据是否满足业务期望。如果得分等于或超过阈值,则数据质量满足业务期望;如果得分低于阈值,则不满足。
4)问责/管理制度。
关键利益相关方(如业务所有者和数据管理专员)应理解和审核指标。当度量的测量结果显示质量不符合预期时,会通知关键利益相关方。业务数据所有者对此负责,并由数据管理专员采取适当的纠正措施。
5)可控制性。
指标应反映业务的可控方面。换句话说,如果度量超出范围,它应该触发行动来改进数据。如果没有任何响应,那么这个指标可能没有什么用处。
6)趋势分析。
指标使组织能够在一段时间内测量数据质量改进的情况。跟踪有助于数据质量团队成员监控数据质量 SLA 和数据共享协议范围内的活动,并证明改进活动的有效性。一旦信息流程稳定后,就可以应用统计过程控制技术发现改变,从而实现其所研究的度量结果和技术处理过程的可预测性变化。
13.4.6 根本原因分析
导致问题产生的根本原因一旦消失,问题本身也会消失。根本原因分析是一个理解导致问题发生的因素及其作用原理的过程。其目的是识别潜在的条件,这些条件一旦消除,问题也将消失。常见的根因分析技术包括帕累托分析(80/20 规则)、鱼骨图分析、跟踪和追踪、过程分析以及五个为什么等(McGilvray,2008)。
13.6 数据质量和数据治理
13.6.2 度量指标
数据质量团队的大部分工作将集中于质量的度量和报告上。数据质量的高阶指标包括:
1)投资回报。关于改进工作的成本与改进数据质量的好处的声明。
2)质量水平。测量一个数据集内或多个数据集之间的错误或不满足甚至违反需求情况的数量和比率。
3)数据质量趋势。随着时间的推移(趋势),针对阈值和目标的质量改进,或各阶段的质量事件。
4)数据问题管理指标。
①按数据质量指标对问题分类与计数。
②各业务职能部门及其问题状态(已解决、未解决、已升级)。
③按优先级和严重程度对问题排序。
④解决问题的时间。
5)服务水平的一致性。包括负责人员在内的组织单位对数据质量评估项目干预过程的一致性。数据质量计划示意图。现状和扩展路线图。