前情提要
根据GB/T 36344-2018《信息技术 数据质量评价指标》的标准文档,当前数据质量评价指标框架中包含6评价指标,在实际的数据治理过程中,存在一个关联性指标。7个指标中存在4个定性指标,3个定量指标;
定性指标:规范性、准确性、唯一性、可访问性
定量指标:完整性、时效性、关联性
规范性--数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度;
完整性--按照数据规则要求,数据元素被赋予数值的程度;
准确性--数据准确表示其所描述的真实实体(实际对象)真实值的程度;
一致性--数据与其他特定上下文中使用的数据无矛盾的程度;
时效性--数据在时间变化中的正确程度;
可访问性--数据能被访问的程度;
关联性--数据记录的实体与实体、实体与时间、实体与地理信息等维度之间的关系构建程度;
时效性怎么进行数据监测和指标量化
时效性定义
官方定义:数据在时间变化中的正确程度;
(时效性的定义可以从外部对比的时效性和内部对比的时效性两个方向来梳理)
外部对比的时效性:外部对比的时效性是指从外部数据源获取的数据,数据的更新及时性;
内部对比的时效性:内部对比的时效性是指数据在内部数仓流转、自主研发的数据资源的数据更新是否及时;
作用的环节
数据更新及时与否是针对数据资产或数据场景而言的,因此监测环节可以是数据资产层或者数据服务层;
数据质量管理依据
外部对比的时效性:依据「数据归集标准」中的数据探查维度标准,在探查过程中需要探查数据源的数据更新频率,基于数据源的更新频率制定数据时效性目标;
内部对比的时效性:依据「数据处理标准」中的数据规则执行频率,在数据处理标准中,每个数据规则会制定相关的执行频率,基于执行频率进行对比;
数据监测方法
外部对比的时效性:可以以数据源为监测维度,其核心监测维度是数据归集任务成功与否(与外部对比的完整性一致,这里不再赘述,感兴趣可以看《数据质量管理-完整性》,且为了避免重复计算,时效性指标中可以不纳入数据归集任务指标的计算)、数据业务时间与数据更新时间的时间差两个维度;
数据业务时间与数据更新时间的时间差:外部对比的时效性一般是基于数据源数据更新到****-**-**,而数仓中未及时更新导致的数据时效性指标不及格的情况,所以需要对比数据归集任务的执行时间和数据业务更新时间的对比,基于最近10期确定平均值,制定每个规则的更新周期上限,制定数据时效性监测策略(存在数据融合的情况下需要依据分类决策);
内部对比的时效性:依据「数据处理标准」中的数据规则执行频率,监测任务执行成功与否;
量化标准
外部对比的完整性:数据业务时间与数据更新时间的时间差可以按以下步骤搭建量化标准;
1.表1:制定每张表需要监测的业务时间字段,每个规则的更新周期上限,制定数据时效性监测策略,如表1所示;
2.表2:存储每张表的数据监测维度中最新10期平均时间差(从第三表中获得),并且基于表1计算出每个规则最新的时间差上限(最新10期平均时间差+数据更新允许推迟最晚周期);
3.表3:监测每张表的每个规则的最新业务时间和数据库最新更新时间(前提是数据库中有update的时间戳),并且计算出二者时间差,然后基于时间差和表2的时间差-上限做比对,当表3的时间差小于等于表2的时间差-上限,则赋值为正常更新;
4.表4:基于最新的监测时间点中每张表的每个规则正常更新规则数与规则总数的占比,计算外部时效性得分;例如*******A的4个规则在最新一期有3个规则更新成功了,那么本期的外部时效性得分为75分;
内部对比的完整性:内部对比的完整行主要是通过数据任务执行情况,调取任务执行状态,更新数和新增数以及数据库最新更新时间(佐证任务执行状态),最后基于每张表的每个任务执行状态计算平均分,如表2所示;
最终计算表单的时效性总分(内部时效性与外部时效性平均值);
下一章:可访问性怎么进行数据监测和指标量化 ?