前情提要
根据GB/T 36344-2018《信息技术 数据质量评价指标》的标准文档,当前数据质量评价指标框架中包含6评价指标,在实际的数据治理过程中,存在一个关联性指标。7个指标中存在4个定性指标,3个定量指标;
定性指标:规范性、准确性、唯一性、可访问性
定量指标:完整性、时效性、关联性
规范性--数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度;
完整性--按照数据规则要求,数据元素被赋予数值的程度;
准确性--数据准确表示其所描述的真实实体(实际对象)真实值的程度;
一致性--数据与其他特定上下文中使用的数据无矛盾的程度;
时效性--数据在时间变化中的正确程度;
可访问性--数据能被访问的程度;
关联性--数据记录的实体与实体、实体与时间、实体与地理信息等维度之间的关系构建程度;
可访问性怎么进行数据监测和指标量化
官方定义:数据能被访问的程度;
数据能被访问的程度可以分为数据开放程度(包含被访问的广度、被访问的深度)、数据被访问的难易程度(数据共享模式是否成熟);
作用的环节:数据可被访问与否是针对数据资源而言的,因此监测环节是数据资源层;
数据质量管理依据:数据使用标准
数据监测方法
数据开放程度
数据开放程度是相对于内部数据资源而言的,是指内部数据资源对外开放的占比。不对外开放的原因主要为以下几点:
1.基于数据分级分类标准梳理出来的数据资源,组织内部的数据分为核心数据、重要数据、一般数据,有些数据高度涉密,对于这类数据会限制访问权限;
2.组织内部有些数据治理手段不足,质量结果不达标,在短期内参考数据使用标准而言也不会对外开放;
3.站在数据生命周期管理的角度而言,有些数据已经达到了数据生命周期的末期甚至无效的那类数据,也可以不对外开放;
监测方法
针对第一点和第二点,我把这两类情况定义为数据被访问的广度,可以指定的监测方法为:监测外部使用的字段/表单字段总数;
针对第三点,我把这类情况定义为数据被访问的深度,可以在做数据生命周期管理的过程中通过标记无效记录的规则覆盖记录数/对外开放表单记录总数;
数据被访问的难易程度
数据被访问的难易程度:数据被访问的难易程度是指用户对于数据资源访问的难易程度。其中需要考虑的因素:
数据获取渠道的稳定性,基开放共享策略监测访问稳定性作为数据被访问的难易程度的考量因素;
监测方法:
数据获取渠道的稳定性:需要对用户访问数据的成功数/用户访问次数;
量化标准
数据被访问性的量化标准按照定义划分有四个维度,包含数据开放程度、数据被访问的难易程度、数据被访问量、时间周期内数据被访问频率,基于四个维度设置权重,数据开放程度占比60%,数据被访问的难易程度占比40%;
数据开放程度量化标准
1.表名:指数据资源中数仓服务层的表名;
2.是否对外共享:是指表单是否加工完成,具备对外共享的条件;
3.共享字段数:是指对外共享的字段数量;
4.字段总数:是指表单的字段总数;
5.被访问的广度:是指被共享字段占表单字段数的比重,从数据库列数统计(共享字段数/字段总数);
6.表单记录数:是指该张表在统计时间点中的存储记录数;
7.无效记录数:是指该张表在统计时间点中的存储无效记录数;
8.被访问的深度:是指该张表开放内容的深度,从数据库行数统计((表单记录数-无效记录数)/表单记录数);(注:如组织内部无管理无效记录数的相关措施,可以只统计广度)
9.数据开放程度:是指数据从广度和深度两个维度综合计算,得出的数据开放程度(被访问广度*被访问深度);
数据被访问的难易程度量化标准
1.表名:指数据资源中数仓服务层的表名;
2.是否对外共享:是指表单是否加工完成,具备对外共享的条件;
3.数据开放共享策略,例如是API开放、Excel数据包下载、隐私计算、可信数据空间等手段;
4.用户访问数:是指用户访问通过数据开放策略访问表单的次数;
5.用户访问成功数:是指用户访问通过数据开放策略访问表单的成功次数;
6.数据被访问成功率:是指用户基于数据开放策略成功获取数据的占比(用户访问成功数/用户访问数);
下一章:关联性怎么进行数据监测和指标量化 ?