数据质量管理-一致性管理

前情提要

根据GB/T 36344-2018《信息技术 数据质量评价指标》的标准文档,当前数据质量评价指标框架中包含6评价指标,在实际的数据治理过程中,存在一个关联性指标。7个指标中存在4个定性指标,3个定量指标;

定性指标:规范性、准确性、唯一性、可访问性

定量指标:完整性、时效性、关联性

规范性--数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度;

完整性--按照数据规则要求,数据元素被赋予数值的程度;

准确性--数据准确表示其所描述的真实实体(实际对象)真实值的程度;

一致性--数据与其他特定上下文中使用的数据无矛盾的程度;

时效性--数据在时间变化中的正确程度;

可访问性--数据能被访问的程度;

关联性--数据记录的实体与实体、实体与时间、实体与地理信息等维度之间的关系构建程度;

一致性怎么进行数据监测和指标量化

官方定义

数据与其他特定上下文中使用的数据无矛盾的程度;

在讲“数据一致性标准”标准的时候,把数据一致性的类型按存储维度和业务维度两方面划分:从存储维度划分包含跨库一致性、跨表一致性、表内一致性;从业务维度划分包含业务内容一致性、业务逻辑一致性、业务内容与元数据一致性;感兴趣大家可以查看之前的文章;一致性标准设计

作用的环节

可以在数据治理完成后的数据明细层和数据服务层(dwd/dws/ads);

数据质量管理依据

数据处理标准中的一致性标准;

数据监测方法

一致性的监测方法分为三个维度进行;①跟踪数据任务是否运行成功;②根据一致性处理标准输出反向质检语句;③人为定期审计;

①跟踪数据任务是否运行成功

 适用范围:监测数据跨库一致性、跨表一致性(数据跨库一致性、跨表一致性本质上是搭建数据往下游抽取和维度退化数据流转过程);

 监测方法:根据数据处理标准中的一致性治理规则所对应的数据开发流程,嵌入数据流程监测预警机制,跟踪任务的运行日志,监测任务成功与否;

②根据一致性处理标准输出反向质检语句

 适用范围:监测表内一致性维度;

 监测方法:根据数据处理标准中的一致性治理规则所对应的数据开发流程,输出反向质检语句,即检测数据中是否出现于规则所对应结果不一致的情况,若检测语句查询结果不为0,则视为有错误记录;

③人为定期审计

适用范围:业务内容与元数据一致性

监测方法:事前制定数据建模规范,在建模过程中加入审核机制,且事后定期进行元数据审计;

量化标准

数据一致性的量化标准可以按照上述的任务跟踪情况和反向质检语句的执行结果输出,人为定期审计部分无法自动化监督,可以作为定期审计报告输出;且在做一致性指标监测前,先明确数据监测范围,包含表和字段级别(在圈地监测范围之前,需要给出数据监测范围的定义,且不在监测范围的数据内容,在最后算质量总分的时候需要进行赋值);

具体执行方法

1.明确检测类型:库一致性、跨表一致性、表内一致性

2.明确一致性的参照组和观察组,即来源层和目标层;来源表和目标表;来源字段和目标字段;

3.明确是否是整表抽取规则(整表抽取规则可以简化监测流程,无需跟踪到字段【字段在数据血缘中可见】);

4.库一致性、跨表一致性的监测任务可以监测任务执行状态成功与否即可;

5.表内一致性则按照监测字段维度,统计监测结果记录数;

6.最后按照一张表一共存在几个监测任务,监测任务通过率进行赋分;

注:当一个内容或者字段被多个一致性规则覆盖,在不出现逻辑错误或者冲突的情况下,需要定义规则优先级,从监测的优先级和规则执行的优先级是相向的。即在数据治理规则执行过程中,内容优先级最高的规则往往是最后执行,确保在表中的记录是优先级最高的内容,而数据监测的方法则是按照优先级最高的内容相关规则开始监测,逐步递推。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/34543.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Centos7 Cpolar内网穿透工具

你是否想把本地测试的项目挂载到公网上提供给别人调用查看(当然这是在你没有服务器的情况下,如果有请跳过) 服务器系统:CentOS-7-x86_64-DVD-2009.iso 这是我在本地测试使用的服务器系统 Coplar官网 注册方式:邮箱注…

维吉尼亚密文解密小程序

维吉尼亚密文解密小程序 这几天在看CTF相关的课程,涉及到古典密码学和近代密码学还有现代密码学。自己编了一个解密小程序。 Vigenere 维吉尼亚密码 维吉尼亚是多表替换密码中比较典型的代表,维吉尼亚密码是在凯撒密码基础上产生的一种加密方法&#…

SAP-SD-修改字段描述

在销售订单中,想修改某字段名的描述,以客户组12为例,如下图 现在想把这个字段修改为客户组1,选择-F1 双击“数据元素” 双击 域 转到-翻译

安卓免费短剧大全v1.0.2/全部无需VIP实时更新全平台短剧

在当今社会,时间成为了许多人最为宝贵的资源。忙碌的工作与繁重的日常事务,常常让我们难以拨出时间沉浸于长篇大幅的影视作品中。对于那些热爱剧情、渴望在生活中点缀一抹戏剧色彩的朋友们而言,这无疑是一种挑战。 然而,随着免费…

Windows安全中心打开白屏的解决方法

方法一(无效可以尝试方法二三): 1. 复制以下内容,打开记事本粘贴并保存,同时将记事本文件的【txt后缀名改为reg】:  Windows Registry Editor Version 5.00[HKEY_LOCAL_MACHINE\SOFTWARE\Policies\Microso…

cesium全家桶总目录

文章目录 Cesium全家桶总目录1 MyCesiumJS Basic1.1 使用Vite TypeScript搭建开发环境1.2 加载在线瓦片地图数据1.3 加载离线地图数据1.4 加载多种格式外部数据1.5 卫星云图1.6 浏览器控制台查看位置角度1.7 绘制直线段以避免地球曲率的影响1.8 通过canvas绘制billboard1.9 切…

【数据分享】《国际统计年鉴》1996-2022

公众号新功能 目前公众号新增以下等功能 1、处理GIS出图、Python制图、区位图、土地利用现状图、土地利用动态度和重心迁移图等等 2、核密度分析、网络od分析、地形分析、空间分析等等 3、地理加权回归、地理探测器、生态环境质量指数、地理加权回归模型影响因素分析、计算…

和AI高效对话,掌握这6个原则就够了!

一、前言 2023年11月30日,ChatGPT3.5发布以后,震撼了全球。很多普通人发现,只要会提问题,自己也可以大大方方地拥抱AI和大模型的浪潮~ 对大模型AI提问的技术,就是我们常说的Prompt技术。 Prompt技术,全称为…

Linux 安装ElasticSearch + FSCrawler 扫描本地的文件资源

文章目录 0. 前言1. 安装ElasticSearch1.1 下载安装包1.2 新增用户1.3 解压安装包1.4 更改文件夹用户1.5 修改配置文件1.6 修改系统配置1.7 启动集群 2. 安装FSCrawler2.1 下载安装包2.2 创建配置文件2.3 修改配置文件2.4 启动2.5 验证是否被索引 0. 前言 Elasticsearch 是一个…

python保存csv的3种方法

pandas的to_csv方法 embeddings_df.to_csv("patients_note_embedding.csv", indexFalse) #embeddings_df改成自己的数据名字np.savetxt方法 np.savetxt("patients_note_embedding.csv", embeddings_df.values, delimiter",", fmt"%s"…

CDGA|数据治理新策略:完善分级分类,打破算法偏见枷锁

在数字化时代,数据已成为企业运营和社会发展的核心驱动力。然而,随着数据量的爆炸性增长,数据治理的重要性也日益凸显。其中,数据分级分类和算法偏见等问题成为了当前数据治理面临的关键挑战。 数据分级分类:确保数据的…

linux的安装程序 与 文件 相关的命令

#Linux系统命令 软件安装卸载命令 软件包介绍 软件包中包含安装的可执行程序(binary),包含软件的说明文档,包含软件的使用的 man手册等,将这些内容打包成一个软件包,可以给用户安装使用。 (1).deb:ubu…

【面试题】Linux下的GDB(第二篇)

1.GDB是什么?其主要功能有哪些? GDB是GNU开源组织发布的一个强大的Unix/Linux下的程序调试工具。其主要功能包括: 启动用户程序后,可以按照用户的要求随意运行程序。 可让被调试的程序在用户所设定的断点处停住。 当程序被停住…

【Web服务与Web应用开发】【C#】创建第一个简单的WCF服务应用程序 WCF Service Application(图文详情)

目录 0.简介 1.环境 2.知识点 3.详细过程 1)打开 Visual Studio 2019 ,下载所需插件 2)创建WCF服务应用项目 3)打开 【IService1.cs 】在此处定义服务函数 4)打开 【Service1.svc.cs】实现服务函数 5&#x…

linux的vim最全教程

基础概念 模式:Vim有多种模式,主要为命令模式(Normal mode)、插入模式(Insert mode)、可视模式(Visual mode)、末行模式(Command-line mode)等。默认启动时处于命令模式。 进入与退出: 启动:在终端输入vim [filename]或vi [filen…

LINUX centos 安装jenkins超超超超超超级详细步骤

Jenkins安装 配置jdkmavengit jenkins 拉取 配置 jdk 1.安装jdk8 yum install java-1.8.0-openjdk-devel2.检查版本 java -version出现如下图查看版本信息 3. 设置JAVA_HOME环境变量 vim /etc/profile最下方输入 export JAVA_HOME/usr/lib/jvm/java-1.8.0-openjdk expor…

在 Vue 中调用方法传入值,并在方法执行期间修改传入的值,是否会影响方法内部的值,取决于传入值的类型

在 Vue 中调用方法传入值,并在方法执行期间修改传入的值,是否会影响方法内部的值,取决于传入值的类型 一、前言1. 传入基本类型值(如数字、字符串)2.传入引用类型值(如对象、数组) 一、前言 在…

Qt 实战(6)事件 | 6.2、事件过滤器

文章目录 一、事件过滤器1、什么是事件过滤器?2、如何实现事件过滤器?3、应用示例4、总结 前言: 在Qt的事件处理机制中,事件过滤器(Event Filter)是一种非常强大且灵活的工具,它允许开发者在一个…

判断对象是否为空的多种方式

判断对象是否为空 网上也有许多方法,这里来整理一下 一、Object.keys(obj) ES6 写法: const data {}; const arr Object.keys(data); console.log(arr.length); // 0二、JSON.stringify() const obj {}; const arr JSON.stringify(obj); console.…