数据质量管理-一致性管理

前情提要

根据GB/T 36344-2018《信息技术 数据质量评价指标》的标准文档,当前数据质量评价指标框架中包含6评价指标,在实际的数据治理过程中,存在一个关联性指标。7个指标中存在4个定性指标,3个定量指标;

定性指标:规范性、准确性、唯一性、可访问性

定量指标:完整性、时效性、关联性

规范性--数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度;

完整性--按照数据规则要求,数据元素被赋予数值的程度;

准确性--数据准确表示其所描述的真实实体(实际对象)真实值的程度;

一致性--数据与其他特定上下文中使用的数据无矛盾的程度;

时效性--数据在时间变化中的正确程度;

可访问性--数据能被访问的程度;

关联性--数据记录的实体与实体、实体与时间、实体与地理信息等维度之间的关系构建程度;

一致性怎么进行数据监测和指标量化

官方定义

数据与其他特定上下文中使用的数据无矛盾的程度;

在讲“数据一致性标准”标准的时候,把数据一致性的类型按存储维度和业务维度两方面划分:从存储维度划分包含跨库一致性、跨表一致性、表内一致性;从业务维度划分包含业务内容一致性、业务逻辑一致性、业务内容与元数据一致性;感兴趣大家可以查看之前的文章;一致性标准设计

作用的环节

可以在数据治理完成后的数据明细层和数据服务层(dwd/dws/ads);

数据质量管理依据

数据处理标准中的一致性标准;

数据监测方法

一致性的监测方法分为三个维度进行;①跟踪数据任务是否运行成功;②根据一致性处理标准输出反向质检语句;③人为定期审计;

①跟踪数据任务是否运行成功

 适用范围:监测数据跨库一致性、跨表一致性(数据跨库一致性、跨表一致性本质上是搭建数据往下游抽取和维度退化数据流转过程);

 监测方法:根据数据处理标准中的一致性治理规则所对应的数据开发流程,嵌入数据流程监测预警机制,跟踪任务的运行日志,监测任务成功与否;

②根据一致性处理标准输出反向质检语句

 适用范围:监测表内一致性维度;

 监测方法:根据数据处理标准中的一致性治理规则所对应的数据开发流程,输出反向质检语句,即检测数据中是否出现于规则所对应结果不一致的情况,若检测语句查询结果不为0,则视为有错误记录;

③人为定期审计

适用范围:业务内容与元数据一致性

监测方法:事前制定数据建模规范,在建模过程中加入审核机制,且事后定期进行元数据审计;

量化标准

数据一致性的量化标准可以按照上述的任务跟踪情况和反向质检语句的执行结果输出,人为定期审计部分无法自动化监督,可以作为定期审计报告输出;且在做一致性指标监测前,先明确数据监测范围,包含表和字段级别(在圈地监测范围之前,需要给出数据监测范围的定义,且不在监测范围的数据内容,在最后算质量总分的时候需要进行赋值);

具体执行方法

1.明确检测类型:库一致性、跨表一致性、表内一致性

2.明确一致性的参照组和观察组,即来源层和目标层;来源表和目标表;来源字段和目标字段;

3.明确是否是整表抽取规则(整表抽取规则可以简化监测流程,无需跟踪到字段【字段在数据血缘中可见】);

4.库一致性、跨表一致性的监测任务可以监测任务执行状态成功与否即可;

5.表内一致性则按照监测字段维度,统计监测结果记录数;

6.最后按照一张表一共存在几个监测任务,监测任务通过率进行赋分;

注:当一个内容或者字段被多个一致性规则覆盖,在不出现逻辑错误或者冲突的情况下,需要定义规则优先级,从监测的优先级和规则执行的优先级是相向的。即在数据治理规则执行过程中,内容优先级最高的规则往往是最后执行,确保在表中的记录是优先级最高的内容,而数据监测的方法则是按照优先级最高的内容相关规则开始监测,逐步递推。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/34543.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Centos7 Cpolar内网穿透工具

你是否想把本地测试的项目挂载到公网上提供给别人调用查看(当然这是在你没有服务器的情况下,如果有请跳过) 服务器系统:CentOS-7-x86_64-DVD-2009.iso 这是我在本地测试使用的服务器系统 Coplar官网 注册方式:邮箱注…

维吉尼亚密文解密小程序

维吉尼亚密文解密小程序 这几天在看CTF相关的课程,涉及到古典密码学和近代密码学还有现代密码学。自己编了一个解密小程序。 Vigenere 维吉尼亚密码 维吉尼亚是多表替换密码中比较典型的代表,维吉尼亚密码是在凯撒密码基础上产生的一种加密方法&#…

SAP-SD-修改字段描述

在销售订单中,想修改某字段名的描述,以客户组12为例,如下图 现在想把这个字段修改为客户组1,选择-F1 双击“数据元素” 双击 域 转到-翻译

安卓免费短剧大全v1.0.2/全部无需VIP实时更新全平台短剧

在当今社会,时间成为了许多人最为宝贵的资源。忙碌的工作与繁重的日常事务,常常让我们难以拨出时间沉浸于长篇大幅的影视作品中。对于那些热爱剧情、渴望在生活中点缀一抹戏剧色彩的朋友们而言,这无疑是一种挑战。 然而,随着免费…

【数据分享】《国际统计年鉴》1996-2022

公众号新功能 目前公众号新增以下等功能 1、处理GIS出图、Python制图、区位图、土地利用现状图、土地利用动态度和重心迁移图等等 2、核密度分析、网络od分析、地形分析、空间分析等等 3、地理加权回归、地理探测器、生态环境质量指数、地理加权回归模型影响因素分析、计算…

和AI高效对话,掌握这6个原则就够了!

一、前言 2023年11月30日,ChatGPT3.5发布以后,震撼了全球。很多普通人发现,只要会提问题,自己也可以大大方方地拥抱AI和大模型的浪潮~ 对大模型AI提问的技术,就是我们常说的Prompt技术。 Prompt技术,全称为…

Linux 安装ElasticSearch + FSCrawler 扫描本地的文件资源

文章目录 0. 前言1. 安装ElasticSearch1.1 下载安装包1.2 新增用户1.3 解压安装包1.4 更改文件夹用户1.5 修改配置文件1.6 修改系统配置1.7 启动集群 2. 安装FSCrawler2.1 下载安装包2.2 创建配置文件2.3 修改配置文件2.4 启动2.5 验证是否被索引 0. 前言 Elasticsearch 是一个…

CDGA|数据治理新策略:完善分级分类,打破算法偏见枷锁

在数字化时代,数据已成为企业运营和社会发展的核心驱动力。然而,随着数据量的爆炸性增长,数据治理的重要性也日益凸显。其中,数据分级分类和算法偏见等问题成为了当前数据治理面临的关键挑战。 数据分级分类:确保数据的…

【Web服务与Web应用开发】【C#】创建第一个简单的WCF服务应用程序 WCF Service Application(图文详情)

目录 0.简介 1.环境 2.知识点 3.详细过程 1)打开 Visual Studio 2019 ,下载所需插件 2)创建WCF服务应用项目 3)打开 【IService1.cs 】在此处定义服务函数 4)打开 【Service1.svc.cs】实现服务函数 5&#x…

LINUX centos 安装jenkins超超超超超超级详细步骤

Jenkins安装 配置jdkmavengit jenkins 拉取 配置 jdk 1.安装jdk8 yum install java-1.8.0-openjdk-devel2.检查版本 java -version出现如下图查看版本信息 3. 设置JAVA_HOME环境变量 vim /etc/profile最下方输入 export JAVA_HOME/usr/lib/jvm/java-1.8.0-openjdk expor…

判断对象是否为空的多种方式

判断对象是否为空 网上也有许多方法,这里来整理一下 一、Object.keys(obj) ES6 写法: const data {}; const arr Object.keys(data); console.log(arr.length); // 0二、JSON.stringify() const obj {}; const arr JSON.stringify(obj); console.…

4.整合第三方技术【整合JUnit】

目录 1.创建项目: 2.导入测试对应的starter 3.添加测试对象 3.1 添加Prodcut接口文件 3.2 添加ProdcutImpl文件 3.3 测试类添加测试文件,并开始测试 4.测试类文件解析 4.1.测试类使用SpringBootTest修饰 4.2使用自动装配的形式添加要测试的对象 1.…

【PromptCC】遥感图像变化字幕的解耦范式

摘要 以往的方法忽略了任务的显著特异性:对于不变和变化的图像对,RSICC难度是不同的,以一种耦合的方式处理未变化和变化的图像对,这通常会导致变化字幕的混淆。论文链接:https://ieeexplore.ieee.org/stamp/stamp.jsp…

Trip.com 如何从 Elasticsearch 迁移到 ClickHouse 并构建了 50PB 的日志解决方案

本文字数:8721;估计阅读时间:22 分钟 审校:庄晓东(魏庄) 本文在公众号【ClickHouseInc】首发 在 Trip.com,我们为用户提供广泛的数字产品,包括酒店和机票预订、景点、旅游套餐、商务…

电脑复制按哪个键?还不会操作的赶紧来看!

当我们提到“电脑复制按哪个键”时,实际上是在讨论电脑键盘上用于执行复制操作的快捷键。复制功能在日常的电脑操作中极为常用,无论是文本编辑、文件处理还是图片操作,都离不开复制这一基本功能。以下,我们将深入探讨电脑复制操作…

【环境搭建】windows下MySQL8与5共存

目录 一、安装MySQL81.官网下载2.初始化mysql文件夹中my.ini文件3.初始化data文件夹,并记录初始密码4.安装服务,指定服务名称5.启动服务6.测试登录并修改密码 二、安装MySQL51.mysql5文件夹中初始化my.ini文件2.初始化data文件夹,并记录初始密…

GraphQL:简介

GraphQL 图片来源: 我们将探索GraphQL 的基础知识,并学习如何使用Apollo将其与 React 和 React Native 等前端框架连接起来。这将帮助您了解如何使用 GraphQL、React、React Native 和 Apollo 构建现代、高效的应用程序。 什么是 GraphQL?…

春秋云境:CVE-2022-25411[漏洞复现]

根据题目提示和CNNVD优先寻找后台管理地址 靶机启动后,使用AWVS进行扫描查看网站结构 在这里可以看到后台管理的登录地址:/admin/,根据题目提示可知是弱口令 尝试admin、123456、admin666、admin123、admin888...等等常见弱口令 正确的账户…

地理空间数据格式GeoJSON扫盲,在CesiumJS中如何加载。

Hi,我是贝格前端工场,GIS已经越来越多的应用在可视化大屏中了,开发GIS类应用就少不了地理空间数据,本文介绍一下数据GeoJSON数据格式。 一、什么是GeoJSON数据格式,在GIS开发中有什么作用 GeoJSON是一种基于JSON&…