数据质量管理-规范性管理

数据质量管理简介

数据质量管理是一个持续性的管理动作,有些人在做数据质量管理的时候会陷入一步到位的误区,想要通过一个工具、平台,或者一套质检规则就完成整体的数据质量管理,而实际数据质量管理从数据接入的那一刻就需要介入干预,到最后数据在场景中展示,均需要定期质检。因为数据本身就是流动可持续更新的,且经过数仓分层之后,中间的环节均需要埋入检测点位,这样对于数据质量才有了初步保障。

“数据质量管理是对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。数据质量管理的终极目标是通过可靠的数据提升数据在使用中的价值,并最终为企业赢得经济效益。”

——以上内容摘自百度百科

“数据质量管理不单纯是一个概念,也不单纯是一项技术、也不单纯是一个系统,更不单纯是一套管理流程,数据质量管理是一个集方法论、技术、业务和管理为一体的解决方案。通过有效的数据质量控制手段,进行数据的管理和控制,消除数据质量问题进而提升企业数据变现的能力。在数据治理过程中,一切业务、技术和管理活动都围绕这个目标和开展”。

 石老师在本篇文章中对于数据质量的影响因素和需要配套的制度管理和支撑工具都讲的比较清晰,各位感兴趣可以查看文章详情。数据治理系列5:浅谈数据质量管理

 根据GB/T 36344-2018《信息技术 数据质量评价指标》的标准文档,当前数据质量评价指标框架中包含6评价指标,在实际的数据治理过程中,存在一个关联性指标。7个指标中存在4个定性指标,3个定量指标;

定性指标:规范性、准确性、唯一性、可访问性

定量指标:完整性、时效性、关联性

规范性--数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度;

完整性--按照数据规则要求,数据元素被赋予数值的程度;

准确性--数据准确表示其所描述的真实实体(实际对象)真实值的程度;

一致性--数据与其他特定上下文中使用的数据无矛盾的程度;

时效性--数据在时间变化中的正确程度;

可访问性--数据能被访问的程度;

关联性--数据记录的实体与实体、实体与时间、实体与地理信息等维度之间的关系构建程度;

本章开始,我们逐一讲解每一个指标在实操过程中怎么去落到数据生产和使用环节,并且形成量化的指标,最后形成质量报告;

今天重点讲解定性指标规范性怎么进行数据监测和指标量化

官方定义:规范性是指数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度;

作用的环节:数据生产环节,事前规范+上线后定时监督

数据质量管理依据:在实际落地过程中,数据标准、业务规则、权威参考数据的程度三类分别散落在数据治理过程中的治理规则和在数据资源设计之初的数据资产建设手册中。

数据标准、业务规则

数据监测方法:其中「数据标准、业务规则」可以在输出数据治理规则的同时输出反向质检语句,当语句中出现查询结果时则意味着规范性不满足100%;

量化标准:规范性的量化标准既可以按照数据集的记录数占比作为分数,也可以按照查询结果数据记录数分级作为赋分依据;

方法一:

方法二:第一步需要识别数据等级按照字段维度识别出核心数据、重要数据、一般数据,并基于不同的等级给出不同的判断依据,比如核心数据不符合记录数超过100条,则赋分99分,核心数据不符合记录数超过1000条,则赋分90分,重要数据不符合记录数超过1000条,则赋分99分,一般数据不符合记录数超过10000条,则赋分99分等;

权威参考数据

权威参考数据的程度则是需要作为数据质量管理的事前监督,在设计这类业务数据的时候就需要给出参考依据和估算参考比例;

最后基于字段的规范性得分均值赋值为表的规范性得分;

下一章:完整性怎么进行数据监测和指标量化 ?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/855862.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

热门常用在线免费工具

图片&绘图 免费且易于使用的在线PDF工具 nullhttps://tools.pdf24.org/zh/免费的在线图片压缩工具 TinyPNG – Compress WebP, PNG and JPEG images intelligentlyFree online image compressor for faster websites! Reduce the file size of your WEBP, JPEG, and PNG…

互联网应用主流框架整合之SpingMVC运转逻辑及高级应用

Spring MVC处理器的执行过程 在SpringMVC的流程中,它会把控制器的方法封装为处理器(Handler),为了更加灵活,SpringMVC还提供了处理器的拦截器,从而形成了一条包括处理器和拦截器的执行链,即HandlerExecutionChain&…

第21篇 Intel FPGA Monitor Program的使用<四>

Q:如何编译运行创建好的Intel FPGA Monitor Program工程呢? A:上一篇的Nios II汇编语言简易应用程序创建完成后,点击Intel FPGA Monitor Program的Action-->Compile即编译程序,在Info&Errors区域显示编译结果…

[Vulnhub] BrainPan BOF缓冲区溢出+Man权限提升

信息收集 Server IP AddressPorts Open192.168.8.105TCP: $ nmap -p- 192.168.8.105 -sC -sV -Pn --min-rate 1000 Starting Nmap 7.92 ( https://nmap.org ) at 2024-06-10 04:20 EDT Nmap scan report for 192.168.8.105 (192.168.8.105) Host is up (0.0045s latency). N…

XTDrone-多机仿真-配置教程

启动python脚本生成多机launch文件 cd ~/XTDrone/coordination/launch_generator python3 generator.py将生成出来的launch文件复制到PX4固件的launch文件夹 cp ~/XTDrone/coordination/launch_generator/multi_vehicle.launch ~/PX4_Firmware/launch/启动多机PX4仿真 cd ~/…

MyBatis框架基础

文章目录 1 MyBatis概述2 MyBatis入门2.1 相关依赖2.2 properties配置文件2.3 预编译SQL 3 基本操作3.1 新增操作3.2 删除操作3.3 更新操作3.4 查询操作 4 动态SQL4.1 XML映射文件4.2 if/set/where标签4.3 foreach标签4.4 sql/include标签 5 参考资料 1 MyBatis概述 MyBatis是…

每日复盘-202406019

今日关注: 20240619 六日涨幅最大: ------1--------300868--------- 杰美特 五日涨幅最大: ------1--------300462--------- 华铭智能 四日涨幅最大: ------1--------300462--------- 华铭智能 三日涨幅最大: ------1--------300462--------- 华铭智能 二日涨幅最大…

IntelliJ IDEA软件下载安装手册:从官方下载到配置启动全流程详解(Windows版)

一、访问官方下载页面 首先,您需要通过官方渠道访问IntelliJ IDEA的下载页面。在您的浏览器中输入官方网址: https://www.jetbrains.com/idea/download/,进入官方下载页面。 二、选择合适的版本下载 在官方下载页面,您将看到多…

Linux虚拟机安装nginx并进行浏览器访问 - 附带常见问题和常用指令(实施必备)

1、Linux安装Nginx 1.1、下载Nginx安装包 Linux Nginx-1.25.5 官方其他版本 1.2、解压安装包 tar -zxvf nginx-1.25.5.tar.gz 1.3、安装依赖包 由于我使用的是1.25.5版本,所以需要加入依赖包 # yum install pcre pcre-devel # yum install zlib-devel 1.4、配置…

[linux] 系统的基本使用

用户系统: 之前提到,linux是个多用户系统,所以要使用linux,首先你得是个用户 用户:普通用户管理员 每一个用户有自己的用户名密码, 会话(session):一个终端使用服务器的全过程 从你用户登录,到你…

Office--加载宏-CS上线

免责声明:本文仅做技术交流与学习... 目录 关于宏上线的格式: 操作流程: 其他office文本的上线格式一样: 关于宏上线的格式: doc宏病毒: 1-生成格式为dotm 只要点启用宏就上线 2-生成格式为()word 97-2003 .doc) 被杀 操作流…

关于Java的一点小小知识点(杂谈)

1,Resource和Autowire的区别 在java代码中可以使用Autowire或者Resource注解方式进行装配,这两个注解的区别是: Autowire默认按照类型装配,默认情况下它要求依赖对象必须存在如果允许为null,可以设置它required属性为…

JAVA实现利用phantomjs对URL页面(网页)进行转图片保存

一、前期准备 1、下载phantomjs工具 地址:https://phantomjs.org/download.html 解压到指定文件夹,后续代码要调用该工具,记住路径 2、准备好模板NetToPicMoban.js 用于给phantomjs提供需要执行的js,具体放在那看自己的需求&…

51单片机STC89C52RC——3.1 数码管静态展示

目的 让数码管在指定位置显示指定数字 一,STC单片机模块 二,数码管 2.1 数码管位置 2.2 生活中用到的数目管 红绿灯 LED数码管在生活中随处可见,洗衣机、电饭煲、热水器、微波炉、冰箱、这些最基本的家用电器上基本都用到了这种7段LED数…

广告权重及出价解析

由于算法一直在不断改变,所以公式只能作为参考,不过核心是不变的。一、广告权重及出价解析 链接质量分CTR分值**CR分值(点击率*转化率)广告质量分广告出价*链接质量分我们的出价下一名产品的广告质量评分/我们的链接质量分0.01 …

Spring Bean详解

Spring Bean作用域 默认情况下,所有的 Spring Bean 都是单例的,也就是说在整个 Spring 应用中, Bean 的实例只有一个 如果我们需要创建多个实例的对象,那么应该将 Bean 的 scope 属性定义为 prototype,如果 Spring 需…

嵌入式linux系统中SPI子系统验证03

今天主要给大家分享一下,如何使用SPI总线进行验证的方法。 第一:SPI验证流程 1. echo 1 > /dev / spidev3.0 2.逻辑分析仪抓波形 3.十六进指转化为十进制 4.ASCII字符代码表匹配 第二:SPI验证结果 第三:设备…

“论数据访问层设计技术及其应用”写作框架,系统架构设计师

论文真题 在信息系统的开发与建设中,分层设计是一种常见的架构设计方法,区分层次的目的是为了实现“高内聚低耦合”的思想。分层设计能有效简化系统复杂性,使设计结构清晰,便于提高复用能力和产品维护能力。一种常见的层次划分模…

eclipse如何导入springboot项目

打开eclipse 找到你的springboot项目 点击finish即可 test02就已经导入进去了 配置一下maven 在将那个springboot项目刷新一下即可 运行成功

得物面试:什么是零复制?说说 零复制 底层原理?(吊打面试官)

尼恩说在前面 在40岁老架构师 尼恩的读者交流群(50)中,最近有小伙伴拿到了一线互联网企业如得物、阿里、滴滴、极兔、有赞、希音、百度、网易、美团的面试资格,遇到很多很重要的零复制的问题: 说一说Rocketmq、是如何实现每秒上百万数据的超…