第十三章数据质量10分

原则:重要的数据先开始。
重点:PDCA;评估数据质量维度;根因分析;数据质量报告

13.1 引言

数据质量团队(Data Quality Program Team)。
数据质量团队负责与业务和技术数据管理专业人员协作,并推动将质量管理技能应用于数据工作,以确保数据适用于各种需求。与数据治理和整体数据管理一样,数据质量管理不是一个项目,而是一项持续性工作。它包括项目和维护工作,以及承诺进行沟通和培训。最重要的是,数据质量改进取得长期成功取决于组织文化的改变及质量观念的建立。

13.1.1 业务驱动因素

高质量数据本身并不是目的,它只是组织获取成功的一种手段。

Q:数据管理直接目标?
A:提高数据质量。
Q:数据管理终极目标?
A:实现数据价值。

13.1.2目标和原则

数据质量管理原则:
1)重要性
数据质量管理应关注对企业及其客户最重要的数据,改进的优先顺序应根据数据的重要性以及数据不正确时的风险水平来判定。
2)全生命周期管理
数据质量管理应覆盖从创建或采购直至处置的数据全生命周期,包括其在系统内部和系统之间流转时的数据管理(数据链中的每个环节都应确保数据具有高质量的输出)。
3)预防
数据质量方案的重点应放在预防数据错误和降低数据可用性等情形上,不应放在简单的纠正记录上。
4)根因修正
提高数据质量不只是纠正错误,因为数据质量问题通常与流程或系统设计有关,所以提高数据质量通常需要对流程和支持它们的系统进行更改,而不仅仅是从表象来理解和解决。
5)治理。数据治理活动必须支持高质量数据的开发,数据质量规划活动必须支持和维持受治理的数据环境。
6)标准驱动
数据生命周期中的所有利益相关方都会有数据质量要求。在可能的情况下,对于可量化的数据质量需求应该以可测量的标准和期望的形式来定义。
7)客观测量和透明度。
数据质量水平需要得到客观、一致的测量。应该与利益相关方一同讨论与分享测量过程和测量方法,因为他们是质量的裁决者。
8)嵌入业务流程。
业务流程所有者对通过其流程生成的数据质量负责,他们必须在其流程中实施数据质量标准。
9)系统强制执行。
系统所有者必须让系统强制执行数据质量要求。
10)与服务水平关联。
数据质量报告和问题管理应纳入服务水平协议(SLA)。

13.1.3 基本概念

1.数据质量

数据质量如达到数据消费者的期望和需求,也就是说,如果数据满足数据消费者应用需求的目的,就是高质量的;反之,如果不满足数据消费者应用需求的目的,就是低质量的。因此,数据质量取决于使用数据的场景和数据消费者的需求。

2.关键数据

虽然关键的特定驱动因素因行业而异,但组织间存在共同特征,可根据以下要求评估关键数据:
1)监管报告。
2)财务报告。
3)商业政策。
4)持续经营。
5)商业战略,尤其是差异化竞争战略

3.数据质量维度

Q:关于数据质量的大咖
A:Strong-Wang 框架 Thomas Redman《信息时代的数据质量》 Larry English《改善数据仓库和业务信息质量》

2013 年,DAMA UK 发布了一份白皮书,描述了数据质量的
6 个核心维度:

1)完备性。
存储数据量与潜在数据量的百分比。
2)唯一性。
在满足对象识别的基础上不应多次记录实体实例(事物)。
3)及时性。
数据从要求的时间点起代表现实的程度。
4)有效性。
如数据符合其定义的语法(格式、类型、范围),则数据有效。
5)准确性。
数据正确描述所描述的“真实世界”对象或事件的程度。
6)一致性。
比较事物多种表述与定义的差异。

5.数据质量ISO标准

国际标准ISO 8000

6.数据质量改进生命周期

戴明环----PDCA ----休哈特图
以下四个方便会开启PDCA:
①现有测量值低于阈值。
②新数据集正在调查中。
③对现有数据集提出新的数据质量要求。
④业务规则、标准或期望变更。

  Q:每天表整合为每月表,是否需要 PDCAA:不需要

8.数据质量问题的常见原因【非常重要】

从创建到处置,数据质量问题在数据生命周期的任何节点都可能出现。在调查根本原因时,分析师应该寻找潜在的原因,如数据输入、数据处理、系统设计,以及自动化流程中的手动干预问题

 Q:数据质量最常见问题?A:缺乏领导力导致。

(1)缺乏领导力【和企业文化】导致的问题
(2)数据输入过程引起的问题
(3)数据处理功能引起的问题
(4)系统设计引起的问题
(5)解决问题引起的问题

9.数据剖析

Q:数据剖析是解决数据质量的方法。
A:错,数据剖析不是解决数据质量的方法。

数据剖析(Data Profiling)是一种用于检查数据和评估质量的数据分析形式。数据剖析使用统计技术来发现数据集合的真实结构、内容和质量(Olson,2003)。剖析引擎生成统计信息,分析人员可以使用这些统计信息识别数据内容和结构中的模式。
例如:
1)空值数。标识空值存在,并检查是否允许空值。
2)最大/最小值。识别异常值,如负值。
3)最大/最小长度。确定具有特定长度要求的字段的异常值或无效值。
4)单个列值的频率分布。能够评估合理性(如交易的国家代码分布、频繁或不经常发生的值的检查,以及用默认值填充的记录百分比)。
5)数据类型和格式。识别不符合格式要求的水平,以及意外格式识别(如小数位数、嵌入空格、样本值)。

13.4 方法

13.4.4 有效的数据质量指标

Q:基于 DAMA 理解,数据质量指标可以定性也可以定量。
A:错,必须是可度量的。

1)可度量性。
数据质量指标必须是可度量的——它必须是可被量化的东西。例如,数据相关性是不可度量的,除非设置了明确的数据相关性标准。即便是数据完整性这一指标也需要得到客观的定义才能被测量。预期的结果应在离散范围内可量化。
2)业务相关性。
虽然很多东西是可测量的,但并不能全部转化为有用的指标。测量需要与数据消费者相关。如果指标不能与业务操作或性能的某些方面相关,那么它的价值是有限的。每个数据质量指标都应该与数据对关键业务期望的影响相关联。
3)可接受性。
数据质量指标构成了数据质量的业务需求,根据已确定的指标进行量化提供了数据质量级别的有力证据。根据指定的可接受性阈值确定数据是否满足业务期望。如果得分等于或超过阈值,则数据质量满足业务期望;如果得分低于阈值,则不满足。
4)问责/管理制度。
关键利益相关方(如业务所有者和数据管理专员)应理解和审核指标。当度量的测量结果显示质量不符合预期时,会通知关键利益相关方。业务数据所有者对此负责,并由数据管理专员采取适当的纠正措施。
5)可控制性。
指标应反映业务的可控方面。换句话说,如果度量超出范围,它应该触发行动来改进数据。如果没有任何响应,那么这个指标可能没有什么用处。
6)趋势分析。
指标使组织能够在一段时间内测量数据质量改进的情况。跟踪有助于数据质量团队成员监控数据质量 SLA 和数据共享协议范围内的活动,并证明改进活动的有效性。一旦信息流程稳定后,就可以应用统计过程控制技术发现改变,从而实现其所研究的度量结果和技术处理过程的可预测性变化。

13.4.6 根本原因分析

导致问题产生的根本原因一旦消失,问题本身也会消失。根本原因分析是一个理解导致问题发生的因素及其作用原理的过程。其目的是识别潜在的条件,这些条件一旦消除,问题也将消失。常见的根因分析技术包括帕累托分析(80/20 规则)、鱼骨图分析、跟踪和追踪、过程分析以及五个为什么等(McGilvray,2008)。

13.6 数据质量和数据治理

13.6.2 度量指标

数据质量团队的大部分工作将集中于质量的度量和报告上。数据质量的高阶指标包括:
1)投资回报。关于改进工作的成本与改进数据质量的好处的声明。
2)质量水平。测量一个数据集内或多个数据集之间的错误或不满足甚至违反需求情况的数量和比率。
3)数据质量趋势。随着时间的推移(趋势),针对阈值和目标的质量改进,或各阶段的质量事件。
4)数据问题管理指标。
①按数据质量指标对问题分类与计数。
②各业务职能部门及其问题状态(已解决、未解决、已升级)。
③按优先级和严重程度对问题排序。
④解决问题的时间。
5)服务水平的一致性。包括负责人员在内的组织单位对数据质量评估项目干预过程的一致性。数据质量计划示意图。现状和扩展路线图。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/304.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CANfestival 主机进入预操作态(preOperational)自动发送复位节点指令。

核心是iam_a_slave ,这个是字典生产的时候自动生成的。

【Flutter】多语言方案一:flutter_localizations 与 GetX 配合版

系列文章目录 多语言方案:flutter_localizations 与 GetX 配合版,好处:命令行生成多语言字符串的引用常量类,缺点:切换语言以后,主界面需要手动触发setState,重绘将最新的Locale数据设置给GetM…

使用LangChain和Llama-Index实现多重检索RAG

大家好,在信息检索的世界里,查询扩展技术正引领着一场效率革命。本文将介绍这一技术的核心多查询检索,以及其是如何在LangChain和Llama-Index中得到应用的。 1.查询扩展 查询扩展是一种信息检索技术,通过在原始查询的基础上增加…

基于Springboot的简历系统

基于SpringbootVue的简历系统的设计与实现 开发语言:Java数据库:MySQL技术:SpringbootMybatis工具:IDEA、Maven、Navicat 系统展示 用户登录 首页 简历模板 招聘会 求职论坛 系统公告 后台登录 后台首页 用户管理 简历模板 模板…

uniapp中scroll-view初始化的时候 无法横向滚动到某个为止

项目需求 实现日历&#xff08;13天&#xff09;默认高亮第六天 并定位到第六 左边右边各六天&#xff08;可以滑动&#xff09; 直接上代码 <template><scroll-view class"scroll-X":show-scrollbar"true" :scroll-x"scrollable":…

OpenHarmony网络组件-Mars

项目简介 Mars 是一个跨平台的网络组件&#xff0c;包括主要用于网络请求中的长连接&#xff0c;短连接&#xff0c;是基于 socket 层的解决方案&#xff0c;在网络调优方面有更好的可控性&#xff0c;暂不支持HTTP协议。 Mars 极大的方便了开发者的开发效率。 效果演示 编译…

产废端实时音视频监控系统在运输车辆驾驶室中的应用

实时音视频监控系统可通过在运输车辆驾驶室安装音视频摄录设备&#xff0c;实现将运输车辆内部及周围环境音视频数据通过移动网络实时回传指挥中心的功能。 前端摄录设备主要负责采集车内外的视音频信息&#xff0c;为了保障车辆及运输人员 的安全&#xff0c;应合理选择摄录设…

【多线程】定时器 | 线程池 | 实现MyTimer | 实现MyThreadPoll | 工厂模式 | 构造方法 | 参数种类

文章目录 定时器&线程池一、定时器1.标准库中的定时器2.实现定时器 二、线程池1.线程池的概念线程池&#xff1a; 2.标准库当中的线程池工厂模式 Executors 创建线程池1.自适应线程池2.固定数量线程池3.只有单个线程的线程池4.设定延迟时间后执行命令的线程池 ThreadPoolEx…

BNB链融合

BNB Chain融合 BNB Chain目前有BNB智能链&#xff08;BSC&#xff09;&#xff0c;BNB信标链 BNB信标链&#xff1a;用作质押和投票的治理层&#xff0c;采用BEP-2代币标准BNB智能链(BSC)&#xff1a;用作EVM兼容层&#xff0c;提供DApp、DeFi服务、共识层、多链支持和其他Web3…

阿里云服务器上配置Docker 以及常用命令讲解

目录 一、认识docer二、在阿里云服务器上配置Docker三、底层原理4、常用命令&#xff08;1&#xff09;Docker中常见镜像命令&#xff08;2&#xff09;Docker中常见容器命令&#xff08;3&#xff09;日志查看命令&#xff08;4&#xff09;进入容器的命令与拷贝命令 一、认识…

【目标检测】Focal Loss

Focal Loss用来解决正负样本不平衡问题&#xff0c;并提升训练过程对困难样本的关注。 在一阶段目标检测算法中&#xff0c;以YOLO v3为例&#xff0c;计算置信度损失&#xff08;图中第3、4项&#xff09;时有目标的点少&#xff0c;无目标的点多&#xff0c;两者可能相差百倍…

009 springboot整合mybatis-plus 增删改查 ajax 登录退出accessToken

文章目录 ConfigRegistCenter.javaMybatisplusConfig.javaCustomerController.javaReceiveAddressJsonController.javaCustomer.javaLoginCustomer.javaReceiveAddress.javaJwtInterceptor.javaCustomerMapper.javaReceiveAddressMapper.javaCustomerServiceImpl.javaReceiveAd…

华为OD-C卷-路口最短时间问题[200分]Java 100%

题目描述 假定街道是棋盘型的,每格距离相等,车辆通过每格街道需要时间均为 timePerRoad; 街道的街口(交叉点)有交通灯,灯的周期 T(=lights[row][col])各不相同; 车辆可直行、左转和右转,其中直行和左转需要等相应 T 时间的交通灯才可通行,右转无需等待。 现给出…

【1524】java投票管理系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 java 投票管理系统是一套完善的java web信息管理系统&#xff0c;对理解JSP java编程开发语言有帮助&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主要采用B/S模式开发。开发环境为TOMCAT7.0,Myeclipse8.5开发&#xff0c;数据库为Mysql5.0&…

Rust入门-所有权与借用

一、为什么、是什么、怎么用 1、为什么Rust要提出一个所有权和借用的概念 所有的程序都必须和计算机内存打交道&#xff0c;如何从内存中申请空间来存放程序的运行内容&#xff0c;如何在不需要的时候释放这些空间&#xff0c;成为所有编程语言设计的难点之一。 主要分为三种…

java新冠病毒密接者跟踪系统(springboot+mysql源码+文档)

风定落花生&#xff0c;歌声逐流水&#xff0c;大家好我是风歌&#xff0c;混迹在java圈的辛苦码农。今天要和大家聊的是一款基于springboot的新冠病毒密接者跟踪系统。项目源码以及部署相关请联系风歌&#xff0c;文末附上联系信息 。 项目简介&#xff1a; 新冠病毒密接者跟…

Java垃圾回收1

1.对象什么时候可以被垃圾器回收 1.垃圾回收的概念 为了让程序员更专注于代码的实现&#xff0c;而不用过多的考虑内存释放的问题&#xff0c;所以&#xff0c; 在Java语言中&#xff0c;有了自动的垃圾回收机制&#xff0c;也就是我们熟悉的GC(Garbage Collection)。 有了垃圾…

2、MATLAB入门常用命令

一、退出和中断 exit和quit&#xff1a;结束MATLAB会话。程序完成&#xff0c;如果没有明确保存&#xff0c;则变量中的数据丢失。 Ctrl c&#xff1a;中断一个MATLAB任务。例如&#xff0c;当MATLAB正在计算或打印时&#xff0c;中断一个任务&#xff0c;但会话并没有结束。…

Flink CDC 整库 / 多表同步至 Kafka 方案(附源码)

本文讨论的方案将是本博客以往介绍的所有关于 CDC 数据同步方案中最贴合实际生产需要的,因为以往介绍的开箱即用方案往往都是一张表对应一个 Kafka Topic,在数据库和数据表数量很大的情况下,这种模式是不实用的,用户真正需要的是:将多张数据表或整个数据库写入到一个 Kafk…

Oracle入门——基础语法篇

01-表空间_用户创建 -- 查看当前用户 select user FROM dual;--创建表空间 --datefile 地址 --size --autoextend on --next create tablespace test datafile c:/data/test.dbf size 100m autoextend on next 10m;--创建用户 default tablespace 默认表空间 create user c##u…