access对比数据_数据仓库系列之数据质量管理

6c2bce5e96af4e4e042be4ccdc5edcce.png

数据质量一直是数据仓库领域一个比较令人头疼的问题,因为数据仓库上层对接很多业务系统,业务系统的脏数据,业务系统变更,都会直接影响数据仓库的数据质量。因此数据仓库的数据质量建设是一些公司的重点工作。

一、数据质量

数据质量的高低代表了该数据满足数据消费者期望的程度,这种程度基于他们对数据的使用预期。数据质量必须是可测量的,把测量的结果转化为可以理解的和可重复的数字,使我们能够在不同对象之间和跨越不同时间进行比较。数据质量管理是通过计划、实施和控制活动,运用质量管理技术度量、评估、改进和保证数据的恰当使用。

二、数据质量维度

1、准确性:数据不正确或描述对象过期

2、合规性:数据是否以非标准格式存储

3、完备性:数据不存在

4、及时性:关键数据是否能够及时传递到目标位置

5、一致性:数据冲突

6、重复性:记录了重复数据

7d8af19ae49adf2c6cb6ecebab70925b.png

三、数据质量分析

数据质量分析的主要任务就是检查数据中是否存在脏数据,脏数据一般是指不符合要求以及不能直接进行相关分析的数据。脏数据包括以下内容:

1、缺省值

2、异常值

3、不一致的值

4、重复数据以及含有特殊符号(如#、¥、*)的数据

我们已经知道了脏数据有4个方面的内容,接下来我们逐一来看这些数据的产生原因,影响以及解决办法。

第一、 缺省值分析

产生原因:

1、有些信息暂时无法获取,或者获取信息的代价太大

2、有些信息是被遗漏的,人为或者信息采集机器故障

3、属性值不存在,比如一个未婚者配偶的姓名、一个儿童的固定收入

影响:

1、会丢失大量的有用信息

2、数据额挖掘模型表现出的不确定性更加显著,模型中蕴含的规律更加难以把握

3、包含空值的数据会使得建模过程陷入混乱,导致不可靠输出

解决办法:

通过简单的统计分析,可以得到含有缺失值的属性个数,以及每个属性的未缺失数、缺失数和缺失率。删除含有缺失值的记录、对可能值进行插补和不处理三种情况。

第二、 异常值分析

产生原因:业务系统检查不充分,导致异常数据输入数据库

影响:不对异常值进行处理会导致整个分析过程的结果出现很大偏差

解决办法:可以先对变量做一个描述性统计,进而查看哪些数据是不合理的。最常用的统计量是最大值和最小值,用力啊判断这个变量是否超出了合理的范围。如果数据是符合正态分布,在原则下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值,如果不符合正态分布,也可以用原理平均值的多少倍标准差来描述。

第三、 不一致值分析

产生原因:不一致的数据产生主要发生在数据集成过程中,这可能是由于被挖掘的数据是来自不同的数据源、对于重复性存放的数据未能进行一致性更新造成。例如,两张表中都存储了用户的电话号码,但在用户的号码发生改变时只更新了一张表中的数据,那么两张表中就有了不一致的数据。

影响:直接对不一致的数据进行数据挖掘,可能会产生与实际相悖的数据挖掘结果。

解决办法:注意数据抽取的规则,对于业务系统数据变动的控制应该保证数据仓库中数据抽取最新数据

第四、 重复数据及特殊数据产生原因:

产生原因:业务系统中未进行检查,用户在录入数据时多次保存。或者因为年度数据清理导致。特殊字符主要在输入时携带进入数据库系统。

影响:统计结果不准确,造成数据仓库中无法统计数据

解决办法:在ETL过程中过滤这一部分数据,特殊数据进行数据转换。

四、数据质量管理

大多数企业都没有一个很好的数据质量管理的机制,因为他们不理解其数据的价值,并且他们不认为数据是一个组织的资产,而把数据看作创建它的部门领域内的东西。缺乏数据质量管理将导致脏数据、冗余数据、不一致数据、无法整合、性能低下、可用性差、责任缺失、使用系统用户日益不满意IT的性能。

在做数据分析之前一般都应该初步对数据进行评估。初步数据评估通过数据报告来完成的,数据报告通常在准备把数据存入数据仓库时做一次,它是全面跨数据集的,它描述了数据结构、内容、规则、和关系的概况。通过应用统计方法返回一组关于数据的标准特征,包括数据类型、字段长度、列基数、粒度、值域、格式模式、隐含的规则、跨列和跨表的数据关系,以及这些关系的基数。初步评估报告的目的是获得对数据和环境的了解,并对数据的状况进行描述。数据报告应该如下:

4a9167f8abe924f8db28d1518c5d8fbc.png

bb550be54c4ad80aa84fd874d6a79737.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/298814.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入浅出Google Android这本书怎么样

关于深入浅出Google Android 评论读后感:对入门的知识讲的很详细,近乎罗嗦,例子比较少而且不够吸引人。读后感:我还没收到货呢,昨天下午发的货,应该今天能到,因为是周末,我待会儿要回…

Net 5.0 快速开发框架 YC.Boilerplate--框架介绍

YC.Boilerplate 框架介绍YC.Boilerplate 是一套快速开发框架,采用当下流行的前后端分离开发模式,前端 采用VUE、后端采用Net 5.0;框架实现了 多租户、动态webApi、多种ORM、IOC、数据库表和业务代码生成等等一系列模块,并开发了用…

老师:你根本不知道我有多想逃课

1 这个时候如果不小心吸了一口就是另一个故事了▼2 抓到一只正在吐泡泡的蓝胖子!▼3 腿短怎么了?我腿短我可爱!你学我是几个意思?▼4 我本以为这是一个温馨的故事▼5 老师:你根本想象不到我有多想逃课&#xff01…

允许服务与桌面交互_vivo 正式推出 Origin OS,融合自然设计与全新交互_搜狐汽车...

点击右上角关注我们,每天给您带来最新最潮的科技资讯,让您足不出户也知道科技圈大事!今天下午,vivo 推出了全新 Origin OS 手机系统。它采用了源于自然界的设计理念,同时加入了全新并且允许用户进行深度自定义的交互方…

WPF企业内训全程实录(下)

摘要 WPF企业内训全程实录由于文章比较长,所以一共拆分成了三篇,上篇WPF企业内训全程实录(上)主要讲了基础,中篇WPF企业内训全程实录(中)主要讲解开发模式、团队协作及应用框架,起着承上启下的作用,主要讲解…

WPF之DataGrid

1、WPF 4 DataGrid 控件(基本功能篇) 基本使用,绑定数据展示 2、WPF 4 DataGrid 控件(自定义样式篇) 定义行,列,头,单元格等样式 3、WPF 4 DataGrid 控件(进阶篇一&#…

WTM框架使用技巧之:Layui版本嫁接Vue+ElementUI

快点关注我们吧作者介绍庄星睿,现就职于海运物流行业,威海新海丰物流有限公司,IT技术兼管理职务。从事过winform,wpf技术开发,自2019年接触wtm框架后,热衷使用wtm框架开发物流公司内部软件。如高度定制化的SOC自备箱管…

现在女生的床真的都是这样吗?

1 兰花螳螂喜欢模拟兰花的形态,从而吸引猎物2 女生的床真是这样吗?真的假的啊3 双胞胎姐妹在妈妈肚子里打架概率只有三千万分之一4 用户真正的需求和自以为是的产品设计5 你看我们都尽力给你腾地方了……6 野外生存技能】过滤浑水的方法7 解释一下原理你…

让对话框不显示边框_微信消息“无边框”模式搭配这款壁纸,简直绝了

技能:好运壁纸,微信“无边框”聊天背景图难度系数:1颗星适用系统:安卓,iOS(苹果)今天所长想给大家介绍一组会让人好运爆棚的壁纸,不过,运营妹纸给我分享了一款有趣的聊天背景图,换上…

理解流量监管和整形的关键算法—令牌桶

理解流量监管和整形的关键算法—令牌桶无论是流量监管还是流量整形都提到一个超额流量的问题,而前面已经描述了监管和整形对超额流量的处理方式不同,监管丢弃或者重标记,流量整形是缓存,通过加大延迟的方式发送平滑的数据流量&…

面试官: 平时开发中你用过读写锁吗?

前面实现了一个 带值变更通知能力的字典类(线程不安全),童鞋们有没有发现演示代码使用了 lock语法糖, 这个有没有问题呢?没背景说个铲铲同程艺龙基础架构部推出的数据获取组件DAL.Connection,我们要做到在切换连接配置时清空数据库…

如何计算一只鸡的表面积?各大专业的奇葩解法

全世界只有3.14 % 的人关注了爆炸吧知识今天,知识君跟大家来算一下一只鸡的表面积吧。数学系

ArrayPool 源码解读之 byte[] 也能池化?

一:背景 1. 讲故事最近在分析一个 dump 的过程中发现其在 gen2 和 LOH 上有不少size较大的free,仔细看了下,这些free生前大多都是模板引擎生成的html片段的byte[]数组,当然这篇我不是来分析dump的,而是来聊一下&#x…

为什么有些人从不点开朋友圈?

全世界只有3.14 % 的人关注了爆炸吧知识真正决定人与人之间的差距的,其实是我们对事物的见识与内心的格局,见识的深浅决定人生的深浅,格局的大小决定了人生之路是宽是窄。今天给大家推荐几个有深度、有想法的公众号,希望能够给你带…

wxPython:登录工具

最近一直在学习Python的基础和一些常用的模块,现在该是付诸实践的时候了。 我打算做的第一个小工具是利用wxPython来创建一个登录小工具,这主要是减轻自己日常工作中的一些负担。具体需求是这样的,在出现工具的UI之后,用户可以选择…

微信 小程序 python 渲染_微信小程序渲染html内容

最近又做了一个新的小程序关于物流订单查询欢迎来体验遇到了一个小问题:数据中返回电话号码的字符串识别出来并且高亮和可以绑定事件。比如数据中包含您的派送员黄xx正在派件,电话:137xxxx41460已经在派送。其中就要识别出137xxxx41460并且绑…

shell oracle查询数组,shell 脚本 ---数组

数组的定义:所谓数组,就是相同数据类型的元素按一定顺序的集合,就是把有限个类型相同的变量用一个名字命令,也就是说这些变量被定义成数组之后,它们就不在有自己的名字了,那么我们怎么找到各个变量或者元素…

Dockerfile 使用 ARG 参数实现构建模板

Dockerfile 使用 ARG 参数实现构建模板IntroDockerfile 里用来表示变量的主要有两个东西,一个是 ENV 代表了环境变量,另外一个则是 ARG 代表是构建 docker 镜像时的一个构建参数,需要在执行 docker build 命令时指定变量的值,最近…

华人AI界痛失“一代宗师”,计算机视觉之父黄煦涛教授去世

全世界只有3.14 % 的人关注了爆炸吧知识美东时间2020年4月25日夜间,华人计算机视觉一代宗师,黄煦涛教授(Thomas S. Huang)在美国印第安纳州逝世,享年 84 岁。由于他在图像处理、模式识别等计算机视觉领域作出的开创性贡…