access对比数据_数据仓库系列之数据质量管理

6c2bce5e96af4e4e042be4ccdc5edcce.png

数据质量一直是数据仓库领域一个比较令人头疼的问题,因为数据仓库上层对接很多业务系统,业务系统的脏数据,业务系统变更,都会直接影响数据仓库的数据质量。因此数据仓库的数据质量建设是一些公司的重点工作。

一、数据质量

数据质量的高低代表了该数据满足数据消费者期望的程度,这种程度基于他们对数据的使用预期。数据质量必须是可测量的,把测量的结果转化为可以理解的和可重复的数字,使我们能够在不同对象之间和跨越不同时间进行比较。数据质量管理是通过计划、实施和控制活动,运用质量管理技术度量、评估、改进和保证数据的恰当使用。

二、数据质量维度

1、准确性:数据不正确或描述对象过期

2、合规性:数据是否以非标准格式存储

3、完备性:数据不存在

4、及时性:关键数据是否能够及时传递到目标位置

5、一致性:数据冲突

6、重复性:记录了重复数据

7d8af19ae49adf2c6cb6ecebab70925b.png

三、数据质量分析

数据质量分析的主要任务就是检查数据中是否存在脏数据,脏数据一般是指不符合要求以及不能直接进行相关分析的数据。脏数据包括以下内容:

1、缺省值

2、异常值

3、不一致的值

4、重复数据以及含有特殊符号(如#、¥、*)的数据

我们已经知道了脏数据有4个方面的内容,接下来我们逐一来看这些数据的产生原因,影响以及解决办法。

第一、 缺省值分析

产生原因:

1、有些信息暂时无法获取,或者获取信息的代价太大

2、有些信息是被遗漏的,人为或者信息采集机器故障

3、属性值不存在,比如一个未婚者配偶的姓名、一个儿童的固定收入

影响:

1、会丢失大量的有用信息

2、数据额挖掘模型表现出的不确定性更加显著,模型中蕴含的规律更加难以把握

3、包含空值的数据会使得建模过程陷入混乱,导致不可靠输出

解决办法:

通过简单的统计分析,可以得到含有缺失值的属性个数,以及每个属性的未缺失数、缺失数和缺失率。删除含有缺失值的记录、对可能值进行插补和不处理三种情况。

第二、 异常值分析

产生原因:业务系统检查不充分,导致异常数据输入数据库

影响:不对异常值进行处理会导致整个分析过程的结果出现很大偏差

解决办法:可以先对变量做一个描述性统计,进而查看哪些数据是不合理的。最常用的统计量是最大值和最小值,用力啊判断这个变量是否超出了合理的范围。如果数据是符合正态分布,在原则下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值,如果不符合正态分布,也可以用原理平均值的多少倍标准差来描述。

第三、 不一致值分析

产生原因:不一致的数据产生主要发生在数据集成过程中,这可能是由于被挖掘的数据是来自不同的数据源、对于重复性存放的数据未能进行一致性更新造成。例如,两张表中都存储了用户的电话号码,但在用户的号码发生改变时只更新了一张表中的数据,那么两张表中就有了不一致的数据。

影响:直接对不一致的数据进行数据挖掘,可能会产生与实际相悖的数据挖掘结果。

解决办法:注意数据抽取的规则,对于业务系统数据变动的控制应该保证数据仓库中数据抽取最新数据

第四、 重复数据及特殊数据产生原因:

产生原因:业务系统中未进行检查,用户在录入数据时多次保存。或者因为年度数据清理导致。特殊字符主要在输入时携带进入数据库系统。

影响:统计结果不准确,造成数据仓库中无法统计数据

解决办法:在ETL过程中过滤这一部分数据,特殊数据进行数据转换。

四、数据质量管理

大多数企业都没有一个很好的数据质量管理的机制,因为他们不理解其数据的价值,并且他们不认为数据是一个组织的资产,而把数据看作创建它的部门领域内的东西。缺乏数据质量管理将导致脏数据、冗余数据、不一致数据、无法整合、性能低下、可用性差、责任缺失、使用系统用户日益不满意IT的性能。

在做数据分析之前一般都应该初步对数据进行评估。初步数据评估通过数据报告来完成的,数据报告通常在准备把数据存入数据仓库时做一次,它是全面跨数据集的,它描述了数据结构、内容、规则、和关系的概况。通过应用统计方法返回一组关于数据的标准特征,包括数据类型、字段长度、列基数、粒度、值域、格式模式、隐含的规则、跨列和跨表的数据关系,以及这些关系的基数。初步评估报告的目的是获得对数据和环境的了解,并对数据的状况进行描述。数据报告应该如下:

4a9167f8abe924f8db28d1518c5d8fbc.png

bb550be54c4ad80aa84fd874d6a79737.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/298814.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入浅出Google Android这本书怎么样

关于深入浅出Google Android 评论读后感:对入门的知识讲的很详细,近乎罗嗦,例子比较少而且不够吸引人。读后感:我还没收到货呢,昨天下午发的货,应该今天能到,因为是周末,我待会儿要回…

Php xml 目录,PHP-PHP+xml的无限分类树目录的方法?

无限分类树的代码有很多,下面是个示例:/**by lenush;*/class Tree{var $data array();var $child array(-1>array());var $layer array(-1>-1);var $parent array();function Tree ($value){$this->setNode(0, -1, $value);} // end funcfu…

Net 5.0 快速开发框架 YC.Boilerplate--框架介绍

YC.Boilerplate 框架介绍YC.Boilerplate 是一套快速开发框架,采用当下流行的前后端分离开发模式,前端 采用VUE、后端采用Net 5.0;框架实现了 多租户、动态webApi、多种ORM、IOC、数据库表和业务代码生成等等一系列模块,并开发了用…

老师:你根本不知道我有多想逃课

1 这个时候如果不小心吸了一口就是另一个故事了▼2 抓到一只正在吐泡泡的蓝胖子!▼3 腿短怎么了?我腿短我可爱!你学我是几个意思?▼4 我本以为这是一个温馨的故事▼5 老师:你根本想象不到我有多想逃课&#xff01…

允许服务与桌面交互_vivo 正式推出 Origin OS,融合自然设计与全新交互_搜狐汽车...

点击右上角关注我们,每天给您带来最新最潮的科技资讯,让您足不出户也知道科技圈大事!今天下午,vivo 推出了全新 Origin OS 手机系统。它采用了源于自然界的设计理念,同时加入了全新并且允许用户进行深度自定义的交互方…

有研究irrlicht引擎的吗,交流交流

我最近在研究这个开源引擎不知道irrlicht引擎和其他商业引擎比起来怎么样?这个引擎虽然没有IDE不过一直在更新,在进步。知道这个引擎的发表发表你的看法补充:最近找到了irrlicht中文官方论坛 有很多牛人是知名的网络游戏开发论坛和游戏玩家论坛忘了写网址…

oracle数据库转sqlite,Sqlite导入Oracle软件(SqliteToOracle)

SqliteToOracle是一款专业的SQLite数据库管理器导入或导出到Oracle,软件允许您快速轻松地将数据或表从SQLite结构传输到Oracle。 该应用程序允许您传输单个表或整组数据,以及定义通过SQL查询导出的源。有需要的小伙伴欢迎来西西下载体验。基本简介&#…

WPF企业内训全程实录(下)

摘要 WPF企业内训全程实录由于文章比较长,所以一共拆分成了三篇,上篇WPF企业内训全程实录(上)主要讲了基础,中篇WPF企业内训全程实录(中)主要讲解开发模式、团队协作及应用框架,起着承上启下的作用,主要讲解…

WPF之DataGrid

1、WPF 4 DataGrid 控件(基本功能篇) 基本使用,绑定数据展示 2、WPF 4 DataGrid 控件(自定义样式篇) 定义行,列,头,单元格等样式 3、WPF 4 DataGrid 控件(进阶篇一&#…

WTM框架使用技巧之:Layui版本嫁接Vue+ElementUI

快点关注我们吧作者介绍庄星睿,现就职于海运物流行业,威海新海丰物流有限公司,IT技术兼管理职务。从事过winform,wpf技术开发,自2019年接触wtm框架后,热衷使用wtm框架开发物流公司内部软件。如高度定制化的SOC自备箱管…

现在女生的床真的都是这样吗?

1 兰花螳螂喜欢模拟兰花的形态,从而吸引猎物2 女生的床真是这样吗?真的假的啊3 双胞胎姐妹在妈妈肚子里打架概率只有三千万分之一4 用户真正的需求和自以为是的产品设计5 你看我们都尽力给你腾地方了……6 野外生存技能】过滤浑水的方法7 解释一下原理你…

研究发现:一心多用会使认知水平下降

有些人喜欢一边在网上搜寻新款鞋样,一边和朋友聊天,同时还不忘观看最新一季美国时装真人秀节目《天桥骄子》(Project Runway)。因此,下面这则消息对他们来说可不太好:科学家们在有史以来首次对长期一心多用…

让对话框不显示边框_微信消息“无边框”模式搭配这款壁纸,简直绝了

技能:好运壁纸,微信“无边框”聊天背景图难度系数:1颗星适用系统:安卓,iOS(苹果)今天所长想给大家介绍一组会让人好运爆棚的壁纸,不过,运营妹纸给我分享了一款有趣的聊天背景图,换上…

一切阅读都是误读

一切阅读都是误读 一切阅读都是误读 —— 安伯托•艾柯 上次读这本书已经是五年前的事了,中文版刚出版我就买了一本。那时候,我的工作相对比较清闲,有大量的时间阅读。恰巧我在负责公司的校园招聘及新员工培训,非常需要一些不错的…

理解流量监管和整形的关键算法—令牌桶

理解流量监管和整形的关键算法—令牌桶无论是流量监管还是流量整形都提到一个超额流量的问题,而前面已经描述了监管和整形对超额流量的处理方式不同,监管丢弃或者重标记,流量整形是缓存,通过加大延迟的方式发送平滑的数据流量&…

面试官: 平时开发中你用过读写锁吗?

前面实现了一个 带值变更通知能力的字典类(线程不安全),童鞋们有没有发现演示代码使用了 lock语法糖, 这个有没有问题呢?没背景说个铲铲同程艺龙基础架构部推出的数据获取组件DAL.Connection,我们要做到在切换连接配置时清空数据库…

如何计算一只鸡的表面积?各大专业的奇葩解法

全世界只有3.14 % 的人关注了爆炸吧知识今天,知识君跟大家来算一下一只鸡的表面积吧。数学系

文件夹里打开终端

$sudo apt-get install nautilus-open-terminal 这样便会在每个文件夹的右键菜单中出现 "在终端中打开" 的一个选项, 选择便会打开一个终端, 路径为当前文件夹! 当然, 可以使用 nautilus-scripts 添加右键扩展. 在 ~/.gnome2/nautilus-scripts/ 目录下新建一个文件名…

如何删除SQL Server下注册的服务器

删除对应的sql server的注册服务器: HKEY_CURRENT_USER\Software\Microsoft\Microsoft SQL Server\80\Tools\SQLEW\Registered Servers X\SQL Server 组中, 直接删除你你要删除的那个注册名就可以了 转载于:https://www.cnblogs.com/tohen/archive/2010/…