【数据挖掘导论】——数据质量

数据质量
数据挖掘使用的数据一般是为其它用途收集或者收集的时候还没有明白目的。

因此数据经常不能在数据的源头控制质量。为了避免数据质量的问题,所以数据挖掘着眼于两个方面:数据质量问题的检測和纠正(数据清理);使用能够容忍低质量数据的算法。


測量和数据收集问题
完美的数据在实际中差点儿是不存在的,对于存在的数据质量问题,我们先定义測量误差和数据收集错误,然后考虑測量误差的各种问题:噪声,伪像。偏倚,精度和精确度。

接着讨论測量和数据收集的数据质量问题:离群点,遗漏和不一致的值,反复数据。


測量误差(measurements error)是指測量过程中导致的问题,如:记录的值与实际的值不同样。
数据收集错误(data collection error)是指诸如遗漏数据对象或属性值,或不当地包括了其它数据对象等错误。如:特定的物种研究可能混入相似物种的数据。測量和数据收集错误可能是系统的也可能是随机的。

噪声是測量误差的随即部分,如2-5显示被随机噪声干扰后的时间序列,假设噪声很的多,甚至会掩盖原有的数据。


图2-6显示的三组被加入噪声点前后的数据点集。

噪声通经常使用于包括时间或空间分量的数据,在这些情况下,能够使用图形或信号处理技术来降噪,但全然的消除是很困难的。所以数据挖掘都关注涉及鲁棒算法(robust algorithm),即在有噪声干扰下也能产生被接受的结果。数据错误也可能是更确定性现象的结果,如一组数据在同一个地方出现同样的错误。这样的确定性失真称作伪像(artifact)

精度(precision):反复測量值之间的接近程度
偏倚(bias):測量值与被測量值之间的系统的变差
假定我们有1克的标准砝码,想评估新天平的精度和偏倚,称重5次得到{1.015 , 0990 , 1.013 , 1.001,0.986}这些值的平均值是1.001,因此偏倚是0.001,。用标准差度量。精度是0.013.

准确率:被測量的測量值与实际值之间的接近度。

准确度依赖于精度和偏倚,还有一个重要的方面是有效数字(significant digit)的使用,其目的是仅使用数据准确度所能确定的数字位数表示測量或计算结果。

离群点(outlier)是在某种意义上具有不同与数据集 中其它 大部分 数据对象的特征 的数据对象。或是相对于该属性的典型值来说不平常的属性值。

称为异常(anomalous)对象或异常值。

须要注意的是差别噪声和离群点:离群点能够是合法的数据对象或值。因此不像噪声,离群点本身是人们感兴趣的对象。


遗漏值
一个对象遗漏一个或多个属性值的情况还是非常寻常的。有时甚至还会出现信息收集不全的情况。

但不管何种情况,在数据分析时都应当考虑遗漏值。

那怎么应对遗漏值:

  • 删除数据对象或属性
  • 预计遗漏值
  • 分析时忽略遗漏值

不一致的值
数据可能包括不一致的值,如:帐号和password由于手误填写错误等。不管是什么原因导致不一致的值。重要是能检測出来,而且纠正。

反复数据
数据集可能包括反复的数据对象,对于反复的数据一般都进行检測和删除。但做这些步骤之前,得处理两个问题:假设两个对象实际代表同一个对象,则相应的属性值必定不同。必须解决这些不一致的值。

须要避免意外将两个相似但不反复的数据对象合并在一起;去反复(deduplication)通常表示这一过程。


转载于:https://www.cnblogs.com/jzssuanfa/p/7142178.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/355215.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spark学习笔记(7)---Spark SQL学习笔记

Spark SQL学习笔记 Spark SQL学习笔记设计到很多代码操作,所以就放在github, https://github.com/yangtong123/RoadOfStudySpark/blob/master/src/com/spark/sql/Readme.md其中包括了对Spark2.0的新特性的介绍,包括SparkSession, DataSet等转载于:https:…

性能实战(一) --- clock_gettime造成系统整体cpu过高定位过程

问题背景 有一台linux服务器测试环境cpu经常到达80%,造成系统卡顿,部分功能不可用. 分析步骤 1.使用perf制作cpu火焰图 通过制作cpu火焰图,发现很多进程都存在大量的clock_gettime系统调用. 2. 使用bcc工具funclatency`进一步查看clock_gettime的调用次数 # /usr/share/bc…

玩透个人所得税

每次拿着工资条的时候,总有个代扣个税这么一项,不知道你们有没有想过这到底是怎样计算得出来的。下面我就给你们普及一下这个知识。 个人所得税 个人所得税是对个人(自然人)取得的各项所得征收的一种所得税。个人所得税…

哔哩哔哩swot分析_哔哩哔哩2020校园招聘游戏运营笔试真题

在前不久《英雄联盟》S9世界大赛总决赛上,中国FPX战队以3:0横扫欧洲G2最终夺得S9世界冠军,国内玩家万分激动。总决赛刚结束不久,B站以8亿元价格拍得《英雄联盟》全球总决赛中国地区三年独家直播版权。作为主打年轻人群体起家的产品…

P2280 [HNOI2003]激光炸弹

P2280 [HNOI2003]激光炸弹 题目描述 输入输出格式 输入格式:输入文件名为input.txt 输入文件的第一行为正整数n和正整数R,接下来的n行每行有3个正整数,分别表示 xi,yi ,vi 。 输出格式:输出文件名为output.…

在Spring Boot中使用配置元数据来配置您的配置

Spring Boot 1.3.0中发布了许多更新,但是其中一个对我很突出,因为我以前并不了解此更新,它的状态使其成为一项真正有用的功能(不幸的是,撰写本文时仅在Spring Boot中可用)这个)。 我正在谈论配置…

jsp实现数据禁用和只读

jsp实现数据禁用和只读

java事务不生效场景_讲一下,我最近帮忙面试的几个“高级”JAVA,真的心累

最近看了很多简历,很多候选人年限不小,但是想着也不能通过简历就直接否定一个人,何况现在大环境越来 越难,大家找工作也不容易,于是就打算见一见。在沟通中发现,由于年限不小,他们的定位基本都是…

antlr 教程_ANTLR教程– Hello Word

antlr 教程Antlr代表另一种语言识别工具。 该工具能够为任何计算机语言生成编译器或解释器。 除了明显的用途(例如需要解析一种真正的“大型”编程语言,例如Java,PHP或SQL)外,它还可以帮助执行更小,更常见的…

Java中使用ArrayList的10个示例–教程

Java中的ArrayList是HashMap之后最常用的集合类。 Java ArrayList表示一个可自动调整大小的数组,并用于代替数组。 由于创建数组后我们无法修改数组的大小,因此我们更喜欢在Java中使用ArrayList,一旦数组满了,它就会自动调整大小。…

[SoapUI] How to create a random UUID in each Request's Headers

${java.util.UUID.randomUUID()} is OK 转载于:https://www.cnblogs.com/MasterMonkInTemple/p/7159589.html

设置Tomcat管理员用户名和密码

http://dove19900520.iteye.com/blog/1774980 今天tomcat出点问题,然后我就想进入tomcat manager看看,结果怎么输入密码都不行,后来网上查了查才找到配置管理员用户名和密码的正确方式,在此记录一下: 要想配置管理员用…

怎么把两个div一左一右放

怎么把两个div一左一右放1.代码 <% page contentType"text/html;charsetUTF-8" language"java" %> <html> <head><title>Title</title> </head> <body> <div style"width:150px;height:50px;margin:0;…

为Java + STANDARD值引入Cucumber

作为软件开发人员&#xff0c;我们都有最喜欢的工具来使我们成功。 许多人在上手时就很适合这份工作&#xff0c;但很快就不见了。 其他人则需要太多的设置和培训才能“将脚趾浸入水中”&#xff0c;只是为了找出自己是否是正确的工具即可。 Cucumber JVM是一个测试框架&#…

一个逼格很低的appium自动化测试框架

Github地址: https://github.com/wuranxu 使用说明 1. 安装配置Mongo数据库 下载地址 mongo是用来存放元素定位的&#xff0c;截图如下: 通过case_id区分每个case的元素定位 里面提供了value, method和text字段&#xff0c;分别作用是定位的值&#xff0c;定位的方法和要输入的…

Port already in use: 1099;

Port already in use: 1099;1.使用命令:netstat -aon|findstr 1099 找出占用1099端口的进程; 2.关闭占用该端口的进程:taskkill -f -pid 9336;

一款好用且免费的语句分析工具Plan Explorer

在调优过程中的查询语句优化阶段&#xff0c;分析语句的执行计划是必经之路&#xff0c;一款好的执行计划分析工具确实可以帮助我们事半功倍 小贴士&#xff1a;Plan Explorer是将Plan Explorer 专业版与免费版整合在一起发布的全新、完全免费版。微软的数据库专家和开发人员也…

前端如何发ModelAndView的请求

前端如何发ModelAndView的请求1.在Web.xml指定用作工具的跳转页面

带有Gluon Ignite和Dagger的JavaFX中的依赖注入

依赖注入抽象框架Gluon Ignite在几个流行的依赖注入框架&#xff08;例如Spring&#xff0c;Dagger和Guice&#xff09;上创建了一个通用抽象。 目前&#xff0c;Gluon 页面仅包含一个示例&#xff0c;该示例使用Gluon Ignite和Google Guice作为依赖注入框架&#xff0c;我想尝…

checkbox对齐排列

checkbox对齐排列<span style"width: 120px;display: inline-block"><lable><input type"checkbox"/></lable> </span>常用的 display 可能的值&#xff1a;