光滑噪声数据常用的方法_数据挖掘中常用的数据清洗方法

3ee61df426e3b244144fd16a4a2f21d6.gif

是新朋友吗?记得先点蓝字关注我哦~

数据挖掘中

常用的数据清洗方法

5d9460cc-1153-eb11-8da9-e4434bdf6706.svg

在数据挖掘过程中,数据清洗主要根据探索性分析后得到的一些结论入手,然后主要对四类异常数据进行处理,分别是缺失值(missing value),异常值(离群点),去重处理(Duplicate Data)以及噪音数据的处理。

8b1a705a13ce2e75f09906f41190c2e2.png

1. 探索性分析

探索性分析部分,对于整个数据来讲是获得对数据一个初步的认识以及对先验知识的一个探索分析过程,在我做相关数据挖掘的过程中,主要是利用python相关的科学计算库进行数据初步的探索,例如数据类型,缺失值,数据集规模,各特征下的数据分布情况等,并利用第三方绘图库进行直观的观察,以获取数据的基本属性与分布情况,另外,通过单变量分析与多变量分析,可以初步探索数据集中各特征之间的关系,以验证在业务分析阶段所提出的假设。

2fa3245363f92bfca876a22d157a766b.png

2. 缺失值

数据集中缺失值的获取方法可以直接通过pandas的自带的多种方法获取,在大多数数据集中缺失值都普遍会存在,因此,对于缺失值的处理好坏会直接影响到模型的最终结果。如何处理缺失值,主要依据在缺失值所在属性的重要程度以及缺失值的分布情况。

①.在缺失率少且属性重要程度低的情况下,若属性为数值型数据则根据数据分布情况简单的填充即可,例如:若数据分布均匀,则使用均值对数据进行填充即可;若数据分布倾斜,使用中位数填充即可。若属性为类别属性,则可以用一个全局常量‘Unknow’填充,但是,这样做往往效果很差,因为算法可能会将其识别为一个全新的类别,因此很少使用。

②.当缺失率高(>95%)且属性重要程度低时,直接删除该属性即可。然而在缺失值高且属性程度较高时,直接删除该属性对于算法的结果会造成很不好的影响。

③.缺失值高,属性重要程度高:主要使用的方法有插补法与建模法

(1)插补法主要有随机插补法,多重插补法,热平台插补法,以及拉格朗日插值法与牛顿插值法

1>随机插补法--从总体中随机抽取某几个样本代替缺失样本

2>多重插补法--通过变量之间的关系对缺失数据进行预测,利用蒙特卡洛方法生成多个完整的数据集,在对这些数据集进行分析,最后对分析结果进行汇总处理

3>热平台插补----指在非缺失数据集中找到一个与缺失值所在样本相似的样本(匹配样本),利用其中的观测值对缺失值进行插补。

优点:简单易行,准确率较高

缺点:变量数量较多时,通常很难找到与需要插补样本完全相同的样本。但我们可以按照某些变量将数据分层,在层中对缺失值实用均值插补

4>拉格朗日差值法和牛顿插值法

(2)建模法

  可以用回归、贝叶斯、随机森林、决策树等模型对缺失数据进行预测。例如:利用数据集中其他数据的属性,可以构造一棵判定树,来预测缺失值的值。

一般而言,数据缺失值的处理没有统一的流程,必须根据实际数据的分布情况,倾斜程度,缺失值所占比例等来选择方法。在我做数据预处理过程中,除了使用简单的填充法外与删除外,更多情况下采用建模法进行填充,主要在于建模法根据已有的值去预测未知值,准确率较高。但建模法也可能造成属性之间的相关性变大,可能影响最终模型的训练。

62132263bdffe0bfe9724068ba1a8059.png

3. 异常值(离群点)

判断离群点除了可视化分析外(一般箱线图),还有很多基于统计背景下的方法,且可视化观察不适合用数据量较多的情况。

3.1 简单的统计分析

这一步在EDA中完成,只需要利用pandas的describe方法就可以实现,通过数据集描述性统计,发现是否存在不合理的值,即异常值

3.2 3∂原则--基于正态分布的离群点检测

如果数据服从正态分布,在3∂原则下,异常值为一组测定值中与平均值的偏差超过3倍标准差的值。如果数据服从正态分布,距离平均值3∂之外的值出现的概率为P(|x-u| > 3∂) <= 0.003,属于极个别的小概率事件。如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。

3.3 基于模型检测

首先建立一个数据模型,异常是那些同模型不能完美拟合的对象;如果模型是簇的集合,则异常是不显著属于任何簇的对象;在使用回归模型时,异常是相对远离预测值的对象

3.4 基于距离

通过在对象之间定义临近性度量,异常对象是那些远离其它对象的对象

优点:简单易操作

缺点:时间复杂度为O(m^2),不适用于大数据集情况,参数选择较为敏感,不能处理具有不同密度区域的数据集,因为它使用全局阈值,不能考虑这种密度的变化

3.5 基于密度

当一个点的局部密度显著低于它的大部分近邻时才将其分类为离群点。适合非均匀分布的数据。

优点:给出了对象是离群点的定量度量,并且即使数据具有不同的区域也能够很好的处理

缺点:时间复杂度O(m^2);参数选择困难,虽然算法通过观察不同的k值,取得最大离群点得分来处理该问题,但是,仍然需要选择这些值的上下界。

3.6 基于聚类

基于聚类的离群点:一个对象是基于聚类的离群点,如果该对象不强属于任何簇。离群点对初始聚类的影响:如果通过聚类检测离群点,则由于离群点影响聚类,存在一个问题:结构是否有效。为了处理该问题,可以使用如下方法:对象聚类,删除离群点,对象再次聚类。

优点:

① 基于线性和接近线性复杂度(k均值)的聚类技术来发现离群点可能是高度有效的 ② 簇的定义通常是离群点的补,因此可能同时发现簇和离群点

缺点:

① 产生的离群点集和它们的得分可能非常依赖所用的簇的个数和数据中离群点的存在性

② 聚类算法产生的簇的质量对该算法产生的离群点的质量影响非常大

处理异常点的方法:

1>删除异常值----明显看出是异常且数量较少可以直接删除

2>不处理---如果算法对异常值不敏感则可以不处理,但如果算法对异常值敏感,则最好不要用这种方法,如基于距离计算的一些算法,包括kmeans,knn之类的。

3>平均值替代----损失信息小,简单高效。

4>视为缺失值----可以按照处理缺失值的方法来处理

6469927b5bd3a1dce81a04a3f8965976.png

4. 去重处理

对于重复项的判断,基本思想是“排序与合并”,先将数据集中的记录按一定规则排序,然后通过比较邻近记录是否相似来检测记录是否重复。这里面其实包含了两个操作,一是排序,二是计算相似度。目前在做竞赛过程中主要是用duplicated方法进行判断,然后将重复的样本进行简单的删除处理。

这块目前看到的博客与国外一些比赛的案例基本都采用直接删除进行处理,没有看到过比较有新意的方法。

85b0f34686afe1efd59e88df4ee2bc16.png

5. 噪音处理

噪音是被测变量的随机误差或者方差,主要区别于离群点。由公式:观测量(Measurement) = 真实数据(True Data) + 噪声 (Noise)。离群点属于观测量,既有可能是真实数据产生的,也有可能是噪声带来的,但是总的来说是和大部分观测量之间有明显不同的观测值。噪音包括错误值或偏离期望的孤立点值,但也不能说噪声点包含离群点,虽然大部分数据挖掘方法都将离群点视为噪声或异常而丢弃。然而,在一些应用(例如:欺诈检测),会针对离群点做离群点分析或异常挖掘。而且有些点在局部是属于离群点,但从全局看是正常的。

对于噪音的处理主要采用分箱法于回归法进行处理:

(1) 分箱法

分箱方法通过考察数据的“近邻”来光滑有序数据值。这些有序的值被分布到一些“桶”或箱中。由于分箱方法考察近邻的值,因此它进行局部光滑。

l 用箱均值光滑:箱中每一个值被箱中的平均值替换。

l 用箱中位数平滑:箱中的每一个值被箱中的中位数替换。

l 用箱边界平滑:箱中的最大和最小值同样被视为边界。箱中的每一个值被最近的边界值替换。

一般而言,宽度越大,光滑效果越明显。箱也可以是等宽的,其中每个箱值的区间范围是个常量。分箱也可以作为一种离散化技术使用.

(2) 回归法

可以用一个函数拟合数据来光滑数据。线性回归涉及找出拟合两个属性(或变量)的“最佳”直线,使得一个属性能够预测另一个。多线性回归是线性回归的扩展,它涉及多于两个属性,并且数据拟合到一个多维面。使用回归,找出适合数据的数学方程式,能够帮助消除噪声。

5d9460cc-1153-eb11-8da9-e4434bdf6706.svg

原文链接:https://blog.csdn.net/jiazericky/java/article/details/8032222

1a865335390d278a0512108a97f51665.gif 点“在看”给我一个小心心

f1a6ed0813d24ffd295ea89cb7c4d60c.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/551508.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为nova3游戏帧数测试软件,华为nova3最全游戏体验报告:手游玩家一定不能错过...

华为nova3搭载麒麟970人工智能芯片&#xff0c;并支持GPU Turbo、4D智能震撼、游戏免打扰等专为提升游戏体验的技术&#xff0c;那Nova3的实际游戏体验到底如何呢&#xff1f;楼主选择了三款游戏进行测试&#xff0c;分别为王者荣耀、绝地求生 刺激战场和QQ飞车&#xff01;先来…

python实战演练_《Python高效开发实战》实战演练——

在完成Django项目和应用的建立后&#xff0c;即可以开始编写网站应用代码&#xff0c;这里通过为注册页面显示一个欢迎标题&#xff0c;来演示Django的路由映射功能。 1&#xff09;首先在djangosite/app/views.py中建立一个路由响应函数&#xff1a;from django.http import H…

3 上传分段_32式太极拳教材分段教学:【3】32式太极拳背向演示 .3/25.

观看视频前&#xff0c;请先点击上面的蓝色字“杨式太极拳习练之家教学视频"再点击“关注”&#xff0c;这样您就可以继续免费收到太极拳剑相关教学视频了。加关注后&#xff0c;再【点击】上面的蓝色字“杨式太极拳习练之家教学视频"&#xff0c;进入到“杨式太极拳…

计算机的硬件技能,计算机的最基础——软硬件

过去&#xff0c;互联网教程还不能像如今这样&#xff0c;大行其道。以前计算机的软硬配件都上不来。而无论你是学习什么的&#xff0c;都应该知道&#xff0c;计算机的最基础就是软硬件。计算机(computer)俗称电脑&#xff0c;是一种用于高速计算的电子计算机器&#xff0c;可…

python删除文件和linux删除文件区别_Linux删除文件不同方法效率对比

测试一下Linux下面删除大量文件的效率。 首先建立50万个文件 $ test for i in $(seq 1 500000);do echo text >>$i.txt;done 1. rm删除 $ time rm -f * zsh: sure you want to delete all the files in /home/hungerr/test [yn]? y zsh: argument list too long: rm rm …

python字典进行大写转化_Python字典转换成小写?

基本上比较一个小写版本的响应与小写版本的正确答案。在但有几件事在你的问题中并不完全清楚&#xff1a;你到底在records中存储了什么&#xff1f;确认书中应使用哪个国家的名称是。。。在…里&#xff1f;您想将用户的响应与有效同义词列表相匹配&#xff0c;对吗&#xff1f…

计算机里的东西太多,电脑里的东西太多,怎么样清理一下啊

一、清理C盘(1) 开始——搜索——文件或文件夹——全部或部分文件名处填写“cookie”,下面的在这里寻找选择“本地磁盘C”——下面“更多高级选项”除了“区分大小写”外全部打上勾——搜索——打开文件夹cookie——除了“index.dat”外&#xff0c;其它全部删除。其它的cookie…

python运用在哪些地方_必看 | 2020年,Python十大应用领域介绍!

原标题&#xff1a;必看 | 2020年&#xff0c;Python十大应用领域介绍&#xff01; python作为一门当下极其火爆的编程语言&#xff0c;得到世界范围内无数编程爱好者和开发者喜欢并不是偶然的&#xff0c;除了要比其他编程语言更容易入门&#xff0c;python还拥有无比广阔的应…

python图片保存重命名_Python实现重命名一个文件夹下的图片

在网上查了一下python实现的图片重命名&#xff0c;工作中刚好用一下。1 # -*- coding:utf8 -*-2 import os3 path 新建文件夹 (2)/4 filelist os.listdir(path)5 for item in filelist:6 # print(item name is ,item)7 if item.endswith(.jpg):8 name item.split(.,1)[0]9 …

计算机jsp外文文献,计算机 JSP web 外文翻译 外文文献 .doc

PAGEword文档 可自由复制编辑外文资料所译外文资料&#xff1a; 1 \* GB3 ① 作者&#xff1a;Dan Malks 2 \* GB3 ② 书名&#xff1a;Professional JSP 3 \* GB3 ③ 出版时间: 2000.7.26 4 \* GB3 ④ 所译章节: Chapter 1212.1 IntroductoryGood Web application design trie…

ffmpeg libx264_nginx+ffmpeg搭建流媒体服务器(直播流)

这里实现了简单nginxffmpeg 推本地mp4视频文件的功能&#xff0c;以后将会继续更新环境系统环境&#xff1a;CentOS release 6.7 (Final)需求利用nginx和ffmpeg搭建流媒体服务器利用nginx和ffmpeg搭建流媒体服务器(直播流)&#xff0c;其他流后续会有所更新关于用Nginx搭建flv,…

模拟器不全屏_puNES 适用于 Windows 和 Linux 的开源 NES 模拟器

在游戏方面&#xff0c;我个人并不喜欢玩网络游戏&#xff0c;如果要玩游戏&#xff0c;也都是玩一些单机版的&#xff0c;我个人比较喜欢 ATC 动作过关游戏。年前的时候用发小的 PS4 玩了几天&#xff0c;虽然游戏都是大作&#xff0c;但是仍然无法撼动我对单机以及像素类游戏…

计算机人文研究生专业,西安科技大学,艺术、人文、材料、计算机、通信等专业调剂信息...

学院&#xff1a;艺术学院接受调剂的学科及专业领域调剂要求1&#xff0e;符合西安科技大学2020年硕士研究生招生简章中规定的报考条件。2.调剂考生成绩(单科、总分)符合第一志愿报考专业和申请调剂专业在A类地区的《全国初试成绩基本要求》。3&#xff0e;申请调剂专业与第一志…

python爬虫加密空间_Python爬虫进阶必备 | XX同城加密分析

目标网站&#xff1a; aHR0cHM6Ly9wYXNzcG9ydC41OC5jb20vbG9naW4vP3BhdGg9aHR0cHMlM0EvL2Z6LjU4LmNvbS8mUEdUSUQ9MGQxMDAwMDAtMDAxMy0wMjk0LTFjZWItYjU3NTBiZDIwNmU5JkNsaWNrSUQ9Mg 抓包分析与加密定位 老规矩先抓包看看【图1-1】图1-1 今天主要分析的是划线的三个参数&#xf…

icloud连接服务器时出现问题_登录iCloud提示验证失败,连接到服务器时出现问题怎么办...

若您在 iPhone/iPad 上使用 Apple ID 登录 iCloud 时&#xff0c;提示“验证失败&#xff1a;连接到服务器时出现问题”&#xff0c;一般是网络连接出现异常导致&#xff0c;请参考如下信息尝试解决。检查网络状况请确保您的 iPhone 已经连接到网络&#xff0c;您可以打开 Safa…

苹果验证电子邮件地址服务器错误,苹果7P账户申请,验证电子邮件地址创建新Apple ID发生未知错误...

在电脑上可以注册地址的1、在IOS设备或电脑上都可以注册Apple ID&#xff0c;打开iTunes然后点击左上角的上角菜单图标&#xff0c;依次点击iTunes store和创建Apple ID&#xff0c;跳转页面之后出现欢迎光临iTunes store的页面&#xff0c;点击右下角的继续即可2、随后进入到条…

代码 抠图_3 行 Python 代码 5 秒抠图的 AI 神器,根本无需 PS

文 | 苏克 1900高级农名工推荐 | 编程派公众号(ID&#xff1a;codingpy)曾几何时&#xff0c;「抠图」是一个难度系数想当高的活儿&#xff0c;但今天要介绍的这款神工具&#xff0c;只要 3 行代码 5 秒钟就可以完成高精度抠图&#xff0c;甚至都不用会代码&#xff0c;点两下鼠…

用python设计数独的心得体会_python实现数独算法实例

本文实例讲述了python实现数独算法的方法。分享给大家供大家参考。具体如下&#xff1a; # -*- coding: utf-8 -*-Created on 2012-10-5 author: Administratorfrom collections import defaultdict import itertools a [ [ 0,7,0],#0 [ 5,3,6,#1 [ 0,2,8,#2 # [ 0,5,#3 [ 0,4…

css页面布局的感想,css布局实践感想(示例代码)

自己的一些‘想法’&#xff0c;想要记录下来。在实际写的时候经常会“随心所欲”&#xff0c;希望这个笔记能让自己更"规范"。我的业务主要是围绕webApp和微信端&#xff0c;思想上靠近移动端布局。1.最大的容器通常使用类名做外部最大容器&#xff0c;这也是很多ui…

ftp上传文件夹_ftp同步软件哪个好,ftp同步软件哪个好,6款好用推荐

ftp同步软件哪个好呢&#xff1f;不知道大家用过ftp同步工具吗&#xff1f;小编用过几款ftp同步工具很好用。有的软件有定时上传下载的功能&#xff0c;定时这个功能是真的很棒了&#xff0c;节省了很多时间而且还很方便快捷。下面小编就来推荐六款好用的ftp同步软件吧。第一款…