光滑噪声数据常用的方法_数据挖掘中常用的数据清洗方法

3ee61df426e3b244144fd16a4a2f21d6.gif

是新朋友吗?记得先点蓝字关注我哦~

数据挖掘中

常用的数据清洗方法

5d9460cc-1153-eb11-8da9-e4434bdf6706.svg

在数据挖掘过程中,数据清洗主要根据探索性分析后得到的一些结论入手,然后主要对四类异常数据进行处理,分别是缺失值(missing value),异常值(离群点),去重处理(Duplicate Data)以及噪音数据的处理。

8b1a705a13ce2e75f09906f41190c2e2.png

1. 探索性分析

探索性分析部分,对于整个数据来讲是获得对数据一个初步的认识以及对先验知识的一个探索分析过程,在我做相关数据挖掘的过程中,主要是利用python相关的科学计算库进行数据初步的探索,例如数据类型,缺失值,数据集规模,各特征下的数据分布情况等,并利用第三方绘图库进行直观的观察,以获取数据的基本属性与分布情况,另外,通过单变量分析与多变量分析,可以初步探索数据集中各特征之间的关系,以验证在业务分析阶段所提出的假设。

2fa3245363f92bfca876a22d157a766b.png

2. 缺失值

数据集中缺失值的获取方法可以直接通过pandas的自带的多种方法获取,在大多数数据集中缺失值都普遍会存在,因此,对于缺失值的处理好坏会直接影响到模型的最终结果。如何处理缺失值,主要依据在缺失值所在属性的重要程度以及缺失值的分布情况。

①.在缺失率少且属性重要程度低的情况下,若属性为数值型数据则根据数据分布情况简单的填充即可,例如:若数据分布均匀,则使用均值对数据进行填充即可;若数据分布倾斜,使用中位数填充即可。若属性为类别属性,则可以用一个全局常量‘Unknow’填充,但是,这样做往往效果很差,因为算法可能会将其识别为一个全新的类别,因此很少使用。

②.当缺失率高(>95%)且属性重要程度低时,直接删除该属性即可。然而在缺失值高且属性程度较高时,直接删除该属性对于算法的结果会造成很不好的影响。

③.缺失值高,属性重要程度高:主要使用的方法有插补法与建模法

(1)插补法主要有随机插补法,多重插补法,热平台插补法,以及拉格朗日插值法与牛顿插值法

1>随机插补法--从总体中随机抽取某几个样本代替缺失样本

2>多重插补法--通过变量之间的关系对缺失数据进行预测,利用蒙特卡洛方法生成多个完整的数据集,在对这些数据集进行分析,最后对分析结果进行汇总处理

3>热平台插补----指在非缺失数据集中找到一个与缺失值所在样本相似的样本(匹配样本),利用其中的观测值对缺失值进行插补。

优点:简单易行,准确率较高

缺点:变量数量较多时,通常很难找到与需要插补样本完全相同的样本。但我们可以按照某些变量将数据分层,在层中对缺失值实用均值插补

4>拉格朗日差值法和牛顿插值法

(2)建模法

  可以用回归、贝叶斯、随机森林、决策树等模型对缺失数据进行预测。例如:利用数据集中其他数据的属性,可以构造一棵判定树,来预测缺失值的值。

一般而言,数据缺失值的处理没有统一的流程,必须根据实际数据的分布情况,倾斜程度,缺失值所占比例等来选择方法。在我做数据预处理过程中,除了使用简单的填充法外与删除外,更多情况下采用建模法进行填充,主要在于建模法根据已有的值去预测未知值,准确率较高。但建模法也可能造成属性之间的相关性变大,可能影响最终模型的训练。

62132263bdffe0bfe9724068ba1a8059.png

3. 异常值(离群点)

判断离群点除了可视化分析外(一般箱线图),还有很多基于统计背景下的方法,且可视化观察不适合用数据量较多的情况。

3.1 简单的统计分析

这一步在EDA中完成,只需要利用pandas的describe方法就可以实现,通过数据集描述性统计,发现是否存在不合理的值,即异常值

3.2 3∂原则--基于正态分布的离群点检测

如果数据服从正态分布,在3∂原则下,异常值为一组测定值中与平均值的偏差超过3倍标准差的值。如果数据服从正态分布,距离平均值3∂之外的值出现的概率为P(|x-u| > 3∂) <= 0.003,属于极个别的小概率事件。如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述。

3.3 基于模型检测

首先建立一个数据模型,异常是那些同模型不能完美拟合的对象;如果模型是簇的集合,则异常是不显著属于任何簇的对象;在使用回归模型时,异常是相对远离预测值的对象

3.4 基于距离

通过在对象之间定义临近性度量,异常对象是那些远离其它对象的对象

优点:简单易操作

缺点:时间复杂度为O(m^2),不适用于大数据集情况,参数选择较为敏感,不能处理具有不同密度区域的数据集,因为它使用全局阈值,不能考虑这种密度的变化

3.5 基于密度

当一个点的局部密度显著低于它的大部分近邻时才将其分类为离群点。适合非均匀分布的数据。

优点:给出了对象是离群点的定量度量,并且即使数据具有不同的区域也能够很好的处理

缺点:时间复杂度O(m^2);参数选择困难,虽然算法通过观察不同的k值,取得最大离群点得分来处理该问题,但是,仍然需要选择这些值的上下界。

3.6 基于聚类

基于聚类的离群点:一个对象是基于聚类的离群点,如果该对象不强属于任何簇。离群点对初始聚类的影响:如果通过聚类检测离群点,则由于离群点影响聚类,存在一个问题:结构是否有效。为了处理该问题,可以使用如下方法:对象聚类,删除离群点,对象再次聚类。

优点:

① 基于线性和接近线性复杂度(k均值)的聚类技术来发现离群点可能是高度有效的 ② 簇的定义通常是离群点的补,因此可能同时发现簇和离群点

缺点:

① 产生的离群点集和它们的得分可能非常依赖所用的簇的个数和数据中离群点的存在性

② 聚类算法产生的簇的质量对该算法产生的离群点的质量影响非常大

处理异常点的方法:

1>删除异常值----明显看出是异常且数量较少可以直接删除

2>不处理---如果算法对异常值不敏感则可以不处理,但如果算法对异常值敏感,则最好不要用这种方法,如基于距离计算的一些算法,包括kmeans,knn之类的。

3>平均值替代----损失信息小,简单高效。

4>视为缺失值----可以按照处理缺失值的方法来处理

6469927b5bd3a1dce81a04a3f8965976.png

4. 去重处理

对于重复项的判断,基本思想是“排序与合并”,先将数据集中的记录按一定规则排序,然后通过比较邻近记录是否相似来检测记录是否重复。这里面其实包含了两个操作,一是排序,二是计算相似度。目前在做竞赛过程中主要是用duplicated方法进行判断,然后将重复的样本进行简单的删除处理。

这块目前看到的博客与国外一些比赛的案例基本都采用直接删除进行处理,没有看到过比较有新意的方法。

85b0f34686afe1efd59e88df4ee2bc16.png

5. 噪音处理

噪音是被测变量的随机误差或者方差,主要区别于离群点。由公式:观测量(Measurement) = 真实数据(True Data) + 噪声 (Noise)。离群点属于观测量,既有可能是真实数据产生的,也有可能是噪声带来的,但是总的来说是和大部分观测量之间有明显不同的观测值。噪音包括错误值或偏离期望的孤立点值,但也不能说噪声点包含离群点,虽然大部分数据挖掘方法都将离群点视为噪声或异常而丢弃。然而,在一些应用(例如:欺诈检测),会针对离群点做离群点分析或异常挖掘。而且有些点在局部是属于离群点,但从全局看是正常的。

对于噪音的处理主要采用分箱法于回归法进行处理:

(1) 分箱法

分箱方法通过考察数据的“近邻”来光滑有序数据值。这些有序的值被分布到一些“桶”或箱中。由于分箱方法考察近邻的值,因此它进行局部光滑。

l 用箱均值光滑:箱中每一个值被箱中的平均值替换。

l 用箱中位数平滑:箱中的每一个值被箱中的中位数替换。

l 用箱边界平滑:箱中的最大和最小值同样被视为边界。箱中的每一个值被最近的边界值替换。

一般而言,宽度越大,光滑效果越明显。箱也可以是等宽的,其中每个箱值的区间范围是个常量。分箱也可以作为一种离散化技术使用.

(2) 回归法

可以用一个函数拟合数据来光滑数据。线性回归涉及找出拟合两个属性(或变量)的“最佳”直线,使得一个属性能够预测另一个。多线性回归是线性回归的扩展,它涉及多于两个属性,并且数据拟合到一个多维面。使用回归,找出适合数据的数学方程式,能够帮助消除噪声。

5d9460cc-1153-eb11-8da9-e4434bdf6706.svg

原文链接:https://blog.csdn.net/jiazericky/java/article/details/8032222

1a865335390d278a0512108a97f51665.gif 点“在看”给我一个小心心

f1a6ed0813d24ffd295ea89cb7c4d60c.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/551508.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为nova3游戏帧数测试软件,华为nova3最全游戏体验报告:手游玩家一定不能错过...

华为nova3搭载麒麟970人工智能芯片&#xff0c;并支持GPU Turbo、4D智能震撼、游戏免打扰等专为提升游戏体验的技术&#xff0c;那Nova3的实际游戏体验到底如何呢&#xff1f;楼主选择了三款游戏进行测试&#xff0c;分别为王者荣耀、绝地求生 刺激战场和QQ飞车&#xff01;先来…

3 上传分段_32式太极拳教材分段教学:【3】32式太极拳背向演示 .3/25.

观看视频前&#xff0c;请先点击上面的蓝色字“杨式太极拳习练之家教学视频"再点击“关注”&#xff0c;这样您就可以继续免费收到太极拳剑相关教学视频了。加关注后&#xff0c;再【点击】上面的蓝色字“杨式太极拳习练之家教学视频"&#xff0c;进入到“杨式太极拳…

python运用在哪些地方_必看 | 2020年,Python十大应用领域介绍!

原标题&#xff1a;必看 | 2020年&#xff0c;Python十大应用领域介绍&#xff01; python作为一门当下极其火爆的编程语言&#xff0c;得到世界范围内无数编程爱好者和开发者喜欢并不是偶然的&#xff0c;除了要比其他编程语言更容易入门&#xff0c;python还拥有无比广阔的应…

ffmpeg libx264_nginx+ffmpeg搭建流媒体服务器(直播流)

这里实现了简单nginxffmpeg 推本地mp4视频文件的功能&#xff0c;以后将会继续更新环境系统环境&#xff1a;CentOS release 6.7 (Final)需求利用nginx和ffmpeg搭建流媒体服务器利用nginx和ffmpeg搭建流媒体服务器(直播流)&#xff0c;其他流后续会有所更新关于用Nginx搭建flv,…

模拟器不全屏_puNES 适用于 Windows 和 Linux 的开源 NES 模拟器

在游戏方面&#xff0c;我个人并不喜欢玩网络游戏&#xff0c;如果要玩游戏&#xff0c;也都是玩一些单机版的&#xff0c;我个人比较喜欢 ATC 动作过关游戏。年前的时候用发小的 PS4 玩了几天&#xff0c;虽然游戏都是大作&#xff0c;但是仍然无法撼动我对单机以及像素类游戏…

计算机人文研究生专业,西安科技大学,艺术、人文、材料、计算机、通信等专业调剂信息...

学院&#xff1a;艺术学院接受调剂的学科及专业领域调剂要求1&#xff0e;符合西安科技大学2020年硕士研究生招生简章中规定的报考条件。2.调剂考生成绩(单科、总分)符合第一志愿报考专业和申请调剂专业在A类地区的《全国初试成绩基本要求》。3&#xff0e;申请调剂专业与第一志…

python爬虫加密空间_Python爬虫进阶必备 | XX同城加密分析

目标网站&#xff1a; aHR0cHM6Ly9wYXNzcG9ydC41OC5jb20vbG9naW4vP3BhdGg9aHR0cHMlM0EvL2Z6LjU4LmNvbS8mUEdUSUQ9MGQxMDAwMDAtMDAxMy0wMjk0LTFjZWItYjU3NTBiZDIwNmU5JkNsaWNrSUQ9Mg 抓包分析与加密定位 老规矩先抓包看看【图1-1】图1-1 今天主要分析的是划线的三个参数&#xf…

苹果验证电子邮件地址服务器错误,苹果7P账户申请,验证电子邮件地址创建新Apple ID发生未知错误...

在电脑上可以注册地址的1、在IOS设备或电脑上都可以注册Apple ID&#xff0c;打开iTunes然后点击左上角的上角菜单图标&#xff0c;依次点击iTunes store和创建Apple ID&#xff0c;跳转页面之后出现欢迎光临iTunes store的页面&#xff0c;点击右下角的继续即可2、随后进入到条…

代码 抠图_3 行 Python 代码 5 秒抠图的 AI 神器,根本无需 PS

文 | 苏克 1900高级农名工推荐 | 编程派公众号(ID&#xff1a;codingpy)曾几何时&#xff0c;「抠图」是一个难度系数想当高的活儿&#xff0c;但今天要介绍的这款神工具&#xff0c;只要 3 行代码 5 秒钟就可以完成高精度抠图&#xff0c;甚至都不用会代码&#xff0c;点两下鼠…

ftp上传文件夹_ftp同步软件哪个好,ftp同步软件哪个好,6款好用推荐

ftp同步软件哪个好呢&#xff1f;不知道大家用过ftp同步工具吗&#xff1f;小编用过几款ftp同步工具很好用。有的软件有定时上传下载的功能&#xff0c;定时这个功能是真的很棒了&#xff0c;节省了很多时间而且还很方便快捷。下面小编就来推荐六款好用的ftp同步软件吧。第一款…

字符串格式化成时间格式_JAVA | 常用的日期/时间格式化方式

引言我们在开发过程中&#xff0c;在数据库中经常会看到beginTime、updateTime和endTime这些字段&#xff0c;这些可能是为了记录业务操作的某个时间、日期等信息。特此&#xff0c;总结一些在代码中常用的日期、时间格式化的方法模板。DateFormatDateFormat继承MessageFormat&…

飞车手游服务器维护,QQ飞车手游更新出现异常怎么办 更新异常原因及解决方法技巧...

最近很多玩家都在体验QQ飞车手游吧&#xff0c;而且最近又一次更新&#xff0c;更新之后&#xff0c;大家发现出现各种异常BUG&#xff0c;那么QQ飞车手游更新出现异常怎么办?更新异常原因及解决方法!如果你也遇到这样的情况&#xff0c;不妨来看看小编是如何解决的吧!QQ飞车手…

域控制器安装完成没有_tcp_udp_究竟什么才叫域控制器?

自从特斯拉问世以来&#xff0c;对他的对标工作全国都在如火如荼的进行&#xff0c;然后大家发现特斯拉的总线网络拓扑跟现有传统车的差别就像安卓系统跟苹果系统的差别一样大&#xff0c;虽然都能打电话发短信装微信&#xff0c;但是内部却是完全不一样。随即全国的汽车从业者…

dell服务器r730安装esxi系统,安装Esxi系统重装Esxi系统

安装esxi系统、或者已经安装了esxi需要重装环境&#xff1a;Dell R730服务器。前期准备&#xff1a;将VMware ESXi 5.5.0的安装镜像要提前准备好&#xff0c;通过光碟、U盘、idrac管理界面挂载方式安装都行。1、加载VMware ESXi 5.5.0版的ISO文件&#xff0c;ESXi引导装入程序&…

10怎么设置pg接口_西门子S7300 PLC时间日期怎么读取?

很多情况下我们都需要根据时间日期的变化来改变自动化系统的控制方式&#xff0c;这时候我们就需要将这些时间和日期的信息&#xff0c;从PLC中调出&#xff0c;下面我们就一起来学习&#xff0c;S7-300PLC是将时间日期信息如何进行存储的&#xff1f;简单应用01S7-300PLC中实际…

获取ajax传过来的数据_大数据编辑问题

【摘要】最近项目用到了大数据的编辑问题,在此做一个简单的总结【作者】田鋆鹏在最近的项目中遇到一个问题,这个问题的起因是因为在调用接口传参是传入的数据太大,导致接口调用失败【重构建议&#xff1a;田甜】1.我们在重构VUE项目的时候&#xff0c; POST请求并没有发成功&am…

crt 8.7.3 黑暗模式_科技有意思 | 黑黑黑黑黑黑黑黑暗模式

不知从什么时候&#xff0c;手机上的黑暗模式成了系统的标配。本来这只是系统中的一个功能&#xff0c;现在经过从iOS 13系统的终于支持、苹果督促包括腾讯在内的开发者尽快适配&#xff0c;到一直不支持黑暗模式的微信也答应尽快开发相关功能&#xff0c;说得多了好像变成了一…

2 s锁是什么_《演员请就位》:一场戏拿了2张S卡,任敏凭什么打败老戏骨?

《演员请就位》终于上映了。这一期的节目明显要比之前要残忍&#xff0c;一上来先给40位演员来了一个市场评级。这一评可不要紧&#xff0c;S级别的都是年轻的演员&#xff0c;除了李志刚。但李志刚是男的&#xff0c;用制片人的话来说“正处在黄金时期”。而女的就比较惨了&am…

根据端口不同来切换站点_根据不同高温气体对窑炉的侵蚀,来选用相应的耐火材料...

根据不同高温气体对窑炉的侵蚀&#xff0c;来选用相应的耐火材料。由于高温窑炉的操作条件不同&#xff0c;因而其燃烧气体存在的侵蚀性成分也是不同的&#xff0c;从而导致与之接触的耐火材料受到各种不同的严重侵蚀。这说明只有根据具体的使用条件选择相应的耐火材料才能获得…

原神的天空岛服务器位置,原神天空岛服和世界树服数据互通吗

原神天空岛服和世界树服是游戏开服初始服务器&#xff0c;玩家们能在官服与B服中自由选择哦&#xff0c;那么原神天空岛服和世界树服数据互通吗、原神天空岛世界树服务器有什么区别吗&#xff0c;跑跑车手游网为大家带来了介绍。*原神天空岛服和世界树服数据互通吗&#xff1f;…