【机器学习】数据清洗之处理缺失点

🎈个人主页:甜美的江
🎉欢迎 👍点赞✍评论⭐收藏
🤗收录专栏:机器学习
🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共同学习、交流进步!

数据清洗之处理缺失点

  • 一 删除缺失值:
    • 1.1 删除行:
    • 1.2 删除列:
    • 1.3 阈值删除:
    • 1.4条件删除:
    • 1.5 特定列删除:
  • 二 插值法
    • 2.1 线性插值:
    • 2.2 多项式插值:
    • 2.3 样条插值:
    • 2.4 Kriging插值:
    • 2.5 基于机器学习的方法:
  • 三 填充法
    • 3.1 均值(Mean)填充:
    • 3.2 中位数(Median)填充:
    • 3.3 众数(Mode)填充:
    • 3.4 最近邻填充(Nearest Neighbor Imputation):
    • 3.5 回归模型填充:
    • 3.6 随机抽样填充:
    • 3.7 插值法填充:
    • 3.8 利用业务规则填充:
  • 四 三种方法的优缺点及适用场景
    • 4.1 删除法:
    • 4.2 插值法:
    • 4.3 填充法:
  • 五 总结:

在这里插入图片描述

引言:

在机器学习领域,数据被广泛认为是驱动模型性能的关键。然而,在真实世界的数据中,缺失值是一个不可避免的问题,可能来自于测量错误、系统故障或其他未知因素。正确而有效地处理这些缺失值对于确保数据质量和模型的准确性至关重要。

本文将深入探讨数据清洗中一项关键任务:处理缺失点。我们将介绍不同的方法,涵盖从删除缺失值到插值法和填充法的多个层面,以帮助您更好地理解在不同场景下如何处理缺失值。

一 删除缺失值:

在数据清洗过程中,处理缺失值的方法之一是删除缺失值。这种方法适用于缺失值数量较少或者缺失值对于分析任务的影响较小的情况。以下是详细介绍删除缺失值的方法:

1.1 删除行:

最简单的方法是直接删除包含缺失值的行。这种方法适用于数据集中缺失值较少,删除缺失值后仍然保留足够的数据用于分析的情况。

示例代码:

import pandas as pd# 创建一个示例DataFrame
data = pd.DataFrame({'A': [1, 2, None, 4],'B': [None, 5, 6, 7]})# 删除包含缺失值的行
cleaned_data = data.dropna()
print(cleaned_data)

1.2 删除列:

如果某一列缺失值过多或者对分析任务没有贡献,可以选择删除该列。
示例代码:

# 删除包含缺失值的列
cleaned_data = data.dropna(axis=1)
print(cleaned_data)

1.3 阈值删除:

设置阈值,如果某一行或者列中的缺失值数量超过阈值,则删除该行或者列。
示例代码:

# 设置阈值,删除超过阈值的行或者列
threshold = 2  # 设置阈值为2
cleaned_data = data.dropna(thresh=threshold)
print(cleaned_data)

1.4条件删除:

根据特定条件,删除包含缺失值的行或者列。
示例代码:

# 根据条件删除缺失值
cleaned_data = data.dropna(subset=['A'])  
# 删除'A'列中的缺失值所在的行
print(cleaned_data)

1.5 特定列删除:

如果只对特定列感兴趣,可以仅删除这些列中包含缺失值的行。

示例代码:

# 对特定列删除缺失值
cleaned_data = data.dropna(subset=['B'])  
# 删除'B'列中的缺失值所在的行
print(cleaned_data)

在实际应用中,选择何种方法取决于数据集的特征、分析任务以及缺失值的分布情况。

需要谨慎考虑删除缺失值可能带来的信息损失,并根据具体情况选择合适的方法。

二 插值法

在数据清洗中,处理缺失值的一种常见方法是使用插值法。插值是通过已知数据点的信息来估计未知点的值。这种方法对于连续型数据的缺失值填充尤其有用。以下是一些常见的插值方法:

2.1 线性插值:

概念:

线性插值假设变量之间的关系是线性的。

对于缺失值,可以通过已知的相邻数据点之间的线性关系来进行估计。

实现:

常见的线性插值方法包括一次线性插值和二次线性插值。

在一次线性插值中,缺失值被估算为其相邻两个已知值的平均值。在二次线性插值中,利用相邻三个已知值构建二次方程,从而进行估算。

2.2 多项式插值:

概念:

多项式插值通过使用更高阶的多项式来适应已知数据点。

这可以更准确地拟合数据,但也容易引入过拟合。

实现:

常见的多项式插值方法包括拉格朗日插值和牛顿插值。

这些方法使用已知数据点构建多项式,然后通过多项式来估计缺失值。

2.3 样条插值:

概念:

样条插值使用分段函数(通常是三次样条)来逼近已知数据。

这种方法更平滑,避免了多项式插值的过拟合问题。

实现:

三次样条插值是一种常见的方法,将整个数据集拟合成一组三次多项式,并保证在连接点处平滑过渡。

2.4 Kriging插值:

概念:

Kriging是一种基于地理空间的插值方法,广泛用于地理信息系统(GIS)。

它考虑了空间相关性,并通过对数据之间的空间相关性建模来估计未知位置的值。

实现:

Kriging通常需要对数据进行协方差分析,以确定空间相关性的参数。

2.5 基于机器学习的方法:

概念:

使用机器学习模型来预测缺失值,例如回归模型、决策树、随机森林等。

这种方法可以通过考虑多个特征之间的复杂关系来提高预测准确性。

实现:

训练机器学习模型来预测含有缺失值的特征,然后用模型的预测值填充缺失值。

总的来说,在选择插值方法时,需要根据数据的性质和问题的背景来权衡方法的优劣。

每种插值方法都有其适用的场景和局限性,因此在实际应用中需要谨慎选择。

同时,为了减少不确定性,可以结合多个插值方法进行比较和验证。

三 填充法

处理缺失值时,除了插值法外,还可以使用填充法来填补缺失值。填充法主要通过一些规则或统计量来估算缺失值。以下是一些常见的填充法方法:

3.1 均值(Mean)填充:

概念:

使用变量的均值来填充缺失值。适用于连续型数据,简单且不引入额外的复杂性。

实现:

计算变量的均值,然后将缺失值替换为均值。

3.2 中位数(Median)填充:

概念:

使用变量的中位数来填充缺失值。对于存在异常值的情况,中位数可能比均值更稳健。

实现:

计算变量的中位数,将缺失值替换为中位数。

3.3 众数(Mode)填充:

概念:

使用变量的众数来填充缺失值。适用于分类变量。

实现:

计算变量的众数,将缺失值替换为众数。

3.4 最近邻填充(Nearest Neighbor Imputation):

概念:

根据其他样本的数值来填充缺失值,选择与缺失值最相似的样本进行填充。

实现:

计算样本之间的相似度,选择最近邻的样本来填充缺失值。

3.5 回归模型填充:

概念:

使用回归模型来预测缺失值,将其他特征作为预测变量。

实现:

对于含有缺失值的特征,将其看作目标变量,使用其他特征建立回归模型,预测缺失值。

3.6 随机抽样填充:

概念:

从变量的已知值中随机抽样来填充缺失值。

实现:

从非缺失值中随机选择一个值,用于填充缺失值。

3.7 插值法填充:

概念:

利用插值方法(如线性插值、多项式插值)来估算缺失值。

实现:

使用插值法对缺失值进行估算,如在相邻数据点之间进行线性插值。

3.8 利用业务规则填充:

概念:

基于领域知识或业务规则来填充缺失值。

实现:

根据特定业务场景的规则,为缺失值设定合适的数值。

总的来说,在选择填充方法时,需要考虑数据的性质、缺失值的分布以及问题的要求。

不同的填充方法可能对数据产生不同的影响,因此在应用填充方法之前,最好先对数据进行探索性分析,了解缺失值的分布情况和数据的特性。

同时,可以尝试不同的填充方法,并评估它们对最终分析结果的影响。

四 三种方法的优缺点及适用场景

4.1 删除法:

优点:

简单直接,不引入额外的复杂性。

对于确保数据分析的准确性和可靠性很重要的情况,如建模分析等,可以选择删除缺失值,确保结果的准确性。

缺点:

可能导致信息丢失,减少样本量。

可能引入样本选择偏差,使得分析结果不够全面。

适用场景:

当缺失值占比较小,对整体数据集影响不大时,或者在确保删除不会引入偏差的情况下使用。

4.2 插值法:

优点:

考虑了数据的连续性,填充的值更加平滑。

适用于时间序列等具有一定规律性的数据。

缺点:

对于非线性的关系,插值法可能不够准确。

对异常值比较敏感,可能受到极端值的影响。

适用场景:

适用于连续型数据,特别是时间序列数据,且缺失值的分布具有一定的规律性。

4.3 填充法:

优点:

通过估计缺失值,保留了样本量,不会引入样本选择偏差。

可以利用其他变量的信息进行填充,提高填充的准确性。

缺点

需要根据具体情况选择合适的填充方法,不同方法的效果可能有差异。

对于高维数据集,处理复杂的关系可能会比较困难。

适用场景:

适用于各种数据类型,尤其是当数据集中的变量之间存在一定关联性时。

五 总结:

数据清洗中处理缺失值是机器学习流程中不可或缺的一环。

通过本文的介绍,我们深入了解了删除缺失值、插值法和填充法这三种主要的处理缺失值的方法。

每种方法都有其独特的优势和限制,选择合适的方法需要考虑数据的特性、缺失值的分布情况以及分析的目标。

在实践中,综合运用这些方法,结合具体情况,将有助于提高数据质量,为机器学习模型的建设奠定坚实的基础。

这篇文章到这里就结束了

谢谢大家的阅读!

如果觉得这篇博客对你有用的话,别忘记三连哦。

我是甜美的江,让我们我们下次再见

在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/676077.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【CC++】内存管理1:new + delete

前言 之前我们学习过C语言中的内存管理(各种函数)今天我们来学习C中的内存管理 引入 我们先来看下面的一段代码和相关问题 int globalVar 1; static int staticGlobalVar 1; void Test() {static int staticVar 1;int localVar 1;int num1[10] {…

Bee+SpringBoot稳定的Sharding、Mongodb ORM功能(同步 Maven)

Hibernate/MyBatis plus Sharding JDBC Jpa Spring data GraphQL App ORM (Android, 鸿蒙) Bee 小巧玲珑!仅 860K, 还不到 1M, 但却是功能强大! V2.2 (2024春节・LTS 版) 1.Javabean 实体支持继承 (配置 bee.osql.openEntityCanExtendtrue) 2. 增强批…

c#: 表达式树的简化

环境&#xff1a; .net 6 一、问题&#xff1f; 有下面的表达式&#xff1a; var nums new List<int> { 1, 2, 3 }; Expression<Func<int, bool>> exp i > i > nums.Max();我们知道&#xff0c;它其实就是&#xff1a;exp i > i > 3; 那么…

redis双写一致

redis双写一致&#xff0c;指的是redis缓存与mysql数据同步 双写一致常见方案有很多&#xff1a; 同步双写&#xff1a;更新完mysql后立即同时更新redis mq同步&#xff1a;程序在更新完mysql后&#xff0c;投递消息到中间键mq&#xff0c;一个程序监听mq&#xff0c;获得消…

商汤科技「日日新4.0」正式发布,多维度升级大模型体系,能力比肩GPT-4!

文 | BFT机器人 近日&#xff0c;商汤科技正式发布「日日新SenseNova 4.0」&#xff0c;宣告大模型体系多维度全面升级。这款模型具备更全面的知识覆盖、更可靠的推理能力&#xff0c;以及更优越的长文本理解和数字推理能力。同时&#xff0c;它还支持跨模态交互&#xff0c;为…

【跳槽须知】关于企业所签订的竞业协议你知道多少?

年后跳槽须知自己签订的合同中是否存在竞业协议&#xff0c;谨防协议造成经济损失 &#x1f413; 什么是竞业协议 竞业协议时用于保护自己的权益&#xff0c;在员工离职时决定是否启动的一种协议&#xff0c;避免一些掌握公司机密的一些重要岗位人才流入竞争对手的公司&#xf…

解决MapboxGL的Popup不支持HTMLDiv元素的问题

解决MapboxGL的Popup不支持HTMLDiv元素的问题 官网给出的文档是不支持HTMLDivElement的&#xff0c;只支持HTML标签。 如果单纯的只显示字符串&#xff0c;那就没问题&#xff0c;如果想在Popup中使用更强大的功能&#xff0c;此时就不行了&#xff0c;下面是源码的一部分显示…

WordPress如何实现随机显示一句话经典语录?怎么添加到评论框中?

我们在一些WordPress网站的顶部或侧边栏或评论框中&#xff0c;经常看到会随机显示一句经典语录&#xff0c;他们是怎么实现的呢&#xff1f; 其实&#xff0c;boke112百科前面跟大家分享的『WordPress集成一言&#xff08;Hitokoto&#xff09;API经典语句功能』一文中就提供…

nginx+flask+Gunicorn反代理服务拿不到真实IP的解决

背景 本人在宝塔linux环境&#xff0c;要部署flask的简单后端并且用Ngnix反代理&#xff0c;用Gunicorn框架部署。&#xff08;o(╥﹏╥)o中间磕磕绊绊总算部署上去了&#xff0c;需要了解Gunicorn怎么部署的朋友&#xff0c;评论区留言&#xff0c;我加补一篇介绍&#xff09;…

32I2C通信协议

异步时序的&#xff1a;非常依赖硬件外设的支持&#xff0c;比如串口是很难用软件来模拟的&#xff1b;但节省了一根时钟线的资源 同步时序可以极大地降低单片机对硬件电路的依赖&#xff0c;时钟线停止了&#xff0c;发送方和接收方都会停止 一.I2C通信协议简介 二.硬件电路…

[WUSTCTF2020]朴实无华(特详解)

一开始说header出问题了 就先dirsaerch扫一遍 发现robot.txt 访问一下 去看看&#xff0c;好好好&#xff0c;肯定不是得 他一开始说header有问题&#xff0c;不妨抓包看看&#xff0c;果然有东西 访问看看&#xff0c;乱码修复一下&#xff0c;在之前的博客到过 <img src…

Mysql——更新数据

注&#xff1a;文章参考&#xff1a; MySQL 更新数据 不同条件(批量)更新不同值_update批量更新同一列不同值-CSDN博客文章浏览阅读2w次&#xff0c;点赞20次&#xff0c;收藏70次。一般在更新时会遇到以下场景&#xff1a;1.全部更新&#xff1b;2.根据条件更新字段中的某部分…

【C++】实现一个二叉搜索树

目录 二叉搜索树的概念 1.结点定义 2.构造、析构、拷贝构造、赋值重载 3.插入、删除、查找、排序 3.1插入 3.2插入递归版 3.3查找指定值 3.3查找指定值递归版 3.4中序遍历 3.5删除 最后 二叉搜索树的概念 二叉搜索树又称为二叉排序树或二叉查找树&#xff0c;它或者…

Markdown:简洁高效的文本标记语言

引言 在当今信息爆炸的时代&#xff0c;我们需要一种简洁、高效的文本标记语言来排版和发布内容。Markdown应运而生&#xff0c;它是一种轻量级的文本标记语言&#xff0c;以其简单易学、易读易写的特点&#xff0c;成为了广大写作者的首选工具。本文将介绍Markdown的语法优缺…

Composition Local

1.显示传参 package com.jmj.jetpackcomposecompositionlocalimport org.junit.Testimport org.junit.Assert.*/*** 显示传参*/ class ExplicitText {private fun Layout(){var color:String "黑色";//参数需要通过层层传递&#xff0c;比较繁琐Text(color)Grid(c…

Redis篇之过期淘汰策略

一、数据的过期策略 1.什么是过期策略 Redis对数据设置数据的有效时间&#xff0c;数据过期以后&#xff0c;就需要将数据从内存中删除掉。可以按照不同的规则进行删除&#xff0c;这种删除规则就被称之为数据的删除策略&#xff08;数据过期策略&#xff09;。 2.过期策略-惰…

rem基础+媒体查询+Less基础

一&#xff0c;rem基础 二&#xff0c;媒体查询 2.1什么是媒体查询 2.2语法规范 2.3媒体查询rem实现元素动态大小的变化 2.4 引入资源&#xff08;理解&#xff09; 三&#xff0c;Less基础 1 维护css的弊端 2 Less介绍 3 Less变量 变量命名规范 4 Less嵌套 5 Less…

2021年通信工程师初级 实务 真题

文章目录 一、第1章 现代通信网概述&#xff0c;通信网的定义。第10章 通信业务&#xff0c;普遍服务原则10.2.4 通信行业的发展趋势&#xff08;六化&#xff09; 二、第2章 传输网SDH帧结构SDH线路保护倒换&#xff0c;“11 保护”和“1:1保护”波长值λc/f&#xff0c;中心频…

鸿蒙开发-UI-图形-图片

鸿蒙开发-UI-组件 鸿蒙开发-UI-组件2 鸿蒙开发-UI-组件3 鸿蒙开发-UI-气泡/菜单 鸿蒙开发-UI-页面路由 鸿蒙开发-UI-组件导航-Navigation 鸿蒙开发-UI-组件导航-Tabs 文章目录 一、基本概念 二、图片资源加载 1. 存档图类型数据源 2.多媒体像素图 三、显示矢量图 四、图片…

LLM大语言模型(六):RAG模式下基于PostgreSQL pgvector插件实现vector向量相似性检索

目录 HightLightMac上安装PostgreSQLDBever图形界面管理端创建DB 使用向量检索vector相似度计算近似近邻索引HNSW近似近邻索引示例 HightLight 使用PostgreSQL来存储和检索vector&#xff0c;在数据规模非庞大的情况下&#xff0c;简单高效。 可以和在线业务共用一套DB&#…