Python缺失值处理实现

  在数据处理相关工作中,读取的数据中常常会有缺失值的情况,为顺利进行后续的操作,需要首先对缺失值进行处理,处理的方式一般为删除填充,Python中提供了专门的工具包,可以方便地进行实现。读取操作可以由pandas模块实现,通常直接读一个excel或csv文件,创建为DataFrame对象,模块中的dropna方法和fillna方法可以实现对缺失值的删除和填充。
  现有下列数据文件,文件命名为testdata.xlsx,对它进行缺失值处理。
在这里插入图片描述
读取数据:

import pandas as pd
data = pd.read_excel("./testdata.xlsx")

在这里插入图片描述
  易知数据中第4行第1列、第6行第2列、第2行第4列、第3行第4列是缺失的。

1.删除

  对于缺失的地方,可以删除所在的行或所在的列。

(1).删除含空值的行,在dropna()中加参数axis=0.
data.dropna(axis=0,inplace=True)

在这里插入图片描述

(2).删除含空值的列,在dropna()中加参数axis=1.
data.dropna(axis=1,inplace=True)

在这里插入图片描述

2.填充

  对于缺失的地方,也可以填入一个值使之不再空缺。通常填0、指定字符、中位数、均值、相邻值或拟合值。

(1).填充0
data.fillna(0,inplace=True)

在这里插入图片描述

(2) 填充指定字符
data.fillna('无',inplace=True)

在这里插入图片描述

(3) 填充整体的均值、中位数

  均值(保留一位小数):

t = np.round(np.mean(data),1)
data.fillna(t,inplace=True)

在这里插入图片描述
  中位数:

dnr = np.array(data)
dnr = dnr[~np.isnan(dnr)] # 非nan元素
t = np.median(dnr)  # 整体中位数
data.fillna(t,inplace=True)

在这里插入图片描述

(4)填充所在列的均值、中位数

  均值:

data.fillna(data.mean(),inplace=True)

在这里插入图片描述
  中位数:
  (奇数个元素取中间的,偶数个元素取中间两个的均值)

data.fillna(data.median(),inplace=True)

在这里插入图片描述

(5)填充相邻值

  a. 填充列的前相邻值

data.fillna(method='ffill',axis=0,inplace=True)

  或

data.ffill(axis=0,inplace=True)

在这里插入图片描述
  b. 填充列的后相邻值

data.fillna(method='bfill',axis=0,inplace=True)

  或

data.bfill(axis=0,inplace=True)

在这里插入图片描述

  c. 填充行的前相邻值

data.fillna(method='ffill',axis=1,inplace=True)

  或

data.ffill(axis=1,inplace=True)

在这里插入图片描述
  d. 填充行的后相邻值

data.fillna(method='bfill',axis=1,inplace=True)

  或

data.bfill(axis=1,inplace=True)

在这里插入图片描述

(6)按列填充指定内容

  有时不同列空缺数据的填充需求是不一致的,此时可以按列进行填充。
a.填充某一列
  对第4列空缺处填充列均值

mean_c4 = data['TitleC4'].mean()
data['TitleC4'].fillna(mean_c4, inplace=True)  

在这里插入图片描述
  对第4列空缺处填充前相邻值

data['TitleC4'].fillna(method='ffill',axis=0,inplace=True)  

  或

data['TitleC4'].ffill(axis=0,inplace=True) 

在这里插入图片描述
  b,用字典指定填充多列

fill_values = {'TitleC1':1111,'TitleC2':2222,'TitleC4':4444,'TitleC5':5555}
data.fillna(value=fill_values, inplace=True)  

在这里插入图片描述

(7)填充拟合值(插值算法)

  对于元素仅为数字的数据,缺失部分也可用插值算法填充,如线性插值、二次插值、三次插值、样条插值等。

data.interpolate(method='slinear',inplace=True)  #线性插值
data.interpolate(method='quadratic',inplace=True)  #二次插值
data.interpolate(method='cubic',inplace=True)  #三次插值



参考:
1.https://www.python100.com/html/L1PK07477FUQ.html
2.https://www.python100.com/html/120094.html
3.https://www.python100.com/html/75400.html
4.https://blog.csdn.net/weixin_46277779/article/details/126224097

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/180065.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

WebGL技术框架及功能

WebGL(Web Graphics Library)是一种用于在Web浏览器中渲染交互式3D和2D图形的JavaScript API。它允许在不需要插件的情况下,在支持WebGL的浏览器中直接运行高性能的图形渲染。WebGL没有一个固定的技术框架,而是基于JavaScript API…

【Vue】绝了!这生命周期流程真...

hello,我是小索奇,精心制作的Vue系列持续发放,涵盖大量的经验和示例,如果对您有用,可以点赞收藏哈~ 生命周期 Vue.js 组件生命周期: 生命周期函数(钩子)就是给我们提供了一些特定的…

SpringBoot整合MongoDB: 构建高效的数据存储应用

文章目录 1. 引言2. MongoDB简介3. 准备工作4. SpringBoot中配置MongoDB5. 创建MongoDB实体类6. 使用Spring Data MongoDB进行数据操作7. 编写Service层8. 控制器层9. 测试10. 拓展10.1. 复杂查询10.2. 数据分页10.3. 索引优化 11. 总结 🎉SpringBoot整合MongoDB: 构…

Django回顾2

目录 一.HTTP 1.URL介绍 2.格式: 3.补充: 二.web框架 1.什么是框架 2.什么是web框架 3.wsgi协议 基于wsgi协议的web服务器: 4.协议是怎么规定的 三.Django 1.MVC与MTV模型(所有框架其实都遵循MVC架构) 2.…

别太担心,人类只是把一小部分理性和感性放到了AI里

尽管人工智能(AI)在许多方面已经取得了重大进展,但它仍然无法完全复制人类的理性和感性。AI目前主要侧重于处理逻辑和分析任务,而人类则具有更复杂的思维能力和情感经验。 人类已经成功地将一些可以数据化和程序化的理性和感性特征…

企业级开发链表思路

项目结构 头文件代码 头文件代码LinkList.h #ifndef LINKLIST_H #define LINKLIST_H #include <stdio.h> #include <stdlib.h> #include <iostream> // 链表小节点 typedef struct LINKBODE {struct LINKBODE* next;}LinkNode; // 遍历的函数指针 typedef …

人工智能|机器学习——感知器算法原理与python实现

感知器算法是一种可以直接得到线性判别函数的线性分类方法&#xff0c;它是基于样本线性可分的要求下使用的。 一、线性可分与线性不可分 为了方便讨论&#xff0c;我们蒋样本增加了以为常数&#xff0c;得到增广样向量 y&#xff08;1;;;...;&#xff09;,则n个样本的集合为&a…

零信任安全:远程浏览器隔离(RBI)的重要性

引言 在当今数字化时代&#xff0c;网络安全已成为个人和企业关注的焦点。随着网络攻击和恶意软件的不断增加&#xff0c;远程浏览器隔离(RBI)SAAS系统变得至关重要。本文将深入探讨远程浏览器隔离系统的重要性&#xff0c;以及它如何帮助用户保护其网络免受恶意软件和网络攻击…

蓝桥杯day02——Fizz Buzz

1、题目 给你一个整数 n &#xff0c;找出从 1 到 n 各个整数的 Fizz Buzz 表示&#xff0c;并用字符串数组 answer&#xff08;下标从 1 开始&#xff09;返回结果&#xff0c;其中&#xff1a; answer[i] "FizzBuzz" 如果 i 同时是 3 和 5 的倍数。answer[i] &…

计算机杂谈系列精讲100篇-【计算机应用】PyTorch部署及分布式训练

目录 C平台PyTorch模型部署流程 1.模型转换 1. 不支持的操作 2. 指定数据类型 2.保存序列化模型 3.C load训练好的模型 4. 执行Script Module PyTorch分布式训练 分布式并行训练概述 Pytorch分布式数据并行 手把手渐进式实战 A. 单机单卡 B. 单机多卡DP C. 多机多卡DDP D. L…

Blender动画导入Three.js

你是否在把 Blender 动画导入你的 ThreeJS 游戏(或项目)中工作时遇到问题? 您的 .glb (glTF) 文件是否正在加载,但没有显示任何内容? 你的骨骼没有正确克隆吗? 如果是这样,请阅读我如何使用 SkeletonUtils.js 解决此问题 1、前提条件 你正在使用 Blender 3.1+(此版本…

mysql 性能排查

mysql 下常见遇到的问题有&#xff0c;mysql连接池耗尽&#xff0c;死锁、慢查、未提交的事务。等等我们可能需要看&#xff1b;我们想要查看的可能有 1.当前连接池连接了哪些客户端&#xff0c;进行了哪些操作 2.当前造成死锁的语句有哪些&#xff0c;是哪个客户端上的&#x…

算法通关第十三关-青铜挑战数学基础问题

数组元素积的符号 描述 : 已知函数 signFunc(x) 将会根据 x 的正负返回特定值&#xff1a; 如果 x 是正数&#xff0c;返回 1 。如果 x 是负数&#xff0c;返回 -1 。如果 x 是等于 0 &#xff0c;返回 0 。 给你一个整数数组 nums 。令 product 为数组 nums 中所有元素值的…

vue3+ts 全局函数和变量的使用

<template><div>{{ $env }}<br />{{ $filters.format("的飞机") }}</div> </template><script setup lang"ts"> import { getCurrentInstance } from "vue"; const app getCurrentInstance(); console.log…

07-学成在线修改/查询课程的基本信息和营销信息

修改/查询单个课程信息 界面原型 第一步: 用户进入课程列表查询页面,点击编辑按钮编辑课程的相关信息 第二步: 进入编辑界面显示出当前编辑课程的信息,其中课程营销信息不是必填项,修改成功后会自动进入课程计划编辑页面 查询课程信息 请求/响应数据模型 使用Http Client测…

11月28日作业

提示并输入一个字符串&#xff0c;统计该字符中大写&#xff0c;小写字母个数&#xff0c;数字个数&#xff0c;空格个数以及其他字符个数&#xff0c;要求使用C风格字符串完成 #include <iostream>using namespace std;int main() {string str;int A0,a0,num0,backspac…

UDS 相关时间参数

文章目录 UDS 全部时间参数UDS 应用层诊断时间参数1、P2 Client P2 Server P2* Client P2* Server 图例2、S3 Client S3 Server 图例 UDS CNA-TP网络层时间参数1、N_As/N_Ar 图例2、N_Bs 图例3、 N_Br 图例4、N_Cs 图例N_Cr 图例 UDS 网络层流控制时间参数 UDS 全部时间参数 UD…

智安网络|探索云安全合规要求:等保2.0时代的新趋势解析

随着信息技术的不断发展和应用的广泛普及&#xff0c;信息安全问题日益凸显&#xff0c;特别是在云计算时代&#xff0c;企业对于云平台的安全保障需求更为迫切。等级保护&#xff08;等保&#xff09;作为我国信息安全的基本要求&#xff0c;已经进入了2.0时代&#xff0c;对于…

深入Android S (12.0) 探索Framework之输入系统IMS的构成与启动

文章目录 前言一、输入系统的基本组成部分二、输入系统相关源码分析1、IMS 构建1.1、SystemServer # startOtherServices()1.2、InputManagerService1.3、NativeInputManager # nativeInit()1.4、NativeInputManager1.5、InputManager1.6、InputDispatcher1.7、InputReader1.8、…

网络安全小白自学

一、网络安全应该怎么学&#xff1f; 1.计算机基础需要过关 这一步跟网安关系暂时不大&#xff0c;是进入it行业每个人都必须掌握的基础能力。 计算机网络计算机操作系统算法与数据架构数据库 Tips:不用非要钻研至非常精通&#xff0c;可以与学习其他课程同步进行。 2.渗透技…