用python玩转数据测试与作业_用Python玩转数据分析10

用python玩转数据测试与作业_用Python玩转数据分析10

news/2025/4/10 9:59:34/文章来源:https://blog.csdn.net/weixin_39638048/article/details/110488980

MOOC上的课程《用Python玩转数据分析》的学习笔记。

数据探索与预处理之数据清洗

数据探索包括检查数据错误，了解数据分布特征和内在规律

数据预处理包括数据清洗，数据集成(integration)，数据变换，数据规约(reduction)

本次主要讲解数据清洗，包括缺失值和异常值的检测和处理。

缺失值处理首先可以用导入后的数据对象名.isnull() 来查看是否存在缺失值

删除：当多个属性的值缺失或者关键属性缺失时，可将该条记录删除

>>>导入后的数据对象名.dropna(axis=0/1, how='any/all',其他参数设置可在help中查看)

第一个数字0表示删除有缺失值的行(默认)，1表示删除有缺失值的列。第二个any表示这一行／列有一个缺失值就删除(默认)，all表示这一行／列全部是缺失值再删除。

填充：可考虑用均值、众数、中位数填充，也可用缺失值上下的数据、插值函数、最近邻或者回归建模得到的极大似然估计来填充。

>>>导入后的数据对象名.fillna(导入后的数据对象名.mean(), inplace=True) (用均值填充，且直接更改了原始的DataFrame)

>>>导入后的数据对象名.fillna(method = 'ffill / bfill') (用上一个／下一个非缺失值填充)

异常值处理如何观察异常值？

简单统计，绘图，基于密度、最近邻和聚类等方法。这里介绍几种简单实用的。

describe方法

>>>导入后的数据对象名.describe() (可以显示最大值、最小值、四分位数和方差等结果)

箱形图方法

>>>导入后的数据对象名.boxplot()

3sigma方法

原理：如果数据服从正态分布，那么在均值上下3倍标准差之外的数就很可能是异常值。

可利用DataFrame的布尔索引来编写程序

>>>导入后的数据对象名.[abs(数据对象名 - 数据对象名.mean())>3*数据对象名.std()]

然后dropna(how = 'all')就可以显示包含异常值的记录。

异常值处理

可以用和缺失值处理一样的方法，删除或者填充；也可以不处理；还可以用分箱法binning等方式处理。需要根据实际情况具体分析。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/507211.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

excel中空格去不掉java_在Apache POI中跳过空白Excel单元格

excel中空格去不掉java_在Apache POI中跳过空白Excel单元格

我是Apache POI的新手，但我想做的是通过Excel文件(.xls)读取并将其放入ArrayList进行存储，以便稍后进行操作 . 我可以得到整张纸，但我的问题就在于：我得到整张纸(约54183行) .我想跳过空白的单元格，它是类型3.由于某种…

阅读更多...

python代替javascript_Pyjamas - 用python代替javascript编写基于浏览器的应用

python代替javascript_Pyjamas - 用python代替javascript编写基于浏览器的应用

如果能用python代替Javascript编写基于浏览器的应用，该有多好啊。但是，Javascript是唯一一种能在浏览器里执行的语言(Flash或Silverlight除外)。换个思路，先用Python编写代码，然后在通过编译器转为为Javascript脚本，这…

阅读更多...

java unreported exception_Java异常处理

java unreported exception_Java异常处理

大家好，欢迎来到乐字节小乐的Java技术分享园地在计算机程序运行的过程中，总是会出现各种各样的错误。有一些错误是用户造成的，比如，希望用户输入一个int类型的年龄，但是用户的输入是abc：// 假设用户输入了a…

阅读更多...

数据通信原理_同网段主机通信原理

数据通信原理_同网段主机通信原理

本篇文章介绍数据通信中最基础，最关键的原理之一，两台通网段的主机如何通信。获得更多技术资料和免费学习视频，加入讨论群：752160765适合两台普通电脑之间，两台服务器之间，两台手机之间，电脑和打…

阅读更多...

java jdk 未知错误_解决JAVA JDK安装出错的最常见问题，帮你排除困扰

java jdk 未知错误_解决JAVA JDK安装出错的最常见问题，帮你排除困扰

一般来说，安装JAVA JDK的整个流程是很简单的，只要按照提示进行操作即可，就不会出现问题。但是呢，有小伙伴反映说，之前安装了JAVA JDK，进行卸载重装的时候出现错误提示，“正在进行另一Java安装”…

阅读更多...

定义const变量是不可以赋值_JavaScript的声明方法和作用范围，常见的结构赋值类型和使用场景...

定义const变量是不可以赋值_JavaScript的声明方法和作用范围，常见的结构赋值类型和使用场景...

链接：https://juejin.im/post/5d9bf530518825427b27639d声明const命令：声明常量 let命令：声明变量作用作用域全局作用域函数作用域：function() {}块级作用域：{}作用范围var 命令在全局代码中执行const命令和let命令只能…

阅读更多...

java社区活跃度_Java并发编程-活跃度问题

java社区活跃度_Java并发编程-活跃度问题

在讲问题前，我先说明一下什么是活跃度？一个并发应用及时执行的能力称作活跃度。我主要讲死锁问题，顺带介绍一下饥饿，弱响应性和活锁。死锁死锁这个词大家都听过，我先来罗列一下产生死锁的四个必要条件：(1) …

阅读更多...

python post 上传文件_如何在 Python 中模拟 post 表单来上传文件

python post 上传文件_如何在 Python 中模拟 post 表单来上传文件

展开全部发个以前用urllib2模块来做的62616964757a686964616fe4b893e5b19e31333335343366class HTTPError(urllib2.HTTPDefaultErrorHandler):def __init__(self):self.errMsg def getErrorMsg(self):return self.errMsgdef http_error_default(self, req, fp, code, msg, hdr…

阅读更多...

java8 di_java8 多个list对象用lambda求差集操作

java8 di_java8 多个list对象用lambda求差集操作

业务场景：调用同步接口获取当前全部有效账户，数据库已存在部分账户信息，因此需要筛选同步接口中已存在本地的帐户。调用接口获取的数据集合List list response.getData().getItems();本地查询出来的账户集合List towList accountRepository…

阅读更多...

怎么抓python程序的包_如何在AWS上部署python应用程序

怎么抓python程序的包_如何在AWS上部署python应用程序

如何在AWS上部署python应用程序，学姐呕心沥血亲自总结，亲测有效，比网上看网上大把大把的文档要快得多！作者：蕾学姐亚马逊云计算服务（Amazon Web Services，缩写为AWS），由亚…

阅读更多...

【Hadoop】Zookeeper架构/特点

【Hadoop】Zookeeper架构/特点

Zookeeper 中的角色主要有以下三类： Zookeeper需要保证高可用性和强一致性为了支持更多的客户端，需要增加更多Server，但是Server增多，意味着投票阶段延迟增大，会影响整个系统的性能。所以在3.3.0中ZK引入的新角色&…

阅读更多...

json 反射java 实体_java反射实现javabean转json

json 反射java 实体_java反射实现javabean转json

BeantoModel->利用cglibBeanMap.create(src);直接将Bean装成Map，然后model._setAttrs(map)即可。ModeltoBean麻烦一点，最简单的方法是用json了。这个bean.dao.put应该是不对的，应该是bean.put吧，还有也不需要转换成map吧&#…

阅读更多...

wpf 按钮样式_键盘 | 01.在程序集间引用样式

wpf 按钮样式_键盘 | 01.在程序集间引用样式

设置Button和TextBox的特定颜色和字体的样式和默认样式，并在程序集间引用。从零开始用WPF/C#开发一个键盘指示器项目完整开源、免费，不依赖第三方库编译好的先行版程序在微信公众号(香辣恐龙蛋)下载。文章同时发布在微信公众号(香辣恐龙蛋)、B站(香辣恐龙…

阅读更多...

怎么去除表中的系统导出的字符_EXCEL非常有用的字符函数LEN、LENB，财务工作者的必备利器...

怎么去除表中的系统导出的字符_EXCEL非常有用的字符函数LEN、LENB，财务工作者的必备利器...

LEN函数与LENB函数是比较常用的函数，在实际中应用那是相当广的，尤其在财务工作中的使用频率是相当的高。我就一起看看实际工作中哪些地方用到了它。我们先简单说下它的用法，很简单，LEN(text)、LENB(text)，两个用法是一…

阅读更多...

laravel mysql视图_php-动态更新Laravel视图

laravel mysql视图_php-动态更新Laravel视图

我正在通过JS从API加载数据,将数据发送到Laravel控制器并将其保存到数据库中.加载所有Ajax之后,我想在master.blade的子视图/部分中显示数据-可以在页面加载完成后动态呈现视图,-稍后,我想更新数据库行并显示新的视图中的数据动态.//afater Ajax loading - update / display th…

阅读更多...

python3打开excel_python3操作Excel (一)

python3打开excel_python3操作Excel (一)

安装：pip install openpyxlexcel表中有图像，需要安装pillow库。pip install Pillow代码:from openpyxl import Workbookwb Workbook()# grab the active worksheetws wb.active# Data can be assigned directly to cellsws[‘A1‘] 42# Rows can also…

阅读更多...

java 获得json对象的属性值_JSON 获取属性值的方法

java 获得json对象的属性值_JSON 获取属性值的方法

JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。易于人阅读和编写。同时也易于机器解析和生成。它基于JavaScript(Standard ECMA-262 3rd Edition - December 1999)的一个子集。 JSON采用完全独立于语言的文本格式，但是也使用了类似于C语言家族的习…

阅读更多...

python常用包数据分析_数据分析领域常用的五个Python包

python常用包数据分析_数据分析领域常用的五个Python包

NumpyNumpy提供了两种基本的对象：ndarray和ufunc。ndarray是存储单一数据类型的多维数组，而ufunc是能够对数组进行处理的函数。Numpy的功能：N维数组，一种快速、高效使用内存的多维数组，他提供矢量化数学运算。可以不需…

阅读更多...

python中空字符串的布尔值是什么_Python的布尔值与空值

python中空字符串的布尔值是什么_Python的布尔值与空值

Googlehack之Github hacksite:aircrk.com smtpsite:aircrk.com smtp mail.comsite:aircrk.com root passwordsite:aircrk.com smtp ...lock#ifndef lock_h #define lock_h #include #include #include "myd ...SQL2012删除作业失败的处理修改msdb数据库中的过程sp_delete_…

阅读更多...

java软尾山地车碳_JAVA FURIA 27.5入门软尾山地车评测

java软尾山地车碳_JAVA FURIA 27.5入门软尾山地车评测

铝合金车架、前后100mm避震行程、超短把立、长款燕把、27.5轮径……之前跟大家讲过，在这台车上你能拥有全避震车型所应该具备的所有基础元素。2个月的时间已经过去，这台车到底怎么样呢？我们一起来看一下。优点：质量靠谱&#xff0…

阅读更多...

最新文章