如何使用Python对Excel、CSV文件完成数据清洗与预处理?

在数据分析和机器学习项目中,数据清洗与预处理是不可或缺的重要环节。

现实世界中的数据往往是不完整、不一致且含有噪声的,这些问题会严重影响数据分析的质量和机器学习模型的性能。

Python作为一门强大的编程语言,提供了多种库和工具来帮助我们高效地完成数据清洗与预处理任务,其中最常用的库包括Pandas、NumPy、SciPy等。

本文将详细介绍如何使用Python对Excel和CSV格式的数据文件进行清洗和预处理。

数据清洗与预处理概述

数据清洗与预处理主要包括以下几个步骤:

‌数据清洗‌:删除或修正数据集中的无效数据、重复数据、异常值等。
‌数据集成‌:将来自不同数据源的数据合并成一个统一的数据集。
‌数据变换‌:对数据进行规范化处理,如数据类型转换、标准化、归一化等。
‌数据规约‌:通过数据聚合、降维等技术减少数据量,提高处理效率。

读取CSV文件

Python的Pandas库提供了read_csv函数来读取CSV文件。

这个函数非常灵活,可以处理各种格式的CSV文件,并允许用户指定分隔符、列名、索引列等参数。


import pandas as pd# 读取CSV文件
df = pd.read_csv('data.csv', sep=',', header=0)# 查看数据前几行
print(df.head())
读取Excel文件

Pandas的read_excel函数可以用来读取Excel文件。这个函数同样支持多种参数,如指定工作表名称、列名等。

# 读取Excel文件
df_excel = pd.read_excel('data.xlsx', sheet_name='Sheet1', header=0)# 查看数据前几行
print(df_excel.head())

缺失值是数据清洗中常见的问题。Pandas提供了多种方法来处理缺失值,包括删除含缺失值的行或列、填充缺失值等。

删除含缺失值的行或列
# 删除含缺失值的行
df_cleaned = df.dropna()# 删除含缺失值的列
df_cleaned_cols = df.dropna(axis=1)
填充缺失值

填充缺失值有多种方法,如使用均值、中位数、众数填充,或者使用固定值填充。


# 使用均值填充数值型列
df_filled_mean = df.fillna(df.mean())# 使用固定值填充
df_filled_value = df.fillna(value=0)# 使用向前填充或向后填充
df_filled_ffill = df.fillna(method='ffill')
df_filled_bfill = df.fillna(method='bfill')

对于更复杂的填充策略,可以使用sklearn.impute模块中的SimpleImputer类。


from sklearn.impute import SimpleImputer# 实例化SimpleImputer,使用均值填充
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
df_filled_sk = pd.DataFrame(imputer.fit_transform(df), columns=df.columns)
重复值处理

Pandas提供了drop_duplicates函数来删除重复的行。

# 删除重复行,保留第一次出现的行
df_unique = df.drop_duplicates(keep='first')# 删除重复行,保留最后一次出现的行
df_unique_last = df.drop_duplicates(keep='last')

异常值可能会严重影响数据分析的结果。常用的异常值检测方法包括箱线图法和Z分数法。

箱线图法

Q1 = df.quantile(0.25)
Q3 = df.quantile(0.75)
IQR = Q3 - Q1df_outlier_removed = df[~((df < (Q1 - 1.5 * IQR)) | (df > (Q3 + 1.5 * IQR))).any(axis=1)]
Z分数法

from scipy import statsz_scores = stats.zscore(df)
df_zscore = df[(np.abs(z_scores) < 3).all(axis=1)]
数据类型转换

Pandas允许将列的数据类型从一种转换为另一种,这对于数据清洗和后续分析非常重要。

# 将字符串类型的日期转换为日期类型
df['date'] = pd.to_datetime(df['date'])# 将字符串类型的数值转换为整型或浮点型
df['number'] = df['number'].astype(int)
df['float_number'] = df['float_number'].astype(float)
字符串处理

在清洗数据时,经常需要对字符串进行处理,如去除空格、大小写转换、分割字符串等。

# 去除字符串两边空格
df['column'] = df['column'].str.strip()# 大小写转换
df['column_lower'] = df['column'].str.lower()
df['column_upper'] = df['column'].str.upper()# 字符串分割
df[['first_word', 'second_word']] = df['sentence'].str.split(' ', expand=True)
正则表达式

正则表达式是数据清洗中非常强大的工具,可以用来查找和替换字符串中的特定模式。


import re# 使用正则表达式替换字符串
df['column'] = df['column'].apply(lambda x: re.sub(r'\d+', '', x))  # 移除所有数字
数据标准化与归一化

数据标准化和归一化是数据预处理中常用的技术,可以使不同量纲的数据具有相同的尺度,便于后续分析。


from sklearn.preprocessing import StandardScaler, MinMaxScaler# 标准化
scaler = StandardScaler()
df_scaled = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)# 归一化
scaler = MinMaxScaler()
df_normalized = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)
特征构造

特征构造是通过创建新特征或对现有特征进行转换来提高模型性能的过程。


# 创建新特征:日期特征分解
df['year'] = df['date'].dt.year
df['month'] = df['date'].dt.month
df['day'] = df['date'].dt.day# 特征组合
df['total_amount'] = df['quantity'] * df['price']
数据规约

数据规约通过数据聚合、降维等技术减少数据量,提高处理效率。Pandas提供了多种数据聚合方法,如groupby和pivot_table。


# 数据聚合
grouped = df.groupby('category').agg({'sales': 'sum', 'profit': 'mean'})# 数据透视表
pivot_table = pd.pivot_table(df, values='sales', index='date', columns='category', aggfunc='sum')
数据可视化

数据可视化是理解和分析数据的重要手段。Python的Matplotlib和Seaborn库提供了丰富的绘图功能。


import matplotlib.pyplot as plt
import seaborn as sns# 绘制直方图
df['column'].hist()
plt.show()# 绘制箱线图
sns.boxplot(x='category', y='sales', data=df)
plt.show()# 绘制散点图
plt.scatter(df['column1'], df['column2'])
plt.show()
结论

数据清洗与预处理是数据分析和机器学习项目中不可或缺的一环。Python提供了丰富的库和工具,如Pandas、NumPy、SciPy等,可以帮助我们高效地完成这一任务。

通过本文的介绍,我们了解了如何使用Python对Excel和CSV文件进行数据清洗、缺失值处理、重复值处理、异常值处理、数据类型转换、字符串处理、正则表达式应用、数据变换、特征构造、数据规约以及数据可视化等步骤。

希望这些内容能帮助读者在实际项目中更好地进行数据清洗与预处理工作。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/56984.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringCloud学习:Seata总结与回顾

SpringCloud学习&#xff1a;Seata总结与回顾 文章目录 SpringCloud学习&#xff1a;Seata总结与回顾1. Seata实战&#xff1a;测试2. Seate原理总结和面试题3. Seata总结与回顾4. 易混点 1. Seata实战&#xff1a;测试 测试问题 未启用分布式事务 若不使用分布式事务&#xf…

Greenhills学习总结

学习背景&#xff1a;近期参与xx项目过程中&#xff0c;遇到较多的关于代码集成编译的知识盲区&#xff0c;因此需要进行相关知识的学习和扫盲。 参考资料&#xff1a;GreenHills2017.7编译手册:本手册是GreenHills 2017.7.14版编译器的软件使用手册。该手册详细介绍了GreenHi…

Docker consul注册中心

一、consul 1.1、什么是服务注册与发现 服务注册与发现是微服务架构中不可或缺的重要组件。 起初服务都是单节点的&#xff0c;不保障高可用性&#xff0c;也不考虑服务的压力承载&#xff0c;服务之间调用单纯的通过接口访问。 直到后来出现了多个节点的分布式架构&#x…

React(五) 受控组件和非受控组件; 获取表单元素的值。高阶组件(重点),Portals; Fragment组件;严格模式StrictMode

文章目录 一、受控组件1. 什么是受控组件2. 收集input框内容3. 收集checkBox的值4. 下拉框select总结 二、非受控组件三、高阶组件1. 高阶组件的概念 (回顾高阶函数)2. 高阶组件应用&#xff1a;注入props(1) 高阶组件给---函数式组件注入props(2) 高阶组件给---类组件注入prop…

前100+大型语言模型(LLMs)面试问题和路线图

介绍 获取前 100 个精选的 LLM 面试问题&#xff0c;了解如何准备生成式 AI 或 LLM 面试准备和大型语言模型 &#xff08;LLM&#xff09; 面试准备的学习路径。 This article explains learning path for large language models (LLMs) interview preparation. You will fin…

陪诊小程序之uniapp(从入门到精通)

1.uniapp如何使用vue3编写页面 <template><view class"content"><navbar name"navbar组件"></navbar><image class"logo" src"/static/logo.png"></image><view class"text-area"&…

C++进阶:AVL树实现

目录 一.AVL的概念 二.AVL的实现 2.1AVL树的结构 2.2AVL树的插入 2.2.1AVL树插入一个值的大概过程 2.2.2平衡因子更新 2.2.3插入节点及更新平衡因子的实现 2.3旋转 2.3.1旋转的原则 2.3.2右单旋 2.3.3右单旋的代码实现 2.3.4左单旋 2.3.5左单旋的代码实现 2.3.6…

vue综合指南(二)

​&#x1f308;个人主页&#xff1a;前端青山 &#x1f525;系列专栏&#xff1a;Vue篇 &#x1f516;人终将被年少不可得之物困其一生 依旧青山,本期给大家带来Vuet篇专栏内容:vue综合指南(二) 目录 21、介绍虚拟DOM 22、vue生命周期的理解 23、vue父组件向子组件传递数据…

STM32_实验5_中断实验

通过外部中断来检测四个按键按下的状态&#xff1a; WK_UP 控制蜂鸣器响和停 KEY0 控制 LED_R 互斥点亮 KEY1 控制 LED_G 互斥点亮 KEY2 控制 LED_B 互斥点亮。 中断的基本概念&#xff1a; 中断请求&#xff08;IRQ&#xff09;&#xff1a; 当发生某个特定事件&#xff08;例…

【问题解决】——当出现0xc000007b和缺少mfc140.dll时,该怎么做才能让软件可以打开

目录 事情起因 问题处理 明确定义 填坑之路 最后我是怎么解决的&#xff08;不想看故事直接到这里&#xff09; 事情起因 最近想要重新安装西门子博途来做西门子的一些算法的时候&#xff0c;发现自己软件装的是V15.1的版本&#xff0c;而买的plc1200固件版本要求至少16以…

(AtCoder Beginner Contest 375)D - ABA

&#xff08;AtCoder Beginner Contest 375&#xff09;D - ABA 题目大意 给定一个只包含大写字母的字符串S&#xff0c;求解其长度为3的回文字序列个数 思路 首先暴力枚举区间计算答案 O ( ∣ S ∣ 2 ) O(|S|^2) O(∣S∣2) 一定是会超时的 我们考虑使用前缀和思想 我们对于…

推荐IDE中实用AI编程插件,目前无限次使用

插件介绍 一款字节跳动推出的“基于豆包大模型的智能开发工具” 以vscode介绍【pycharm等都可以啊】&#xff0c;这个插件提供智能补全、智能预测、智能问答等能力&#xff0c;节省开发时间 直接在IDE中使用&#xff0c;就不用在网页中来回切换了 感觉还可以&#xff0c;响应速…

【SQL实验】 设计主码、check约束 、外码(SSMS 菜单操作)

设计主码 PK——主码 右键点击所需的表&#xff0c;选择“设计”。 选择需要作为主键的列&#xff0c;右键点击并选择“设为主键”。 保存更改&#xff0c;确保主键设置生效。 如果出现下图&#xff1a; 解决方式&#xff1a; 把√取消掉&#xff0c;修改后&#xff1a; 确定…

告别ELK,APO提供基于ClickHouse开箱即用的高效日志方案——APO 0.6.0发布

ELK一直是日志领域的主流产品&#xff0c;但是ElasticSearch的成本很高&#xff0c;查询效果随着数据量的增加越来越慢。业界已经有很多公司&#xff0c;比如滴滴、B站、Uber、Cloudflare都已经使用ClickHose作为ElasticSearch的替代品&#xff0c;都取得了不错的效果&#xff…

【Echarts 实战指南】解锁动态历史曲线之谜

在工作中&#xff0c;大家是否曾遇到过这样一种需求呢&#xff1f;需获取设备最近 10 分钟的历史数据。设备实时数据每 2 秒推送一次&#xff0c;且要把历史数据曲线变成动态变化的状态。倘若设备最近 10 分钟的历史数据为 20 个点&#xff0c;那么现在每 2 秒就要将最前面的点…

计算机毕业设计Python深度学习房价预测 房源可视化 房源爬虫 二手房可视化 二手房爬虫 递归决策树模型 机器学习 深度学习 大数据毕业设计

温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 房地产是促进我国经济持续增…

车辆管理新篇章:SpringBoot技术解析

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多用户、多线程SQL数据库服务器。 是基于SQL的客户/服务器模式的关系数据库管理系统&#xff0c;它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等&#xff0c;非常…

电感的学习

电感是表示电路中电流变化对电压影响的物理量&#xff0c;常用符号 LLL 表示。电感的基本公式可以从其定义和基本特性中得出&#xff0c;主要包括以下几个方面&#xff1a; 1. 电感的定义 2. 电感能量存储 3. 自感与互感 自感&#xff1a;电感器自身的电感&#xff0c;表示电…

stata基本操作

文章目录 数据导入及存储变量的标签、审视数据变量的标签审视数据数据删除数据排序 画图直方图使用帮助文件散点图 统计分析描述性分析频数分析相关分析 生成新变量、计算器、终止命令生成新变量设置哑变量修改变量名更改变量内容调用命令和终止命令 日志命令库更新、学习资源 …

从零开始学PHP之helloworld

前言 每一门编程语言的第一个程序就是输出hell world&#xff08;别杠&#xff0c;杠就是你对&#xff09; 开始 上一篇讲完了开发环境的安装&#xff0c;这次讲编辑器的安装&#xff0c;顺带完成上一篇的作业&#xff08;输出hello world&#xff09; 安装PHPstorm 我用的…