6Python的Pandas:数据读取与输出

Pandas是一个强大的Python数据分析库,提供了读取和输出数据的多种功能。以下是一些常见的数据读取与输出方法:

1. 读取CSV

读取数据

  1. 从CSV文件读取数据
import pandas as pd# 读取CSV文件
df = pd.read_csv('file_path.csv')
print(df.head())
  1. 从Excel文件读取数据
# 读取Excel文件
df = pd.read_excel('file_path.xlsx', sheet_name='Sheet1')
print(df.head())
  1. 从SQL数据库读取数据
import sqlite3# 连接到SQLite数据库
conn = sqlite3.connect('database.db')# 读取SQL查询结果
df = pd.read_sql_query("SELECT * FROM table_name", conn)
print(df.head())
  1. 从JSON文件读取数据
# 读取JSON文件
df = pd.read_json('file_path.json')
print(df.head())

输出数据

  1. 将数据写入CSV文件
# 写入CSV文件
df.to_csv('output_file.csv', index=False)
  1. 将数据写入Excel文件
# 写入Excel文件
df.to_excel('output_file.xlsx', index=False, sheet_name='Sheet1')
  1. 将数据写入SQL数据库
# 将DataFrame写入SQLite数据库
df.to_sql('table_name', conn, if_exists='replace', index=False)
  1. 将数据写入JSON文件
# 写入JSON文件
df.to_json('output_file.json', orient='records', lines=True)

示例操作

以下是一个从CSV文件读取数据并将其写入Excel文件的示例:

import pandas as pd# 读取CSV文件
df = pd.read_csv('input_file.csv')# 数据处理(例如:查看前五行数据)
print(df.head())# 写入Excel文件
df.to_excel('output_file.xlsx', index=False)

列数据处理

  1. 选择列
# 选择指定的列
df_selected = df[['column1', 'column2']]
print(df_selected.head())
  1. 新增列
# 新增一列,值为两列相加
df['new_column'] = df['column1'] + df['column2']
print(df.head())
  1. 删除列
# 删除指定的列
df = df.drop(columns=['column1'])
print(df.head())

真假值转换

  1. 将布尔值转换为0和1
# 将布尔值转换为0和1
df['boolean_column'] = df['boolean_column'].astype(int)
print(df.head())
  1. 将0和1转换为布尔值
# 将0和1转换为布尔值
df['int_column'] = df['int_column'].astype(bool)
print(df.head())

跳过指定行

  1. 跳过CSV文件的前几行
# 跳过前两行
df = pd.read_csv('file_path.csv', skiprows=2)
print(df.head())

读取指定行

  1. 读取CSV文件中的特定行
# 读取第5行到第10行(注意,行索引从0开始)
df = pd.read_csv('file_path.csv', skiprows=lambda x: x not in range(5, 11))
print(df)

空值替换

  1. 用指定值替换空值
# 用0替换所有空值
df = df.fillna(0)
print(df.head())
  1. 用列的平均值替换空值
# 用列的平均值替换空值
df['column1'] = df['column1'].fillna(df['column1'].mean())
print(df.head())

示例操作

以下是一个综合示例,展示了如何进行这些操作:

import pandas as pd# 读取CSV文件,跳过前两行
df = pd.read_csv('file_path.csv', skiprows=2)# 选择指定的列
df_selected = df[['column1', 'column2']]# 新增一列,值为两列相加
df['new_column'] = df['column1'] + df['column2']# 将布尔值转换为0和1
df['boolean_column'] = df['boolean_column'].astype(int)# 用0替换所有空值
df = df.fillna(0)print(df.head())

这些操作可以帮助你高效地处理和转换数据,根据具体需求进行调整和组合。

2.读取Excel

Pandas可以方便地读取Excel文件并进行数据处理。以下是一些常见的操作和示例:

读取整个Excel文件

import pandas as pd# 读取整个Excel文件中的默认工作表
df = pd.read_excel('file_path.xlsx')
print(df.head())

读取指定工作表

# 读取指定的工作表
df = pd.read_excel('file_path.xlsx', sheet_name='Sheet1')
print(df.head())

读取多个工作表

# 读取多个工作表,将结果存储在字典中
dfs = pd.read_excel('file_path.xlsx', sheet_name=['Sheet1', 'Sheet2'])# 打印Sheet1的前几行
print(dfs['Sheet1'].head())# 打印Sheet2的前几行
print(dfs['Sheet2'].head())

读取所有工作表

# 读取所有工作表,将结果存储在字典中
dfs = pd.read_excel('file_path.xlsx', sheet_name=None)# 打印每个工作表的前几行
for sheet_name, df in dfs.items():print(f"Sheet: {sheet_name}")print(df.head())

跳过指定行

# 跳过前两行
df = pd.read_excel('file_path.xlsx', sheet_name='Sheet1', skiprows=2)
print(df.head())

读取指定行和列

# 读取第5到10行,指定列
df = pd.read_excel('file_path.xlsx', sheet_name='Sheet1', skiprows=4, nrows=6, usecols='A:C')
print(df)

空值处理

# 用指定值替换空值
df = pd.read_excel('file_path.xlsx', sheet_name='Sheet1')
df.fillna(0, inplace=True)
print(df.head())

示例操作

以下是一个综合示例,展示了如何读取Excel文件中的指定工作表、跳过行、读取特定行和列,并进行空值处理:

import pandas as pd# 读取指定的工作表,并跳过前两行
df = pd.read_excel('file_path.xlsx', sheet_name='Sheet1', skiprows=2)# 读取第5到10行,指定列
df = pd.read_excel('file_path.xlsx', sheet_name='Sheet1', skiprows=4, nrows=6, usecols='A:C')# 用0替换所有空值
df.fillna(0, inplace=True)print(df)

这些操作可以帮助你灵活地读取和处理Excel文件中的数据,根据需要进行调整和组合。

3.Pandas的输出

Pandas提供了多种将数据输出到不同格式文件的方法,包括CSV、Excel、JSON、SQL等。以下是一些常见的数据输出操作和示例:

输出到CSV文件

import pandas as pd# 创建示例数据
data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]}
df = pd.DataFrame(data)# 输出到CSV文件,不包含行索引
df.to_csv('output_file.csv', index=False)

输出到Excel文件

# 输出到Excel文件,不包含行索引
df.to_excel('output_file.xlsx', index=False, sheet_name='Sheet1')

输出到JSON文件

# 输出到JSON文件
df.to_json('output_file.json', orient='records', lines=True)

输出到SQL数据库

import sqlite3# 连接到SQLite数据库(如果数据库不存在,则会自动创建)
conn = sqlite3.connect('database.db')# 输出到SQL数据库
df.to_sql('table_name', conn, if_exists='replace', index=False)

设置分隔符、编码和格式

CSV文件设置分隔符和编码
# 输出到CSV文件,设置分隔符为分号,编码为UTF-8
df.to_csv('output_file.csv', sep=';', encoding='utf-8', index=False)
Excel文件格式化输出
# 输出到Excel文件,设置列宽
with pd.ExcelWriter('output_file.xlsx', engine='xlsxwriter') as writer:df.to_excel(writer, sheet_name='Sheet1', index=False)# 获取工作表对象worksheet = writer.sheets['Sheet1']# 设置列宽worksheet.set_column('A:A', 20)worksheet.set_column('B:B', 10)

示例操作

以下是一个综合示例,展示了如何将数据输出到CSV、Excel、JSON和SQL文件:

import pandas as pd
import sqlite3# 创建示例数据
data = {'Name': ['Alice', 'Bob', 'Charlie'], 'Age': [25, 30, 35]}
df = pd.DataFrame(data)# 输出到CSV文件,不包含行索引
df.to_csv('output_file.csv', index=False)# 输出到Excel文件,不包含行索引,设置列宽
with pd.ExcelWriter('output_file.xlsx', engine='xlsxwriter') as writer:df.to_excel(writer, sheet_name='Sheet1', index=False)worksheet = writer.sheets['Sheet1']worksheet.set_column('A:A', 20)worksheet.set_column('B:B', 10)# 输出到JSON文件
df.to_json('output_file.json', orient='records', lines=True)# 连接到SQLite数据库
conn = sqlite3.connect('database.db')# 输出到SQL数据库
df.to_sql('table_name', conn, if_exists='replace', index=False)

这些操作可以帮助你将Pandas DataFrame数据输出到多种格式文件,根据具体需求进行调整和组合。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/46218.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Flutter 状态管理调研总结

一, 候选状态管理组件简介 0. flutter_hooks 一个 React 钩子在 Flutter 上的实现:Making Sense of React Hooks 钩子是一种用来管理 Widget 生命周期的新对象,以减少重复代码、增加组件间复用性,允许将视图逻辑提取到通用的用例中并重用&…

思路|如何利用oneNote钓鱼?

本文仅用于技术研究学习,请遵守相关法律,禁止使用本文所提及的相关技术开展非法攻击行为,由于传播、利用本文所提供的信息而造成任何不良后果及损失,与本账号及作者无关。 本文来源无问社区,更多实战内容,…

[python]pycharm设置清华源

国内镜像源有以下几个,因为都是国内的,基本速度差不了太多。 清华:https://pypi.tuna.tsinghua.edu.cn/simple 阿里云:http://mirrors.aliyun.com/pypi/simple/ 中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/ 豆瓣&…

针对【module_or_function】的单元测试,全面覆盖可能的【edge_cases】

针对【module_or_function】的单元测试,全面覆盖可能的【edge_cases】 编写单元测试是为了验证代码模块或函数的正确性和鲁棒性。对于module_or_function,首先需要确定这个模块或函数的具体功能和预期输入范围。一个好的单元测试应该包括以下几个步骤&a…

高并发服务器-使用多线程(Multi-Thread)实现【C语言】

在上期的socket套接字的使用详解中(socket套接字的使用详解)最后实现的TCP服务器只能处理一个客户端的请求发送,当有其他客户端请求连接时会被阻塞。为了能同时处理多个客户端的连接请求,本期使用多线程的方式来解决。 程序流程 …

爬虫案例(读书网)(下)

上篇链接: CSDN-读书网https://mp.csdn.net/mp_blog/creation/editor/139306808 可以看见基本的全部信息:如(author、bookname、link.....) 写下代码如下: import requests from bs4 import BeautifulSoup from lxml import etreeheaders{…

scottplot5 中 使用signalXY图,如何更新数据?

🏆本文收录于《CSDN问答解答》专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收藏&…

总部下达任务时,如何保证员工的执行力?

执行力是个体基于战略目标,有效整合利用资源,保质保量完成预定目标的操作能力,员工执行力的高低是企业完成效益、成果转化的关键。执行力包含完成任务的意愿、完成能力、完成程度三个维度,其中意愿是基础和出发点,能力…

物联网与通信技术

查了很多资料,也夹杂着一些自己的见解。此篇文章仅探讨三个问题:物联网与通信技术的关系;5G为物联网带来了什么,物联网真的需要5G吗;物联网发展的现实问题。 1、物联网与通信技术的关系 最近几年,物联网的…

Apache POI 使用Java处理Excel数据 进阶

1.POI入门教程链接 http://t.csdnimg.cn/Axn4Phttp://t.csdnimg.cn/Axn4P建议&#xff1a;从入门看起会更好理解POI对Excel数据的使用和处理 记得引入依赖&#xff1a; <dependency><groupId>org.apache.poi</groupId><artifactId>poi</artifactI…

CentOS搭建 Mono 开发环境

Mono 是一个由 Xamarin 公司所主持的自由开放源代码项目,该项目的目标是创建一系列匹配ECMA标准的.NET工具,包括 C# 编译器和通用语言架构,Mono项目不仅可以运行于Windows系统上,还可以运行于Linux,FreeBSD,Unix,OS X和Solaris,甚至一些游戏平台,本实验带您搭建 Mono …

Linux chmod 命令简介

在Linux中&#xff0c;chmod 命令用于改变文件或文件夹的访问权限。要改变一个文件夹及其内部所有文件和子文件夹的权限&#xff0c;您可以使用递归选项 -R。以下是一些常用的 chmod 命令示例&#xff1a; 给所有用户读、写和执行权限&#xff1a; chmod -R 777 /path/to/direc…

JVM高频面试点

文章目录 JVM内存模型程序计数器Java虚拟机栈本地方法栈Java堆方法区运行时常量池 Java对象对象的创建如何为对象分配内存 对象的内存布局对象头实例数据对齐填充 对象的访问定位 垃圾收集器找到垃圾引用计数法可达性分析&#xff08;根搜索法&#xff09; 引用概念的扩充回收方…

【Socket套接字编程】(实现TCP和UDP的通信)

&#x1f387;&#x1f389;&#x1f389;&#x1f389;点进来你就是我的人了 博主主页&#xff1a;&#x1f648;&#x1f648;&#x1f648;戳一戳&#xff0c;欢迎大佬指点&#xff01; 人生格言: 当你的才华撑不起你的野心的时候,你就应该静下心来学习! 欢迎志同道合的朋友…

java序列化与反系列化,serializable原理,Parcelable接口原理解析,Json,XML

Java的序列化和反序列化是用于对象的持久化和传输的重要机制。以下是对相关概念的详细解释&#xff1a; Java 序列化与反序列化 序列化 (Serialization) 是将 Java 对象转换为字节流的过程&#xff0c;这样对象就可以通过网络传输或者保存到文件中。反序列化 (Deserializatio…

创建通用JS公共模块并发布至npm

title: 创建通用JS公共模块并发布至npm tags: UMD rollup verdaccio npm categories: 模块化 概要内容 创建&#xff1a;JS公共模块 打包&#xff1a;使用rollup 打包公共模块 发布&#xff1a;js公共模块至verdaccio平台 发布&#xff1a;js公共模块至npm平台 如何创建JS公共模…

【PostgreSQL】Windows 上安装 PostgreSQL 16版本

博主介绍:✌全网粉丝20W+,CSDN博客专家、Java领域优质创作者,掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域✌ 技术范围:SpringBoot、SpringCloud、Vue、SSM、HTML、Nodejs、Python、MySQL、PostgreSQL、大数据、物联网、机器学习等设计与开发。 感兴趣的可…

二叉树遍历(C++)

题目描述 树和二叉树基本上都有先序、中序、后序、按层遍历等遍历顺序&#xff0c; 给定中序和其它一种 遍历的序列就可以确定一棵二叉树的结构。 假定一棵二叉树一个结点用一个字符描述&#xff0c;现在给出中序和按层遍历的字符串&#xff0c;求该树 的先序遍历字符串。 输…

【Python】TensorFlow介绍与实战

TensorFlow介绍与使用 1. 前言 在人工智能领域的快速发展中&#xff0c;深度学习框架的选择至关重要。TensorFlow 以其灵活性和强大的社区支持&#xff0c;成为了许多研究者和开发者的首选。本文将进一步扩展对 TensorFlow 的介绍&#xff0c;包括其优势、应用场景以及在最新…

基于jeecgboot-vue3的Flowable流程仿钉钉流程设计器-支持VForm3表单的选择与支持

因为这个项目license问题无法开源&#xff0c;更多技术支持与服务请加入我的知识星球。 1、初始化的时候加载表单 /** 查询表单列表 */ const getFormList () > {listForm().then(res > formOptions.value res.result.records) } 2、开始节点的修改&#xff0c;增加表…