pandas 读取csv 数据 read_csv 参数详解

前言

Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。
Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。
Pandas 主要引入了两种新的数据结构:DataFrame 和 Series。

环境准备:

pip install pandas

read_csv 参数详解

pandas的 read_csv 函数用于读取CSV文件。以下是一些常用参数:

  • filepath_or_buffer: 要读取的文件路径或对象。
  • sep: 字段分隔符,默认为,。
  • delimiter: 字段分隔符,sep的别名。
  • header: 用作列名的行号,默认为0(第一行),如果没有列名则设为None。
  • names: 列名列表,用于结果DataFrame。
  • index_col: 用作索引的列编号或列名。
  • usecols: 返回的列,可以是列名的列表或由列索引组成的列表。
  • dtype: 字典或列表,指定某些列的数据类型。
  • skiprows: 需要忽略的行数(从文件开头算起),或需要跳过的行号列表。
  • nrows: 需要读取的行数(从文件开头算起)。
  • skipfooter: 文件尾部需要忽略的行数。
  • encoding: 文件编码(如’utf-8’,'latin-1’等)。
  • parse_dates: 将某些列解析为日期。
  • infer_datetime_format: 如果 True 且 parse_dates 未指定,那么将尝试解析日期。
  • iterator: 如果 True,返回 TextFileReader 对象,用于逐块读取文件。
  • chunksize: 每个块的行数,用于逐块读取文件。
  • compression: 压缩格式,例如 ‘gzip’ 或 ‘xz’

filepath_or_buffer要读取的文件路径或对象

filepath_or_buffer: FilePath | ReadCsvBuffer[bytes] | ReadCsvBuffer[str]
可以接收3种类型,文件路径,读取文件的bytes, 读取文件的str

  • 可以接受任何有效的字符串路径。该字符串可以是 URL。有效的 URL 方案包括 http、ftp、s3、gs 和 file。对于文件 URL,需要主机。本地文件可以是:file://localhost/path/to/table.csv。
  • 如果你想传入一个路径对象,pandas 接受任何 Path.
  • 我们所说的类文件对象是指具有 read() 方法的对象,例如文件句柄(例如通过内置 open 函数)或 StringIO。

data.csv 测试数据

name,sex,age,email
张三,男,22,123@qq.com
李四,男,23,222@qq.com
王五,女,24,233@qq.com
张六,男,22,123@qq.com
李七,男,23,124@qq.com
小明,女,24,125@qq.com
张山,女,24,126@qq.com
王二,男,23,127@qq.com
王九,男,23,128@qq.com
李明,男,20,129@qq.com
刘三,男,29,130@qq.com
刘四,男,28,131@qq.com

示例

import pandas
from pathlib import Path# 1.相对路径,或文件绝对路径
df1 = pandas.read_csv('data.csv')
print(df1)# 文件路径对象Path
file_path = Path(__file__).parent.joinpath('data.csv')
df2 = pandas.read_csv(file_path)
print(df2)

读取一个url地址,http://127.0.0.1:8000/static/data.csv, 此地址是一个data.csv文件在线下载地址

df3 = pandas.read_csv('http://127.0.0.1:8000/static/data.csv')
print(df3)

也可以是一个文件对象

with open('data.csv', encoding='utf8') as fp:df4 = pandas.read_csv(fp)print(df4)

sep: 字段分隔符,默认为,

sep 字段分隔符,默认为,
delimiter(同sep,分隔符)

df1 = pandas.read_csv('data.csv', sep=',')
print(df1)df2 = pandas.read_csv('data.csv', delimiter=',')
print(df2)

header 用作列名的行号

header: 指定哪一行作为列名,默认为0,即第一行,如果没有列名则设为None。
如下数据,没有header

张三,男,22,123@qq.com
李四,男,23,222@qq.com
王五,女,24,233@qq.com
张六,男,22,123@qq.com

读取示例

df6 = pandas.read_csv('data2.csv', header=None)
print(df6)

names自定义列名

names自定义列名,如果header=None,则可以使用该参数。

df6 = pandas.read_csv('data2.csv',header=None,names=['姓名', '性别', '年龄', '邮箱'])
print(df6)

如果有header,也可以使用names自定义列名

df7 = pandas.read_csv('data.csv',header=0,names=['姓名', '性别', '年龄', '邮箱'])
print(df7)

那么读取结果

    姓名 性别  年龄          邮箱
0   张三  男  22  123@qq.com
1   李四  男  23  222@qq.com
2   王五  女  24  233@qq.com
······

index_col 用作行索引的列编号或列名

index_col参数在使用pandas的read_csv函数时用于指定哪一列作为DataFrame的索引。
如果设置为None(默认值),CSV文件中的行索引将用作DataFrame的索引。如果设置为某个列的位置(整数)或列名(字符串),则该列将被用作DataFrame的索引。

import pandas as pd# 我们想要将'`email`'列作为DataFrame的索引df8 = pd.read_csv('data.csv', index_col='email')
print(df8)# 或者,如果我们知道'email'列在第4列的位置,也可以这样指定
df9 = pd.read_csv('data.csv', index_col=3)
print(df9)

usecols 读取指定的列

usecols 读取指定的列,可以是列名或列编号。

import pandas as pd# 1.指定列的编号
df10 = pd.read_csv('data.csv', usecols=[0, 1])
print(df10)# 2.指定列的名称
df11 = pd.read_csv('data.csv', usecols=['name', 'sex'])
print(df11)

dtype 指定每列的数据类型

dtype参数在pandas.read_csv函数中用于指定列的数据类型。当你知道某些列的数据类型时,可以使用dtype参数来提高读取文件的效率,并且可以预防可能发生的类型错误。

name,sex,age,email
张三,男,22,123@qq.com
李四,男,23,222@qq.com

默认情况下age得到的是int类型

df12 = pd.read_csv('data.csv')
print(df12.to_dict())

结果: ‘age’: {0: 22, 1: 23, 2: 24, 3: 22, 4: 23 …

可以指定age变成str或者float类型

df13 = pd.read_csv('data.csv', dtype={"age": str})
print(df13.to_dict())

结果: ‘age’: {0: ‘22’, 1: ‘23’, 2: ‘24’, 3: ‘22’, 4: ‘23’

skiprows 、nrows 和skipfooter

skiprows: 需要忽略的行数(从文件开头算起),或需要跳过的行号列表。
nrows: 需要读取的行数(从文件开头算起)
skipfooter: 文件尾部需要忽略的行数。

import pandas as pd# 跳过前面2行
df15 = pd.read_csv('data.csv', skiprows=2)
print(df15)

nrows 需要读取的行数

import pandas as pd# 读取前面2行
df15 = pd.read_csv('data.csv', nrows=2)
print(df15)

skipfooter: 文件尾部需要忽略的行数。

import pandas as pd# 忽略文件尾部3行
df15 = pd.read_csv('data.csv', skipfooter=3)
print(df15)

parse_dates 将某些列解析为日期

数据文件ddd.csv

name,time,date
Bob,21:33:30,2019-10-10
Jerry,21:30:15,2019-10-10
Tom,21:25:30,2019-10-10
Vince,21:20:10,2019-10-10
Hank,21:40:15,2019-10-10

读取示例

import pandas as pd# 1.指定列的编号
df16 = pd.read_csv('ddd.csv')
print(df16)

读取结果

    name      time        date
0    Bob  21:33:30  2019-10-10
1  Jerry  21:30:15  2019-10-10
2    Tom  21:25:30  2019-10-10
3  Vince  21:20:10  2019-10-10
4   Hank  21:40:15  2019-10-10

默认读取的date日期是字符串类型,使用parse_dates 参数转成datetime类型

import pandas as pddf16 = pd.read_csv('ddd.csv')
print(df16.to_dict())   # 'date': {0: '2019-10-10', 1: '2019-10-10',df17 = pd.read_csv('ddd.csv', parse_dates=['date'])
print(df17.to_dict())  # 'date': {0: Timestamp('2019-10-10 00:00:00')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/817490.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++生成动态库,C++和C#以及Java在windows和linux调用

Windows生成dllC库 1、创建动态链接库项目 源文件编写函数 // dllmain.cpp : 定义 DLL 应用程序的入口点。 #include "pch.h"int sum(int a, int b) {return a b; }BOOL APIENTRY DllMain( HMODULE hModule,DWORD ul_reason_for_call,LPVOID lpReserved) {switch…

【LAMMPS学习】八、基础知识(1.8)键的断裂

8. 基础知识 此部分描述了如何使用 LAMMPS 为用户和开发人员执行各种任务。术语表页面还列出了 MD 术语,以及相应 LAMMPS 手册页的链接。 LAMMPS 源代码分发的 examples 目录中包含的示例输入脚本以及示例脚本页面上突出显示的示例输入脚本还展示了如何设置和运行各…

【Linux】手搓shell

手搓shell 代码 #include <stdio.h> #include <stdlib.h> #include <string.h> #include <errno.h> #include <unistd.h> #include <sys/types.h> #include <sys/wait.h> #include <ctype.h> #include <sys/stat.h> #…

取出/var/log/secure中一小时内登录失败超过三次的IP

取出/var/log/secure中一小时内登录失败超过三次的IP 前两个字段是日期&#xff0c;第三个字段是小时&#xff0c;第四个字段是IP cat /var/log/secure | sort -i | awk -F [ :] /Failed/{a[$1" "$2" "$3" "$4" "$(NF-3)]}END{for(i …

使用 Python 实现复制粘贴的功能

pandas 里面有一个 pd.read_clipboard 函数&#xff0c;可以根据你复制的内容生成DataFrame。是的&#xff0c;就是我们平时选中&#xff0c;然后 CtrlC 时拷贝的内容。所以比较神奇&#xff0c;那么 pandas 到底是怎么做到的&#xff0c;它是怎么读出我们使用 Ctrl C 复制的内…

Python学习笔记(三)

一、使用朴素贝叶斯制作鸢尾花数据模型 from sklearn.preprocessing import StandardScaler from sklearn.naive_bayes import MultinomialNB from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.feature_extraction…

【面试题】s += 1 和 s = s + 1的区别

文章目录 1.问题2.发现过程3.解析 1.问题 以下两个程序真的完全等同吗&#xff1f; short s 0; s 1; short s 0; s s 1; 2.发现过程 初看s 1 和 s s 1好像是等价的&#xff0c;没有什么区别。很长一段时间内我也是这么觉得&#xff0c;因为当时学习c语言的时候教科书…

更优性能与性价比,从自建 ELK 迁移到 SLS 开始

作者&#xff1a;荆磊 背景 ELK (Elasticsearch、Logstash、Kibana) 是当下开源领域主流的日志解决方案&#xff0c;在可观测场景下有比较广泛的应用。 随着数字化进程加速&#xff0c;机器数据日志增加&#xff0c;自建 ELK 在面临大规模数据、查询性能等方面有较多问题和挑…

【简单讲解如何安装与配置Composer】

&#x1f3a5;博主&#xff1a;程序员不想YY啊 &#x1f4ab;CSDN优质创作者&#xff0c;CSDN实力新星&#xff0c;CSDN博客专家 &#x1f917;点赞&#x1f388;收藏⭐再看&#x1f4ab;养成习惯 ✨希望本文对您有所裨益&#xff0c;如有不足之处&#xff0c;欢迎在评论区提出…

实时渲染 -- 流明(Lumen)

首先我们需要知道Lumen需要解决哪些问题。 很多人都会问&#xff0c;既然已经有了硬件的Raytracing &#xff0c;我们为什么还要Lumen呢。这是由于很多硬件并不支持 Realtime Raytracing&#xff0c;对于支持的那些硬件&#xff0c; N 卡还算是勉强可以&#xff0c;而 A 卡支持…

AI人工智能讲师叶梓 大模型推理能力提升: 方法与实践

在人工智能的领域中&#xff0c;推理能力是衡量模型智慧的关键指标之一。近年来&#xff0c;研究者们提出了多种方法来增强大模型的推理能力&#xff0c;这些方法在不同程度上模拟了人类的思考过程&#xff0c;提高了模型解决问题的准确性和效率。以下是对这些方法的深入探讨和…

算法练习第五十四天|392. 判断子序列、115. 不同的子序列

392. 判断子序列 115. 不同的子序列 判断子序列 class Solution {// public boolean isSubsequence(String s, String t) {// int spointer 0;// int tpointer 0;// while(spointer < s.length() && tpointer < t.length()){// if(s.char…

Python中的可变对象和不可变对象详解

文章目录 1. 对象可变性简介2. 不可变对象的特性2.1 字符串2.2 整数和浮点数2.3 元组 3. 可变对象的特性3.1 列表3.2 字典3.3 集合 4. 函数中的对象传递4.1 不可变对象的传递4.2 可变对象的传递 最近面试被问到了这个问题&#xff0c;写个帖子解释一下可变对象和不可变对象 1. …

震动Github榜!7K Star火爆的数字人竟然开源了,拿走不谢(文末福利免费领)

本号专注于分享Github和Gitee上的高质量开源项目&#xff0c;并致力于推动前沿技术的分享。 软件介绍 Fay数字人框架-带货版是一个用于构建数字人应用场景的开源项目&#xff0c;具有低耦合度的各功能模块。你可以轻松更换声音来源、语音识别、情绪分析、NLP处理、情绪语音合成…

ES6-2:Iterator、Proxy、Promise、生成器函数...

11-Iterator迭代器 打印出的是里面的内容&#xff0c;如果是for in打印出来的是索引&#xff0c;of不能遍历对象Symbol.iterator是js内置的&#xff0c;可以访问直接对象arr[Symbol.iterator]&#xff0c;()调用对象非线性一般不能迭代 后两个是伪数组&#xff0c;但是是真迭…

Android,AMS、WMS、PKMS添加动态控制debug开关功能

问题背景 在framework源码中有很多debug开关,通常我们想要看某个模块的日志,比如说广播,就需要去修改源码,把对应的debug值改为true,但是这种方法耗时耗力,比如说我想看sendBroadcast的流程,但是BroadcastQueue中有很多debug开关,如下: 这种就需要去修改对应的源码才…

K8s: 将一个节点移出集群和相关注意事项

前置步骤 在Kubernetes集群中&#xff0c;要移出一个节点&#xff0c;你需要执行以下步骤&#xff1a; 1 &#xff09;将节点标记为不可调度 首先&#xff0c;你需要将目标节点标记为不可调度&#xff0c;以确保Kubernetes不会在该节点上调度新的Pod这可以通过执行以下命令实…

腾讯客户端开发实习一面

听说腾讯25年5000offer&#xff0c;我就去了...投完简历&#xff0c;当天晚上做完测评&#xff0c;第二天下午打电话约了第三天面试&#xff0c;额流程很快&#xff0c;快到第三天就寄了... 写在这里做个记录&#xff0c;也可以给学习学妹们经验&#xff0c;文末也有大厂面经合…

java中的List,ArrayList和LinkedList集合

List集合&#xff1a; void add(int index, E element) Inserts the specified element at the specified position in this list (optional operation). 在此集合中的指定位置插入指定元素 E remove(int index) Removes the element at the specified position in this list (…

并发比并行更先进吗

并发和并行都是计算机系统中处理多个任务或操作的重要概念&#xff0c;但它们各自有不同的应用场景和优势&#xff0c;因此不能简单地说并发比并行更先进。 并行处理是指在同一时刻&#xff0c;多个任务或操作在多个处理器上同时执行。它充分利用了多处理器系统的硬件资源&…