python读取大型csv文件,降低内存占用,提高程序处理速度

文章目录

    • 简介
    • 读取前多少行
    • 读取属性列
    • 逐块读取整个文件
    • 总结
    • 参考资料

简介

遇到大型的csv文件时,pandas会把该文件全部加载进内存,从而导致程序运行速度变慢。
本文提供了批量读取csv文件、读取属性列的方法,减轻内存占用情况。

import pandas as pdinput_file = 'data.csv'

读取前多少行

加载前100000行数据

df = pd.read_csv(input_file, nrows=1e5)
df

查看每个字段占用的系统内存的情况

df.info(memory_usage='deep')

设置 memory_usage 的参数为 ‘deep’ 时,深度检查对象中的内存使用情况,包括对象中可能包含的其他对象(如列表、数组或其他数据结构)。若不设置deep参数,memory_usage 只会返回一个对象的基础内存使用情况,这主要基于对象本身的内存占用,而不考虑它可能引用的其他对象。
在这里插入图片描述
如上图所示,前100000行数据共占用220.MB内存。

查看每列属性的内存占用情况;

item = df.memory_usage(deep=True)

在这里插入图片描述

针对每个属性列的字节数进行求和,使用/ (1024 ** 2),实现1B到1MB的单位转换。验证了所有属性列的内存占用确实为 220.8MB。

在这里插入图片描述

内存占用从高到低降序排列:

df.memory_usage(deep=True).sort_values(ascending=False)

在这里插入图片描述

读取属性列

可能我们只关心, 一整张表中的某几个属性,比如:'企业名称', '经营范围'。那么便无需把整张表加载进内存。

df2 = pd.read_csv(input_file, nrows=1e5, usecols=['企业名称', '经营范围'])

查看一下内存占用

df2.memory_usage(deep=True).sum() / (1024 ** 2)

在这里插入图片描述
只读取两个属性列,内存占用只有33MB。

逐块读取整个文件

pd.read_csv(input_file, chunksize=1e3, nrows=1e5)

  • nrows=1e5: 读取100000条数据;
  • chunksize=1e3: 每一块是1000条数据;

1e5条数据,应该由100块1e3的数据组成;

# 分批次读取, 每chunksize是一个批次
chunk_dfs = pd.read_csv(input_file, chunksize=1e3, nrows=1e5)v = 0
cnt = 0
# 每个chunk_df 都是 dataframe 类型数据
for chunk_df in chunk_dfs:print(chunk_df.shape)cnt += 1v += chunk_df.shape[0]
print(v, cnt)

在这里插入图片描述
上图验证了,总共处理了1e5条数据,分成了100块进行读取。

总结

pd.read_csv(input_file, nrows, usecols, chunksize)
  • nrows: 读取多少行数据;
  • usecols: 读取哪些属性列的数据;
  • chunksize:分块读取,每一块的大小是多少条数据;

参考资料

  • 推荐 | 如何处理远超电脑内存的csv文件

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/739928.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

纯前端Web网页内嵌AutoCAD,支持在线编辑DWG、dxf等文档。

随着企业信息化的发展,越来越多的企业有网页在线浏览和编辑DWG文档(AutoCad生成的文档)的需求,但是新版浏览器纷纷取消了对NPAPI插件的支持,导致之前一些可以在线在线浏览和编辑DWG文档纷纷失效,今天推荐一…

【掌握版本控制:Git 入门与实践指南】操作仓库文件|分支管理

🎬慕斯主页:修仙—别有洞天 ♈️今日夜电波:泥中に咲く—ウォルピスカーター 0:34━━━━━━️💟──────── 4:46 🔄 ◀️ ⏸ ▶…

揭秘反向代理:探索其神秘之处

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…

141 Linux 系统编程18,线程,ps –Lf 进程 查看LWP,线程间共享数据,优缺点,编译加-lpthread,

一 线程概念 什么是线程 LWP:light weight process 轻量级的进程,本质仍是进程(在Linux环境下) 进程:独立地址空间,拥有PCB 线程:有独立的PCB,但没有独立的地址空间(共享) 区别:在于是否共…

【1688运营】如何拆解竞争对手店铺和单品数据?

关注竞争对手数据是1688运营中不可或缺的一环,它有助于企业更好地了解市场环境、发现市场机会、学习成功经验、预测市场变化以及提升竞争力。以下是一些建议,帮助你全面、深入地分析竞争对手的店铺和单品数据: 1、监控店铺数据 可以通过店雷…

Docker部署黑马商城项目笔记

部署后端 创建mysql目录如下,上传对应的文件 运行以下命令 docker run -d \--name mysql \-p 3306:3306 \-e TZAsia/Shanghai \-e MYSQL_ROOT_PASSWORD123 \-v ./mysql/data:/var/lib/mysql \-v ./mysql/conf:/etc/mysql/conf.d \-v ./mysql/init:/docker-entry…

mac redis启动,redis哨兵模式,redis集群的相关命令

Homebrew安装的软件会默认在/usr/local/Cellar/路径下 redis的配置文件redis.conf存放在/usr/local/etc路径下 cd /usr/local/Cellar/redis/7.0.10. 存在 cd /usr/local/opt/redis/bin/redis-server. 目录存在 cd /usr/local/etc/redis.conf 存在。配置文件 复制文件 cp …

深入浅出计算机网络 day.1 概论④ 计算机网络的定义和分类

不要退却,要绽放魅力 我的心会共鸣 和你 —— 24.3.9 一、计算机网络的定义 计算机网络早期的一个最简单定义 现阶段计算机网络的一个较好的定义 二、计算机网络的分类 按交换方式分类 按使用者分类 按传输介质分类 按覆盖范围分类 按拓扑结构分类,可…

2m高分辨率土地利用分类矢量数据/植被类型分布数据

土地利用数据是在根据影像光谱特征,结合野外实测资料,同时参照有关地理图件,对地物的几何形状,颜色特征、纹理特征和空间分布情况进行分析,建立统一解译标志的基础之上,依据多源卫星遥感信息,结…

细粒度IP定位参文2(Corr-SLG):A street-level IP geolocation method (2021年)

[2]S. Ding, F. Zhao, and X. Luo, “A street-level IP geolocation method based on delay-distance correlation and multilayered common routers,” Secur. Commun. Netw., vol. 2021, no. 1, pp. 1–10, 2021. 智能设备的地理位置可以帮助提供多媒体内容提供商和5G网络中…

数据结构中的堆(Java)

文章目录 把普通数组转换大顶堆数组堆增删改查替换堆排序 把普通数组转换大顶堆数组 该方式适用索引为0起点的堆 在堆(Heap)这种数据结构中,节点被分为两类:叶子节点(Leaf Nodes)和非叶子节点(N…

Spring事务及事务传播机制

目录 一、什么是事务 二、事务的操作 三、Spring下实现事务 1、Spring编程式事务 (1)事务提交 (2)事务回滚 2、Spring声明式事务 (1)无异常--提交 (2)异常且不捕获--回滚 …

电机特性学习

电机特性 电机堵转: 电机堵转的原理 玻璃升降器: 工作电压 升降器在 9V~16V 电压下应运行平稳,不允许有异音和卡滞现象。 工作电流 升降器的工作电流不大于 12A,堵转电流不大于 28A。 堵转 力 升降器 堵转 力应 不小于 212N。 玻璃升降器结构 电动车窗…

删除数据表

oracle从入门到总裁:​​​​​​https://blog.csdn.net/weixin_67859959/article/details/135209645 删除数据表属于数据库对象的操作 drop table 表名称; 删除 emp30 表 SQL> drop table emp30;表已删除。 上面这个语句运行后,就会把数据表 emp30 删除 在…

一起玩儿3D打印机——01 3D打印机初探

摘要:本文介绍3D打印技术的基本知识以及3D打印机的结构分类和组成 3D打印技术这几年得到了快速的发展,在一些特定领域和特定行业逐渐被越来越多的人所接受并大量使用。与之相关的供应链和产业链也日益壮大,并形成了完善的体系。 这次之所以…

蓝桥杯刷题7

目录 1. 字母数 2. 列名 3. 大乘积 4. 最大连通 5. 星期几 1. 字母数 public class Main {public static void main(String[] args) {int num 2023;while(true) {String mInteger.toString(num,16);if(m.matches("^[a-f]$")){System.out.println(num);break;}n…

Linux环境安装配置JDK11

文章目录 第一步:上传JDK11安装包第二步:解压安装包第三步:修改环境变量第四步、测试是否安装成功总结 JDK 11 是 Java 开发工具包(Java Development Kit)的一个版本,它是由 Oracle 公司开发和发布的。以下…

集成Mybatis Generator dao层代码生成

Mybatis Generator dao层代码生成 介绍 我们在使用mybatis开发的时候,需要去写表的基本的crud,这些咱们通常定义到dao层里面去,而mybatis generator可以帮我们把这件事情自动完成,大大节省时间并且可以规范dao层的代码。 sprin…

关于并发编程的一些总结

并发编程 1.synchronized是什么? synchronized是Java中的一个关键字,主要是为了解决多个线程访问共享资源的同步性,可以保证被它修饰的代码块或方法在任何时间至多只有一个线程执行。 2.synchronized的进化史? 在早期Java版本中&#xf…

基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的火焰检测系统(Python+PySide6界面+训练代码)

摘要:本研究详述了一种采用深度学习技术的火焰检测系统,该系统集成了最新的YOLOv8算法,并与YOLOv7、YOLOv6、YOLOv5等早期算法进行了性能评估对比。该系统能够在各种媒介——包括图像、视频文件、实时视频流及批量文件中——准确地识别火焰目…