python 导入数据对不齐_[Python] 大文件数据读取分析

首先我们可以确定的是不能用read()与readlines()函数;

因为如果将这两个函数均将数据全部读入内存,会造成内存不足的情况。

针对数据按行划分的文件

以计算行数为例,首先针对几种不同的方法来作比较:

1、使用for遍历的方法,比较美观,网上搜索到八有十九是让你这样做,尽管已经很快了但还不是最快的

start = time.time()

with open(dataPath, 'r') as f:

count = 0

for line in f:

count += 1

print(count)

print(time.time() - start)

输出:

5000

0.09386205673217773

2、使用readline()模拟遍历,发现其实结果和第一种差不多

start = time.time()

with open(dataPath, 'r') as f:

line = f.readline()

count = 1

while line:

count += 1

line = f.readline()

print(count - 1)

print(time.time() - start)

输出:

5000

0.09433221817016602

3、对比readlines()直接去访问,结果却更慢了!

start = time.time()

with open(dataPath, 'r') as f:

count = 0

for line in f.readlines():

count += 1

print(count)

print(time.time() - start)

输出:

5000

0.12223696708679199

4、不断去检测文件指针位置,有的时候我们可能需要读到特定的文件位置就停下;就会发现tell()十分耗时!

start = time.time()

with open(dataPath, 'r') as f:

count = 0

while f.tell() < datasize:

f.readline()

count += 1;

print(count)

print(time.time() - start)

输出:

5000

0.29171299934387207

5、使用mmap的方法,mmap是一种虚拟内存映射文件的方法,即将一个文件或者其它对象映射到进程的地址空间,实现文件磁盘地址和进程虚拟地址空间中一段虚拟地址的一一对映关系。通过建立一个文件的内存映射将使用操作系统虚拟内存来直接访问文件系统上的数据,而不是使用常规的I/O函数访问数据。内存映射通常可以提供I/O性能,因为使用内存映射是,不需要对每个访问都建立一个单独的系统调用,也不需要在缓冲区之间复制数据;实际上,内核和用户应用都能直接访问内存,是目前测到最快的方法。

import mmap

start = time.time()

with open(dataPath, "r") as f:

# memory-map the file, size 0 means whole file

map = mmap.mmap(f.fileno(), length=0, access=mmap.ACCESS_READ)

count = 0

while map.readline():

count += 1

print(count)

map.close()

print(time.time() - start)

输出:

5000

0.023865938186645508

6、可以不按行读取,而是按块读取,然后分析\n的个数,但这只针对计算行数而论可行,但我们真正想要的是按行读取数据,所以这里只给出实现方法,不进行对比。

with open(r"d:\lines_test.txt",'rb') as f:

count = 0

while True:

buffer = f.read(1024 * 8192)

if not buffer:

break

count += buffer.count('\n')

print count

考虑MPI的情况

当文件很大的时候,任务又需要并行化的话,我们可以将文件拆分成多段去处理,例如对于4核的电脑,可以让4条进程分别去处理文件不同的部分,每条进程读四分之一的数据。但这时候要考虑到,分割点不一定刚好是换行符的情况,所以我们可以考虑从分割点下一个换行符开始搜索,分割点第一个换行符之前的交给前一个进程去处理,处理方法如图:

实现类似:

from mpi4py import MPI

import platform

import sys

import io

import os

import mmap

sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8')

comm = MPI.COMM_WORLD

comm_size = comm.size

comm_rank = comm.rank

with open(filePath, 'r', encoding='utf-8') as f:

# Set the file pointer to the beginning of a line after blockSize * rank

# Use mmap to run faster

map = mmap.mmap(f.fileno(), length=0, access=mmap.ACCESS_READ)

map.seek(comm_rank * blockSize)

if comm_rank != 0:

map.readline()

# Each process handle about blocksize lines.

blockEnd = (comm_rank + 1) * blockSize

# Use index here to avoid using twice map.tell()

index = map.tell()

while index <= blockEnd and index < dataSize:

# line = map.readline().translate(None, b'\x00').decode()

line = map.readline().decode('utf-8')

index = map.tell()

try:

dosomething(line)

except Exception as err:

print(err)

continue

如果不用mmap.tell()改用f.tell()的话,效率其差,一开始我遇到这种情况的时候是想着自己不断去加len(line)去自己计算文件指针的位置的。但又发现一个问题,file.readline()会帮你去除部分字符,例如\r\n只会保留\n,而mmap.readline()则不会,而且试过表示很难,总是和f.tell()对不齐。

数据按特殊符号划分

考虑到可能数据划分点不是\n, 我们可以这样读取:

def rows(f, chunksize=1024, sep='|'):

"""

Read a file where the row separator is '|' lazily.

Usage:

>>> with open('big.csv') as f:

>>>    for r in rows(f):

>>>        process(row)

"""

curr_row = ''

while True:

chunk = f.read(chunksize)

if chunk == '': # End of file

yield curr_row

break

while True:

i = chunk.find(sep)

if i == -1:

break

yield curr_row + chunk[:i]

curr_row = ''

chunk = chunk[i+1:]

curr_row += chunk

数据无特定划分方式

一种方法是用yield:

def read_in_chunks(file_object, chunk_size=1024):

"""Lazy function (generator) to read a file piece by piece.

Default chunk size: 1k."""

while True:

data = file_object.read(chunk_size)

if not data:

break

yield data

with open('really_big_file.dat') as f:

for piece in read_in_chunks(f):

process_data(piece)

另外一种方法是用iter和一个helper function:

f = open('really_big_file.dat')

def read1k():

return f.read(1024)

for piece in iter(read1k, ''):

process_data(piece)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/489724.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【周末阅读】人工智能时代基础数据服务大有可为

来源&#xff1a;青岛智能产业技术研究院智能产业 前沿高地【导读】为机器学习算法训练、优化提供数据采集、标注等服务的人工智能基础数据服务成为这一人工智能热潮中必不可少的一环。如果说计算机工程师是AI的老师&#xff0c;那基础数据服务就是老师手中的教材。人工智能基础…

c#FileStream文件读写(转)

FileStream对象表示在磁盘或网络路径上指向文件的流。这个类提供了在文件中读写字节的方法&#xff0c;但经常使用StreamReader或StreamWriter执行这些功能。这是因为FileStream类操作的是字节和字节数组&#xff0c;而Stream类操作的是字符数据。字符数据易于使用&#xff0c;…

python能处理图片吗_python 能处理图像?

答案是&#xff1a;完全ojbkpython具有强大的图像处理功能&#xff0c;这归功于他 的PIL模块与我们平时所见的使用PS等软件P图有所不同&#xff0c;python实现的图像处理是以代码的形式完成工作&#xff0c;也是千峰这篇文章要说的。需要相关学习资料请关注我操作环境&#xff…

python3多线程编程_Python 3-多线程编程

Python 3-多线程编程运行多个线程类似于同时运行多个不同的程序&#xff0c;但具有以下优点-进程中的多个线程与主线程共享相同的数据空间&#xff0c;因此与单独的进程相比&#xff0c;可以更轻松地共享信息或彼此通信。线程有时被称为轻量级进程&#xff0c;它们不需要太多的…

物理史2000年来最精彩的对决!

来源&#xff1a;工程客背景&#xff1a;在20世纪初&#xff0c;物理学界诞生了影响至今的两大理论&#xff0c;这两个门派&#xff0c;一个是爱因斯坦以一人之力提出的相对论&#xff0c;另一个则是由玻尔领导的哥本哈根学派合力塑成的量子力学。而因为观念的差异&#xff0c;…

sql多行合成一行的解决方法

转载于:https://www.cnblogs.com/shanhuashuiqing11/p/6000627.html

动态改变eachers图表高_让你的Excel图表动起来

有读者提了这样一个问题&#xff0c;想要制作如下的动态图表&#xff0c;要怎么实现&#xff1f;动态图表展示.gif可以看到&#xff0c;这个动态效果里有4种选择器&#xff0c;左上方的组合框呈现出选择不同的方案展示相应柱形图的效果&#xff1b;中间的复选框勾上显示差额的图…

pythonxlwt行居中_python3-xlwt-Excel设置(字体大小、颜色、对齐方式、换行、合并单元格、边框、背景、下划线、斜体、加粗)...

# coding:utf-8import patterns as patternsimport xlwtimport timei 0book xlwt.Workbook(encodingutf-8)sheet book.add_sheet(sheet1, cell_overwrite_okTrue)# 如果出现报错&#xff1a;Exception: Attempt to overwrite cell: sheetnamesheet1 rowx0 colx0# 需要加上&a…

2018-2020年Gartner战略科技发展趋势一览!

来源&#xff1a;边缘计算社区近日&#xff0c;Gartner公布了2020年十大战略科技趋势的预测&#xff0c;值此之际&#xff0c;边缘计算社区总结回顾并简要分析了2018-2020三年的战略科技发展趋势变化。Gartner将战略科技发展趋势定义为具有巨大颠覆性潜力、脱离初期阶段且影响范…

【HDU 2255】奔小康赚大钱 (最佳二分匹配KM算法)

奔小康赚大钱 Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Submission(s): 1836 Accepted Submission(s): 798 Problem Description传说在遥远的地方有一个非常富裕的村落,有一天,村长决定进行制度改革&#xff1a;重新分配…

java的比较运算符是_Java 基础(比较运算符,逻辑运算符,三元运算符)

运算符&#xff1a;比较运算符运算符运算范例结果相等于43false!不等于4!3true<小于4<3false>大于4>3true<小于等于4<3false>大于等于4>3trueinstanceof检查是否是类的对象"Hello" instanceof Stringtrue比较运算符的结果都是 boolean 类型&…

python爬去朋友圈_利用Python爬取朋友圈数据,爬到你开始怀疑人生

人生最难的事是自我认知&#xff0c;用Python爬取朋友圈数据&#xff0c;让我们重新审视自己&#xff0c;审视我们周围的圈子。文&#xff1a;朱元禄(数据分析&#xff0d;jacky)哲学的两大问题&#xff1a;1、我是谁&#xff1f;2、我们从哪里来&#xff1f;本文 jacky试图用P…

正面交锋!另类“竞赛”探索大脑的意识起源

图片来源&#xff1a;ZEPHYR/SCIENCE PHOTO LIBRARY/GETTY IMAGES来源&#xff1a;中国生物技术网在脑科学研究领域&#xff0c;科学家们可以观察到神经元的放电及其之间的通信&#xff0c;从而描绘出在产生感觉、进行决策和说话过程中大脑各区域是如何被“点亮”的。但他们无法…

(第七周)内容汇总

项目名&#xff1a;食物链教学工具 组名&#xff1a;奋斗吧兄弟 组长&#xff1a;黄兴 组员&#xff1a;谢孝淼、李俞寰、杜桥 1、团队贡献分 黄兴 5.1 谢孝淼 4.8 李俞寰 5.2 杜桥 4.9 2、alpha视频发布 平台&#xff1a;优酷 链接&#xff1a;http://v.youku.com/v_show/i…

tomcat java内存_[Tomcat]Java内存溢出详解Tomcat内存设置

Java内存溢出详解一、常见的Java内存溢出有以下三种&#xff1a;1.java.lang.OutOfMemoryError: Java heap space ----JVM Heap(堆)溢出JVM在启动的时候会自动设置JVM Heap的值&#xff0c;其初始空间(即-Xms)是物理内存的1/64&#xff0c;最大空间(-Xmx)不可超过物理内存。可以…

python与办公自动化专业就业方向_Python最好的几大就业方向与岗位技能要求【行业风向】...

关于Python的就业方向&#xff0c;如果你还在学习还没开始找工作&#xff0c;这篇文章绝对会对你有所帮助。目前信息化产业发展势头很好&#xff0c;互联网就成为了很多普通人想要涉及的行业&#xff0c;因为相比于传统行业&#xff0c;互联网行业涨薪幅度大&#xff0c;机会也…

深入探索边缘计算:物联网与5G时代的技术趋势

来源&#xff1a;世界物联网博览会边缘计算的诞生随着物联网规模的快速增长&#xff0c;集中式的数据存储、处理模式将面临难解的瓶颈和压力&#xff0c;此时在靠近数据产生的网络边缘提供数据处理的能力和服务&#xff0c;将是推动ICT产业发展的下一个重要驱动力。边缘计算&am…

BAPI_GOODSMVT_CREATE 移动类型311 CODE = '04' 代码

DATA: MAT_DOC LIKE BAPI2017_GM_HEAD_RET-MAT_DOC. "物料凭证编号 DATA: GMHEAD LIKE BAPI2017_GM_HEAD_01. DATA: BEGIN OF GMCODE. INCLUDE STRUCTURE BAPI2017_GM_CODE. DATA: END OF GMCODE. GMCODE-GM_CODE 04. ***********gmcode-gm_…

python交叉验证函数_python – 在sklearn中使用交叉验证和AUC-ROC作为逻辑回归模型...

我正在使用sklearn包来构建逻辑回归模型,然后对其进行评估.具体来说,我想使用交叉验证,但无法通过cross_val_score函数找出正确的方法.根据我看到的documentation和examples,我需要传递模型,特征,结果和评分方法的功能.然而,AUC不需要预测,它需要概率,因此它可以尝试不同的阈值…

无法消除恐惧?Nature发现肠道菌与大脑间更多的神秘联系...

来源&#xff1a;中国生物技术网肠道&#xff0c;也被称为“第二大脑”。研究人员对它研究得越多&#xff0c;就发现肠道微生物与大脑之间的联系越多。肠道细菌似乎会影响从抑郁症到自闭症的所有疾病。近日发表在《Nature》上一项有关小鼠如何克服恐惧的研究开始揭示出更多关于…