python pdf转txt保留全部信息_Python 将pdf转换成txt(不处理图片)

上一篇文章中已经介绍了简单的python爬网页下载文档,但下载后的文档多为doc或pdf,对于数据处理仍然有很多限制,所以将doc/pdf转换成txt显得尤为重要。查找了很多资料,在linux下要将doc转换成txt确实有难度,所以考虑先将pdf转换成txt。

师兄推荐使用PDFMiner来处理,尝试了一番,确实效果不错,在此和大家分享。

PDFMiner 的简介:PDFMiner is a tool for extracting information from PDF documents. Unlike other PDF-related tools, it focuses entirely on getting and analyzing text data.有兴趣的同学请通过官网进行详细查看,通过PDFMiner中的小工具pdf2txt.py,便能将pdf转换成txt,而且仍保留pdf中的格式,超赞!

阅读pdf2txt.py的源码,我们可以看到具体的实现步骤,为了以后能处理大规模的pdf文件,这里我们只提取出pdf转换成txt的部分,具体实现代码如下:

# -*- coding: utf-8 -*-

#-----------------------------------------------------

# 功能:将pdf转换成txt(不处理图片)

# 作者:chenbjin

# 日期:2014-07-11

# 语言:Python 2.7.6

# 环境:linux(ubuntu)

# PDFMiner20140328(Must be installed)

# 使用:python pdf2txt.py file.pdf

#-----------------------------------------------------

import sys

from pdfminer.pdfinterp import PDFResourceManager,PDFPageInterpreter

from pdfminer.converter import TextConverter

from pdfminer.layout import LAParams

from pdfminer.pdfpage import PDFPage

#main

def main(argv) :

#输出文件名,这里只处理单文档,所以只用了argv[1]

outfile = argv[1] + ‘.txt‘

args = [argv[1]]

debug = 0

pagenos = set()

password = ‘‘

maxpages = 0

rotation = 0

codec = ‘utf-8‘ #输出编码

caching = True

imagewriter = None

laparams = LAParams()

#

PDFResourceManager.debug = debug

PDFPageInterpreter.debug = debug

rsrcmgr = PDFResourceManager(caching=caching)

outfp = file(outfile,‘w‘)

#pdf转换

device = TextConverter(rsrcmgr, outfp, codec=codec, laparams=laparams,

imagewriter=imagewriter)

for fname in args:

fp = file(fname,‘rb‘)

interpreter = PDFPageInterpreter(rsrcmgr, device)

#处理文档对象中每一页的内容

for page in PDFPage.get_pages(fp, pagenos,

maxpages=maxpages, password=password,

caching=caching, check_extractable=True) :

page.rotate = (page.rotate+rotation) % 360

interpreter.process_page(page)

fp.close()

device.close()

outfp.close()

return

if __name__ == ‘__main__‘ : main(sys.argv)

下一步将尝试将pdf中的图片进行转换,可以通过http://denis.papathanasiou.org/2010/08/04/extracting-text-images-from-pdf-files/ 进行了解。

参考资料:

1.PDFMiner:http://www.unixuser.org/~euske/python/pdfminer/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/502220.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java cxf 不使用springmvc_使用cfx与springMVC集成发布与调用webservice

客户端调用代码 Client.java package com.quickmap.common;import javax.xml.namespace.QName;import javax.xml.ws.Service;import javax.xml.ws.soap.SOAPBinding;public final class Client {private static final QName SERVICE_NAME new QName("http://common.quickm…

python表单处理_python flask 表单处理Flask-WTF

涉及到的插件和包有Flask-WTF,WTForms。内容有表单的创建使用流程,一些最佳实践,还有在页面显示提示消息的简单方式,配合Flask内置的 flash()。Flask的requset对象包含了client端发送过来的所有请求,在request.form中就有POST方法…

电脑环境变量设置 java_如何设置自己电脑的系统环境变量?

Windows下JAVA用到的环境变量主要有3个,JAVA_HOME、CLASSPATH、PATH。下面逐个分析。JAVA_HOME指向的是JDK的安装路径,如x:\JDK_1。4。2,在这路径下你应该能够找到bin、lib等目录。值得一提的是,JDK 的安装路径可以选择任意磁盘目…

用python实现打开虚拟机_如何使用python从虚拟机读取文件

我使用oraclevirtualbox在我的系统上运行一个虚拟机,我要完成的是从物理系统读取虚拟机上的文件。我正在使用virtualbox api(pyvbox)与virtualbox进行接口。这是我第一次使用virtualbox api。在更新>>> import virtualbox>>> vbox virtualbox.Vi…

java 调用 mahout_java – 运行Mahout本地获取MahoutDriver的ClassNotFoundException

我试图在Windows 8机器上本地运行Mahout(没有Hadoop).我意识到这不是最佳设置,但这就是我必须使用的.当我尝试运行bin / mahout时,我收到以下错误:$bin/mahoutMAHOUT_LOCAL is set, so we dont add HADOOP_CONF_DIR to classpath.no HADOOP_HOME set, running local…

java写hive自定义函数_hive自定义函数的实现和执行

1. 先建个maven工程,创建Java类,将你要实现的内容写进类的方法里,例如public class StringExt extends UDF{public String evaluate(String pnb){return "Hello " pnb;}}这个类的实现很简单,继承了org.apache.hadoop.h…

python创建文件夹用什么函数_Python——os.mkdir()在指定路径下创建文件夹 + 路径的连接理解...

Python——os.mkdir()在指定路径下创建文件夹 路径的连接理解发布时间:2018-11-16 17:08,浏览次数:512, 标签:Pythonosmkdir引子: 我在用路径连接函数 os.path.join() 时发现,其连接的各级目录必须首先存在&#xff0…

基于hadoop的商品推荐系统_【论文笔记】基于矩阵分解的推荐系统

本文是对经典论文的阅读笔记,大部分为论文的中文翻译内容(笔者英语水平也就六级飘过的水准,不喜勿喷)论文标题:Matrix factorization techniques for recommender systems随着Netflix竞赛的结果所示,矩阵分…

php fpm在哪配置,php7的php-fpm.conf文件在哪里

php7下的php-fpm.conf文件一般是在php的安装目录下的etc目录中,文件路径为/usr/local/php-fpm/etc/php-fpm.conf。php-fpm.conf是php-fpm进程管理器的配置文件。php-fpm.conf是php-fpm进程管理器的配置文件。文件路径:/usr/local/php-fpm/etc/php-fpm.co…

python 生成pdf页面大小_(Python)更改使用xtopd生成的PDF文件的页面大小和格式

我想用Python转换xlsx。我使用tablib和xtopdf模块构建了一个结构良好的表。工作出色!不幸的是,内容不适合一个pdf页面。所以我想把页面大小和格式改成水平A3。但我不知道这怎么可能。我的代码:import randomimport tablibfrom openpyxl impor…

php数组合并字段,PHP数组按要求合并

数组一:[0] > Array([rid] > 1[hf_rid] > 0[aid] > 1[uid] > 1[content] > 我肯定第一名[re_time] > 2017-10-10 10:59[nickname] > 就是这么帅)[1] > Array([rid] > 2[hf_rid] > 0[aid] > 1[uid] > 1[content] > 马蛋,中枪了[re_ti…

aba会导致问题_肌肤缺水会导致哪些问题呢?我们又该怎么判断呢?

一.如何判断皮肤是否缺水?01.脸部肌肤粗糙,有紧绷感很多人在日常中都会用到洗面奶吧,在用过洗面奶之后如果发现肌肤变得粗糙,有紧绷感,那么说明你的肌肤就需要补水了。02.化妆之后浮粉、起皮如果给肌肤补足充足的水分&…

php编写用户登录页面,js+php实现静态页面实时调用用户登陆状态的方法

这篇文章主要介绍了jsphp实现静态页面实时调用用户登陆状态的方法,采用在静态页面中使用js调用php页面从而实现用户登录状态的实时调用功能,需要的朋友可以参考下本文实例讲述了jsphp实现静态页面实时调用用户登陆状态的方法。分享给大家供大家参考。具体分析如下:在…

python调试和测试有什么区别和联系_软件测试和测试开发到底有什么区别跟联系?...

对于没有进入IT领域的同学而言,软件测试并不陌生,但如果听到测试开发,他们一定会感到十分困惑,这究竟是测试还是开发呢?按照字面意思理解,大家或许会觉得测试开发是指既能开发产品又能测试产品的“技术王者…

php 远程图片合拼,php获取远程图片的三种方式

来源:http://www.phstar.cn/article/258.html下面介绍 3种php远程获取图片的方法,希望对大家有帮助。1:file_get_contents,file_put_contents方式function download_remote_file($file_url, $save_to){$content file_get_contents($file_url…

python蒙特卡洛模拟_基于Python的21点游戏蒙特卡洛模拟

问题重述:大多数赌场使用6副牌或8副牌玩这种游戏,以防止“数牌点”,在你的模拟中使用两副牌(共104张)。只有2位参与者,你和庄家。游戏开始时每人得到两张牌,对于牌面为2~10的牌,点数和面数相同;…

php 接受 amp,php中amp;amp;和||的用法

这两个是php 中的关系运算符。php中的关系运算符有:&&(and)、||(or)、xor(亦或)、!(非)、名称 关系 示例 结果and 与 $x and $y 如果 $x 和 $y 都为 true,则返回 true。or 或 $x or $y …

spring更新后 外层事务查不到_再深一点:面试工作两不误,源码级理解Spring事务...

原创:小姐姐味道(微信公众号ID:xjjdog),欢迎分享,转载请保留出处。Spring有5种隔离级别,7种传播行为。这是面试常问的内容,也是代码中经常碰到的知识点。这些知识枯燥而且乏味,其中有些非常的绕…

php 字符串比较txt,PHP读到txt中文字符串比较失败

最近开始做PHP。今天从txt文件中读取一个中文字符串,跟一个字符串作比较,老是匹配失败,开始以为是编码问题,因为我的PHP文件编码是utf-8,遂将txt文件的编码也改成utf-8,好,噩梦来了...我将读到的…

箭头函数的this指向谁_高阶函数

NodeJS 系列文章,本篇是第一篇,首先,预计将后续高频使用逻辑串一遍,依次是高阶函数,promise以及事件机制。本篇主要是高阶函数。call、bind、applycall、apply 都是改变 this 指向,区别是接受参数的方式不一…