pdf2docx - pdf 提取内容转 docx

文章目录

    • 一、关于 pdf2docx
      • 主要功能
      • 限制
    • 二、安装
      • 1、 PyPI
      • 2、从remote安装
      • 3、从源码安装
      • 4、卸载
    • 三、转化 PDF
      • 例 1: convert all pages
      • 例 2: 转换指定页面
      • 例 3: multi-Processing
      • 例 4: 转换加密的pdf
    • 四、提取表格
    • 五、命令行交互
      • 1、按页面范围
      • 2、按页码
      • 3、Multi-Processing
    • 六、图形界面
    • 七、Technical Documentation


一、关于 pdf2docx


  • github :https://github.com/ArtifexSoftware/pdf2docx/blob/master/README_CN.md

  • 基于 PyMuPDF 提取文本、图片、矢量等原始数据
  • 基于规则解析章节、段落、表格、图片、文本等布局及样式
  • 基于 python-docx 创建Word文档


主要功能

  • 解析和创建页面布局
    • 页边距
    • 章节和分栏 (目前最多支持两栏布局)
    • 页眉和页脚 [TODO]
  • 解析和创建段落
    • OCR 文本 [TODO]
    • 水平(从左到右)或竖直(自底向上)方向文本
    • 字体样式例如字体、字号、粗/斜体、颜色
    • 文本样式例如高亮、下划线和删除线
    • 列表样式 [TODO]
    • 外部超链接
    • 段落水平对齐方式 (左/右/居中/分散对齐)及前后间距
  • 解析和创建图片
    • 内联图片
    • 灰度/RGB/CMYK等颜色空间图片
    • 带有透明通道图片
    • 浮动图片(衬于文字下方)
  • 解析和创建表格
    • 边框样式例如宽度和颜色
    • 单元格背景色
    • 合并单元格
    • 单元格垂直文本
    • 隐藏部分边框线的表格
    • 嵌套表格
  • 支持多进程转换

pdf2docx 同时解析出了表格内容和样式,因此也可以作为一个表格内容提取工具。


限制

  • 目前暂不支持扫描PDF文字识别
  • 仅支持从左向右书写的语言(因此不支持阿拉伯语)
  • 不支持旋转的文字
  • 基于规则的解析无法保证 100%还原PDF样式

二、安装

1、 PyPI

$ pip install pdf2docx

更新

$ pip install --upgrade pdf2docx

2、从remote安装

Install pdf2docx directly from the master branch:

$ pip install git+git://github.com/dothinking/pdf2docx.git@master --upgrade

注:这种方式 pdf2docx 的版本可能比 PYPI 高,没有发布


3、从源码安装

Clone or download pdf2docx, navigate to the root directory and run:

$ python setup.py install

或者,使用开发模式

$ python setup.py develop

4、卸载

$ pip uninstall pdf2docx

三、转化 PDF

我们可以使用 Converter 类, 或者包装的 parse() 方法,来转化所有/指定的 pdf 页面到 docx。

如果pdf文件包含大量页面,支持多线程处理。


例 1: convert all pages

from pdf2docx import Converterpdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'# convert pdf to docx
cv = Converter(pdf_file)
cv.convert(docx_file)      # all pages by default
cv.close()

或使用 parse 方法:

from pdf2docx import parsepdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'# convert pdf to docx
parse(pdf_file, docx_file)

例 2: 转换指定页面

  • 通过 start(如果省略,则从第一页开始)和 end (如果忽略,则到最后一页)指定页面范围:

    # convert from the second page to the end (by default)
    cv.convert(docx_file, start=1)# convert from the first page (by default) to the third (end=3, excluded)
    cv.convert(docx_file, end=3)# convert from the second page and the third
    cv.convert(docx_file, start=1, end=3)
    

  • 或者,通过 pages 参数设置单独的页面:

    # convert the first, third and 5th pages
    cv.convert(docx_file, pages=[0,2,4])
    

注:关于输入参数的详细描述 请参阅convert()


例 3: multi-Processing

使用默认CPU计数启用多处理:

cv.convert(docx_file, multi_processing=True)

指定CPU个数:

cv.convert(docx_file, multi_processing=True, cpu_count=4)

注:多线程 仅适用于由 startend 指定的连续页面。


例 4: 转换加密的pdf

提供 password 参数,打开和转换加密 pdf

cv = Converter(pdf_file, password)
cv.convert(docx_file)
cv.close()

四、提取表格

from pdf2docx import Converterpdf_file = '/path/to/sample.pdf'cv = Converter(pdf_file)
tables = cv.extract_tables(start=0, end=1)
cv.close()for table in tables:print(table)

The output may look like:

...
[['Input ', None, None, None, None, None],
['Description A ', 'mm ', '30.34 ', '35.30 ', '19.30 ', '80.21 '],
['Description B ', '1.00 ', '5.95 ', '6.16 ', '16.48 ', '48.81 '],
['Description C ', '1.00 ', '0.98 ', '0.94 ', '1.03 ', '0.32 '],
['Description D ', 'kg ', '0.84 ', '0.53 ', '0.52 ', '0.33 '],
['Description E ', '1.00 ', '0.15 ', None, None, None],
['Description F ', '1.00 ', '0.86 ', '0.37 ', '0.78 ', '0.01 ']]

五、命令行交互

$ pdf2docx --helpNAMEpdf2docx - Command line interface for pdf2docx.SYNOPSISpdf2docx COMMAND | -DESCRIPTIONCommand line interface for pdf2docx.COMMANDSCOMMAND is one of the following:convertConvert pdf file to docx file.debugConvert one PDF page and plot layout information for debugging.tableExtract table content from pdf pages.

1、按页面范围

--start(如果省略,则从第一页开始)和--end(如果省略,则从最后一页)指定页面范围。

默认情况下,页面索引是基于零的,但可以通过--zero_based_index=False将其关闭,即第一个页面索引从1开始。


转换所有页面:

$ pdf2docx convert test.pdf test.docx

将页面从第二个转换到结尾:

$ pdf2docx convert test.pdf test.docx --start=1

将页面从第一个转换为第三个(index=2):

$ pdf2docx convert test.pdf test.docx --end=3

转换第二页和第三页:

$ pdf2docx convert test.pdf test.docx --start=1 --end=3

使用零基索引转换第一页和第二页,关闭:

$ pdf2docx convert test.pdf test.docx --start=1 --end=3 --zero_based_index=False

2、按页码

转换第一页、第三页和第五页:

$ pdf2docx convert test.pdf test.docx --pages=0,2,4

3、Multi-Processing

使用默认的CPU计数打开多处理:

$ pdf2docx convert test.pdf test.docx --multi_processing=True

指定CPU的计数:

$ pdf2docx convert test.pdf test.docx --multi_processing=True --cpu_count=4

六、图形界面

Thanks @JoHnTsIm providing a tkinter based user interface.

To launch the GUI:

$ pdf2docx gui

_images/pdf-converter.png


七、Technical Documentation

PDF文件遵循一定的格式规范,PyMuPDF 提供了便利的解析函数, 用于获取页面元素例如文本和形状及其位置。然后,基于元素间的相对位置关系解析内容,例如将“横纵线条 围绕着文本”解析为“表格”,将“文本下方的一条横线”解析为“文本下划线”。最后,借助 python-docx 将解析结果重建为docx格式的Word文档。

以下分篇介绍提取PDF页面数据、解析和重建docx过程中的具体细节:

  • 提取文本图片和形状
  • 解析页面布局
  • 解析表格
  • 解析段落

2024-07-19

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/49640.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【算法】有效的括号字符串

难度:中等 题目: 给你一个只包含三种字符的字符串,支持的字符类型分别是 ‘(’、‘)’ 和 ‘*’。请你检验这个字符串是否为有效字符串,如果是 有效 字符串返回 true 。 有效 字符串符合如下规则: 任何左括号 ‘(’…

gitee设置ssh公钥密码频繁密码验证

gitee中可以创建私有项目,但是在clone或者push都需要输入密码, 比较繁琐。 公钥则可以解决该问题,将私钥放在本地,公钥放在gitee上,当对项目进行操作时带有的私钥会在gitee和公钥进行验证,避免了手动输入密…

C语言数据结构课设:基于EasyX前端界面的飞机订票系统

数据结构课程设计说明书 学 院、系: 软件学院 专 业: 软件工程 班 级: 学 生 姓 名: 范 学 号: 设 计 题 目: 飞机订票系统 起 迄 日 期: 2024年6月18日~ 20…

【测试能力提升-AI】AI介绍

注释: 搞python的最终梦想,搞机器,玩深度,通网络,知模型,拿下AI技术,尽管只是测试,但是也是有梦想的 1. 目标 完成AI任务 ---- 掌握成熟、标准的任务解决方法掌握AI工具 ---- 完成…

2022 年中高职组“网络安全”赛项-海南省省竞赛任务书-1-B模块-B-4Web渗透测试

前言 本章节我将尝试操作B-4模块的渗透测试,搭建环境很难,还望大家点点赞多多支持! 任务概览 最后4、5、6有一定的难度。 环境要求 kali Linux192.168.41.2Web服务器(假设为PYsystem 2020 模拟平台)192.168.41.7交换…

postman接口测试实战篇

击杀小游戏接口测试 接口测试简单介绍击杀小游戏代码下载单接口测试(postman)接口关联并参数化接口测试简单介绍 首先思考两个问题:1.接口是什么?2.接口测试是什么? 1.我们总是把接口想的很复杂,其实呢,它就是一个有特定输入和输出参数的交互逻辑处理单元,它不需要知…

【实战】Spring Cloud Stream3.0 整合RocketMq

文章目录 前言技术积累Spring Cloud Stream3.0新特性RocketMq简介 实战演示引入Maven依赖增加application配置消息生产者消息消费者 前言 相信很多同学用使用过rocketmq消息中间件,且大多情况下是使用原生的rocketmq-spring-boot-starter 进行集成然后创建一个rock…

Three 三维矩阵(Matrix3)、四维矩阵(Matrix4)

三维矩阵(Matrix3) var matrix3 new THREE.Matrix3().set( 1,2,3,4,5,6,7,8,9); //而其内部elements则展示为: matrix3.elements [1,4,7,2,5,8,3,6,9]; 属性(Properties) # .elements : Array 矩阵列优先column-…

Spring中Bean的循环依赖

目录 定义: 循环依赖的后果: 一:三级缓存 1、大概的思路: 注意: 2、执行过程: A半完成: B完成: A完成: 注: 二:Lazy 定义: …

入门C语言只需一个星期(星期三)

点击上方"蓝字"关注我们 01、基本数据类型 char 1 字节 −128 ~ 127 单个字符/字母/数字/ASCIIsigned char 1 字节 −128 ~ 127 -unsigned char 1 字节 0 ~ 255 -int…

Vue数组操作之sort详解

在 Vue.js 中,sort() 方法用于对数组进行排序。它会改变原数组,并返回排序后的数组。默认情况下,sort() 方法按照字母顺序(Unicode 编码顺序)对数组中的元素进行排序。如果需要按照其他规则排序,可以传递一…

【SpringCloud】微服务远程调用OpenFeign

工作原理流程图 上代码 common中添加依赖&#xff1a; <dependency><groupId>org.springframework.cloud</groupId><artifactId>spring-cloud-starter-openfeign</artifactId> </dependency> <dependency><groupId>org.spri…

CV13_混淆矩阵、F1分数和ROC曲线

1.1 混淆矩阵Confusion Matrix 混淆矩阵&#xff08;Confusion Matrix&#xff09;是机器学习和统计学中用于描述监督学习算法性能的特定表格布局。它是一种特定类型的误差矩阵&#xff0c;可以非常直观地表示分类模型在测试数据集上的预测结果与实际结果之间的对比。 混淆矩…

【数据结构】初识集合框架

&#x1f387;&#x1f389;&#x1f389;&#x1f389;点进来你就是我的人了 博主主页&#xff1a;&#x1f648;&#x1f648;&#x1f648;戳一戳&#xff0c;欢迎大佬指点&#xff01; 人生格言: 当你的才华撑不起你的野心的时候,你就应该静下心来学习! 欢迎志同道合的朋友…

Python爬虫(6) --深层爬取

深层爬取 在前面几篇的内容中&#xff0c;我们都是爬取网页表面的信息&#xff0c;这次我们通过表层内容&#xff0c;深度爬取内部数据。 接着按照之前的步骤&#xff0c;我们先访问表层页面&#xff1a; 指定url发送请求获取你想要的数据数据解析 我们试着将以下豆瓣读书页…

Mysql (五)

create table info ( id int primary key, name varchar(10), score decimal(5,2), address varchar(20), hobbid int(5)); SELECT * FROM info; 排序语法&#xff1a;关键字排序 升序ASC 降序DESC 默认排序方式 升序 配合order by语法使用 SELECT * FROM info ORDER BY…

河南萌新联赛2024第(二)场:南阳理工学院

A 国际旅行Ⅰ D A*BBBB F 水灵灵的小学弟 H 狼狼的备忘录 I 重生之zbk要拿回属于他的一切 J 这是签到 ##A 国际旅行Ⅰ 链接&#xff1a;https://ac.nowcoder.com/acm/contest/87255/A 来源&#xff1a;牛客网 题目描述 很久很久以前&#xff0c;有 n n n 个国家&#xff0c;第…

【ffmpeg命令入门】一篇学会ffmpeg音频选项

文章目录 前言设置音频帧使用方法基本用法 示例示例1&#xff1a;提取前200帧音频示例2&#xff1a;结合其他选项使用 注意事项 设置音频采样率基本用法 示例示例1&#xff1a;调整采样率为48000 Hz示例2&#xff1a;降低采样率为22050 Hz示例3&#xff1a;转换视频文件中的音频…

首发!中科融合3D相机点云转halcon点云 C++代码

中科融合是国内第一家专注于“AI+3D”芯片技术的科技创新型企业。‌拥有完全自主研发的MEMS感知芯片和新一代低功耗AI芯片,‌致力于在5G时代推动具有边缘智能的3D感知设备的发展,‌从而促进智能3D产业链的爆发。‌中科融合的MEMS激光投射模组具有较大的视野和景深,‌以及较强…

字符的统计——423、657、551、696、467、535

423. 从英文中重建数字 最初思路 首先要有一个指针&#xff0c;对于3/4/5为一组地跳跃。起初想的是后瞻性&#xff0c;如果符合0-9任意&#xff0c;则更换index、跳跃。此时写了一个函数&#xff0c;用来判断s的截取段和0-9中有无符合。这个思路并没有进行下去&#xff0c;虽然…