python:PyPDF2 从PDF文件中提取目录

我发现 pypdf  和 pypdf2 的作者是同一人:Mathieu Fenniak 

pip install pypdf2 ;

  pypdf2-3.0.1-py3-none-any.whl (232 kB)

编写 pdf_read_dir.py  如下

# -*- coding: utf-8 -*-
""" pypdf2==3.0.1 从PDF中提取目录 """
import os
import sys
from PyPDF2 import PdfReader#每个书签的索引格式
#{'/Title': '书签名', '/Page': '指向的目标页数', '/Type': '类型'}# 查找指定的字符出现次数
def find_char(str1, char):cs = 0for c in str1:if c == char:cs += 1return csdirectory_str = ''
def bookmark_listhandler(list):global directory_strfor message in list:if isinstance(message, dict):title = message['/Title'].strip()if title.startswith("Chapter"): directory_str += '\n' + title + '\n'elif title[0:2] in ("序章","前言") or title.startswith("序"):directory_str += '\n' + title + '\n'elif title.startswith("第") and title.split()[0][-1] =="章":directory_str += '\n' + title + '\n'elif title.startswith("第") and title.split()[0][-1] =="节":directory_str += '  ' + title + '\n'elif title.startswith("第"):directory_str += '\n' + title + '\n'elif title[0] in ('一','二','三','四','五','六','七','八','九','十'):directory_str += '    ' + title + '\n'elif title[0] in "1234567890":cs = find_char(title, '.')directory_str += '  '*cs + title + '\n'else:directory_str += '        ' + title + '\n'else:bookmark_listhandler(message)# main()
if len(sys.argv) ==2:file1 = sys.argv[1]
else:print('usage: python pdf_read_dir.py file.pdf')sys.exit(1)if not os.path.exists(file1):print(f"{file1} is not exists.")sys.exit(2)    fn,ext = os.path.splitext(file1)
if ext.lower() != '.pdf':print("Please specify a valid pdf file")sys.exit(3)with open(file1, 'rb') as f1:pdf = PdfReader(f1)# 检索文档中存在的文本大纲,返回的对象是一个嵌套的列表bookmark_listhandler(pdf.outline)if len(directory_str) >0:fname = fn.split('\\')[-1]file2 = fn + '.txt'with open(file2, 'w', encoding='utf-8') as fp:fp.write(fname +'\n')fp.write(directory_str)
else:print("it no directory.")

运行 python pdf_read_dir.py your_ebook.pdf

生成  your_ebook.txt 

由于算法优劣原因,生成的结果正确性始终比不过 java : pdfbox 读取 PDF文件内书签

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/687701.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java Random源码剖析

Java中,对随机最基本的支持是Math类中的静态方法random(),它生成一个0~1的随机数,类型为double,包括0但不包括1。 System.out.println(Math.random()); 可以发现输出结果每次都会不一样。 那么Math.random()是如何实现的呢?我们来看相关代…

【Linux】进程的初步认识(一)

进程的初步认识 基本概念描述进程task_struct-PCB的一种task_stuct内容分类 查看进程通过系统调用获取进程标识符 基本概念 要了解进程,首先我们要知道两点 我们可以同时启动多个程序,也就意味着我们可以将多个.exe文件加载到内存操作系统如何去管理这些…

Open CASCADE学习|布尔运算后消除内部拓扑

在CAD建模中,布尔运算是一种逻辑运算方法,通过这种方法,可以创建、修改或组合几何对象。布尔运算主要包括并集(UNION)、交集(INTERSECT)和差集(SUBTRACT)三种运算。 并集…

【Java前端技术栈】ES6-ECMAScript6.0

一、ES6基本介绍 1. ECMAScript 6.0(以下简称 ES6)是 JavaScript 语言的下一代标准, 2015 年 6 月发布。 2. ES6 设计目标:达到 JavaScript 语言可以用来编写复杂的大型程序,成为企业级开发语 言 3. ECMAScript 和 JavaScript 的关系&…

Java多线程系列——概述

简介 在计算机编程中,多线程是一种重要的概念,允许程序同时执行多个任务,提高程序的效率和性能。Java作为一门广泛应用于软件开发的编程语言,也提供了丰富的多线程支持。本文将简要介绍Java多线程的基本概念、使用方法以及相关特…

71从零开始学Java之Properties配置类怎么用?

作者:孙玉昌,昵称【一一哥】,另外【壹壹哥】也是我哦 CSDN博客专家、万粉博主、阿里云专家博主、掘金优质作者 前言 在前面的几篇文章中,壹哥给大家讲解了Java里的List、Set和Map等集合。所以现在我们知道,Map集合作为一个双列集合,有key和value两个值,这两个值共同组成…

数据所在,计算随行:Databend 的 2023 年度总结

2023 年是 Databend 为用户和客户全面交付 Data Cloud 数据云平台的一年,真正实现了「数据所在,计算随行」的理念,即将计算力带至数据之处,致力于为用户交付更澎湃的算力。 Databend 自 2021 年开始研发,「三年之期已…

Redis篇----第五篇

系列文章目录 文章目录 系列文章目录前言一、redis的过期策略以及内存淘汰机制二、Redis 常见性能问题和解决方案?三、为什么Redis的操作是原子性的,怎么保证原子性的?四、Redis事务前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家…

每日OJ题_二叉树dfs①_力扣2331. 计算布尔二叉树的值

目录 力扣2331. 计算布尔二叉树的值 解析代码 力扣2331. 计算布尔二叉树的值 2331. 计算布尔二叉树的值 难度 简单 给你一棵 完整二叉树 的根,这棵树有以下特征: 叶子节点 要么值为 0 要么值为 1 ,其中 0 表示 False ,1 表示…

京东电商API接口|Python爬虫实战 | 批量爬取网页信息

爬虫爬取网页有时需要模拟网页行为,比如京东、淘宝详情页面,图片加载随着滚动自动加载的。这种情况我们就要进行浏览器模拟操作才能获取要爬取的数据。 Selenium 是一个用于自动化浏览器操作的开源框架,主要用于网页测试,支持多种…

C++ STL:deque使用及源码剖析

Deque是一种双向开口的连续线性空间。能在头尾两端分别做元素的插入和删除,而且是在常数的时间内完成。虽然Vector也可以在首端进行元素的插入和删除(利用insert和erase),但效率差(涉及到整个数组的移动)&a…

JS进阶——JS闭包

JavaScript 闭包 (w3school.com.cn) JavaScript中的闭包(Closure)是一个非常重要的概念,它涉及到函数作用域和变量引用的深入理解。 闭包的形成主要依赖于两个特性:函数嵌套和函数内部的变量引用。当一个内部函数引用了其外部函…

【Day44】代码随想录之动态规划完全背包_518. 零钱兑换 II_377. 组合总和 Ⅳ

文章目录 动态规划理论基础动规五部曲:出现结果不正确: 518. 零钱兑换 II377. 组合总和 Ⅳ 动态规划理论基础 动规五部曲: 确定dp数组 下标及dp[i] 的含义。递推公式:比如斐波那契数列 dp[i] dp[i-1] dp[i-2]。初始化dp数组。…

代码随想录 Leetcode56. 合并区间

题目&#xff1a; 代码(首刷自解 2024年2月18日&#xff09;&#xff1a; 这题与气球扎针&#xff0c;删除重复的大体逻辑相似。需要额外定义些变量来存储头尾 class Solution { private:const static bool cmp(vector<int>& a, vector<int>& b) {return …

001 QGIS介绍

Quantum GIS&#xff08;QGIS&#xff09;是开源地理信息系统桌面软件&#xff0c;使用GNU&#xff08;General Public License&#xff09;授权&#xff0c; 属于 Open Source eospatial Foundation&#xff08;OSGeo&#xff09;的官方计划。在 GNU 授权下&#xff0c;开发者…

Postman路径修改

默认安装好Postman之后&#xff0c;默认路径在&#xff1a;C:\Users\用户名\AppData\Local\Postman。 修改路径只需要将整个文件夹拷贝到需要移动的位置即可&#xff0c;然后重新创建一个快捷方式。再删除原来路径的文件夹。

使用消息中间件实现系统间的异步通信和解耦

​​​​​​​目录 引言 一. 选择合适的消息中间件 二. 定义消息格式和通信协议 1. 定义消息格式 消息头 消息体 2. 定义通信协议 发送消息 接收消息 消息处理 3. 示例代码 定义消息格式 发送消息 接收消息 三、发布-订阅模式 1. 定义发布-订阅模式 2. 示例代…

C++ //练习 7.29 修改你的Screen类,令move、set和display函数返回Screen并检查程序的运行结果,在上一个练习中你的推测正确吗?

C Primer&#xff08;第5版&#xff09; 练习 7.29 练习 7.29 修改你的Screen类&#xff0c;令move、set和display函数返回Screen并检查程序的运行结果&#xff0c;在上一个练习中你的推测正确吗&#xff1f; 环境&#xff1a;Linux Ubuntu&#xff08;云服务器&#xff09; …

RIP协议详解

​RIP是最早的动态路由协议&#xff0c;虽然已经过时并且很少使用&#xff0c;但是可以通过学习RIP并且和ospf等现在正在使用的路由协议对比&#xff0c;了解其工作原理和过时原因&#xff0c;具有很强的学习性。 一、RIP协议简介 RIP&#xff08;Routing Information Protoc…

(OpenCV)图片拼接

前言 图片拼接在许多领域都有广泛的应用&#xff0c;包括但不限于以下几个方面&#xff1a; 全景摄影&#xff1a;在摄影中&#xff0c;通过将多张照片拼接在一起可以实现全景照片的效果。这在旅游景点、房地产展示等领域有着广泛的应用&#xff0c;能够提供更加生动、真实的视…