【工具】OCR方法|不用下载额外的软件,提取扫描中英文PDF的目录文本的最优解!(一)

需求:
1)从PDF里快速提取目录;
2)不想下载任何软件。

我提取出来的目录文本会用于嵌入到PDF中,向PDF批量添加目录的软件以及软件的使用方法可以看我上一篇文章:PDF批量插入目录。

以下是我自己能想到的方案以及方案的测评结果,满星5星。
评分标准(根据目录提取的需求):
1)安装便捷性;
2)中英文字形识别率;
3)数字识别准确率;
4)保持目录格式,或只需要少量的调整;
5)使用便捷性。

最后得到的方法是QQ+GPT3.5进行目录提取。

之后还有一篇文章,会写到用Python做OCR提取,这样能把提取过程扔到服务器后台,用起来更加方便(不用打开GPT也不用打开QQ了这样就)。

用来测试的目录图片示意:

在这里插入图片描述

文章目录

  • 一、用现有常用软件直接导出目录
    • 1 (推荐指数☆)QQ OCR文字识别
    • 2 (推荐指数0星)GPT4 图像识别
    • 3 (推荐指数0星)GPT4 AI PDF插件
    • 4 (推荐指数☆☆☆☆)QQ+GPT3.5结合
    • 5 (推荐指数☆☆☆☆)QQ+GPT4结合

一、用现有常用软件直接导出目录

这个方案是用常用的软件生成的,不需要下载其他奇怪的软件。

1 (推荐指数☆)QQ OCR文字识别

星星点
1)即开即用
2)中文的字形识别特别准确

扣星星点
1)没办法放后台运行
2)数字识别特别差,
3)格式特别乱,用来做目录提取要调整很久

识别结果:

摘要..
Abstract . . . . .......................................................[II第1章绪论...... . . . .. . .  .        
1.1︰研究背景...................................11.2国内外研究现状...... ... . . .. . . . . . . ............ .. ..... . ........2
1.2.1大整数分解的研究现状.... . . ... . . . .. .... . . . . ... . . . . . . . . .. .. 3
1.2.2一般数域筛法的研究现状..... . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 31.2.3最新研究进展..
.... . . . .. . ... . .. .. ... . . . . .. .. . . . . . .. ... 4
1.3论文的主要内容...............................................41.4论文的结构安排...... .... .... . . . . . . . .. . . ... . . .. . ..... . ... .....5
i . .  i   . . ... o
第2章相关理论基础........ . .. ............….…..72.1密码学基础.....................… ............72.1.1 密码学原理..... . . ....................。2.1.2公钥密码体制............i......................92.1.3 RSA 公钥密码体制....
2.2整数分解基础..... ......... . .... .. .. . ...... ... ......... ...... .9
2.2.1整数分解难题..... ... . . . . . . . . . . . . . . . . . . . . . . ... . .. ........ 102.2.2 常用的整数分解方法.... . . .... .... .. .. .. . . . ............. . .10
2.2.3 RSA因式分解挑战数....... . . . . . . . . . . . .. . . . . . . . .... . . .....122.2.4素数的判断...... . . . .......................……...........152.3 一般数域筛法简介.... . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . .. . . . ..... 15.............….l7
2.3.1多项式选择..... ...... . . . . . . .. . .. . . .. . . . . . . . .... . . . . . .... 172.3.2筛数对.... . .
. . ... ... . . . . . . . . . . . . . ...... . . . ... . . . . ... . . ..17
2.3.3 线性方程组求解.......... . .. . . . . . . . . . . . . . . . . .. ... . . . . . . . .182.3.4﹑代数数的平方根求解.... . . . . . . . . . . . . . . . . . . . . . . . . . ... . . . . . . 182.4一般数域筛法的典型应用实例........ . . . . . . . . . . . . . . . . . . . . . . . . .192.4.1―分解RSA-768的多项式选择......... .. . . . . . . . . . . . . . . .. .....192.4.2 分解RSA-768的筛选及过滤..... . . .... . . . . . . . . . . . . .... . . . . .202.4.3 分解RSA-768的方程组求解..... . . . . . . . . . . . . . . . . . . . . . . . .... 212.4.4 分解 RSA-768的平方根求解...
1K小P·    . ... . . . . . . . . . . . ...... . . .. 21
2.5本章小结........... ... .. . .. . .. .. . .
第3章对线性多项式选择方法分析与比较....... . . . . . .. . . . . .. .

2 (推荐指数0星)GPT4 图像识别

GPT4我一直用着挺舒服的,直到碰到这个目录识别的需求。
它胡言乱语,恼火!

在这里插入图片描述

3 (推荐指数0星)GPT4 AI PDF插件

原本想着是不是原生的我prompt引导错了,用插件是不是就有救了,但是插件它!
压根不支持扫描PDF的识别,game over!

在这里插入图片描述

4 (推荐指数☆☆☆☆)QQ+GPT3.5结合

上面不是说QQ的文字识别贼精准嘛,但是目录的整理工作量很大。
但是GPT它又恰好是一个聪明的机器人,它平时胡言乱语但是正经工作不含糊。

所以可以这样:先QQ自动识别,然后一键复制给GPT,说:

订正这个目录:
摘要..
Abstract . . . . .......................................................[II第1章绪论...... . . . .. . .  .        
1.1︰研究背景...................................11.2国内外研究现状...... ... . . .. . . . . . . ............ .. ..... . ........2
1.2.1大整数分解的研究现状.... . . ... . . . .. .... . . . . ... . . . . . . . . .. .. 3
1.2.2一般数域筛法的研究现状..... . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 31.2.3最新研究进展..
.... . . . .. . ... . .. .. ... . . . . .. .. . . . . . .. ... 4
1.3论文的主要内容...............................................41.4论文的结构安排...... .... .... . . . . . . . .. . . ... . . .. . ..... . ... .....5
i . .  i   . . ... o
第2章相关理论基础........ . .. ............….…..72.1密码学基础.....................… ............72.1.1 密码学原理..... . . ....................。2.1.2公钥密码体制............i......................92.1.3 RSA 公钥密码体制....
2.2整数分解基础..... ......... . .... .. .. . ...... ... ......... ...... .9
2.2.1整数分解难题..... ... . . . . . . . . . . . . . . . . . . . . . . ... . .. ........ 102.2.2 常用的整数分解方法.... . . .... .... .. .. .. . . . ............. . .10
2.2.3 RSA因式分解挑战数....... . . . . . . . . . . . .. . . . . . . . .... . . .....122.2.4素数的判断...... . . . .......................……...........152.3 一般数域筛法简介.... . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . .. . . . ..... 15.............….l7
2.3.1多项式选择..... ...... . . . . . . .. . .. . . .. . . . . . . . .... . . . . . .... 172.3.2筛数对.... . .
. . ... ... . . . . . . . . . . . . . ...... . . . ... . . . . ... . . ..17
2.3.3 线性方程组求解.......... . .. . . . . . . . . . . . . . . . . .. ... . . . . . . . .182.3.4﹑代数数的平方根求解.... . . . . . . . . . . . . . . . . . . . . . . . . . ... . . . . . . 182.4一般数域筛法的典型应用实例........ . . . . . . . . . . . . . . . . . . . . . . . . .192.4.1―分解RSA-768的多项式选择......... .. . . . . . . . . . . . . . . .. .....192.4.2 分解RSA-768的筛选及过滤..... . . .... . . . . . . . . . . . . .... . . . . .202.4.3 分解RSA-768的方程组求解..... . . . . . . . . . . . . . . . . . . . . . . . .... 212.4.4 分解 RSA-768的平方根求解...
1K小P·    . ... . . . . . . . . . . . ...... . . .. 21
2.5本章小结........... ... .. . .. . .. .. . .
第3章对线性多项式选择方法分析与比较....... . . . . . .. . . . . .. .

输出的结果GPT3:
在这里插入图片描述

又快又好啊!!!
扣一颗星是因为它没有弥补出部分丢失的页码信息。

5 (推荐指数☆☆☆☆)QQ+GPT4结合

同样,我还测试了GPT4的结果。
GPT4扣一颗星因为它响应比GPT3.5慢。虽然它甚至输出了缩进,但缩进在批量添加目录的软件里本来就可以自动添加,所以不构成优势。

但是优点是它补全了所有丢失的页码信息!太强了。

输出的结果GPT4:

在这里插入图片描述

总之,最好的方式是QQ识别+GPT3.5。

扩展阅读:【工具】FreePic2PDF+PdgCntEditor|PDF批量添加书签(Windows)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/133755.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于yolov2网络的人脸识别系统matlab仿真,包括识别正脸,侧脸等

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1、训练阶段 4.2、预处理阶段 4.3、识别阶段 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 ........................................…

FastGPT | 3分钟构建属于自己的AI智能助手

这是一篇使用指南!!! FastGPT是什么? FastGPT 是一个基于 LLM 大语言模型的知识库问答系统,提供开箱即用的数据处理、模型调用等能力。同时可以通过 Flow 可视化进行工作流编排,从而实现复杂的问答场景&…

BEV-YOLO 论文学习

1. 解决了什么问题? 出于安全和导航的目的,自驾感知系统需要全面而迅速地理解周围的环境。目前主流的研究方向有两个:第一种传感器融合方案整合激光雷达、相机和毫米波雷达,和第二种纯视觉方案。传感器融合方案的感知表现鲁棒&am…

一句话说明:企业架构框架鼻祖Zachman

问:禁止废话,一句话表达,Zachman是什么?包含哪些内容? 韩老师正经回答:Zachman是企业架构框架鼻祖,包含6行6列的矩阵式架构内容。6列是5W1H(What、How、Where、Who、When、Why&…

Vue3 简单实现虚拟Table,展示海量单词.利用WebAPI speechSynthesis,朗读英语单词

目录 本页面完整代码 视频演示 完整的页面代码 利用webapi speechSynthesis帮助我们自动郎读英语单词,可以利用这个API,做一些小说朗读或到账提示。 本页面完整代码 用Vue写了一个简单页面,里面还写了一个简单的虚拟Table支持海量数据展示…

kubernetes存储-volumes

目录 一、Volumes的简介 二、emptyDir卷 1、emptyDir的引入 2、emptyDir 的使用场景 3、多容器共享volumes 4、emptyDir缺点 三、hostPath卷 1、hostPath卷简介 2、创建hostPath卷 3、NFS共享文件 四、PersistentVolume(持久卷) 1、PV与P…

免费音效素材,不能错过这6个网站

找免费音效素材,那必须要上这6个网站,热门音效、BGM都能免费下载,赶紧收藏起来。 1、菜鸟图库 https://www.sucai999.com/audio.html?vNTYwNDUx 菜鸟图库是一个综合性素材网站,站内涵盖设计、图片、办公、视频、音效等素材。其中…

数据可视化:动态柱状图

终于来到最后一个数据可视化的文章拿啦~~~ 在这里学习如何绘制动态柱状图 我先整个活 (๑′ᴗ‵๑)I Lᵒᵛᵉᵧₒᵤ❤ 什么是pyecharts? 答: Python的Pyecharts软件包。它是一个用于Python数据可视化和图表绘制的库,可用于制作…

力扣最热一百题——盛水最多的容器

终于又来了。我的算法记录的文章已经很久没有更新了。为什么呢? 这段时间都在更新有关python的文章,有对python感兴趣的朋友可以在主页找到。 但是这也并不是主要的原因 在10月5号我发布了我的第一篇博客,大家也可以看见我的每一篇算法博客…

【23真题】易!题源全部定位!带讲解!

今天分享的是23年长春理工大学808的信号与系统试题及解析。 本套试卷难度分析:22年长春理工808考研真题,我也发布过,若有需要,戳这里自取!本套试题内容难度中等偏下,题量较少,没有选择填空题&a…

算法学习打卡day41|栈和队列:栈和队列相互实现、括号匹配、逆波兰表达式、滑动窗口最大值问题、求前 K 个高频元素

栈和队列相互实现 力扣题目链接:用栈实现队列、用队列实现栈 题目描述: 请你仅使用两个栈实现先入先出队列。队列应当支持一般队列支持的所有操作(push、pop、peek、empty): 实现 MyQueue 类: void push(…

无人机航迹规划:狐猴优化算法LO求解无人机路径规划MATLAB(可以修改起始点,地图可自动生成)

一、狐猴优化算法 狐猴优化算法(Lemurs Optimizer,LO)由Ammar Kamal Abasi等人于2022年提出,该算法模拟狐猴的跳跃和跳舞行为,具有结构简单,思路新颖,搜索速度快等优势。狐猴优化算法&#xff…

JavaScript 进阶问题列表,巩固自己的知识。

不定时更新 JavaScript 进阶问题列表 从基础到进阶,测试你有多了解 JavaScript,刷新你的知识,或者帮助你的 coding 面试! 💪 🚀 答案❤️ 1. 输出是什么? function sayHi() {console.log(na…

iSlide2024一款基于PPT的插件工具包含38个设计辅助功能

根据使用者情况表明iSlide 是一款拥有30W素材的PPT高效设计软件,可提高90%工作效率,现全球已有超过1400万使用者,智能排版原创高品模板可商用图形,真正摆脱PPT的束缚,把精力用在该用的地方。我们都明白islide插件功能特…

Vue 3 中,watch 和 watchEffect 的区别

结论先行: watch:需要指明要监听的数据,而且在回调函数中可以获取到属性变化的前后值; 适用于需要精确控制监视范围的情况;也就是需要针对特定数据变化执行操作。 watchEffect:不用指明监听哪个属性&…

python单元测试框架(继承、unittest参数化、断言、测试报告)

一、继承 继承能解决什么问题? unittest每个模块都要用到前提条件以及清理,如果有上百个模块,我们要改域名和浏览器,就会工作量很大特别麻烦,这时我们可以用继承的思想只用改一次 我们可以将前提和清理提出来单独放…

新登录接口独立版变现宝升级版知识付费小程序-多领域素材资源知识变现营销系统

源码简介: 资源入口 点击进入 源码亲测无bug,含前后端源码,非线传,修复最新登录接口 梦想贩卖机升级版,变现宝吸取了资源变现类产品的很多优点,摒弃了那些无关紧要的东西,使本产品在运营和变现…

MVC、MVP、MVVM区别

MVC、MVP、MVVM区别 MVC(Model-View-Controller) 。是一种设计模式,通常用于组织与应用程序的数据流。它通常包括三个组件:模型(Model)、视图(View)和控制器(Controller&…

TDengine 上榜 BenchCouncil 全球首个开源贡献榜

近日,Bench Council(国际测试委员会)公布了“世界首个开源贡献榜”,该榜单号称“只以贡献分高下”。值得一提的是,涛思数据、TDengine 上榜 BenchCouncil 发布的开源计算机系统机构榜、成果榜,TDengine 创始…

CDN策略好坏的重要性

CDN加速技术在今天的互联网世界中扮演着至关重要的角色,它可以显著提高网站和应用程序的性能,同时也有助于提供更好的安全性。然而,设定安全策略的好坏对CDN的影响是一个关键的议题,本文将深入探讨这个问题。 CDN(内容…