Python 识别图片和扫描PDF中的文字

目录

工具与设置

Python 识别图片中的文字

Python 识别图片中的文字及其坐标位置

Python 识别扫描PDF中的文字

注意事项


在处理扫描的PDF和图片时,文字信息往往无法直接编辑、搜索或复制,这给信息提取和分析带来了诸多不便。手动录入信息不仅耗时费力,还容易出错。光学字符识别(OCR)技术能够将图片中的文字转换为可编辑文本,使信息提取和处理更加高效。如今,OCR已广泛应用于扫描文件的转换、数字化文档的整理、以及自动化数据输入等领域。本文将介绍如何使用Python及相关OCR库,实现对图片和扫描PDF中文字的识别。

工具与设置

要在Python中实现从图片和扫描PDF中提取文本,我们需要选择一个适当的OCR库。本文所选择的库是Spire.OCR for Python。该库支持多种语言,包括英语、法语、德语、简体中文、繁体中文、日语、韩语等。在使用该库之前,我们需要完成以下两个步骤:

步骤1:安装Spire.OCR for Python

在终端中运行以下命令安装Spire.OCR for Python:

pip install Spire.OCR

步骤2:下载OCR模型

Spire.OCR for Python提供了支持Windows(64位)、Linux(64位)和MacOS(10.15及以上)操作系统的三种模型。我们需要根据自己的系统下载适合的模型:

  • Win x64
  • Linux x64
  • Mac 10.15及以上

下载完成后,将它解压并保存到特定的目录下。

完成以上两个步骤后,我们就可以使用该库实现识别图片和扫描PDF中的文字。

Python 识别图片中的文字

从图片中提取文本的过程比较简单。首先,需要配置 OCR 扫描器的相关设置(例如:文本识别语言和OCR模型的路径);然后对图片进行扫描;最后将识别的文字保存为文本文件。

以下是从图片中提取文本的关键步骤:

  • 初始化 OCR 扫描器:创建 OcrScanner 对象。
  • 配置 OCR 设置:通过 OcrScanner 对象的 ConfigureDependencies 方法,设置 OCR 模型的路径和文本识别语言。
  • 扫描图片:使用 OcrScanner 对象的 Scan() 方法,从图片中识别文本。
  • 保存文本:获取识别出的文本并保存为文本文件。

实现代码:

from spire.ocr import *# 初始化OcrScanner对象
scanner = OcrScanner()# 配置OCR设置(文本识别语言和OCR模型路径)
# 支持的语言包括英语、法语、德语、日语、韩语、简体中文、繁体中文等
configureOptions = ConfigureOptions()
configureOptions.ModelPath = r'D:\OCR\win-x64'
configureOptions.Language = 'Chinese'
scanner.ConfigureDependencies(configureOptions)# 扫描图片
scanner.Scan(r'测试.png')# 获取识别的文本
text = scanner.Text.ToString() + '\n'# 将文本保存到文本文件
with open('输出.txt', 'a', encoding='utf-8') as file:
file.write(text + '\n')

原始图片和识别结果

Python 识别图片文字

Python 识别图片中的文字及其坐标位置

有时除了识别文本外,还需要获取文本在图片中的坐标位置。Spire.OCR也支持提取这些信息。

以下是从图片中识别文本并获取其坐标位置的关键步骤:

  • 初始化OCR扫描器:创建OcrScanner对象。
  • 配置OCR设置:通过OcrScanner对象的ConfigureDependencies方法设置OCR模型的路径和文本识别语言。
  • 扫描图片:使用OcrScanner 对象的Scan() 方法从图片中识别文本。
  • 获取边框坐标:遍历识别的文本中的文本块,获取每个文本块的边框信息(x, y坐标及其宽度和高度)。
  • 保存文本和坐标:将文本及其坐标保存到文本文件中。

实现代码:

from spire.ocr import *# 初始化OcrScanner对象
scanner = OcrScanner()# 配置OCR设置(文本识别语言和OCR模型路径)
# 支持的语言包括英语、法语、德语、日语、韩语、简体中文、繁体中文等
configureOptions = ConfigureOptions()
configureOptions.ModelPath = r'D:\OCR\win-x64'
configureOptions.Language = 'Chinese'
scanner.ConfigureDependencies(configureOptions)# 扫描图片
scanner.Scan(r'测试.png')# 遍历识别的文本中的文本块,提取每个文本块的文本和坐标位置等信息
text = ''
for block in scanner.Text.Blocks:rectangle = block.Boxpositions = f'{block.Text} -> x: {rectangle.X}, y: {rectangle.Y}, w: {rectangle.Width}, h: {rectangle.Height}'text += positions + '\n'# 将文本和坐标保存到文本文件
with open('图片文字及坐标.txt', 'a', encoding='utf-8') as file:file.write(text + '\n')

Python 识别扫描PDF中的文字

对于扫描的PDF文档,需先将每一页转换为图片格式。可以借助Spire.PDF for Python库来实现这一点。将PDF页面转换为图片后,即可对每张图片执行 OCR 处理。

在使用以下代码之前,请先通过以下命令安装Spire.PDF:

pip install Spire.PDF

以下是从扫描PDF中提取文本的关键步骤:

  • 将PDF页面转换为图片:使用Spire.PDF加载扫描的PDF文档,然后使用PdfDocument.SaveAsImage()方法将文档的每一页保存为图片。
  • 执行OCR:使用Spire.OCR识别每张图片中的文本。
  • 保存识别的文本:将识别的文本保存到文本文件中。

实现代码:

from spire.pdf import *
from spire.ocr import *
import io# 将PDF页面转换为图片
def convert_pdf_page_to_image(pdf, page_index):return pdf.SaveAsImage(page_index)# 从图片中识别文本
def recognize_text_from_image(imgName, language, model_path):# 初始化OCR扫描器并配置OCR模型的路径和文本识别语言scanner = OcrScanner()configure_options = ConfigureOptions()configure_options.Language = languageconfigure_options.ModelPath = model_pathscanner.ConfigureDependencies(configure_options)# 执行OCR并返回识别的文本scanner.Scan(imgName)data = scanner.Text.ToString()return data# 加载扫描PDF文档
pdf = PdfDocument()
pdf.LoadFromFile('扫描.pdf')# 创建文本文件以保存提取的文本
with open('扫描PDF.txt', 'a', encoding='utf-8') as writer:for page_index in range(pdf.Pages.Count):# 将PDF页面转换为图片image = convert_pdf_page_to_image(pdf, page_index)imgName="toImage_"+str(page_index)+".png"image.Save(imgName)# 从图片中识别文本recognized_text = recognize_text_from_image(imgName, 'Chinese', r'D:\OCR\win-x64')# 将识别的文本写入文本文件writer.write(f'Page {page_index + 1}:\n')writer.write(recognized_text)writer.write('\n\n')  # 在页面之间添加两个换行符print('文本已成功保存到"扫描PDF.txt"。')

注意事项

OCR的准确性很大程度上受到图片质量的影响。使用清晰、对比度良好,不模糊、倾斜的图片,可以提高识别结果的准确性。不同OCR库可能对不同语言和字体的支持程度不同,一些特定语言或字体可能识别效果较差。因此在识别完成后,最好再人工校对一遍。

以上就是使用Python识别图片和扫描PDF中的文字的全部内容。感谢阅读!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/69583.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

利用邮件合并将Excel的信息转为Word(单个测试用例转Word)

利用邮件合并将Excel的信息转为Word 效果一览效果前效果后 场景及问题解决方案 一、准备工作准备Excel数据源准备Word模板 二、邮件合并操作步骤连接Excel数据源插入合并域预览并生成合并文档 效果一览 效果前 效果后 场景及问题 在执行项目时的验收阶段,对于测试…

进阶版MATLAB 3D柱状图

%% 1. 数据准备 % 假设数据是一个任意形式的矩阵 % 例如:5行 x 7列的矩阵 data [3 5 2 6 8 4 7;7 2 6 9 3 5 8;4 8 3 7 2 6 9;6 1 5 8 4 7 2;9 4 7 3 6 2 5];% 定义行和列的标签(可选) rowLabels {Row1, Row2, Row3, Row4, Row5}; % 行标签…

【JVM详解三】垃圾回收机制

一、对象是否存活 强引用:Object obj new Object(); 只要强引用还在,垃圾收集器永远不会回收掉被引用的对象。在不用对象的时将引用赋值为 null,能够帮助垃圾回收器回收对象。比如 ArrayList 的 clear() 方法实现。软引用(SoftRe…

【免费】2007-2020年各省医疗卫生支出数据

2007-2020年各省医疗卫生支出数据 1、时间:2007-2020年 2、来源:国家统计局、统计年鉴 3、指标:行政区划代码、地区名称、年份、医疗卫生支出 4、范围:31省 5、指标说明:地方财政医疗卫生支出是指地方ZF从其财政预…

【深度学习入门实战】基于Keras的手写数字识别实战(附完整可视化分析)

​ 本人主页:机器学习司猫白 ok,话不多说,我们进入正题吧 项目概述 本案例使用经典的MNIST手写数字数据集,通过Keras构建全连接神经网络,实现0-9数字的分类识别。文章将包含: 关键概念图解完整实现代码训练过程可视化模型效果深度分析环境准备 import numpy as np impo…

腾讯云大数据套件TBDS与阿里云大数据能力产品对比

前言 博主在接触大数据方向研究的时候是在2016年,那时候正是大数据概念非常火热的一个时间段,最著名的Google的3篇论文。Google FS、MapReduce、BigTable,奠定了大数据框架产品的基础。Google文件系统,计算框架和存储框架。往后所有的大数据产品和过程域无一不是在三个模块…

前端如何判断浏览器 AdBlock/AdBlock Plus(最新版)广告屏蔽插件已开启拦截

2个月前AdBlock/AdBlock Plus疑似升级了一次 因为自己主要负责面对海外的用户项目,发现以前的检测AdBlock/AdBlock Plus开启状态方法已失效了,于是专门研究了一下。并尝试了很多方法。 已失效的老方法 // 定义一个检测 AdBlock 的函数 function chec…

2.11寒假作业

web:[SWPUCTF 2022 新生赛]js_sign 打开环境是这样的,随便输入进行看看 提示错误,看源码其中的js代码 这个代码很容易理解,要让输入的内容等于对应的字符串,显然直接复制粘贴是错的 这串字符看起来像是base64加密&…

c# http

C#代码 客户端: NETCore提供了三种不同类型用于生产的REST API: HttpWebRequest;WebClient;HttpClient HttpWebRequest 这是.NET创建者最初开发用于使用HTTP请求的标准类。使用HttpWebRequest可以让开发者控制请求/响应流程的各个方面,如…

哈希表实现(C++实现)

目录 1.哈希概念 2.哈希冲突 3.哈希函数 4.哈希冲突解决 闭散列 —— 开放定址法 线性探测 二次探测 开散列 —— 链地址法(拉链法、哈希桶) 5.哈希表的闭散列实现 哈希表的结构 哈希表的大小和扩容 哈希表的插入 哈希表的查找 哈希表的删除…

开箱即用:一个易用的开源表单工具!

随着互联网的普及,表单应用场景越来越广泛,从网站注册、调查问卷到考试测评,无处不在。传统的表单制作方式需要一定的代码基础,对于不懂编程的小伙伴来说,无疑是一道门槛。 今天,给大家分享一款开源的表单…

牛客 BM1: 反转链表

目录 一、题目 二、C解题程序框架 1. 结构体定义 2. 类定义 3. 输入输出说明 三、链表指针 1. 链表指针的基本概念 2. 链表指针的常见操作 1. 遍历链表 2. 插入节点 3. 删除节点 3. 链表指针操作的注意事项 4. 总结 四、解题 方法一:迭代法 方法二&…

MIT开源7B推理模型Satori:用行动思维链进行强化学习,增强自回归搜索

自OpenAI的o1发布以来,研究社区为提升开源LLM的高级推理能力做出了诸多努力,包括使用强大的教师模型进行蒸馏、蒙特卡洛树搜索(MCTS)以及基于奖励模型的引导搜索等方法。 本研究旨在探索一个新的研究方向:使LLM具备自回…

Kubernetes控制平面组件:etcd(一)

云原生学习路线导航页(持续更新中) kubernetes学习系列快捷链接 Kubernetes架构原则和对象设计(一)Kubernetes架构原则和对象设计(二)Kubernetes架构原则和对象设计(三)kubectl 和 …

Django在终端创建项目(pycharm Windows)

1.选择目录 选择或新建一个文件夹,作为项目保存的地方 2.右键在终端打开 3.确定django-admin.exe安装位置 找到自己安装django时,django-admin.exe安装的位置,例如 4.运行命令 使用django-admin.exe的绝对路径,在刚才打开的终端…

e2studio开发RA2E1(9)----定时器GPT配置输入捕获

e2studio开发RA2E1.9--定时器GPT配置输入捕获 概述视频教学样品申请硬件准备参考程序源码下载新建工程工程模板保存工程路径芯片配置工程模板选择时钟设置UART配置UART属性配置设置e2studio堆栈e2studio的重定向printf设置R_SCI_UART_Open()函数原型回调函数user_uart_callback…

【PS 2022】Adobe Genuine Service Alert 弹出

电脑总是弹出Adobe Genuine Service Alert弹窗 1. 不关掉弹窗并打开任务管理器,找到Adobe Genuine Service Alert,并右键进入文件所在位置 2 在任务管理器中结束进程并将文件夹中的 .exe 文件都使用空文档替换掉 3. 打开PS不弹出弹窗,解决&a…

RoboGrasp:一种用于稳健机器人控制的通用抓取策略

25年1月来自北京大学和哈佛大学的论文“RoboGrasp: A Universal Grasping Policy for Robust Robotic Control”。 模仿学习和世界模型在推进通用机器人学习方面显示出巨大的潜力,而机器人抓取仍然是实现精确操控的关键挑战。现有方法通常严重依赖机械臂状态数据和…

接口测试Day12-持续集成、git简介和安装、Gitee远程仓库、jenkins集成

持续集成 概念: 团队成员将自己的工作成果,持续集成到一个公共平台的过程。成员可以每天集成一次,也可以一天集成多 次。 相关工具: 本地代码管理:git远程代码管理:gitee(国内)、github(国外)、gitlib(公司…

C语言基础11:分支结构以及if的使用

C语言基础 内容提要 分支结构 条件判断用if语句实现分支结构 分支结构 问题抛出 我们在程序设计往往会遇到如下问题,比如下面的函数的计算: y { 1 / x 当 x ≠ 0 时 10000 当 x 0 时 y \begin{cases} 1/x \quad当x\neq0时\\ \\ 10000 \quad当x0…