搭建自己的OCR服务，第一步：选择合适的开源OCR项目

news/2025/4/8 7:57:30/文章来源:https://blog.csdn.net/xionghui2007/article/details/132753799

一、OCR是什么？

光学字符识别（Optical Character Recognition, OCR）是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。

亦即将图像中的文字进行识别，并以文本的形式返回。

二、OCR的基本流程

1. 图像输入、预处理：

　　不同的图像格式有不同的存储、压缩方式，目前有OpenCV、CxImage等。

2. 二值化：

　　如今数码摄像头拍摄的图片大多是彩色图像，彩色图像所含信息量巨大，不适用于OCR技术。为了让计算机更快的、更好地进行OCR相关计算，

　　我们需要先对彩色图进行处理，使图片只剩下前景信息与背景信息。二值化也可以简单地将其理解为“黑白化”。

3. 图像降噪：

　　对于不同的图像根据噪点的特征进行去噪的过程称为降噪。

4. 倾斜校正：

　　由于一般用户，在拍照文档时，难以拍摄得完全符合水平平齐与竖直平齐（我本人就经常拍的歪歪扭扭），

　　因此拍照出来的图片不可避免的产生倾斜，这就需要图像处理软件进行校正。

5. 版面分析：

　　将文档图片分段落，分行的过程称为版面分析。

6. 字符切割：

　　由于拍照、书写条件的限制，经常造成字符粘连、断笔，直接使用此类图像进行OCR分析将会极大限制OCR性能。

　　因此需要进行字符切割，即：将不同字符之间分割开。

7. 字符识别：

　　早期以模板匹配为主，后期以结合深度网络的特征提取为主。版面还原：将识别后的文字像原始文档图片那样排列，

　　段落、位置、顺序不变地输出到Word文档、PDF文档等，这一过程称为版面还原。

8. 后期处理：根据特定的语言上下文的关系，对识别结果进行校正。

9. 输出：将识别出的字符以某一格式的文本输出。

三、OCR的使用现状

ocr的发展已经有了非常多的积累，一般人或者企业使用，都是直接使用第三方的服务，目前提供第三方服务的大企业也非常多，百度，阿里云，腾讯等等，都提供了非常方便的api接口，可以进行调用，识别的速度、精确度和效果也都是非常不错的。唯一的缺点就是api的调用是需要收费的，对于调用频次不高的个人和企业，这个费用还是非常低的。

1，为什么企业要使用开源的而不是直接使用api服务？

目前因为公司的现状，使用开源的有几个目的

每天调用的频次比较高，以后可能越来越高，所以基于费用的考虑是最主要的。
目前ocr的算法研究基本趋于成熟，并且目前对识别的精度要求不是太高，目前开源项目基本能够满足。
对于cv和深度学习进行一定程度的积累和了解，为后续工作做一些铺垫。
学习开源ocr的模型构建，方便后续对于模型的更新。

2，目前常用的几个OCR开源的项目

目前针对ocr的相关开源项目还是很多的，做了一些简单的调研和试用，在这里进行记录。对于调研不准确的希望大家指出。

第一名：PaddleOCR

PaddleOCR 是百度开源的中文识别的ocr开源软件，PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库，助力开发者训练出更好的模型，并应用落地。

支持多种OCR相关前沿算法，在此基础上打造产业级特色模型PP-OCR和PP-Structure，并打通数据生产、模型训练、压缩、预测部署全流程。

开源地址： https://github.com/PaddlePaddle/PaddleOCR.git

官网地址： https://www.paddlepaddle.org.cn/

优势

github上面star非常多，项目非常活跃
模型只针对中文进行训练
后面做背书的公司非常强（baidu）
相关的中文文档非常齐全
识别的精确度比较高
安装和教程详细
支持前沿算法和标注工具

劣势

目前使用的训练模型是基于百度公司自己的PaddlePaddle框架，对于小公司来说并不主流（对比于ts或者pytorch），所使用深度学习框架为后续其他深度学习无法做很好的铺垫
项目整体比较复杂，学习成本较高

所以根据自己实际情况，我最终选择了这个百度飞浆OCR开源项目学习。

第二名：Tesseract

Tesseract 一款由HP实验室开发由Google维护的开源OCR引擎，支持多语言，多平台，使用python开发。

开源地址： https://github.com/tesseract-ocr/tesseract.git

优势

github上面star非常多，项目非常活跃
识别的语言和文字非常多
后面做背书的公司非常强（google）

劣势

不是专门针对中文场景
相关文档主要是英文，对于阅读和理解起来有一定困难
学习成本比较高
源码较多，并且部分源码是c++，学习起来难度比较大

所以根据自己实际情况放弃了这个项目的学习。

第三名：EasyOCR

EasyOCR是用Python编写基于Tesseract的OCR识别库，用于图像识别输出文本，目前支持80多种语言。

开源地址： https://github.com/JaidedAI/EasyOCR.git

优势

github上面的star也是比较多，但是最近不是特别活跃
支持的语言也是非常多的，多达80多种
识别的精确度尚可

劣势

从官方的页面体验来说识别的速度较慢
识别的文字种类多，学习难度较高
相关的官方文档是基于英文的，学习难度较高，对于新手不太友好

所以根据自己实际情况放弃了这个项目的学习。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/74636.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

dubbo和feign那个效率高呢？

dubbo和feign那个效率高呢？

Dubbo 和 Feign 都是常用的远程服务调用框架，它们在不同的应用场景下具有各自的优势。效率高与否取决于具体的使用情况和需求。 Dubbo：Dubbo 是一款高性能的分布式服务框架，主要面向大规模的微服务架构。Dubbo 在性能方面表现出色&#xff0c…

阅读更多...

实战教程：如何将自己的Python包发布到PyPI上

实战教程：如何将自己的Python包发布到PyPI上

1. PyPi的用途 Python中我们经常会用到第三方的包，默认情况下，用到的第三方工具包基本都是从Pypi.org里面下载。我们举个栗子: 如果你希望用Python实现一个金融量化分析工具，目前比较好用的金融数据来源是 Yahoo 和 Google。你可能需要读取…

阅读更多...

Electron 两个线程

Electron 两个线程

Electron：它允许使用最初为Web应用程序开发的前端和后端组件开发桌面GUI应用程序：后端的Node.js运行时和前端的Chromium。每个Electron应用都有两个线程：一个是主线程（处理应用窗口和启动），另一个是渲染线…

阅读更多...

3dMax全球学习资源、资源文件和教程！

3dMax全球学习资源、资源文件和教程！

此样例教育教程和学习资源旨在提供使用Autodesk 3ds Max时的计划知识和培训、正确的工作流、流程管理和最佳实践。您在Autodesk三维设计领域的职业生涯有关使用3ds Max和Maya在计算机图形领域开始职业生涯的提示（包括新的3ds Max和Maya介绍教程，以复…

阅读更多...

STL容器

STL容器

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、导入二、使用步骤 1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容： 例如：随着人工智能的不断发…

阅读更多...

主频计算-架构真题（二十三）

主频计算-架构真题（二十三）

某文件系统采用多级索引结构，若磁块大小为4K字节，每个块号需占4个字节，那么采用二级索引结构时的文件最大长度可占用（）个物理块。 1、1024 2、1024*1024 3、2048*2048 4、4096*4096 答案：B 解析&…

阅读更多...

Spring Cloud：构建微服务的最佳实践

Spring Cloud：构建微服务的最佳实践

🌷🍁 博主猫头虎（🐅🐾）带您 Go to New World✨🍁 🦄 博客首页——🐅🐾猫头虎的博客🎐 🐳 《面试题大全专栏》 🦕 文章图文…

阅读更多...

PLC编码器测速(限幅滤波+中心差分法求导SCL源代码)

PLC编码器测速(限幅滤波+中心差分法求导SCL源代码)

M法测速的基本原理，大家可以查看专栏的系列文章，这里不再赘述常用链接如下： PLC通过编码器反馈值计算速度的推荐做法(算法解析+ST代码）_编码器脉冲怎么转换为速度_RXXW_Dor的博客-CSDN博客PLC如何测量采集编码器的位置数据，不清楚的可以参看我的另一篇博文：三菱FX3U PLC…

阅读更多...

C#模拟PLC设备运行

C#模拟PLC设备运行

涉及：控件数据绑定，动画效果 using System; using System.Windows.Forms;namespace PLCUI {public partial class MainForm : Form{ public MainForm(){InitializeComponent();}private void MainForm_Load(object sender, EventArgs e){// 方式2&#x…

阅读更多...

索尼 toio™ 应用创意开发征文｜探索创新的玩乐世界——索尼 toio™

索尼 toio™ 应用创意开发征文｜探索创新的玩乐世界——索尼 toio™

导语： 在技术的不断进步和发展中，玩具也逐渐融入了智能化的潮流。索尼 toio™作为一款前沿的智能玩具，给孩子和成人带来了全新的游戏体验。本文将介绍索尼 toio™的特点、功能和应用场景，让读者了解这个令人兴奋的创新产品。 1. 了…

阅读更多...

《Go语言在微服务中的崛起：为什么Go是下一个后端之星？》

《Go语言在微服务中的崛起：为什么Go是下一个后端之星？》

🌷🍁 博主猫头虎🐅🐾 带您进入 Golang 语言的新世界✨✨🍁 🦄 博客首页——🐅🐾猫头虎的博客🎐 🐳 《面试题大全专栏》 🦕 文章图文并茂&#x1f…

阅读更多...

《Java面向对象程序设计》学习笔记——第 15 章 Java 多线程机制

《Java面向对象程序设计》学习笔记——第 15 章 Java 多线程机制

笔记汇总：《Java面向对象程序设计》学习笔记 # 第 15 章 Java 多线程机制 Java 语言的一大特点就是内置了对多线程的支持。多线程是指同时存在几个执行体，按几条不同的执行线索共同工作的情况。我们感觉线程正在同步执行，但并不是真…

阅读更多...

【Unity的HDRP下ShaderGraph实现权重缩放全息投影＿(内附源码)】

【Unity的HDRP下ShaderGraph实现权重缩放全息投影＿(内附源码)】

实现权重缩放全息投影效果如下效果如下顶点位置偏移链接： 提取码：1234

阅读更多...

Axure RP仿QQ音乐app高保真原型图交互模板源文件

Axure RP仿QQ音乐app高保真原型图交互模板源文件

Axure RP仿QQ音乐app高保真原型图交互模板源文件。本套素材模板的机型选择华为的mate30，在尺寸和风格方面，采用标准化制作方案，这样做出来的原型图模板显示效果非常优秀。原型中使用大量的动态面板、中继器、母版，涵盖Axure中技…

阅读更多...

wpf复制xaml及其cs窗体到其他项目添加现有项，选 .xaml.cs，点添加即可。VS2022

wpf复制xaml及其cs窗体到其他项目添加现有项，选 .xaml.cs，点添加即可。VS2022

添加现有项，选 LoadingWindow.xaml.cs，点添加即可。

阅读更多...

MySql学习笔记01——SQL的相关术语

MySql学习笔记01——SQL的相关术语

SQL（相关术语） 数据库database 有组织的存储数据的容器，通常是一个文件或者一组文件表table 存储数据的文件称为表，表是某种特定数据的结构化清单。表可以保存顾客清单、产品目录，或者其他信息清单。要注意的是&am…

阅读更多...

后端常用的Linux命令大全

后端常用的Linux命令大全

后端常用的Linux命令大全基础常用命令 Sudo Command 该命令是“superuser do”的缩写。sudo 是最常用的命令之一，可让你执行需要管理或 root 特权和权限的任务。使用sudo命令时系统会提示用户重新使用密码进行身份验证。接下来，Linux 系统将记录一…

阅读更多...

YAML配置文件

YAML配置文件

YAML配置文件 SpringBoot中application.properties文件存在的问题：配置太多后难阅读和修改，层级结构辨识度不高。简介 YAML是"YAML Ain’t a Markup Language"（YAML不是一种标记语言）的递归缩写。在开发的这种语言时&a…

阅读更多...

Matlab信号处理3：fft(快速傅里叶变换)标准使用方式

Matlab信号处理3：fft(快速傅里叶变换)标准使用方式

Fs 1000; % 采样频率 T 1/Fs; % 采样周期：0.001s L 1500; % 信号长度 t (0:L-1)*T; % 时间向量. 时间向量从0开始递增，0s~1.499sS 0.7*sin(2*pi*50*t) sin(2*pi*120*t); % 模拟原信号 X S 2*randn(size(t)); …

阅读更多...

汇川PLC学习Day3：轴控代码编写、用户程序结构说明与任务配置示例、用户变量空间与编址

汇川PLC学习Day3：轴控代码编写、用户程序结构说明与任务配置示例、用户变量空间与编址

汇川PLC学习Day3：轴控代码编写、用户程序结构说明与任务配置示例、用户变量空间与编址一、新建轴与轴控代码编写 1. 新建轴 (1)新建一个轴 （2）将轴名字更新为实际名字可以后面实例化后再更改，汇川可以在更新名字时同步更新…

阅读更多...

最新文章