光学字符识别 Tesseract-OCR 的下载、安装和基本用法

OCR:即Optical Character Recognition,光学字符识别,是指检查纸或者图片上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;

Tesseract-OCR:一款由HP实验室(惠普布里斯托实验室)开发,由Google维护的开源OCR引擎,可以经过不断的训练,增强图像转换文本的能力,Tesseract-OCR 也经常被用于Python爬虫的验证码识别

1、下载安装Tesseract-OCR

官方GitHub地址:https://github.com/tesseract-ocr/

下载地址一:https://github.com/UB-Mannheim/tesseract/wiki (仅Windows操作系统,最新版本)
下载地址二:https://digi.bib.uni-mannheim.de/tesseract/ (仅Windows操作系统,历史版本)
下载地址三:https://github.com/tesseract-ocr/tesseract/wiki (其他操作系统)

以下以 V5.0.0 版本为例进行安装,双击 tesseract-ocr-w64-setup-v5.0.0-alpha.20190708.exe 安装程序,基本上一直next就OK了,注意要勾选 Additional language data(download) 安装OCR识别支持的语言包
01
02
03
在这里勾选 Additional language data(download) ,安装OCR识别支持的语言包,在安装语言包时会比较慢,所以建议不要全选,根据需要选择即可,若后期需要增加语言包,可在官网下载后放到Tesseract-OCR\tessdata\tessconfigs目录下即可,不同版本的对应的语言包也不同,下载地址:https://github.com/tesseract-ocr/tesseract/wiki/Data-Files#data-files-for-version-302
05
06

2、配置环境变量

依次右键【此电脑】-【属性】-【高级系统设置】-【环境变量】,在【系统变量】里找到【Path】变量,选择【编辑】-【新建】,将你的Tesseract-OCR安装路径填写进去,比如我的是:E:\Tesseract-OCR,点击确定保存即可
07

3、测试是否成功安装

打开cmd,输入 tesseract 会显示一些 Tesseract-OCR 相关用法提示,输入 tesseract -v 可以查看到 Tesseract-OCR 的版本信息,说明此时安装成功
08
09

4、基本用法

完整命令:tesseract 图片路径和图片名 结果路径和结果名 -l 语言
举例:tesseract F:\code\test.png F:\code\result -l eng
注意:
1、需要识别的图片要加后缀
2、结果文件名不需要加后缀,会自动加后缀,生成的是txt文件
3、-l 是英文字母l,不是数字1,language 语言的意思,不加默认英文
4、eng 表示英文,chi_sim 表示简体中文
5、将cmd切换到要识别图片的文件夹后,就不用加图片路径
03
在 Python 中使用:(需要安装 pytesseract 库)

import pytesseract
from PIL import Image# 打开图片
img = Image.open('图片路径和图片名')
# 识别图片
print(pytesseract.image_to_string(img))

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/437972.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

界面原型设计工具Balsamiq、墨刀、Axure、Mockplus

Balsamiq的体验 这个基于Adobe AIR Runtime的工具实在是有让人眼前一亮的感觉,手绘风格的元件样式粗犷淋漓,能创建接近于纸上手绘的原型文件。其提供了丰富的手绘风格的web常用元件,包括常用的html控件、以及一些组合控件,如多媒体…

PWN-COMPETITION-HGAME2022-Week3

PWN-COMPETITION-HGAME2022-Week3changeable_noteelder_notesized_notechangeable_note edit_note中的gets函数存在堆溢出漏洞 本题没有leak函数,考虑利用_IO_2_1_stdout泄露libc 参考:好好说话之IO_FILE利用(1):利用…

利用官方支持为基于GitHub Pages的Hexo博客启用HTTPS

2022-01-25 更新:博客新地址:https://www.itbob.cn/,文章距上次编辑时间较远,部分内容可能已经过时! HTTP(超文本传输协议),是一个基于请求与响应,无状态的,应…

标注功能介绍

Mockplus3.5.0.1版本中,新增了标注功能。多种标注模式,智能生成,随时查看。原型设计效率更高。 Mockplus的标注功能有以下四种模式: 1、无选中标注 在未选中任何组件时,按住Ctrl键,鼠标经过某个组件&#…

REVERSE-COMPETITION-HGAME2022-Week3

REVERSE-COMPETITION-HGAME2022-Week3Answers Windowscreakme3hardenedfishmanAnswer’s Windows 含有GUI的程序,ida打开,ShiftF12打开字符串窗口,发现"right"和"wrong" 对"right"查找交叉引用,来…

Python3 爬虫学习笔记 C01 【基本库 urllib 的使用】

Python3 爬虫学习笔记第一章 —— 【基本库 urllib 的使用】文章目录【1.1】 urllib 简介 【1.2】 urllib.request 发送请求【1.2.1】 urllib.request.urlopen() 【1.2.1.1】 基本使用方法【1.2.1.2】 添加参数● data 参数● timeout 参数【1.2.2】 urllib.request.Request()【…

NuGet的简单使用

什么是NuGet? NuGet(读作New Get)是用于微软.NET开发平台的软件包管理器,是一个Visual Studio的扩展。在使用Visual Studio开发基于.NET Framework的应用时,NuGet能够令你在项目中添加、移除和更新引用的工作变得更加…

PWN-COMPETITION-HGAME2022-Week4

PWN-COMPETITION-HGAME2022-Week4vectorvector c写的pwn,实现了vector,没有edit功能,新增了move功能 add或move时,如果输入的下标大于vector的size,vector会进行resize扩容 旧vector占用的chunk自动被free掉进入相应的…

Python3 爬虫学习笔记 C02 【基本库 requests 的使用】

Python3 爬虫学习笔记第二章 —— 【基本库 requests 的使用】文章目录【2.1】 requests 简介【2.2】 requests 基本用法 【2.3】 requests 构建 GET 请求 【2.3.1】 基本用法【2.3.2】 二进制数据抓取 【2.3.3】 添加 headers【2.4】 requests 构建 POST 请求 【2.5】 request…

REVERSE-COMPETITION-HGAME2022-Week4

REVERSE-COMPETITION-HGAME2022-Week4( WOW )serverezvmhardasm( WOW ) 32位exe,ida打开 观察伪代码逻辑,上面的红框中,输入经过加密,密文放入Buf2中,然后Buf2和已知的密文res比较 比较完,打印"win&q…

VB编程语言简史

Visual Basic从1991年诞生以来,现在已经13年了。BASIC是微软的起家产品,微软当然不忘了这位功臣。随着每一次微软技术的浪潮,Visual Basic都会随之获得新生。可以预见,将来无论微软又发明了什么技术或平台,Visual Basi…

Python3 爬虫学习笔记 C03 【Ajax 数据爬取】

Python3 爬虫学习笔记第三章 —— 【Ajax 数据爬取】文章目录【3.1】Ajax 简介 【3.2】解析真实地址提取【3.1】Ajax 简介 Ajax — Asynchronous Javascript And XML(异步 JavaScript 和 XML),是指一种创建交互式网页应用的网页开发技术。可…

详解Bootstrap glyphicons-halflings-regular.woff2 Not found

看了好几个关于Bootstrap glyphicons-halflings-regular.woff2 Not found,的博主写的,他们都没有具体的细节。 首先,出现这个问题的原因是,没有将具体的包引用完整 直接看我遇到的问题吧,我要使用这个包,…

Python3 爬虫学习笔记 C04 【自动化测试工具 Selenium】

Python3 爬虫学习笔记第四章 —— 【自动化测试工具 Selenium】文章目录【4.1】下载驱动 【4.2】声明浏览器对象 【4.3】访问页面 【4.4】启动参数 【4.5】查找节点 【4.5.1】查找单个节点 【4.5.2】查找多个节点【4.6】节点交互 【4.7】动作链 【4.8】执行 JavaScript 【4.9】…

REVERSE-COMPETITION-HWS-5TH-2022

REVERSE-COMPETITION-HWS-5TH-2022re1re2re3re1 64位exe,ida打开,来到main函数 输入的长度应为32,输入经过TEA加密,密文与已知的cipher进行比较 进入TEA函数,发现是魔改TEA,需一次性传入8个unsigned int&…

Selenium 显式等待条件及其含义

等待条件含义title_is标题是某内容title_contains标题包含某内容presence_of_element_located节点加载出,传入定位元组,如 (By.ID, ‘p’)visibility_of_element_located节点可见,传入定位元组visibility_of可见,传入节点对象pres…

终于找到了:NuGet 修改包路径

NuGet 是 .NET 平台下的一个免费、开源的包管理开发工具。 修改全局包管理目录 通过 NuGet 安装包时,NuGet 先将包下载至一个统一的目录,默认路径是:C:Users用户名.nugetpackages 下载的包多了以后,会导致 C 盘空间被大量占用。…

REVERSE-COMPETITION-DSCTF-2022

REVERSE-COMPETITION-DSCTF-2022catchmeFFunctionnothingbad_applefantastic_cpucatchme 安卓逆向,java层传递输入,调用native层的check方法 ida打开.so文件,没有直接找到check方法,JNI_OnLoad也看不出什么 Findcrypt查到AES的S盒…

01-单一职责原则(SPR)

1. 背景 类T负责两个不同的职责:职责P1,职责P2。当由于职责P1需求发生改变而需要修改类T时,有可能会导致原本运行正常的职责P2功能发生故障。 2. 定义 不要存在多于一个导致类变更的原因。通俗的说,即一个类只负责一项职责。 3.…

Windows/Android/iOS 等常见 User-Agent 大全

User Agent 中文名为用户代理,简称 UA,是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。Python 爬虫通过伪装 UA 可以绕过某些检测。 以下为搜集的常见…