Tesseract Ocr文字识别

Tesseract的OCR引擎最先由HP实验室于1985年开始研发，至1995年时已经成为OCR业内最准确的三款识别引擎之一。2005年，Tesseract由美国内华达州信息技术研究所获得，并求诸于Google对Tesseract进行改进、消除Bug、优化工作。Tesseract目前已作为开源项目发布在Google Project.

运行环境：

windows10 + python 3.6 + tesseract 4.0.0-beta.1

先看效果：

一、安装python模块

pip3 install pytesseract

二、安装tesseract orc

下载地址：https://github.com/UB-Mannheim/tesseract/wiki 点击“tesseract-ocr-w64-setup-v4.0.0-beta.1.20180414.exe”下载安装。

注意：安装的时候选中中文包。

本人安装目录：C:\Users\Administrator\AppData\Local\Tesseract-OCR

使用命令，查看版本号和支持语言：

cd C:\Users\Administrator\AppData\Local\Tesseract-OCR tesseract -v tesseract --list-langs　　#查看Tesseract-OCR支持语言

三、配置tesseract运行文件

C:\Python36\Lib\site-packages\pytesseract\pytesseract.py 找到文件：

tesseract_cmd = 'tesseract'

修改为：

tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'

四、代码识别

from PIL import Image
import pytesseractpath = "img\\text-img.png"text = pytesseract.image_to_string(Image.open(path), lang='chi_sim')
print(text)

作为非常优秀的Ocr识别库，tesseract当然可以训练自己的数据模型，从而达到为我所用目的，后续文字会介绍如果训练自己的文字识别库。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/546968.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

Tesseract Ocr文字识别

相关文章

jenkins用ssh agent插件在pipeline里实现scp和远程执行命令

QT5 获取窗口、系统屏幕大小尺寸信息，Qt 获取控件位置坐标，屏幕坐标，相对父窗体坐标

nutch,hbase,zookeeper兼容性问题

视频人脸检测——OpenCV版（三）

JENKINS使用DOCKER运行PYTEST并且出ALLURE报告

配置设备作为DHCP 服务器(基于接口地址池)

zabbix企业应用之low level discovery监控mysql

图片人脸检测——Dlib版（四）

配置设备作为DHCP 服务器(基于全局地址池)

kubernetes 实战使用 nfs 作为动态 storageClass 存储

OpenCV环境搭建（一）

判断一组数字中

git+pylint实现python提交代码格式校验

OpenCV添加中文（五）

UpdatePanel的内容中出现自定义多语言运行异常

ELK开机自启动脚本

QT5获取QPlainTextEdit 某行内容

pip/pip3更换国内源

使用Bazel编译报错ERROR: Unrecognized option: --experimental_repo_remote_exec解决方法

QT5获取CPU编号和硬盘序列号