Tesseract OCR是一款由HP实验室开发由Google维护的开源OCR引擎,在字符识别领域发挥着举足轻重的作用。除了使用软件自带的中英文识别库,我们可以使用Tesseract OCR训练属于自己的字库。
下载地址:https://digi.bib.uni-mannheim.de/tesseract/
注意:3.0以上才支持中文
安装
这里选择语言包
这里选择中文
配置环境变量
1、在环境变量—用户变量path中添加Tesseract OCR路径和tessdata路径
D:\Program Files\Tesseract-OCR
D:\Program Files\Tesseract-OCR\tessdata
2、在环境变量—系统变量path中增加Tesseract OCR路径和tessdata路径
3、在环境变量–系统变量中添加TESSDATA_PREFIX变量,并添加变量值D:/Program Files/Tesseract-OCR/tessdata/
注意:这里的斜杠是反方向的
下载字库
要识别中文需要chi_sim.traindata字库,放到Tesseract-OCR中tessdata下,默认自带该字库,也可以在git中下载。
字库下载地址:https://github.com/tesseract-ocr/tessdata
测试
执行命令查看tessreact是否安装成功
tesseract -v
执行名称查看图片识别是否成功
tesseract test.png result -l chi_sim
在当前文件夹下就会生成一个result.txt可以查看结果。