环境: windows10, anaconda3
背景:使用conda install pytesseract 安装失败
解决方法:
从Index of /tesseract (uni-mannheim.de)中下载最新的安装包
https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-5.3.1.20230401.exe |
点击安装,
安装成功后如果需要识别中文,在Index of /tesseract/tessdata_fast (uni-mannheim.de) 中下载
chi_sim.traineddata | 2022-01-18 22:05 | 2.4M | ||
chi_sim_vert.traineddata | 2022-01-18 22:05 | 1.8M | ||
chi_tra.traineddata | 2022-01-18 22:05 | 2.3M | ||
chi_tra_vert.traineddata | 2022-01-18 22:05 | 1.7M |
这四个中文包,放到Tesseract安装目录的tessdata 文件夹下(如 D:\program\Tesseract-OCR\tessdata )
from PIL import Image
import pytesseract
img = Image.open('test.jpg')
text = pytesseract.image_to_string(img, lang="chi_sim", config='--psm 6')
print(text)
执行结果