windows安装使用 tesseract-ocr

OCR(Optical character recognition,光学字符识别)是一种将图像中的手写字或者印刷文本转换为机器编码文本的技术。

tesseract-ocr 是由Google开发,支持100多种语言

文档 tessdoc:

https://tesseract-ocr.github.io/

https://tesseract-ocr.github.io/tessdoc/Installation.html

https://github.com/tesseract-ocr/tessdoc

Windows Tesseract下载地址:https://digi.bib.uni-mannheim.de/tesseract/

选择 tesseract-ocr-w64-setup-v5.0.1.20220118.exe

在这里插入图片描述
勾选上Additional...会下载训练数据,安装到 D:\Tesseract-OCR,将D:\Tesseract-OCR添加到环境变量。

C:\Users\Administrator.DESKTOP-TPJL4TC>tesseract
Usage:tesseract --help | --help-extra | --versiontesseract --list-langstesseract imagename outputbase [options...] [configfile...]OCR options:-l LANG[+LANG]        Specify language(s) used for OCR.
NOTE: These options must occur before any configfile.Single options:--help                Show this help message.--help-extra          Show extra help for advanced users.--version             Show version information.--list-langs          List available languages for tesseract engine.C:\Users\Administrator.DESKTOP-TPJL4TC>tesseract --version
tesseract v5.0.1.20220118leptonica-1.78.0libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0Found AVX2Found AVXFound FMAFound SSE4.1Found libarchive 3.5.0 zlib/1.2.11 liblzma/5.2.3 bz2lib/1.0.6 liblz4/1.7.5 libzstd/1.4.5Found libcurl/7.77.0-DEV Schannel zlib/1.2.11 zstd/1.4.5 libidn2/2.0.4 nghttp2/1.31.0

查看支持的语言包

tesseract --list-langs

如果忘记勾选了训练数据,也可以单独下载 https://digi.bib.uni-mannheim.de/tesseract/tessdata_fast/ ,放在D:\Tesseract-OCR\tessdata目录下

识别图片中的文字,默认只能识别英文和数字

tesseract 图片地址 存放识别结果的文本文件路径
比如
tesseract D:\dev\php\magook\trunk\server\go-opencv\detectcarband\licence_plate.jpg D:\dev\php\magook\trunk\server\go-opencv\detectcarband\licence_plate

如果要识别中文,那就需要加上语言包名称

tesseract D:\dev\php\magook\trunk\server\go-opencv\detectcarband\licence_plate.jpg D:\dev\php\magook\trunk\server\go-opencv\detectcarband\licence_plate -l chi_sim

其实并不算很准,比如如下车牌

在这里插入图片描述

识别结果是外.730V7

C:\Users\Administrator.DESKTOP-TPJL4TC> tesseract --help-extra
Usage:tesseract --help | --help-extra | --help-psm | --help-oem | --versiontesseract --list-langs [--tessdata-dir PATH]tesseract --print-fonts-table [options...] [configfile...]tesseract --print-parameters [options...] [configfile...]tesseract imagename|imagelist|stdin outputbase|stdout [options...] [configfile...]OCR options:--tessdata-dir PATH   Specify the location of tessdata path.--user-words PATH     Specify the location of user words file.--user-patterns PATH  Specify the location of user patterns file.--dpi VALUE           Specify DPI for input image.--loglevel LEVEL      Specify logging level. LEVEL can beALL, TRACE, DEBUG, INFO, WARN, ERROR, FATAL or OFF.-l LANG[+LANG]        Specify language(s) used for OCR.-c VAR=VALUE          Set value for config variables.Multiple -c arguments are allowed.--psm NUM             Specify page segmentation mode.--oem NUM             Specify OCR Engine mode.
NOTE: These options must occur before any configfile.Page segmentation modes:0    Orientation and script detection (OSD) only.1    Automatic page segmentation with OSD.2    Automatic page segmentation, but no OSD, or OCR. (not implemented)3    Fully automatic page segmentation, but no OSD. (Default)4    Assume a single column of text of variable sizes.5    Assume a single uniform block of vertically aligned text.6    Assume a single uniform block of text.7    Treat the image as a single text line.8    Treat the image as a single word.9    Treat the image as a single word in a circle.10    Treat the image as a single character.11    Sparse text. Find as much text as possible in no particular order.12    Sparse text with OSD.13    Raw line. Treat the image as a single text line,bypassing hacks that are Tesseract-specific.OCR Engine modes:0    Legacy engine only.1    Neural nets LSTM engine only.2    Legacy + LSTM engines.3    Default, based on what is available.Single options:-h, --help            Show minimal help message.--help-extra          Show extra help for advanced users.--help-psm            Show page segmentation modes.--help-oem            Show OCR Engine modes.-v, --version         Show version information.--list-langs          List available languages for tesseract engine.--print-fonts-table   Print tesseract fonts table.--print-parameters    Print tesseract parameters.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/4331.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

浅谈炼钢厂能源计量管理系统的设计与应用

安科瑞 华楠 摘要: 从能源计量和管理的角度,论述了炼钢厂的能源计量管理系统的基本组成及功能。该系统的建立,将使炼钢厂能源介质的计量管理工作实现自动采集、瞬时监测、故障报警、能流监视;完成报表统计、离线输入、成本分析、预测参考等功…

【Java项目实战-牛客社区】--idea创建springboot工程

①. 创建springboot工程,并勾选web开发相关依赖。 。配置Maven ②. 定义Controller类,添加方法 hello。 ③. 运行测试1 使用Spring Initializr方式构建Spring Boot项目 Spring Initializr是一个Web应用,它提供了一个基本的项目结构&#xff…

ansible特点、工具合集、搭建、命令合集

目录 一、ansible特点 二、ansible应用 三、ansible搭建 1、 实验环境,准备三台服务器,关闭防火墙 2、在ansible(192.168.1.12)服务器上yum安装ansible 3、创建ssh免交互登录 四、ansible配置 五、ansible命令 1&#xf…

手机外壳缺陷视觉检测软硬件方案

单独使用一种光源效果图 同轴光会出现亮度不够的情况;回形面光因为光源中间的圆孔会使图像有阴影,造成图像效果不均衡,所以不采用单独光源打光 使用同轴回形面光源效果图 回形光源照亮产品要寻找的边缘,同轴光源起到补光的作用&a…

SpringCloud学习路线(6)—— 远程调用HTTP客户端Feign

一、Feign替代RestTemplate RestTemplate示例 String url "http://userservice/user/" order.getUserId(); User user restTemplate.getForObject(url, User.class);RestTemplate的缺陷: 代码可读性差,编码体验不统一。参数复杂URL难以维…

需求分析案例:全局错误码设计

本文介绍了我在一些业务系统中遇到的错误提示问题,以及进行需求分析和设计实现的过程,欢迎进行交流和指点,一起进步。 1、需求起源 作为程序员,或多或少,都经历过如下场景: 场景1: 产品经理&a…

智慧校园能源管控系统

智慧校园能源管控系统是一种搭载了物联网技术、大数据技术、大数据等技术性智能化能源管理方法系统,致力于为学校提供更高效、安全性、可信赖的能源供应管理和服务。该系统包括了校内的电力工程、水、气、暖等各类能源,根据对能源的实时检测、数据统计分…

Django 创建应用

第一步:python.exe .\manage.py startapp submit_score 创建后生成的submit_score文件夹,里面文件如下: PS E:\code\portrait> python.exe .\manage.py startapp submit_score PS E:\code\portrait> ls目录: E:\code\portraitMode …

文心一言 VS 讯飞星火 VS chatgpt (63)-- 算法导论6.5 2题

文心一言 VS 讯飞星火 VS chatgpt (63)-- 算法导论6.5 2题 二、试说明 MAX-HEAP-INSERT(A,10)在堆A(15,13,9,5,12,8,7,4,0,6&#xf…

leetcode 13. 罗马数字转整数

罗马转整数要考虑先后顺序 当排在前面的罗马数字大于后面的罗马数字,就正常化成阿拉伯数字相加 如果小,那就是将小的数转成负数,再加就ok。 但也是需要模拟的,就是哪一字母代表哪个数值。 class Solution:def romanToInt(self, s…

【业务功能篇48】后端接口开发的统一规范

业务背景:日常工作中,我们开发接口时,一般都会涉及到参数校验、异常处理、封装结果返回等处理。而我们项目有时为了快速迭代,在这方面上有所疏忽,后续导致代码维护比较难,不同的开发人员的不同习惯&#xf…

2.3 QLayout一探究竟(上)

2.布局 2.1 布局简介 2.2 Qt四大布局介绍及使用方法 2.2.1 QBoxLayout讲解及示例 2.2.1.1 QHBoxLayout介绍 2.2.1.1 QVBoxLayout介绍 2.2.2 QFormLayout讲解及示例 2.2.3 QGridLayout讲解及示例 2.2.4 QStackedLayout讲解及示例 2.3 QLayout一探究竟 2.3.1 布局的基础单元-QL…

HTTP进化史:从HTTP1的简单到HTTP3的强大

文章目录 📈I. HTTP1⚡A. 基本特点⚡B. 特点⚡C. 优缺点 📈II. HTTP2⚡A. 基本特点⚡B. 特点⚡C. 优缺点 📈III. HTTP3⚡A. 基本特点⚡B. 特点⚡C. 优缺点 📈IV. 总结📈附录:「简历必备」前后端实战项目&am…

[RK3568] AMP架构

Rockchip 平台异构多系统 AMP(非对称多核架构)的开发软件包,支持 Linux(Kernel-4.19)、 Baremetal(HAL)、RTOS(RT-Thread) 组合AMP构建形式。 Baremetal(HAL) Baremetal表示裸机操作系统,HAL是裸机操作系统的一种。 裸机嵌入式系…

MySQL不适合创建索引的7种情况

1. 在where中使用不到的字段,不要设置索引 WHERE条件(包括order by ,group by) 2. 数据量小的表最好不要使用索引 表记录太少,比如少于1000个,创建索引会先查索引,再回表,查询花费…

01 QT命名规范,快捷键

命名规范: 类名首字母大写,单词和单词之间首字母大写函数名、变量名 首字母小写,单词和单词之间首字母大写 快捷键: 运行:ctrl r 编译:ctrl b 注释:ctrl / 字体缩放:ctrl 鼠…

设计模式之工厂模式-简单工厂、工厂方法、抽象工厂模式

工厂模式是一种常见的创建型设计模式,它提供了一种创建对象的方法,将对象的创建与使用分离开来,可以减少代码的耦合度。在工厂模式中,我们通过一个工厂类来创建对象,而不是直接在代码中实例化对象。 工厂模式有三种常…

C++并发编程之共享数据(二)

3.1 条件竞争 恶性条件竞争通常发生于完成对多于一个的数据块的修改。例如对一个双向链表的结点的修改。该节点有两个指针。 避免条件竞争的两种方式: 方式一:确保只有进行修改的线程才能看到不变量被破坏时的中间状态。从其他访问线程的角度来 看&…

Git 常用命令

Git操作 克隆远程仓库到本地 # Git初始化&#xff08;仅一次使用的适合需要设置&#xff09; git config --global user.name "用户名" git config --global user.email "邮箱账号"# 朴实无华的拉取 git clone <url>分支 # 查看分支 git branch # …

Spring Boot 配置属性设置优先级

文章首发地址 Spring Boot设计了非常特殊的加载指定属性文件&#xff08;PropertySource&#xff09;的顺序&#xff0c;以允许对属性值进行合理的覆盖。属性值会以下面的优先级进行设置。 home目录下的Devtools全局设置属性&#xff08;~/.spring-boot-devtools.properties&a…