java 图片识别 tess4j_图像文字识别(四):java调用tess4j识别图像文字

转自:https://blog.csdn.net/a745233700/article/details/80203340java

java调用tess4j识别图像文字

Tesseract-OCR支持中文识别,而且开源和提供全套的训练工具,是快速低成本开发的首选。前面记录过在java中调用tesseract-orc,该方法的原理是经过在java中调用cmd命令行,来执行tesseract,可是该方式须要下载软件,在电脑上安装环境,移植性不高。git

而Tess4J则是Tesseract在Java PC上的应用。若是使用Tess4J只须要下载相关Jar包,导入项目,再把项目封装好就能够到处运行了,可移植性比较好。Tess4J在英文和数字识别中性能比较好,可是在中文识别中,不管速度仍是识别率仍是较弱,所以须要针对场景进行训练,才能得到较好结果。github

这篇博客简单记录一下在java中经过调用tess4j的方式识别图片的文字内容。maven

步骤:工具

(1)下载tess4j源码包:https://sourceforge.net/projects/tess4j/性能

tessdata下默认为英语库,中文库下载地址:https://github.com/tesseract-ocr/tessdata/blob/master/chi_sim.traineddata测试

其余库的下载地址:https://github.com/tesseract-ocr/tessdataui

下载完的tess4j资源包目录以下:.net

3c4bdceac0a676bd5762771bcb1bc9b3.png

(2)新建一个java工程:命令行

使用Build Path -> configure build path导入dist目录下的tess4j.jar 和 lib目录下的全部jar包,以下图:

d15efa7c3480be1a2b3bd02d6e887a03.png

若是是maven工程则导入如下maven依赖。

net.sourceforge.tess4j

tess4j

3.2.1

(3)把tessdata文件夹复制到项目的根目录下(与src目录同级),以下图:

460313e0e3d98d68a4bcea2ae25dbd74.png

若是tessdata目录没有配置到根目录下,就须要在代码中指定datePath。

(4)编写测试类:

import java.io.File;

import net.sourceforge.tess4j.ITesseract;

import net.sourceforge.tess4j.Tesseract;

import net.sourceforge.tess4j.TesseractException;

/**

* 类说明 : tess4j测试类

*/

public class OCRDemo {

public static void main(String[] args) throws TesseractException {

ITesseract instance = new Tesseract();

//若是未将tessdata放在根目录下须要指定绝对路径

//instance.setDatapath("the absolute path of tessdata");

//若是须要识别英文以外的语种,须要指定识别语种,而且须要将对应的语言包放进项目中

instance.setLanguage("chi_sim");

// 指定识别图片

File imgDir = new File("C://Users//1_20180208150251_x4hzz//1.png");

long startTime = System.currentTimeMillis();

String ocrResult = instance.doOCR(imgDir);

// 输出识别结果

System.out.println("OCR Result: \n" + ocrResult + "\n 耗时:" + (System.currentTimeMillis() - startTime) + "ms");

}

}

(5)图片素材与识别结果:

6a2f640348e8791d8f61cb6b208c282f.png

3c0704d3f346443e5740b47b0cb18ab1.png

能够看到,tess4j在中文识别时,不管速度仍是识别率仍是较弱,须要针对场景进行训练,才能得到较好结果。

---------------------

做者:a745233700

来源:CSDN

原文:https://blog.csdn.net/a745233700/article/details/80203340

版权声明:本文为博主原创文章,转载请附上博文连接!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/528975.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

sql in转换为join_同一个SQL语句,为啥性能差异咋就这么大呢?(1分钟系列)

《数据库允许空值,往往是悲剧的开始》一文通过explain来分析SQL的执行计划,来分析null对索引命中情况的影响,有不少朋友留言,问explain结果中的type字段,ref,ALL等不一样的值究竟是什么含义。今天花1分钟简…

java字符串笔试题_五道Java常见笔试题及答案汇总

1、String和StringBuffer的区别?答:Java平台提供了两个类:String和StringBuffer,它们可以储存和操作字符串,即包含多个字符的字符数据。这个String类提供了数值不可改变的字符串。而这个StringBuffer类提供的字符串进行…

遥感原理与应用孙家炳_2.2遥感应用模型

章节概览遥感应用模型是遥感的一种定量化手段,通常在遥感领域有一个更广为人知的名词——定量遥感。但是定量遥感是一种方法模型而非技术手段,随着科学的发展,热门越来越体会到定量遥感的必要性。定量遥感的应用是十分广泛的,也是…

喜马拉雅 xm文件转m4a_喜马拉雅电台、课程语音如何转成文字?

今天看了一篇文章“AI面前人类一败涂地”就是说了AI的发展让所有的事情几乎都可以实现科技化,无需人工操作,工作效率还比人工要高很多。这样说来的确是这样。语音转换也是其中一门技术,人们现在对于语音的交流很多,比如社交软件的…

java 多重注解_Java注解-元数据、注解分类、内置注解和自定义注解

大家好,我是乐字节的小乐,上次说过了Java多态的6大特性|乐字节,接下来我们来看看Java编程里的注解。Java注解有以下几个知识点:元数据注解的分类内置注解自定义注解注解处理器Servlet3.0本文先介绍前面4个知识点:元数据…

酷狗音乐linux版_酷狗音乐概念版APP内测获用户好评:极简化,更高级

这两天在网上冲浪的时候,发现不少网友都在安利一个叫做“酷狗音乐概念版”的APP,难道是酷狗又在闷声搞大事了?搜了一下发现,原来是酷狗音乐概念版APP已经开始进入内测阶段,尝试着下载使用,果然发现“更酷更…

java 计算器类图_多态计算器(封装、继承、多态、简单工厂)

一.封装向对象程序设计中,一个非常重要的技术便是封装,也就是把客观事物封装成抽象的类,并且类可以把自己的数据和方法只让可信的类或者对象操作,对不可信的进行信息隐藏。这样做的好处在于可以使类内部的具体实现透明化&#xff…

图书管理系统 java 源码_[源码和文档分享]基于C语言和SQL SERVER数据库实现的图书管理系统...

摘 要本文根据《数据库应用系统设计》课程要求而做。选择图书馆管理系统设计与开发是因为觉得图书馆管理系统对我们的帮助很大,并且经常去图书馆,对图书馆的大部分功能及流程还是比较了解,而且现在有些地方可能还不够完善。这次课程设计目标是…

sql server 修改字段不能为空_SQL-SQL介绍

一SQL 介绍SQL(Structured Query Language),语义是结构化语言, 是一门 ANSI 的标准计算机语言,用来访问和操作数据库系统;二 数据库介绍2.1 数据库我们已经知道了SQL是操作数据库的语言,那么数据库是什么&a…

拼接的option会多出空行_Word空格,空行,页眉横线等问题,我只花一分钟就全解决了...

从网上复制下来的资料粘贴到Word文档上,出现了许多空格、空行、页眉横线等问题,这时候我们该如何快速地解决这些问题,看看下面的操作你就知道了。一、删除空格1、空格案例从网上复制下来的文字到Word文档中,出现字与字之间有好多空…

oracle连接工具_扯一扯Tableau软件配置数据源系列之Oracle

作者:扯蛋君编辑:齐天大圣声明:本文章仅用于Taleau软件的应用、学习沟通,不代表Taleau公司;文中所示截图来源Taleau官方及软件公开内容,相应著作权归Tableau所有。 今天给大家介绍Tableau工具如何连接数据库…

如何和后台接触的_后台产品,不只是做支持

最近在招聘后台产品经理,面试过程中提到一个问题,这个问题之前也困扰了我很久:你做的后台产品,价值体现在哪里?只是做业务支持么?今天就来聊聊这个话题。我是做后台产品出身,最开始入行做的是云…

云计算呼叫中心_干货|云呼叫中心系统和传统呼叫中心系统的区别在哪?

随着社会的发展,呼叫中心由传统的呼叫中心逐渐发展为云呼叫中心。然而关于这两者的区别,您知道吗?跟随畅远技术一同来了解一下吧......一、购买、安装不同传统呼叫中心软件在配置方面有几个特点:一次购买终身使用;安装…

隔一段时间查找一次 golang_剑指 offer-04 二维数组中的查找

算法名称:二维数组中的查找题目内容:在一个二维数组中,每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该…

在线电脑配置PHP源码,域名授权系统PHP源码 V2.7.0 支持盗版追踪

最新漂亮简洁大气的域名授权系统PHP源码,域名授权系统PHP版,功能强大带有后台,经过版本升级,全新美观大气的UI洁面!支持盗版追踪,与卡密系统对接购买卡密对域名进行授权,支持授权代码、到期时间…

php 504网关,504 gateway timeout什么意思

504 gateway time-out(504网关超时错误)是HTTP状态代码,这意味着一个服务器在尝试加载网页或填写浏览器的另一个请求时未从其访问的另一台服务器收到及时响应。换句话说,504错误通常表明不同的计算机,即您正在获取504消息的网站无法控制但依赖…

python 二维数组长度_剑指offer二维数组中的查找【Java+Python】

点击上方"蓝字",关注了解更多二维数组中的查找1. 题目描述在一个二维数组中(每个一维数组的长度相同),每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组…

失物招领小程序_通知 | 保卫部拟设置失物招领处

保卫部拟设置失物招领处为规范对遗失物品的接收、登记、发放等工作,切实维护师生利益,保卫部拟设置失物招领处,现将有关失物招领的流程明确如下:1、失物招领地点:保卫部二楼中厅。2、遗失物的接收。师生将拾得的遗失物…

php获取表所有数据类型,php excel 导入 导入三级分类 表格应该怎么设计才能得到想要的数据格式?...

就是多个1级分类 下面有不确定个二级分类 二级分类下面有不确定个三级分类 我想获取到相关的数据组合写入数据库 但是这个格式不知道怎么排才能获取到对的数据有空的亲们给看看 帮下 谢谢有没有办法获取整列的值 然后根据长度去区分2列 然后再区分三列现在获取到的数据格式是按…

redis 清空db下_PHP操作redis实现的分页列表

正文内容封装类文件如下:/* * redis 分页数据类库 */class redisPage{protected $_redis;protected $_redis_ip 127.0.0.1; //ipprotected $_redis_port 6379; //端口protected $_redis_db 0; //数据库号protected $_hash_prefix my_data; //前缀名称public fun…