ocr中文数据集_CNOCR:测试集准确率最高98%,自带识别模型的中文OCR包

4a9c076b6f8b555a07520542d781d732.png

今天 Gitee 为大家介绍的是一款中文 OCR 包。大家都知道,训练模型是一件非常费时费力的事情,但今天这款项目已经自带训练好的识别模型,我们只需要下载下来使用即可,可以说是非常方便了,那么下面我们就去看看这个项目的详细信息吧。

项目名称:cnocr

项目作者:cyahua

开源许可协议:Apache-2.0

项目地址:https://gitee.com/cyahua/cnocr

项目简介

cnocr是用来做中文OCR的Python 3包。cnocr自带了训练好的识别模型,安装后即可直接使用。

cnocr主要针对的是排版简单的印刷体文字图片,如截图图片,扫描件等。cnocr目前内置的文字检测和分行模块无法处理复杂的文字排版定位。如果要用于场景文字图片的识别,需要结合其他的场景文字检测引擎使用。

示例

c732139dcbc659f85e2b672aaeb5af32.png

d17f5b1b397c354978484d88fbb6de78.png

13a5c9eb1865107d774e6ac8dacd042c.png

可直接使用的模型

cnocr的ocr模型可以分为两阶段:第一阶段是获得ocr图片的局部编码向量,第二部分是对局部编码向量进行序列学习,获得序列编码向量。目前两个阶段分别包含以下的模型:

  1. 局部编码模型(emb model)
    1. conv:多层的卷积网络;
    2. conv-lite:更小的多层卷积网络;
    3. densenet:一个小型的densenet网络;
    4. densenet-lite:一个更小的densenet网络。
  2. 序列编码模型(seq model)
    1. lstm:两层的LSTM网络;
    2. gru:两层的GRU网络;
    3. fc:两层的全连接网络。

cnocr目前包含以下可直接使用的模型,训练好的模型都放在 cnocr-models 项目中,可免费下载使用:

fb2795306d09cc11fc95aaec1b04c3ff.png

特色

本项目的初期代码fork自 crnn-mxnet-chinese-text-recognition,感谢作者。

但源项目使用起来不够方便,所以我在此基础上做了一些封装和重构。主要变化如下:

  • 不再使用需要额外安装的MXNet WarpCTC Loss,改用原生的 MXNet CTC Loss。所以安装极简!
  • 自带训练好的中文OCR识别模型。不再需要额外训练!
  • 增加了预测(或推断)接口。所以使用方便!

如果你对这个项目感兴趣,想要亲自试一试识别的效果的话,可以点击后面的链接前往项目主页看看,如果觉得不错记得给它一个 Star 哦:https://gitee.com/cyahua/cnocr

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/498956.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java inner static_Java SE Static Inner

Java SE Static Inner/*内部类使用示例*/package demo;class Outer{int outer_i100;static int outer_j200;final int outer_k300;void test(){Inner in new Inner();in.display();}static class Inner{void display(){System.out.println("display: outer_j "/*ou…

python知识点分支图_python教程,pythonh学习线路图?

相信对于每个人而言,知道编程和学习编程这件事,出发点是不同的。汤哥在北京接触编程的时间是2013年,那个时候还在一个二线城市上大学,还没有这么多各种融资,各种互联网创业的氛围,大家想的更多的是一些线下的&#xff…

sha算法源代码java_SHA算法Java实现

一 简介安全散列算法固定长度摘要信息二 SHA算法SHA-1、SHA-2(SHA-224、SHA-256、SHA384、SHA-512)三 SHA算法实现package com.imooc.security.sha; import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; import java.security.Security; impo…

python定义函数求和_Python定义函数实现累计求和操作

一、使用三种方法实现0-n累加求和 定义函数分别使用while循环、for循环、递归函数实现对0-n的累加求和 1、使用while循环 定义一个累加求和函数sum1(n),函数代码如下: 2、使用 for循环 定义一个累加求和函数sum2(n),函数代码如下: 3、使用递归函数 定义一…

python策略模式_Python-设计模式之策略模式

一次策略模式的代码实践需求清单1.单个商品购买数量大于20个,订单折扣10%2.商品种类超过或等于5个,订单折扣20%3.订单总价超过10000元,订单折扣15%4.客户积分达到2000,折扣7%目前折扣计算方式有4种,为了提高代码的扩展…

arraylist remove() java_执行ArrayList的remove(object)方法抛异常?

简介或许有很多小伙伴都尝试过如下的代码:然后会发现抛出java.util.ConcurrentModificationException异常,这是一个并发异常。那么这个到底是什么情况?首先需要介绍一下增强for循环增强for循环增强for循环是Java1.5后,Collection实…

centos gdb调试_gdb-miss-debuginfo

使用gdb调试core时候,提示Missing separate debuginfos的解决办法。错误提示错误提示信息如下:Missing separate debuginfos, use: debuginfo-install glibc-2.17-106.el7_2.8.x86_64 libaio-0.3.109-13.el7.x86_64 libgcc-4.8.5-4.el7.x86_64 libstdc-4…

用java编写保留两位小数_Java保留两位小数的几种写法总结

摘要:这篇Java开发技术栏目下的“Java保留两位小数的几种写法总结”,介绍的技术点是“Java保留两位小数、保留两位小数、两位小数、Java、小数、总结”,希望对大家开发技术学习和问题解决有帮助。本文列举了几个方法:1. 使用java.…

怎么判断自己启动的线程是否执行完成 java_多线程?怎么用?

Java线程:概念与原理操作系统中线程和进程的概念现在的操作系统是多任务操作系统。多线程是实现多任务的一种方式。进程是指一个内存中运行的应用程序,每个进程都有自己独立的一块内存空间,一个进程中可以启动多个线程。比如在Windows系统中&…

java 线程由浅入深_Java多线程:由浅入深看synchronized的底层实现原理

Java多线程:由浅入深看synchronized的底层实现原理-1.jpg (91.72 KB, 下载次数: 0)2018-9-21 03:55 上传前言前俩篇文章,我们聊了聊线程/进程的概念,接着简单串了一下同步的体例体例。今天我们就单拎出来synchronized,好好捋一捋它…

mysql设置中文_Flask中MySQL预热

Flask和MySQL导读现在Flask已经学习到了类视图,它其实是这样一个关系FLask高级视图视图函数app.route\add_url_rule类视图蓝图blueprint(这个接下来要讲)结束蓝图后,接着就是Flask数据库的结合SQLAlchemy.在学习SQLAlchemy之前,希望和大家一起了解学习一下mysql这篇文章不涉及理…

java2实用教程知识点_Java2实用教程(第5版)重要点及遗漏点(三)

4.6.2 类的关联关系和依赖关系的UML图1、关联关系A类中的成员变量是B类声明的对象,那么A和B的关系是关联关系UML图是从A指向B方向实线箭头2、依赖关系A类中某个方法的参数是用B类声明的对象或 …

html首行缩进2字符怎么设置_Word如何设置首行缩进2字符

在使用Word编写书籍或者文稿时,我们都会有个习惯将每个段落前面空两个字符,这样可以很好的方便读者阅读时分辨段落。有的人习惯用几个空格来代替,有的人习惯用空白字符V1来代替(像Word联盟网站上的每篇教程就是用V1来标记段落的)。其实在Word…

java 面试什么是类_Java 面试题代码类收集

long temp(int)3.9;System.out.println(temp);temp%2;System.out.println(temp);31View CodeJava里面类的方法名可以与类名一样,与构造函数的区别是方法有返回值,构造函数没有。public classUserInfo {publicUserInfo(){}publicString UserInfo(){return…

idea jdk配置_在IDEA中DEBUG Javac源码

背景在做JSR269的深度解析的时候,需要对javac的源代码进行单步调试并跟踪。因此在这里记录下具体的调试步骤。调试环境:OS: MacOS 10.14.5JDK:JDK_1.8IDEA: IntelliJ IDEA 2019.1.3下载Javac源码可以直接用JDK的github镜像仓库处下载&#xf…

mysql嵌套选择代码_关于mysql:嵌套联合选择语句

是否可以对我的sql SELECT语句的结果进行分组而不创建临时表以对一条语句进行求和和分组? 我有一张表格,保存贷方帐户号和借方帐户号的借方和贷方总额。并为相反的字段输入零,我在下面的联合选择语句下进行了第一个分组,我需要根据…

jar中没有主清单属性_还在因 JDK 兼容问题发不同 JAR 包做兼容?MRJAR 了解一下?...

背景Java 9 版本中增强了Jar 包多版本字节码文件格式支持,也就是说在同一个 Jar 包中我们可以包含多个 Java 版本的 class 文件,这样就能做到 Jar 包升级到新的 Java 版本(新特性 API 使用)时不用强迫使用方为了使用新 Jar 包而升级自己的业务模块 Java …

java中哪些可以私有化_《Java基础学习笔记》JAVA修饰符之私有化(Private)

1,什么是private修饰符?private是权限修饰符,用于修饰类中的成员(成员变量,成员函数)。private修饰后的成员只在本类中有效。/* 例:* 将age私有化以后,类以外即使建立了对象也不能直接访问。* 但是人应用有…

python不定长参数_Python 函数参数之不定长参数(*args/**kwargs)、匿名函数 Lambda详解...

Python 调用函数时可使用的正式参数类型:必需参数 (位置参数)、关键字参数 (keyvalue)、默认参数 (keydefault)、不定长参数(可变参数)、强制位置参数(组合传参)Tips:有兴趣的还可以了解一下什么是形参?什么是实参?不定长参数 *a…

java第一天上班需要安装那些_明天第一天上班,应该带什么包啊

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼“下面拍卖的是一位道友在上古遗存下来的仙殿中得到的一盒炫迈!!!!!!!”大厅中顿时一片嘈杂.......拍卖行的老者摆了摆手示意让大家静一静然后慢悠…