OCR常用数据集_看数据集区分可识别语言

这里写目录标题

    • COCO-TEXT 英文
    • Total-Text 英文+少量中文
      • IIIT5K[50]、IC03[44]、IC13[34]、IC15[33]、CT80[56]
      • MJSynth 英文
      • SynthText
      • 分层文本数据集 (HierText) 英文
      • TextOCR和IntelOCR ???
      • Multi-language dataset (IC19)
      • RCTW17 主要中文
      • MSRA-TD500 dataset 中英混合
      • SCUT-CTW1500

TextZoom是用于英文超分算法的数据集,没有汉字字符。RealSR是为真实世界的自然图像超分辨率而构建。
此处

COCO-TEXT 英文

英文数据集,包括63686幅图像,173589个文本实例,包括手写版和打印版,清晰版和非清晰版。文件大小12.58GB,训练集:43686张,测试集:10000张,验证集:10000张。
下载地址:https://vision.cornell.edu/se3/coco-text-2/

Total-Text 英文+少量中文

Total-Text 是一个数据集, 其中包含各 种形状的文本, 包括水平的,多取向的和弯曲的. 这 3 个数据集包含了中文和英文的数据集共 6 万张, 用于 文字检测和识别
在这里插入图片描述
TotalText下载链接:https://opendatalab.com/TotalText Total-Text是最大弯曲文本数据集之一-ArT(任意形状文本数据集)训练集中的一部分。该数据集共1555张图像,11459文本行,包含水平文本,倾斜文本,弯曲文本。文件大小441MB。大部分为英文文本,少量中文文本。其中训练集有1255张图像,测试集有300张图像。

作者:OpenDataLab
链接:https://www.zhihu.com/question/349678421/answer/2620009371

MTWI [11] is a large-scale dataset for Chinese and English web text reading
MSRA-TD500 [47] is a multi-lingual text dataset in Chinese and English.

IIIT5K[50]、IC03[44]、IC13[34]、IC15[33]、CT80[56]

在这里插入图片描述

一方面,现有的文本识别方法主要在英文文本上进行评估,如IIIT5K[50]、IC03[44]、IC13[34]、IC15[33]、CT80[56]等。虽然很少有方法尝试在中文文本数据集上进行实验,但相应的论文中关于数据集构建的细节并不明确,这使得其他人很难将其作为CTR基线(见图1©)。另一方面,复制现有文本识别方法构建CTR基线的结果是一项费力的任务。它不仅耗费大量的时间,而且消耗大量的GPU资源,这确实降低了研究人员对中文文本识别的热情
中文文本识别Benchmarking
在这里插入图片描述

(a) Year 2011 (SVT) and (b) Year 2013 (IIIT, IC13): Most
of images are horizontal texts in the street.
© Year 2015 (IC15): Images captured by Google Glass
under movement of the wearer, and thus many are perspective texts, blurry, or low-resolution images.
(d) Year 2017 (COCO, RCTW, Uber):
COCO-Text (COCO) [49] is created from the MS
COCO dataset [25]. As the MS COCO dataset is not
intended to capture text, COCO contains many occluded or low-resolution texts.
RCTW [42] is created for Reading Chinese Text in
the Wild competition. Thus many are Chinese text.
Uber-Text (Uber) [62] is collected from Bing Maps
Streetside. Many are house number, and some are text
on signboards.
(e) Year 2019 (ArT, LSVT, MLT19, ReCTS):
ArT [6] is created to recognize Arbitrary-shaped Text.
Many are perspective or curved texts. It also includes
Totaltext [7] and CTW1500 [28], which contain many
rotated or curved texts.
LSVT [47, 46] is a Large-scale Street View Text
dataset, collected from streets in China, and thus many
are Chinese text.
MLT19 [34] is created to recognize Multi-Lingual
Text. It consists of seven languages: Arabic, Latin,
Chinese, Japanese, Korean, Bangla, and Hindi.
ReCTS [61] is created for the Reading Chinese Text
on Signboard competition. It contains many irregular
texts arranged in various layouts or written with unique
fonts.
在这里插入图片描述
We use a collection of Chinese text recognition
datasets [10, 28, 36, 38, 50] as the training set and the Japanese subset of MLT [28] as the testing set following
OSOCR [23], and all models are trained for 200k iterations.

MJSynth 英文

在这里插入图片描述
在这里插入图片描述

SynthText

在这里插入图片描述

分层文本数据集 (HierText) 英文

数据采集
HierText 中的图像是从 Open Images v6 数据集 [24] 中收集的。 我们使用公共商业 OCR 引擎 Google Cloud Platform Text Detection API (GCP)1 扫描 Open Images,以搜索带有文本的图像。 我们过滤掉图像:a) 检测到的单词很少,b) 识别置信度低,c) 带有非英语主导文本。 最后,我们从剩余图像中随机抽取一个子集来构建我们的数据集。 获得了 11639 张图像,并进一步分为训练集、验证集和测试集。 HierText 图像具有更高的分辨率,其长边限制为 1600 像素,而之前基于 Open Images [22,48] 的数据集限制为 1024 像素,从而产生更清晰的文本。
————————————————
版权声明:本文为CSDN博主「studyeboy」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/studyeboy/article/details/127652354

TextOCR和IntelOCR ???

姑且算作英文
Revisiting Scene Text Recognition: A Data Perspective,ICCV,2023
这篇

Multi-language dataset (IC19)

Evaluation on multiple languages is performed using IC19-MLT dataset. The output channel in the prediction layer
of the recognizer was expanded to 4267 to handle the characters in Arabic,
Latin, Chinese, Japanese, Korean, Bangladesh, and Hindi. However, occurrence
of characters in the dataset is not evenly distributed.

RCTW17 主要中文

《ICDAR2017 Competition on Reading Chinese Text in the Wild(RCTW-17)》
ICDAR2017RCTW-OCR

MSRA-TD500 dataset 中英混合

MSRA-TD500 dataset [45] is a multi-language scene text detection benchmark that contains English and Chinese text, including 300 training images and
200 testing images. Text instances are annotated in the text-line level, thus there
are many text instances of extreme aspect ratios. This dataset does not contain
recognition annotations.

SCUT-CTW1500

描述:针对弯曲文本检测的数据集
语言:mainly Chinese & English

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/174371.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C语言键盘输入字符串小写转大写输出及scanf的小问题解决

1.博主在学习C语言时,也没太关注C语言的一些细节问题,导致后面有人问问题的时候一时没回答出来,也就是所谓的基础不牢地动山摇,比如这一次有同学问的scanf键盘输入的小问题,折腾了一阵子还是想出来问题所在。 2.废话不…

Docker | Docker部署MySQL

Docker | Docker部署MySQL ✅作者简介:大家好,我是Leo,热爱Java后端开发者,一个想要与大家共同进步的男人😉😉 🍎个人主页:Leo的博客 💞当前专栏:Docker系列…

软件工程--面向对象分析用通俗语言20小时爆肝总结!(包含用例图、活动图、类图、时序图......)

面向对象方法分为面向对象分析(OOA)、面向对象设计(OOD)、面向对象编程(OOP),本文详细介绍面向对象分析 本文参考教材:沈备军老师的《软件工程原理》大多图片来源其中 目录 面向对…

JMeter多脚本间的启动延时

JMeter做压测时,当需要多个jmx脚本依次执行时,需要用到“启动延时”,即间隔可设置的时间后启动运行下一个jmx脚本。 实现“启动延时”的方法有2个。 方法一、利用JMeter线程组中的"Startup delay"参数 如上图,调度器&…

解决git与huggingface项目下载速度慢或者失败的问题

git clone 项目报错 比如使用git clone 下载项目: git clone https://github.com/ChuRuaNh0/FastSam_Awsome_TensorRT.git有时候会报以下错误: fatal: unable to access ‘https://github.com/xxx.git/’: Failed to connect to github.com port 443 …

P15 C++ 枚举

The ChenPi 前言 今天我们要讲的是 C 中的枚举。 enum 是 enumeration 的缩写,基本上可以说,它就是一个数值集合。如果你想要给枚举一个更实际的定义,它们是给一个值命名的一种方法。 所以我们不用一堆叫做 A、B、C 的整数。我们可以有一个…

c语言:模拟实现各种字符串函数(2)

strncpy函数: 功能:拷贝指定长度的字符串a到字符串b中 代码模拟实现: //strncpy char* my_strncpy(char* dest, char* str,size_t num) {char* ret dest;assert(dest && str);//断言,如果其中有一个为空指针&#xff…

vue3+ts 依赖注入 provide inject

父级&#xff1a; <template><div><h1>App.vue (爷爷级别)</h1><label><input type"radio" v-model"colorVal" value"red" name"color" />红色</label><label><input type"r…

C++标准模板库 STL 简介(standard template library)

在 C 语言中&#xff0c;很多东西都是由我们自己去实现的&#xff0c;例如自定义数组&#xff0c;线程文件操作&#xff0c;排序算法等等&#xff0c;有些复杂的东西实现不好很容易留下不易发现的 bug。而 C为使用者提供了一套标准模板库 STL,其中封装了很多实用的容器&#xf…

山西电力市场日前价格预测【2023-11-27】

日前价格预测 预测说明&#xff1a; 如上图所示&#xff0c;预测明日&#xff08;2023-11-27&#xff09;山西电力市场全天平均日前电价为40.02元/MWh。其中&#xff0c;最高日前电价为293.07元/MWh&#xff0c;预计出现在17:45。最低日前电价为0.00元/MWh&#xff0c;预计出现…

1998-2021年全国各地级市PM2.5平均浓度数据

1998-2021年全国各地级市PM2.5平均浓度数据 1、时间&#xff1a;1998-2021年 2、指标&#xff1a;省、省代码、市、市代码、年份、均值、总和、最小值、最大值、标准差 3、来源&#xff1a;Washington university Atmospheric Composition Analysis Group 4、范围&#xff…

操作系统——解决了我的一些困惑

目录 1、电脑开机做了什么事情 2、真正实现并行的计算机 3、计算机中的淘汰算法 & 分配算法 & 调度算法 & 空间管理 4、什么是虚拟内存&#xff1f;为什么需要虚拟内存&#xff1f;最多可分配多少&#xff1f; 5、TLB&#xff08;快表&#xff09;、分页存储&…

微服务--01--简介、服务拆分原则

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 微服务微服务架构&#xff0c;是服务化思想指导下的一套最佳实践架构方案。服务化&#xff0c;就是把单体架构中的功能模块拆分为多个独立项目。 单体架构微服务架构…

Spine深入学习———— 渲染

数据有了之后&#xff0c;就开始渲染 渲染相关 绘制顺序 骨架的绘制顺序就是一个插槽列表&#xff0c;在插槽列表中上方的附件在下方之上绘制&#xff0c;绘制顺序可以在层级树中的骨架下查看。 基础流程 渲染实现 以下按照cocos2dx的实现来 &#xff08;cocos2dx 3.7 spin…

【云平台】STM32微信小程序阿里云平台汇总——持续更新

【云平台】STM32微信小程序阿里云平台汇总——持续更新 文章目录 前言总结 前言 提示&#xff1a;以下是本篇文章正文内容&#xff0c;下面案例可供参考 【云平台】STM32微信小程序阿里云平台学习板 【云平台】小白从零开始&#xff1a;小程序阿里云平台控制STM32&#xff08…

1980-2022年世界各国专利、商标申请数据/世界各国知识产权专利申请数据

1980-2022年世界各国专利、商标申请数据/世界各国知识产权专利申请数据 1、时间&#xff1a;1980-2022年 2、来源&#xff1a;WIPO数据库 3、范围&#xff1a;世界各国&#xff08;180多个国家&#xff09; 4、指标&#xff1a;国家名称、年份、代码、类型、专利申请总量、…

GPU中的半格效应(half-pixel)

最近在阅读《GPGPU编程技术从GLSL、CUDA到OpenCL》时&#xff0c;章节3.4.3 卷积核中讲到了半格效应&#xff0c;该书中的英文标注为&#xff1a;0.5 effect&#xff0c;也有被称为&#xff1a;half pixel offset等。 联想到我之前的GPU计算、渲染时的代码&#xff0c;在做画质…

TUP通信

一&#xff0c;概括 二&#xff0c;常用方法 三&#xff0c; 实现步骤&#xff08;一发一收&#xff09; 四&#xff0c;案例&#xff08;一接一收&#xff09; &#xff08;1&#xff09;&#xff0c;客户端 &#xff08;2&#xff09;&#xff0c;服务端 &#xff08;3&…

歌手荆涛作品《父与子》:一首深情演绎父子情感的歌曲

在华语乐坛中&#xff0c;有很多歌曲以亲情为主题&#xff0c;其中歌手荆涛演唱的《父与子》就是其中的代表作之一。这首歌以朴实的歌词和深情的演唱&#xff0c;打动了无数听众的心灵&#xff0c;让人感受到了亲情之间的温暖和牵绊。 《父与子》这首歌以父子为主题&#xff0c…

【C++】类型转换 ④ ( 子类 和 父类 之间的类型转换 - 动态类型转换 dynamic_cast )

文章目录 一、子类 和 父类 之间的类型转换 - 动态类型转换 dynamic_cast1、构造父类和子类2、子类 和 父类 之间的类型转换 - 隐式类型转换3、子类 和 父类 之间的类型转换 - 静态类型转换 static_cast4、子类 和 父类 之间的类型转换 - 重新解释类型转换 reinterpret_cast5、…