character-level OCR之Character Region Awareness for Text Detection(CRAFT) 论文阅读

Character Region Awareness for Text Detection 论文阅读

论文地址(arXiv) ,pytorch版本代码地址

最近在看一些OCR的问题,CRAFT是在场景OCR中效果比较好的模型,记录一下论文的阅读

已有的文本检测工作大致如下:

  • 基于回归的文本检测(Regression-based text detectors):TextBoxes、DMPNet .etc,运用通用目标检测方法到文本检测中。
  • 基于分割的文本检测(Segmentation-based text detectors):Multi-scale FCN、SSTD .etc,即将文本检测视为语义分割任务来分析。
  • 端到端的文本检测(End-to-end text detectors):FOTS、EAA .etc,将文本检测和识别一起处理。
  • 字符级别的文本检测(Character-level text detectors):MSER、Mask TextSpotter .etc,相对经典的方法。

之前的基于严格的词级边界的 ground truth 的方法对于不规则形状的词边界做不到很好的识别效果(例如任意方向、弯曲或变形的文本),在本文中,作者提出了一种字符级的新方法来解决已有的问题,通过探索每个字符和字符之间的亲和力来有效检测文本区域。

image-20210629112806297

上图展示了CRAFT在水平、弯曲、任意弯曲三种情况下的文本检测表现情况

网络结构

本文主要思想是利用弱监督方案来finetune character-level的文本检测器,CRAFT的网络结构如下所示,

image-20210629112845007

采用基于 VGG-16和批量归一化的全卷积网络架构为backbone。模型在解码部分具有Skip connect,这类似于 U-net,因此聚合了低级特征。 最终输出有两个通道作为Score:区域分数(Region score)和亲和力分数(Affinity score)。

  • Region score表示当前像素是字符中心的概率
  • Affinity score表示当前像素是相邻两字符的中心的概率

ground truth 生成

对于每个训练图像,使用字符级边界框为区域分数和亲和度分数生成真实标签。 区域得分表示给定像素为字符中心的概率,亲和度得分当前像素是相邻两字符的中心的概率。使用高斯热图对字符中心的概率进行编码。使用热图表示来学习区域分数和亲和力分数。

image-20210629143950881

上图总结了合成图像的标签生成流程。直接为边界框内的每个像素计算高斯分布值非常耗时,由于图像上的字符边界框通常会通过透视投影失真,因此使用以下步骤来近似并生成区域分数和亲和度分数的真实值:

  • 准备二维各向同性高斯图
  • 计算高斯图区域与每个字符框之间的透视变换
  • 将高斯图放缩到框区域中
  1. 对于Region score 的 ground truth,即采用字符级分割框定义Region Box
  2. 对于Affinity score 的 ground truth,使用相邻的字符框定义Affinity Box。

通过绘制对角线连接每个字符框的对角,生成两个三角形,作为上下字符三角形。 然后,对于每个相邻的字符框对,通过将两个字符的四个上下三角形的中心设置为框的四个角来生成Affinity Box。由于 character-level 检测使卷积可以只关注字符内和字符间而不是整个文本实例,所以可以使用小的 feature map。

采用弱监督学习训练模型

与合成数据集不同,真实数据集图像通常只有 word-level 注释。在这里,以弱监督的方式从每个词级注释生成字符框,如下图所示。

image-20210629145208773

  • 图中蓝线即表示使用合成数据集(character-lavel annotation)训练得到一个预训练的模型
  • 红线表示使用真实图像(word-level annotation)生成伪ground truth

image-20210629145915946

生成伪GT的方法,就是先从图像中裁剪出word box,然后输入预训练模型得到Region score,接着用分水岭算法(watershed algorithm)分割每个字符位置得到Character box,最后再把分割结果映射回原来图像中的位置,即为伪GT。

  • 绿线表示使用真实图像(word-level annotation)和生成的伪ground truth微调模型

由于生成的伪GT不一定是正确的,因此需要一些线索来保证伪GT的质量,所以利用了word length(单词中字符的个数)作为一个很强的约束,并以此来构建confidence map来构建一个用于训练的Loss。具体的公式推导如下:
对于裁剪出的单词框w,R(w)表示单词框区域,l(w)表示word length(单词中字符的个数)。通过红色部分,我们能够得到伪的单词长度lc(w)l^c(w)lc(w)。然后我们定义置信分数sconf(w)s_{conf}(w)sconf(w)

image-20210629150835524

伪单词长度与真实单词长度差异越小,置信分越高。然后将属于R(w)内的像素点的置信分都设置成sconf(w)s_{conf}(w)sconf(w),p代表像素点,得到的ScpS_c{p}Scp就是confidence map。

image-20210629150925316

Loss最终定义为:

image-20210629151041886

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/507929.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

c# wpf 面试_【远程面试】九强通信 | 九洲电器集团全资子公司

成都IT内推圈成立于2016年,专注成都IT互联网领域的招聘与求职;覆盖精准IT人群10W,通过内推圈推荐且已入职人数超过5000,合作公司均系成都知名或靠谱公司.此公众号每天7:30AM准时推送当天职位详情,敬请关注并置顶!岗位投递一、登陆内推圈官网: www.itneituiquan.com,…

ViT(Vision Transformer)学习

ViT(Vison Transformer)学习 Paper:An image is worth 1616 words: transformers for image recognition at scale. In ICLR, 2021. Transformer 在 NLP领域大放异彩,并且随着模型和数据集的不断增长,仍然没有表现出饱和的迹象。这使得使用更大规模的数…

cpri带宽不足的解决方法_u盘容量不足怎么办 u盘容量不足解决方法【介绍】

我们在使用u盘的时候总能碰到各种各样的问题,其中u盘容量不足问题也是神烦,很多时候打开并没有发现有文件存在,但是在你存文件的时候又被提示u盘容量不足无法操作,关于这个问题u启动通过整理和大家一起分享下解决办法。1、u盘里的…

复合的赋值运算符例题_Java学习:运算符的使用与注意事项

运算符的使用与注意事项四则运算当中的加号“”有常见的三种用法:对于数值来,那就是加法。对于字符char类型来说,在计算之前,char会被提升成为int,然后再计算。char类型字符,和int类型数字之间的对照关系比…

腾讯会议如何使用讲演者模式进行汇报(nian gao)

腾讯会议如何使用讲演者模式进行汇报(nian gao) 首先列出步骤,再一一演示: altf5 开启讲演者模式,调整讲演者模式的窗口为小窗alttab 切换回腾讯会议界面,屏幕共享power point窗口(注意不是“…

bulk这个词的用法_15、形容词与副词(二)比较的用法

初中英语语法——形容词与副词(二)比较的用法语法解释1、形容词与副词比较级和最高级的规则变化单音节词与部分双音节词:(1)一般情况加-er,-estlong-longer-longest strong-stronger-strongestclean-cleaner-cleanest(2)以不发音的e结尾的词,…

retinex 的水下图像增强算法_图像增强论文:腾讯优图CVPR2019

Underexposed Photo Enhancement using Deep Illumination Estimation基于深度学习优化光照的暗光下的图像增强论文地址:Underexposed Photo Enhancement using Deep Illumination Estimation暗光拍照也清晰,这是手机厂商目前激烈竞争的新拍照目标。提出…

python 实现 BCH 纠错码的方法

python 实现 BCH 纠错码的方法 BCH码是一类重要的纠错码,它把信源待发的信息序列按固定的κ位一组划分成消息组,再将每一消息组独立变换成长为n(n>κ)的二进制数字组,称为码字。如果消息组的数目为M(显然M>2),由此所获得的M个码字的全…

结构体引用_C/C++结构体完全攻略

结构体是一个由程序员定义的数据类型,可以容纳许多不同的数据值。在过去,面向对象编程的应用尚未普及之前,程序员通常使用这些从逻辑上连接在一起的数据组合到一个单元中。一旦结构体类型被声明并且其数据成员被标识,即可创建该类…

mysql root密码过期了_Mac下重置mysql的root密码

php中文网最新课程每日17点准时技术干货分享我的mysql版本 MYSQL V5.7.9,旧版本请使用:UPDATE mysql.user SET PasswordPASSWORD(新密码) WHERE Userroot;Mac OS X - 重置 MySQL Root密码密码太多记不住??你是否忘记了Mac OS 的My…

论文页眉奇偶页不同怎么设置_还在愁毕业论文的页眉页脚吗?

在文档中添加页眉和页脚能够很好的对相关信息进行展示或说明,在写论文的时候,设置页眉和页脚,能够让老师清楚的了解你的论文,但同时页眉和页脚的设置也是最让人头疼的,今天零壹学长就给大家详细的介绍页眉和页脚。了解…

账号管理工具_全新微信个人号管理工具能选择吗?为何这么说?

点击上方“蓝字”关注我们伴随着微信营销的重要性越来越高,很多企业的新媒体运营人员也开始把注意力都放到了微信账号的运营上,不仅是公众号的发展和运营,个人号在这个过程中也是非常重要的。相对于公众号和微信群,个人号的影响力…

护理等级分级标准及巡视时间_18项护理核心制度,都在这了

一、护理质量管理制度二、病房管理制度三、抢救工作制度四、分级护理制度五、护理交接班制度六、查对制度七、给药制度八、护理查房制度九、患者健康教育制度十、护理会诊制度十一、病房消毒隔离制度十二、护理安全管理制度十三、患者身份识别制度十四、患者差错、事故报告制度…

2接口详解_java集合【2】——— Collection接口详解

一、Collection接口简介二、Collection源码分析三、Collection的子类以及子类的实现3.1 List extend Collection3.2 Set extend Collection3.3 Queue extend Collection四、Collection和Map的辨析五、Collection和Collections的辨析六、总结一、Collection接口简介 collection在…

幅度响应怎么计算_四电平脉冲幅度调制(PAM4)信号的误码分析

- PAM4 是一种高效利用带宽传输串行数据的方法,所需的通道带宽仅为 NRZ 所需带宽的一半。用户需要具有即时数据访问能力的互联网络,这种不断增长的需求推动着以太网、64G光纤通道、CEI-56 G以及其他新一代数据中心网络链路向前发展。用户需要具有即时数据…

windows功能_这 12 个好用 Windows 软件,让你也能用上 macOS 的独占功能

在离开 macOS 这段时间,每天在家依赖 Windows To Go 为生,感到日常工作流程在四处冒烟。这才发现 macOS 的有些特性就如同空气一样,虽然毫无存在感,却不可缺失。关于「如何在 Windows 中实现 macOS 的 xxx」,随便上网一…

Batch Normalization、Layer Normalization、Group Normalization、Instance Normalization原理、适用场景和实际使用经验

Batch Normalization、Layer Normalization、Group Normalization、Instance Normalization原理、适用场景和使用经验 一、 简单介绍各种Normalization 先放一张来自Group Normalization原论文中的图,个人认为这个图很形象,以此图直观感受一下各种归一…

收发一体超声波测距离传感器模块_芜湖低功耗超声波液位计物位计设备排名

KUS 超声波液位物位计 8种工作状态设置指导 1), 窗口常开模式(模拟量输出产品为正线性工作模式或者距离测量模式)2), 窗口常闭模式(模拟量输出产品为负线性工作模式或者液位测量模式)3), 单点常开模4), 单点常闭模式。5), 单点常开带大滞回区间模式6), 单点常闭带大滞回区间模式…

笔记本电脑键盘切换_真想本小新13pro搭档,笔记本电脑周边好物清单推荐

原标题:真想本小新13pro搭档,笔记本电脑周边好物清单推荐真想本小新13pro搭档,笔记本电脑周边好物清单推荐 2020-10-24 15:21:493点赞4收藏2评论9月28日 - 11月12日,参与#双11购物攻略#征稿活动,赢取苹果全家桶8888元超…

C++求复数的角度_11.初中数学:方程5x2m=4x的解,在2与10之间,怎么求m的取值范围?...

欢迎您来到方老师数学课堂,请点击上方蓝色字体,关注方老师数学课堂。所有的视频内容,全部免费,请大家放心关注,放心订阅。初中数学:方程5x-2m-4-x的解,在2与10之间,怎么求m的取值范围…