分割文本_PSENet、PANNet、DBNet三个文本检测算法异同

78e5b21cf22315bdfe97a8ef9883c12a.png

点击蓝字关注我们

这三个文本检测算法都是segment base算法,通过由下而上的方式,先对text进行segment,然后再根据segment text,计算出text的instance

PSENet

近年来,自然场景文本检测在场景理解、产品识别、自动驾驶和目标定位等众多应用中得到了广泛的关注。然而,由于前景文本和背景对象的巨大差异,以及各种形状、颜色、字体、方向和尺度的文本变化以及极端的照明和遮挡,自然场景中的文本检测仍然面临着相当大的挑战。

然而,随着卷积神经网络(CNNs) 的飞速发展,近年来取得了很大的进展。基于包围盒回归(Bounding Box Regression) 的方法被提出了一组方法来成功地定位具有特定方向的矩形或四边形形式的文本目标。不幸的是,这些框架无法检测任意形状的文本实例(例如曲线文本),这些文本实例也经常出现在自然场景中。自然,基于语义分割的方法可以显式地处理曲线文本的检测问题。 虽然像素分割可以提取任意形状文本实例的区域,但当两个文本实例相对接近时,仍然可能无法将它们分开,因为它们的共享相邻边界可能会将它们合并为一个单一文本实例。

语义分割(semantic segmentation)


图像的语义分割,从字面意思上理解就是让计算机根据图像的语义来进行分割;在图像领域,语义指的是图像的内容,对图片意思的理解。目前语义分割的应用领域主要有:地理信息系统、无人车驾驶、医疗影像分析、机器人等领域。具体的语义分割的简介可以看大佬的博客——计算机视觉之语义分割:http://blog.geohey.com/ji-suan-ji-shi-jue-zhi-yu-yi-fen-ge/

实例分割(Instance Segmentation)

实例分割就是机器自动从图像中用目标检测方法框出不同实例,再用语义分割方法在不同实例区域内进行逐像素标记,借一个浅显的说法:语义分割不区分属于相同类别的不同实例,而实例分割可以区分出这些像素属于同种类的不同物体。具体的实例分割可以看大佬的博客——实例分割总结 

Instance Segmentation Summary:

https://blog.csdn.net/qq_39295044/article/details/79796663

PSENet有两方面的优势。 首先,psenet作为一种基于分割的方法,能够对任意形状的文本进行定位.其次,我们提出了一种渐进的尺度扩展算法,该算法可以成功地识别相邻文本实例。

aafac085a6981f72815a0ce5b184cccd.png

具体地,我们将每个文本实例分配给多个预测的分割区域。为了方便起见,我们将这些分割区域表示为本文中的“核”,并且对于一个文本实例,有几个对应的内核。每个内核与原始的整个文本实例共享相似的形状,并且它们都位于相同的中心点但在比例上不同。为了得到最终的检测结果,我们采用了渐进的尺度扩展算法。 它基于宽度优先搜索(BFS), 由三个步骤组成:1)从具有最小尺度的核开始(在此步骤中可以区分实例);2)通过逐步在较大的核中加入更多的像素来扩展它们的区域;3)完成直到发现最大的核。

PANNet

8d73f75b2efb016888c1d746f19d729c.png

PANNet采用lightweight backbone resnet18提取特征,再通过级联Feature Pyramid Enhancement Module (FPEM)模块,添加该模块在不太增加多少计算的情况下,使得不同的尺寸的特征可以更深,更有表达力,最后,通过Feature Fusion Module (FFM)模块,融合不同深度的FPEM特征,得到最后用于语义分割的图像。

FPEM模块:PANNet的resnet18得到conv2,conv3,conv4,conv5的4个层特征图(其中conv2,conv3,conv4,conv5为原图的1/4,1/8,1/16,1/32),然后利用1X1的convolution,把resnet18的conv2,conv3,conv4,conv5特征图的通道数减为128,得到四个尺寸由小到大通道数为128的特征金字塔,通过级联n个FPEM模块,得到n个金字塔特征。

d1a4466872f853a01a6755d52a157eb4.png

FPEM包括两个过程,都是U-shape,up-scale enhancement和down-scale enhancement,其中up-scale enhancement,小尺寸的特征通过线性放大两倍,add到相应的特征上,再通过3X3 DWConv(一种小计算量的卷积)和1X1 conv,BN,Relu,得到融合的特征,down-scale enhancement,从up-scale enhancement得到的小尺寸特征通过线性放大两倍,add到相应的特征上,然后再stride=2 的3X3 DWConv(一种小计算量的卷积)和1X1 conv,BN,Relu,得到融合的特征,输出最终的特征金字塔。

FFM模块 :该模块就是融合由FPEM产生的n个金字塔特征,如下图所示:

a369263bffee67c85234245a106f7adc.png

通过add相对应的n个金字塔特征,得到最后的金字塔特征,每个特征通道128,4层的金字塔总共512,最后通过upsample 不同尺寸的特征为原图的1/4大小,最后concatenates所有的特征,作为语义分割特征。

DBNet

Real-time Scene Text Detection with Differentiable Binarization是华科白翔老师团队发表在AAAI2020上的一篇文本检测文章,在PAN的效果上更近一步,效果和性能都再创新高。

论文地址

https://arxiv.org/pdf/1911.08947.pdf

官方代码

https://github.com/MhLiao/DB

当前由于文字检测的数据集变得更加具有挑战性,包含了各种任意形状的文字,基于分割的文字检测方法逐渐占据了主流。然而基于分割的方法往往要求复杂的网络结构和后处理,很难在速度和性能上做到平衡。本文提出了可微分的二值化模块,简化了基于分割方法的文字检测,在性能和速度上都获得了不错的效果。

  基于分割的文字检测方法往往会基于上图中蓝色箭头线的流程,首先对全图进行分割,然后基于人工设置的阈值对分割结果进行二值化,最后经过后处理得到文字区域。而该文的出发点在于将二值化的过程融入到整个网络的训练过程中进行端到端的优化及简化后处理的过程。如上图红线所示,该文算法在训练时不仅会预测出分隔图,同时会预测出阈值图,然后由二者进行二值化得到二值化mask。

59f393a64aa702353c677f4d2321b2ab.png

首先前面的骨干网络采用了类似于FPN和U-Net的思路将不同尺度的特征图进行融合来让最终进行回归的特征图获得不同尺度的特征信息和感受野以处理不同尺寸大小的文字实例。接下来由骨干网络输出的特征图回归出一个分隔图(P)以及一个阈值图(T),然后由二者由可微分的二值化而得到二值化图,最后在推理阶段经过后处理得到文字区域。

73c0e1c08e9571ccdb7d197fba0e0c4e.gif

智能卫星研究院

0a7a4e35b4480941c300f55e2e78e8e6.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/550463.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

maven安装过程以及手动添加jar包到本地仓库

Maven安装过程及手动添加JAR包到本地仓库详解 https://blog.csdn.net/niityzu/article/details/50997544 分类: Maven(1) 版权声明:本文为博主原创文章,未经博主允许不得转载。 一、Maven介绍 Maven是一个项目构建…

怎么把文件放到docker容器里

1、查找所有容器id:docker ps -a 2、查找容器长ID:docker inspect -f {{.ID}} tomcat-container-id 3、拷贝本地文件到容器: 命令:docker cp 本地路径 容器长ID:容器路径 例子:docker cp /home/work/FDFS/1.jpg dfba3…

lisp医院化验系统_医院智能导视系统

众所周知,“看病难”已经成为了全民关注的社会问题,这一问题也不是一朝一夕能解决的。我司研发的医院智能导视系统,避免就医过程中不必要的时间浪费,大大有效的提高就医效率。医院智能导视系统为了有序推进医院信息化工作&#xf…

的环境下 qt 运行在_Ubuntu16.04环境下运行vins mono(环境配置及编译)之ROS kinetic的安装...

所需环境:ubuntu16.04ROS kineticopencv 3.3.1eigen3.3.3ceres solver 1.141.ROS Kinetic 的安装(1)设置sources.listsudo sh -c echo "deb http://packages.ros.org/ros/ubuntu $(lsb_release -sc) main" > /etc/apt/sources.l…

db2 jdbc驱动参数_JDBC详细整理(一)

一.什么是JDBCJDBC(Java DataBase Connectivity)就是Java数据库连接,说白了就是用Java语言来操作数据库。原来我们操作数据库是在控制台使用SQL语句来操作数据库,JDBC是用Java语言向数据库发送SQL语句。二.JDBC原理早期SUN公司的天才们想编写一套可以连接…

生物学专业_江南大学微生物学(发酵)20002008历年考研专业课真题汇编

说明 1. 海量考研真题免费发布,欢迎关注公众号『守望考研』;2. 想获取本文对应的PDF文档以便打印使用,欢迎关注公众号了解领取方法;PS: PDF版文档清晰度更高、水印更小南开大学861微生物学1997-2001、2003-2011历年考研专业课真题…

error: ‘XXX‘ is defined but never used (no-unused-vars)报错的解决方案

错误原因 我的项目安装了eslint规范,ESLint 是在 ECMAScript/JavaScript 代码中识别和报告模式匹配的工具,它的目标是保证代码的一致性和避免错误 解决方案 一、在package.json文件内加入如下代码:然后保存重启项目。 "rules":…

平流式初沉池贮砂斗计算_?初沉池、二沉池的作用与区别-亨孚科技

初沉池的主要作用如下:1、去除沉淀物或浮游物,减轻后续处理设施的负荷。使细小的固体凝聚成大粒子,强化固液分离效果。3.它对胶体物质有一定的吸附和去除作用。4、初沉池在一定程度上起调节池塘的作用,对水质发挥一定的均质效应。5.一些废水处…

Navicat连接Oracle数据库失败,提示无效的用户名和密码(Invalid username and password)

1、Navicat是一款非常好用的数据库管理工具,可是一段时间没有使用,突然发现之前建立的Oracle连接无法打开,提示要输入旧密码和新密码以及确认新密码,在Navicat管理工具中连接之前超过180天的Oracle数据库,连接的时候&a…

把关与服务的关系_泉州代做投标书-电子标书值得信赖 - 泉州广告服务

此外,土壤资源对于人们的重要性不言而喻。为了推行土壤环境攻坚治理,江苏省共布设国控点位个,其中,基础点位个,风险点位个,背景点位个,为开展土壤污染调查奠定基础。这些地区监测站点的成功铺设…

口腔取模过程及注意事项_取模变形?教你三种方法,轻松防止取模变形!

点击查看更多精彩内容关键词:取模;适合人群:口腔修复科医生;共1497字 阅读4分钟在牙体修复中,一个完美的修复体是需要一个精确的模型和医生与技师之间的完美配合才能做到的。而因为模型变形出现返工的情况很多&#xf…

思科isis路由的优先级_华为 路由双点双向引入

点击上方蓝字关注我们哈喽,大家好!我是艺博东 ,是一个思科出身、专注于华为的网工;好了,话不多说,我们直接进入正题。双点双向重发布(OSPF、IS-IS)文章目录一、拓扑二、底层配置三、双点双向一、拓扑二、底…

python 根据名称获取pid_【Python学习笔记】76、常用第三方模块psutil

用Python来编写脚本简化日常的运维工作是Python的一个重要用途。在Linux下,有许多系统命令可以让我们时刻监控系统运行的状态,如ps,top,free等等。要获取这些系统信息,Python可以通过subprocess模块调用并获取结果。但…

需要单机还是集群部署_单机、分布式、集群的区别与联系

一、单机结构一个系统业务量很小的时候所有的代码都放在一个项目中,然后这个项目部署在一台服务器上就好了,整个项目所有的服务都由这台服务器提供。这就是单机结构。单机结构的缺点是显而易见的,单机的处理能力毕竟是有限的,当你…

拖动卡顿_四招教你解决PS软件卡顿问题!

你是不是经常会遇到这样的问题?刚装的Ps速度很快,使用一段时间以后发现越来越卡,时不时还会死机崩溃?大多数人遇到这种问题都是选择重装软件,或者重做系统,耗时耗力不说,过不了多久又会出现同样…

极光实时监听怎么调用_源码分析 Sentinel 实时数据采集实现原理(图文并茂)

本篇将重点关注 Sentienl 实时数据收集,即 Sentienl 具体是如何收集调用信息,以此来判断是否需要触发限流或熔断。Sentienl 实时数据收集的入口类为 StatisticSlot。我们先简单来看一下 StatisticSlot 该类的注释,来看一下该类的整体定位。St…

文字描边_6招迅速做出炫酷PPT字效!|10分钟干货第二期(文字描边)

不点蓝字,我们哪来故事?艺术让一切枯燥变有趣 作者 | 易焦躁星人微信号 | wyx19911003每周一篇,干货满满建议收藏,慢慢实践PPT酷炫【字效】第二弹来啦!平时做PPT无从下手没灵感?根本原因还对功能实践的不够…

华为手机鸿蒙系统怎么样_华为自研操作系统“鸿蒙”已用于华为手机

重要信息有网友近日在社交网络上曝光了华为的自研操作系统,命名为“鸿蒙”,其已用于华为手机中(安全部分)。来自上海交通大学的一份PPT演示照片,图中显示,某教授领导华为操作系统团队开发了自主产权操作系统——鸿蒙。根据PPT描述…

chrome浏览器上传文件延迟_解决谷歌Chrome浏览器上传图片反应慢的办法

谷歌chrome浏览器本来非常好用,但是可能有的人在更新版本或重装电脑后,用着用着突然发现上传图片或文件的时候居然直接卡死!只能强制关闭后用ie上传,为此笔者也一度很苦恼。笔者在网上搜索答案后,并没有得到有效的帮助&#xff0c…

mysql配置两个猪数据库_Linux下安装启动多个Mysql

步骤如下:一、编译安装两个mysql,步骤如下安装第一个数据库(主数据库)(红色部分为默认数据库文件路径,可改成其他如:data、var等)tar zxvf mysql-6.0.11-alpha.tar.gzcd mysql-6.0.11-alpha./configure --prefix/usr/local/mysql3…