文本检测模型 DBNet 一种基于分割算法的模型 对每个像素点进行自适应二值化,并将二值化过程与网络训练相结合 可微分二值化模块 概率图

文本检测模型 DBNet

DBNet文本检测模型是一种基于分割算法的模型,其优化之处在于对每个像素点进行自适应二值化,并将二值化过程与网络训练相结合。

传统的文本检测方法通常将二值化作为一个后处理步骤,与网络训练分开进行。而DBNet则提出了一种可微分的二值化方法,即将文本检测任务中的二值化过程与网络训练相结合。具体来说,DBNet算法的核心在于其提出的可微分二值化模块(Differentiable Binarization Module,DB Module)。这个模块使用了一个近似二值化的函数,该函数在训练过程中是可微的,因此可以通过反向传播算法来优化网络参数。这个函数能够根据网络的输出自适应地调整二值化阈值,使得网络能够更好地适应不同场景下的文本检测任务。

此外,DBNet的模型结构可以分为三个部分:Backbone网络、FPN网络和Head网络。Backbone网络负责提取图像的特征,FPN网络则是一种卷积网络,用于高效提取图片中各维度特征的结构增强特征,而Head网络则负责计算文本区域概率图。

总的来说,DBNet通过其独特的可微分二值化方法和优化的模型结构,提高了文本检测的准确性和鲁棒性,成为了当前研究领域的热点之一。

背景介绍

一般分割算法流程是先通过网络输出文本分割的概率图,然后使用预先设定好的阈值将概率图转换为二值图,最后使用后处理操作将像素级的结果转换为检测结果。然而,这样就会使得算法性能很大程度上取决于二值化时阈值的选择。

DBNet[1]对这个流程进行了优化,对每个像素点进行自适应二值化,二值化的阈值由网络学习得到,彻底将二值化这一步骤加入到网络里一起训练,这样最终的输出图对于阈值就会非常鲁棒。

模型输入标签

在DB(Differentiable Binarization)网络中,为了训练网络进行文本检测,需要为网络提供适当的标签(ground truth)。虽然网络最终输出三个不同的图(概率图、阈值图和近似二值图),但在训练过程中,通常只有概率图是直接与标签进行比较的,因为阈值图是通过网络学习得到的,而二值图是基于概率图和阈值图通过DB算法计算得到的。

DB网络中,网络的输出为3个部分:概率图、阈值图和近似二值图:

  • 概率图:图中每个像素点的值为该位置属于文本区域的概率。

标签:文本区域的二值图(或称为文本掩码)。文本区域的像素被标记为1,非文本区域的像素被标记为0。
损失函数:通常使用二元交叉熵损失(Binary Cross-Entropy Loss)或其他类似的损失函数来比较网络的预测概率图和真实的文本掩码。

  • 阈值图:图中每个像素点的值为该位置的二值化阈值。

标签:在DB网络的训练中,阈值图并没有直接对应的标签。相反,阈值图是通过网络学习得到的,用于在预测阶段进行自适应二值化。
损失函数:虽然阈值图没有直接的损失函数,但DB网络会确保阈值图与概率图协同工作,以便在二值化过程中产生准确的检测结果。

  • 二值图:由概率图和阈值图通过DB算法计算得到,图中像素的值为0或1。

标签:在训练过程中,二值图并不是直接用于计算损失的。然而,它可以用作一个可视化的辅助工具,帮助理解网络预测的效果。
损失函数:如前所述,二值图是通过DB算法由概率图和阈值图计算得到的,因此在训练过程中不直接参与损失计算。然而,由于概率图与文本掩码之间的损失函数会优化网络以产生更准确的概率图,这间接地也会影响到二值图的质量。

在构造损失函数时,我们需要获取对应的真实标签。阈值图的标签 G d G_{d} Gd,概率图标签 G s G_{s} Gs。DB网络中,标签的获取方式参考了PSENet(Progressive Scale Expansion Network,渐进式尺度扩展网络)中的方法,使用扩张和收缩的方式分别获取上述两个真实标签。标签的构造过程如 图1 所示:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传


图1 DB标签构造示意图

在该方法中,对于一幅文字图像,文本区域的每个多边形使用一组线段 G = { S k } k = 1 n G=\{S_k\}^n_{k=1} G={Sk}k=1n来进行描述,n为线段个数。如 图1 所示, n = 14 n=14 n=14

概率图标签 G s G_s Gs的获取方法使用了Vatti clipping算法,该算法常用于收缩多边形,其中,收缩的偏移量D可以使用周长L和面积A计算得到,公式如下:
D = A ( 1 − r 2 ) L D = \frac{A(1-r^2)}{L} D=LA(1r2)
其中,r为收缩因子,实验中根据经验设置为0.4。

在阈值图标签 G d G_d Gd的计算中,首先使用概率图标签 G s G_s Gs的计算过程中得到的偏移量D进行多边形的扩充,然后计算 G d G_d

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/10606.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【全开源】Java同城预约月嫂服务上门服务本地服务源码APP+小程序+公众号+H5

特色功能: 预约服务:用户可以通过小程序在线预约月嫂服务,选择服务时间、服务类型、月嫂等信息,实现方便快捷的预约流程。在线咨询:用户可以通过小程序向月嫂或服务机构咨询相关问题,获得专业的解答和建议…

Linux修炼之路之基础指令(2)+shell命令及运行原理

目录 一:基础指令 7.rm指令 和 rmdir指令 8.*通配符 9.man指令 10.echo指令 11.cat 指令 12.cp 指令 13.mv指令 14.alias 指令 15.less more head tail wc-l 指令 16.date 时间相关的指令 17.cal指令 18. find which whereis 三个查找文件指令…

【全开源】Java俱乐部系统社区论坛商城系统源码-奔驰奥迪保时捷大众宝马等汽车俱乐部

特色功能: 会员中心:会员中心可以帮助企业更好地管理客户,包括设置积分商城、会员卡充值、个人汽车档案等功能,对不同的会员群体展开有针对性的营销,并维护和积累自己的粉丝群体。信息服务:负责定期发布新…

关于在ubuntu18.04中运行ORB_SLAM3时遇到的报错:段错误(核心已转储)的解决方法(踩坑记录)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 一、段错误(核心已转储)1. 已放弃(核心已转储)(1) 问题描述(2)原因分析 二、解决方法1. 解决方法一2. 解决方法二 总结 一、段错误&#xff…

【硬件模块】ESP-01SWiFi模块基于AT指令详解(WiFi,TCP/IP,MQTT)

ESP-01S ESP-01S是由安信可科技开发的一款Wi-Fi模块。其核心处理器是ESP8266,该处理器在较小尺寸的封装中集成了业界领先的Tensilica L106超低功耗32位微型MCU,带有16位精简模式,主频支持80MHz和160MHz,并集成了Wi-Fi MAC/BB/RF/P…

Django性能之道:缓存应用与优化实战

title: Django性能之道:缓存应用与优化实战 date: 2024/5/11 18:34:22 updated: 2024/5/11 18:34:22 categories: 后端开发 tags: 缓存系统Redis优点Memcached优缺点Django缓存数据库优化性能监控安全实践 引言 在当今的互联网时代,用户对网站和应用…

一个优秀 Maven 项目,各 Model 间最佳继承设计方案

1.单一职责原则 (Single Responsibility Principle): 每个模块应该专注于执行一个清晰且明确定义的功能,遵循单一职责原则,以降低模块的复杂性。 2.高内聚性 (High Cohesion): 模块内的组件和类应该紧密相关,共同实现模块的目标。高内聚性…

macOS DOSBox 汇编环境搭建

正文 一、安装DOSBox 首先前往DOSBox的官网下载并安装最新版本的DOSBox。 二、下载必备的工具包 在用户目录下新建一个文件夹,比如 dosbox: mkdir dosbox然后下载一些常用的工具。下载好了后,将这些工具解压,重新放在 dosbox 这个文件夹…

【基础绘图】 09.小提琴图

效果图: 主要步骤: 1. 数据准备:生成随机数组 2. 数据处理:计算四分位数、中位数、均值、最大最小值 3. 图像绘制:绘制小提琴图 详细代码:着急的直接拖到最后有完整代码 步骤一:导入库包及…

作为一名新能源汽车热管理仿真工程师需要具备哪些素养与技能

作为一名新能源汽车热管理仿真工程师,需要具备多方面的素养与技能,才能胜任这一岗位的工作。从工程素养到技术技能,再到沟通能力和团队合作,以下是对这些方面的探讨。 理论知识基础 首先,工程素养是新能源汽车热管理仿…

SQL分库分表

一、介绍 问题分析 随着互联网及移动互联网的发展,应用系统的数据量也是成指数式增长,若采用单数据库进行数据存储,存在以下性能瓶颈: 1. IO瓶颈:热点数据太多,数据库缓存不足,产生大量磁盘IO,效率较低。…

Python 开发 框架安全:Django SQL注入漏洞测试.(CVE-2021-35042)

什么是 Django 框架 Django 是一个用 Python 编写的 Web 应用程序框架。它提供了许多工具和库,使得开发 Web 应用程序变得更加容易和高效。Django 遵循了“MTV”(模型-模板-视图)的设计模式,将应用程序的不同组件分离开来&#x…

【图论 回溯 广度优先搜索】126. 单词接龙 II

本文涉及知识点 图论 回溯 深度优先搜索 广度优先搜索 图论知识汇总 LeetCode 126. 单词接龙 II 按字典 wordList 完成从单词 beginWord 到单词 endWord 转化,一个表示此过程的 转换序列 是形式上像 beginWord -> s1 -> s2 -> … -> sk 这样的单词序…

新能源行业网间数据交换,更好用更专业的工具是什么?

新能源行业涵盖了多个方面,包括但不限于新能源汽车、可再生能源技术等。新能源行业发展具有重要的意义,新能源企业的研发数据极其重要,为了保障网络安全和数据安全,许多新能源企业采用逻辑隔离的方式进行网络隔离,此时…

【网络基础】网络层 之 IP协议与分片、网段划分、IP地址分类、子网掩码与路由

文章目录 网络层1. IP协议段格式1.1 分片1.2 *为什么存在分片 / 分片是什么 ?*1.3 *如何理解 / 实现 分片与组装*1.4 深入具体:分片 和 组装 的过程1.5 为什么不推荐 分片 2. 网段划分2.1 举例:国际间通信 && 国家内通信2.2 理解网段划分 3. IP…

[Kubernetes] Istio on Kubernetes 实践

文章目录 1.Kubernetes 创建2.Istio 部署2.1 下载 Istio2.2 安装 Istio 3.Istio on Kubernetes 实践3.1 部署 Bookinfo 示例应用3.2 确定入站 IP 和端口 1.Kubernetes 创建 主机名内部ip外部ipmaster192.168.66.2139.198.36.40node1192.168.66.3139.198.1.192node2192.168.66.…

Ps 滤镜:粉笔和炭笔

Ps菜单:滤镜/滤镜库/素描/粉笔和炭笔 Filter Gallery/Sketch/Chalk & Charcoal 粉笔和炭笔 Chalk & Charcoal滤镜可以模拟传统的粉笔和炭笔画风格,通过特定的纹理和线条重绘图像的高光、中间色调和阴影区域。此滤镜非常适合于为数字图像添加手绘…

璩静是为了薅百度羊毛

关注卢松松,会经常给你分享一些我的经验和观点。 百度副总裁璩静离职了,网传她的年薪是1500万,而璩静在4月24日注册了一个文化传媒公司,大家都认为璩静是在为离职做准备。但松松我认为不是。 我认为:璩静成立新公司是…

组织机构树形列表实现

源码地址:https://www.lanzouw.com/itjDc1ydraof 本来上传了源码,但是发现只能VIP才能下载,所以重新上传到蓝奏云上了,链接如下: 先看下效果图: 可以自己写HTML来自定义每一项的内容显示,包括…

物联网到底物联了个啥?——青创智通

工业物联网解决方案-工业IOT-青创智通 物联网,这个听起来似乎颇具科技感和未来感的词汇,其实早已悄然渗透到我们生活的方方面面。从智能家居到智慧城市,从工业自动化到医疗健康,物联网技术正在以其独特的魅力改变着我们的生活方式…