目标检测_目标检测 | Anchor free的目标检测进阶版本

今天说的是《Soft Anchor-Point Object Detection》,其也是最近关于anchor free的目标检测的论文,作者来自于CMU,一作同样也是FSAF(2019 CVPR)的作者。该论文的出发点还是在样本选择和FPN特征选择层面。

06da57bc205d6047c0ac5a08211aa2c4.png

背景

Anchor free是目标检测领域的一个研究热点,其主要可以分为anchor-point和keypoint两类。后者在往往在一个高分辨率的特征图上进行检测,其优点是准确率高,但是计算量大。而anchor-point的方法往往在多个分辨率上进行检测,结构简单,速度更快。作者认为anchor-point的方法性能不高主要还是在于训练的不充分,主要是注意力偏差(attention bias)和特征选择(feature selection)。因而作者提出了两种策略:1)soft-weighted anchor points对不同位置的样本进行权重分配,2)soft-selected pyramid levels,将样本分配到多个分辨率,并进行权重加权。

方法框架

cd19a1e1f94b1cc848f950b6c3e1095a.png

整体框架其实和FSAF是类似

Soft-Weighted Anchor Points

清晰的目标更容易获得关注和更高的分数,而边缘或者被遮挡的目标比较难检测。具体的问题如下:

d92b14c2293fdf978c769a4b13e12643.png

上图中有五个足球运动员,分类输出的得分图score map如图b所示,可以看到有两个运动员的得分区域占了主导地位。甚至这两个运动员的得分区域还侵占了其他运动员的得分区域。

作者认为引起该问题的主要原因是特征不对齐,位于gt边缘的anchor和位于中心的anchor不应被同等对待。解决思路就是对不同位置的样本引入不同的权重,其离gt的中心越近,其权重越高,离gt中心越远,其权重越低(因为边缘往往意味着包含很多背景信息)。从而引入了广义中心度来确定权重:

eb1834ca905512f482b83e551786e8ae.png
433ab8d00b4c074adb5314c0f44fa9d4.png

概述我们的训练策略与h soft-weighted anchorpoints和soft-selected pyramid levels。黑条表示正锚定点对网络损耗贡献的指定权重。

Soft-Selected Pyramid Levels ●

该问题实际上在FSAF中也研究过,即如何选择合适的分辨率(尺度)来进行目标的检测。FSAF是通过loss来选择合适的分辨率。该论文同时也借鉴了FoveaBox将一个anchor映射到多个分辨率进行检测的思想(实际上工程中也会用到)来提升性能。同时作者还给不同的分辨率分配不同的权重。具体地,作者额外训练了一个子网络来预测不同尺度的权重,该网络具体为:

c690735284845ab09d9194a655c50696.png
cd05aa15ec413fe2bea0bf92d1569ead.png

而该子网络的输入,是在不同分辨率上利用roialign提取gt(ground truth)的特征,并concat起来。

d036d43ca1c3817f9e01e8b413dd7ce7.png

实验结果

作者和FSAF(基于anchor-free分支)进行比较,soft-weighted anchor points(SW)策略提升了1.1个点,soft-selected pyramid levels(SS)提升了1个点。作者还采用了BFPN(2019 CVPR Libra RCNN中的特征融合策略)进行了加强,还能有性能提升。

a3c4afd72af14deebd20b71b5c5ee2a5.png
c75abaf35399630fb009a1a5902b18b7.png

可视化结果

5bdbd14b149f1cdff657351f4555cee3.png

论文最好的性能是47.4,在R50上也达到了41.7。

1415244646e507cfb3756ee900aed44c.png

总结

作者在FSAF的基础上进一步地分析了现有的两个问题:注意力偏差和特征选择问题。前一个问题通过对不同样本加权实现,后一个问题通过对不同分辨率加权实现,论文讲述清晰,思路简单。同时也要注意到,该论文特征选择预测网络的训练问题,工程上是否真的有效还需进一步地尝试验证。

论文地址:由于头条的限制,需要请留言

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/455018.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

homework1

一.什么是RUP?二.什么是XP?三.什么是敏捷过程? 一。什么是RUP?RUP是一种完整而且完美的软件过程 1。最佳实践 (1)迭代式开发 (2)管理需求 (3)使用基于构件软件的体系结构 (4&…

五个温度带的分界线_女神建筑师在拿破仑故乡打造的海景别墅,超美!超有温度!【环球设计2225期】...

生活的温度 法国建筑师阿米莉亚塔维拉(Amelia Tavella)一直对设计充满热情,她出生在阿雅克肖市,在巴黎的建筑学院学习建筑专业,如今她居住普罗旺斯地区的艾克斯。她说:“设计让我涉足很多有趣的领域并能充分发挥我的想象力。这是一…

银行it现状调研_中央银行系统行业现状调研分析及发展趋势预测报告(2019年版)...

QYResearch预测:2019-2025全球与中国中央银行系统市场现状及未来发展趋势【纸版价格】:RMB 15000【电子版(PDF)价格】:RMB 15000【报告篇幅】:112【报告图表数】:158【报告出版时间】:2019年11月报告摘要本…

视频编解码技术小结

1、什么是H.261编码协议 答:H.261是最早出现的视频编码建议,它采用的算法结合了可减少时间冗余的帧间预测和可减少空间冗余的DCT变换的混合编码方法,其输出码率是p64kbit/s。p取值较小时,只能传清晰度不太高的图像&#…

基于BISS0001构成的热释电红外延时照明控制器电路图

BISS0001是采用CMOS数模混合结构、具有DIP-16和SOIC-16两种封装的热释电红外传感信号处理集成电路。芯片内部集成了电压比较器、状态控制器、延时电路定时器、封锁时间定时器以及参考电压源等电路,常用于防盗报警器、自动门等各种自动开关。利用BISS0001构成的热释电…

安卓APP破解利器之FRIDA

本文讲的是安卓APP破解利器之FRIDA,在我去年参加RadareCon大会的时候,我了解到了一个动态的二进制插桩框架——Frida。起初我觉得它似乎只有一丁点趣味,后来经过实践才发现它原来是如此的有趣。记得游戏里的上帝模式吗?这就是Frid…

如何获取option的下标和值_数智化时代下,如何获取企业增长密码?

信息化时代下,很多企业前前后后上线了各种信息化系统,ERP、OA、CRM…随着企业数字化的深入推进,“移动互联网、云计算、大数据、人工智能、物联网、区块链”等技术的革新,这些信息化系统难以满足企业对数智化转型的新需求&#xf…

基于51单片机的交通灯控制设计

课程设计任务书及成绩 课程名称 单片机课程设计 题目 交通灯控制设计 课程设计目标与任务、计划与进度安排: 实践教学要求与任务: 1、了解交通灯的基本工作原理; 2、用Proteus模拟实现交通灯控制; 3、用Keil C51编程实现上述功能; 4、…

福斯i6飞行模式设置_数据网络卡的时候,不妨试试“开关飞行模式”?上网速度明显变快...

相信大家都有过这种经历,手机数据网速很慢的时候,开一下飞行模式再关闭,上网速度会比之前快很多,这就有人有了疑问,为什么呢?开飞行模式再关掉飞行模式,其实等于是完成了一次手动的小区重选。移…

安装开源 ITIL 门户 iTOP

在 CentOS 7 上部署iTOP是一个简单的基于Web的开源IT服务管理工具。它有所有的ITIL功能,包括服务台、配置管理、事件管理、问题管理、变更管理和服务管理。iTOP依赖于Apache/IIS、MySQL和PHP,因此它可以运行在任何支持这些软件的操作系统中。因为iTOP是一…

基于FPGA 的8b10b编解码电路前端电路设计

基于FPGA 的8b10b编解码电路前端电路设计 摘 要 本设计是采用EDA技术设计的一种8B /10B 编解码电路,实现了在高速的串行数据传输中的直流平衡。该编解码电路设计大体上可以由五个模块构成,分别是默认编码模块、差异度计算模块、编码校正模块、并串转换模块、显示模…

day15(mysql 的多表查询,事务)

mysql之多表查询 1.合并结果集 作用:合并结果集就是把两个select语句查询的结果连接到一起! /*创建表t1*/ CREATE TABLE t1(a INT PRIMARY KEY ,b VARCHAR(10) ) INSERT INTO t1 VALUES(1,a); INSERT INTO t1 VALUES(2,b); INSERT INTO t1 VALUES(3,c); /*创建t2*/…

vue router传参_新手使用vue-router传参时注意事项

1. 使用name和params组合传参this.$router.push({name: details, params: {id: 233}})路由配置import Vue from vueimport Router from vue-router Vue.use(Router) export default new Router({ mode: history, routes: [ { path: /details, name: details, component: resolv…

逻辑综合工具DesignCompiler使用教程

逻辑综合工具Design Compiler使用教程 图形界面design vision操作示例 逻辑综合主要是将HDL语言描述的电路转换为工艺库器件构成的网表的过程。综合工具目前比较主流的是synopsys公司Design Compiler,我们在设计实践过程中采用这一工具。Design compiler有两种工作…

遍历结构体_三菱ST语言编程(3)——结构体变量

上篇文章介绍了数组,是一组相同类型数据的列表,那么不同类型的数据能否组合到一起用一个标签表示呢?答案当然是可以的,而实现这个功能的就是结构体(struct)。建立结构体在三菱结构化编程的界面中左侧程序部件里可以找到结构体标签…

中的 隐藏鼠标菜单_Mac移动隐藏删除顶部菜单栏图标教程

苹果菜单栏贯穿 Mac 的屏幕顶部。左侧是苹果菜单和应用菜单,应用菜单一般显示你当前使用的Mac软件的所有功能菜单。右侧通常是以图标显示的状态菜单,帮助你快速查看Mac的状态以及快速访问某些Mac软件。移动图标位置若想要重新排列状态菜单栏的图标&#…

[hadoop] kettle spoon 基础使用 (txt 内容抽取到excel中)

spoon.bat 启动kettle。 测试数据 1. 新建转换 输入中选择文本文件输入 双击设置文本输入 字符集、分隔符设置 获取对应的字段,预览记录。 拖入 excel输出,设置转换关系 设置输出路径 获取字段 启动转换 导入的excel数据(设置好格式,图中ID,A…

apache 支持.htaccess重写url

1. httpd.conf 添加&#xff1a; <Directory />Options Indexes FollowSymLinks MultiviewsAllowOverride allRequire all grantedRewriteEngine On</Directory> 开启&#xff1a; 在phpinfo里找到&#xff1a; 说明开启成功。 2.httpd-vhosts.conf &#xff08;开…

redis基本用法学习(C#调用FreeRedis操作redis)

FreeRedis属于常用的基于.net的redis客户端&#xff0c;EasyCaching中也提供适配FreeRedis的包。根据参考文献4中的说法&#xff0c;FreeRedis和CsRedis算是近亲&#xff08;都是GitHub中账号为2881099下的开源项目&#xff09;&#xff0c;因此其用法特别相似。FreeRedis的主要…

opencv:图像的基本变换

0.概述 图像变换的基本原理都是找到原图和目标图的像素位置的映射关系&#xff0c;这个可以用坐标系来思考&#xff0c;在opencv中&#xff0c; 图像的坐标系是从左上角开始(0,0)&#xff0c;向右是x增加方向(cols)&#xff0c;向下时y增加方向(rows)。 普通坐标关系&#xff1…