判断图像局部过暗_CVPR 2020丨基于记忆增强的全局局部整合网络:更准确的视频物体检测方法...

ad10b653c970e8b925b6543dbf38359a.gif

编者按:在视频物体检测任务中,由于相机失焦、物体遮挡等问题,仅基于图像的目标检测器很可能达不到令人满意的效果。针对此类问题,微软亚洲研究院提出了基于记忆增强的全局-局部整合网络(Memory Enhanced Global-Local Aggregation, MEGA),它可以在只增加非常小的计算开销的前提下,整合大量的全局信息和局部信息来辅助关键帧的检测,从而显著地提升了视频物体检测器的性能。在广泛使用的 ImageNet VID 数据集中,此方法达到了截至目前的最好结果。

视频物体检测(video object detection),即在一段视频中检测出每一帧上的所有物体。相对于在静止的图像中寻找物体而言,在一段视频中找到物体会面临更多的困难:物体可能会遭遇相机失焦,物体遮挡等问题(图1),因此如果只是简单地将一个图像检测器用于视频检测,效果通常是不尽如人意的。

3a89a255b165d828cf27a905117cc8e7.png

图1:视频中一些常见的问题

但反过来,在视频中检测物体意味着我们可以利用时序上的相关性来辅助我们进行检测:人们可以根据一些历史信息(比如说位置信息、语义信息),来判断这个被遮挡的物体是什么。因此在视频物体检测中,如何利用好时序信息来辅助质量比较差的帧上的检测是一个重要的研究方向。

一般来说,人类主要会通过两类信息来辅助对质量较差的帧进行物体检测,即局部定位信息与全局语义信息。如果物体在当前帧中难以定位,我们可以通过相邻帧之中的类似物体或帧的差异来辅助定位,我们称之为局部定位信息。如果我们难以判断这一帧的物体的类别,我们可以通过从任意其他帧中找出与当前的模糊物体具有高度相似性(比如说颜色、形状很像)的物体来辅助定位,此类信息被定义为全局语义信息。具体如下图2所示。

effcba0b3f0d05ee067d37d57593cb44.png

图2:人类可以利用的信息规模

从这个角度出发,我们发现目前的视频物体检测方法都仅单独考虑了其中一种信息进行辅助目标检测,虽然它们各自都取得了不错的效果,但是如果能够设计一种更加高效的信息融合方式来同时利用好两类信息,那么模型的表现应该能够更加出色。

除此之外,另一个在现存方法中存在的问题就是整合规模(aggregation scale),也就是关键帧能够使用信息的范围。因为计算资源的限制,不管是局部类还是全局类的方法,他们使用的帧的数量通常都只有20-30帧,换算成秒也就是1-2秒,整合规模的不足也局限了这些方法的有效性。

23e86b67ac2b1a1fcd4fc0562f465268.png

解决方案

a7b3cde63de7765f02120bfd0caaa939.png

图3:模型结构示意图

我们分两步来解决上文提到的两个问题。

第一步:解决全局信息和局部信息单独考虑的问题。我们设计了简洁的基础模型(图3a)来完成这项任务。首先,我们使用区域候选网络从关键帧的相邻帧和全局帧中生成一些候选区域。第二是使用关联模块(relation module)将全局帧中候选区域对应的特征给整合到局部帧的候选区域的特征中。之后,局部帧内部会再过若干层关联模块得到增强后的关键帧特征。由此,我们的关键帧特征就同时得到了全局和局部两方面的信息。

第二步:解决整合规模太小的问题。如果只有基础模型,我们关键帧能够得到的全局和局部信息仍然很少,以图3a为例,全局和局部信息都只有4帧。为了解决这个问题,我们设计了一个简洁高效的长时记忆模块(Long Range Memory,LRM),在做完对某一帧的检测后将其特征保存下来,并在下一帧的检测中使用该特征来辅助检测,由于关系模块的多层结构,可以极大地增加了关键帧能够看到的范围,以图3b为例,我们保留了长度为3帧的记忆,而由于其具有两层的关系模块,使得其整合规模从之前的8帧增长到20帧。

不仅如此,这两部分结构还互相受益:长时记忆模块使得关键帧能够获得更多的全局和局部信息,反过来,这些帧又能够提供更加强大的记忆。

23e86b67ac2b1a1fcd4fc0562f465268.png

实验结果

我们在广泛使用的视频物体检测数据集 ImageNet VID 上对我们的方法进行了实验,表1总结了我们的方法与其他方法相比的表现。在本文新提出的模块的辅助下,我们训练出来的视频物体检测器取得了在该数据集上的至今最佳结果。

fbbbe112bae714e6e72f9bcd38bb3b68.png

表1:总体实验结果

为了验证我们方法的有效性,我们做了充足的消融实验。表2展示了我们的模型中各个模块的作用,表3展示了全局信息和局部信息两个缺一不可,表4则说明了超参数对模型整体表现的影响。

9bb9a131a5b2b96895131510f4ae798d.png

表2:各个模块的作用

3b5f28bd75ec67a63a3e9499afb32ca6.png

表3:全局信息与局部信息的作用

14e75c92eac9bd6e3c9c680db14232d8.png

表4:超参数的设置

图4是模型的一些可视化结果。可以看到我们的方法能够克服许多困难的情形,得出不错的检测结果。

4ccf21debf4aebd8779b59749bd7ebbe.png

图4:可视化结果

23e86b67ac2b1a1fcd4fc0562f465268.png

结语

在本文中,我们提出了基于记忆增强的全局-局部整合网络(MEGA),它从全局和局部两方面出发,共同解决视频物体检测的问题。首先我们将全局特征整合到局部特征中,以解决无效的问题。之后,我们引入了新的长时记忆模块(Long Range Memory, LRM)来解决整合规模太小的问题。在视频物体检测数据集 ImageNet VID 上进行的实验表明,我们的方法取得了在该数据集上的至今最佳结果。

更多细节请参考原文:

https://arxiv.org/abs/2003.12063

代码请参考:

https://github.com/Scalsol/mega.pytorch

你也许还想看

e512785d44f3ba970d9e6189fbf95a88.png9d0a3390695f6a2449dceca77ec69f47.pnge5a3d0ad051368941e43ff5411c47544.png

4260ef9bfd53050232ae224076979639.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/543139.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

matlab求偏微分方程程序,用MATLAB解偏微分方程.pdf

用MATLAB解偏微分方程.pdf年 月 阴 山 学 刊第 卷 第 期 丫叫 加用 解偏微分方程田 兵包头师范学院 学报编辑部 , 内蒙古 包头摘 要 讨论 了以 中偏徽分方程工具箱的用法 用 这个工具箱解方程的过程是 确 定待解的偏徽分方程 确 定边界条件 确定方程所在城 的几何形状 划分有限…

第三章:多态

一、多态 1、什么是多态? 解析&#xff1a;不同的对象对于同一个操作&#xff0c;做出的响应不同 具有表现多种形态的能力的特征 2、使用多态的优点 解析&#xff1a;为了实现统一调用 一个小例子&#xff1a;<父类类型作为参数> 父类(Pet) 子类(Gog,Penguin) 主人类(Ma…

请检查virtualboxapi是否正确安装_电机行业安装绝缘轴承规范

1.安装前检查轴承安装前&#xff0c;请检查滚动体表面是否有毛刺&#xff0c;划痕或裂缝。 轴承的径向游隙和轴向游隙是否合格&#xff0c;通常仅测量径向游隙。 其次&#xff0c;检查轴承型号是否正确。 有关滚动轴承的径向游隙标准&#xff0c;请参见下表。 例如&#xff1a;…

matlab时域离散信号与系统,时域离散信号和系统的频域分析

信号与系统的分析方法有两种&#xff1a;时域分析方法和频域分析方法。在连续时间信号与系统中&#xff0c;信号一般用连续变量时间t的函数表示&#xff0c;系统用微分方程描述&#xff0c;其频域分析方法是拉普拉斯变换和傅立叶变换。在时域离散信号与系统中&#xff0c;信号用…

genymotion 此应用与您的手机不兼容

2019独角兽企业重金招聘Python工程师标准>>> 安装arm芯片的转换包&#xff0c;转换包的下载地址&#xff1a;http://pan.baidu.com/s/1dE2EqAH 只要把下载下来的压缩包拖动到模拟器中&#xff0c;点击确定后安装。 安装完成后&#xff0c;需要重启模拟器。 转载于:h…

安卓按钮设置背景颜色不管用_MIUI10新功能:时钟背景黑白自选、公交卡自定义时段唤起...

经历清明假与米粉节后&#xff0c;MIUI10恢复开挂模式&#xff0c;开发版每周给大家推送新功能。本期主要跟大家分享两个要点&#xff0c;其一是时钟背景颜色支持用户选择黑色或者白色&#xff0c;其二是NFC刷卡支持设置优先唤醒时间&#xff0c;降低手工切换操作。■时钟背景可…

数字电视 星座图 matlab,数字电视 MER 及星座图剖析

向天明中国电子测量与仪器学会委员随着数字电视的发展&#xff0c;人们越来越重视数字电视的质量问题&#xff0c;数字电视质量的好坏首先是数字电视信号的质量&#xff0c;因此数字电视信号的分析、测试非常重要&#xff0c;本文重点对数字电视信号的MER及星座图剖析。1、广义…

关于ASP.NET 中的主题

2019独角兽企业重金招聘Python工程师标准>>> 网站的外观是否美观将直接决定其受欢迎的程度&#xff0c;这就意味着网站在开发过程中设计和实现美观实用的用户界面是非常重要的。 在ASP.net 2.0之前主要是用样式表css来实现外观设计。但在ASP.Net 2.0之后&#xff0c…

python复数的实部和虚部都是整数嘛_Python学习笔记:从入门到放弃(2)基本语法...

这次主要就记录一下Python中的基本语法&#xff0c;有标识符&#xff0c;注释&#xff0c;行与缩进&#xff0c;print函数输出以及数字类型和字符串标志符&#xff1a;第一个字符必须是字母表中字母或下划线 _ 。标识符的其他的部分由字母、数字和下划线组成。标识符对大小写敏…

傅里叶变换matlab案例,基于matlab的傅里叶变换

例子1作用&#xff1a;使用傅里叶变换找出隐藏在噪声中的信号的频率成分。(指定信号的参数&#xff0c;采样频率为1 kHz&#xff0c;信号持续时间为1秒。)Fs 1000; % 采样频率T 1/Fs; % 采样周期L 1000; % 信号长度t (0:L-1)*T; % 时间向量%%形成一个信号&#xff0c;包含振…

jquery-1.10.2.min.map是什么,怎么用?

jquery-1.10.2.min.map是什么&#xff0c;怎么用&#xff1f;转载于:https://www.cnblogs.com/suoking/p/5545220.html

python点击按钮改变图片_单击tkinter按钮时更改图片

点击了python和一些按钮后&#xff0c;会产生一些颜色变化的按钮当单击按钮时&#xff0c;是否可以更改按钮使用的.gif&#xff1f;我希望它在GPIO引脚关闭时显示ON&#xff0c;在GPIO引脚打开时显示off。在目前我有&#xff1a;#BCM17GPIO.setup(17,GPIO.OUT)colour17StringVa…

WEB渗透—PHP反序列化(八)

Web渗透—PHP反序列化 课程学习分享&#xff08;课程非本人制作&#xff0c;仅提供学习分享&#xff09; 靶场下载地址&#xff1a;GitHub - mcc0624/php_ser_Class: php反序列化靶场课程&#xff0c;基于课程制作的靶场 课程地址&#xff1a;PHP反序列化漏洞学习_哔哩…

php拼接xml特殊字符不显示,使用PHP的XML特殊字符

这里不需要编码这些字符. XML字符串可以使用UTF-8或其他编码.根据编码,序列化器将根据需要进行编码.$foo new SimpleXmlElement(<?xml version"1.0" encoding"UTF-8"?>);$foo->addChild(bar, μmol/l, x10 cells/l);echo $foo->asXml();输出…

JBPM工作流入门总结

关于JBPM工作流 1、工作流 工作流是一项分离业务操作和系统流程的技术。工作流由实体(Entity)、参与者(Participant)、流程定义(Flow Definition)、工作流引擎(Engine) 四部分组成。 ① 实体是工作流的主体,是需要随着工作流一起流动的物件(Object)。例如,在一个采购申请批准流…

python打印九九加法表_Python小脚本

1、跑马灯效果跑马灯import osimport timedef main():content人生苦短&#xff0c;我用python....while True:os.system(cls)print(content)time.sleep(0.2)contentcontent[1:]content[0]#if __name____main__:main()2、录入员工姓名及联系方式&#xff0c;并根据姓名进行查询z…

php ues incolde,17秋东财《大学英语2》在线作业三答案

东财《大学英语2》在线作业三试卷总分:100 得分:0一、 单选题 (共 25 道试题,共 100 分)1. My brother is four years older than me and someone I look _____ to, even though he is shorter than me.A. upB. downC. belowD. over满分&#xff1a;4 分2. Newman: I hav…

如何部署 Hyperic ,使得从内网监测外网服务器

2019独角兽企业重金招聘Python工程师标准>>> 环境介绍&#xff1a; 外网服务器&#xff1a; www.InnovateDigital.com 用户名/密码 test/test 内网服务器&#xff1a;192.168.1.125 操作系统都是 Centos 7 64bit 过程&#xff1a; 下载 Hyperic 5.8.5 &#xff0c…

tcp 发送 最大数据量_网络基础知识夯实总结(三):TCP协议

近期分享的网络知识包括HTTP协议、DNS协议、HTTPS协议、TCP协议、IP协议、TCP/IP、Web攻击及其他协议。今天内容是TCP协议。TCP协议1. 传输层2. 作用提供可靠的字节流服务3. 大块数据分割成报文段(segment)4. 三次握手1) 发送端发带SYN标志的数据包给对方。2) 接收端收到后&…

安卓开发语言php,go语言支持安卓开发吗

go语言支持安卓开发。使用golang开发android需要下载安装gomobile&#xff0c;然后有两种开发方式&#xff0c;分别为&#xff1a;1、原生应用开发&#xff1b;2、混合绑定开发。本教程操作环境&#xff1a;windows10系统、GO 1.11.2、thinkpad t480电脑。大概14年的时候go语言…