判断图像局部过暗_CVPR 2020丨基于记忆增强的全局局部整合网络:更准确的视频物体检测方法...

ad10b653c970e8b925b6543dbf38359a.gif

编者按:在视频物体检测任务中,由于相机失焦、物体遮挡等问题,仅基于图像的目标检测器很可能达不到令人满意的效果。针对此类问题,微软亚洲研究院提出了基于记忆增强的全局-局部整合网络(Memory Enhanced Global-Local Aggregation, MEGA),它可以在只增加非常小的计算开销的前提下,整合大量的全局信息和局部信息来辅助关键帧的检测,从而显著地提升了视频物体检测器的性能。在广泛使用的 ImageNet VID 数据集中,此方法达到了截至目前的最好结果。

视频物体检测(video object detection),即在一段视频中检测出每一帧上的所有物体。相对于在静止的图像中寻找物体而言,在一段视频中找到物体会面临更多的困难:物体可能会遭遇相机失焦,物体遮挡等问题(图1),因此如果只是简单地将一个图像检测器用于视频检测,效果通常是不尽如人意的。

3a89a255b165d828cf27a905117cc8e7.png

图1:视频中一些常见的问题

但反过来,在视频中检测物体意味着我们可以利用时序上的相关性来辅助我们进行检测:人们可以根据一些历史信息(比如说位置信息、语义信息),来判断这个被遮挡的物体是什么。因此在视频物体检测中,如何利用好时序信息来辅助质量比较差的帧上的检测是一个重要的研究方向。

一般来说,人类主要会通过两类信息来辅助对质量较差的帧进行物体检测,即局部定位信息与全局语义信息。如果物体在当前帧中难以定位,我们可以通过相邻帧之中的类似物体或帧的差异来辅助定位,我们称之为局部定位信息。如果我们难以判断这一帧的物体的类别,我们可以通过从任意其他帧中找出与当前的模糊物体具有高度相似性(比如说颜色、形状很像)的物体来辅助定位,此类信息被定义为全局语义信息。具体如下图2所示。

effcba0b3f0d05ee067d37d57593cb44.png

图2:人类可以利用的信息规模

从这个角度出发,我们发现目前的视频物体检测方法都仅单独考虑了其中一种信息进行辅助目标检测,虽然它们各自都取得了不错的效果,但是如果能够设计一种更加高效的信息融合方式来同时利用好两类信息,那么模型的表现应该能够更加出色。

除此之外,另一个在现存方法中存在的问题就是整合规模(aggregation scale),也就是关键帧能够使用信息的范围。因为计算资源的限制,不管是局部类还是全局类的方法,他们使用的帧的数量通常都只有20-30帧,换算成秒也就是1-2秒,整合规模的不足也局限了这些方法的有效性。

23e86b67ac2b1a1fcd4fc0562f465268.png

解决方案

a7b3cde63de7765f02120bfd0caaa939.png

图3:模型结构示意图

我们分两步来解决上文提到的两个问题。

第一步:解决全局信息和局部信息单独考虑的问题。我们设计了简洁的基础模型(图3a)来完成这项任务。首先,我们使用区域候选网络从关键帧的相邻帧和全局帧中生成一些候选区域。第二是使用关联模块(relation module)将全局帧中候选区域对应的特征给整合到局部帧的候选区域的特征中。之后,局部帧内部会再过若干层关联模块得到增强后的关键帧特征。由此,我们的关键帧特征就同时得到了全局和局部两方面的信息。

第二步:解决整合规模太小的问题。如果只有基础模型,我们关键帧能够得到的全局和局部信息仍然很少,以图3a为例,全局和局部信息都只有4帧。为了解决这个问题,我们设计了一个简洁高效的长时记忆模块(Long Range Memory,LRM),在做完对某一帧的检测后将其特征保存下来,并在下一帧的检测中使用该特征来辅助检测,由于关系模块的多层结构,可以极大地增加了关键帧能够看到的范围,以图3b为例,我们保留了长度为3帧的记忆,而由于其具有两层的关系模块,使得其整合规模从之前的8帧增长到20帧。

不仅如此,这两部分结构还互相受益:长时记忆模块使得关键帧能够获得更多的全局和局部信息,反过来,这些帧又能够提供更加强大的记忆。

23e86b67ac2b1a1fcd4fc0562f465268.png

实验结果

我们在广泛使用的视频物体检测数据集 ImageNet VID 上对我们的方法进行了实验,表1总结了我们的方法与其他方法相比的表现。在本文新提出的模块的辅助下,我们训练出来的视频物体检测器取得了在该数据集上的至今最佳结果。

fbbbe112bae714e6e72f9bcd38bb3b68.png

表1:总体实验结果

为了验证我们方法的有效性,我们做了充足的消融实验。表2展示了我们的模型中各个模块的作用,表3展示了全局信息和局部信息两个缺一不可,表4则说明了超参数对模型整体表现的影响。

9bb9a131a5b2b96895131510f4ae798d.png

表2:各个模块的作用

3b5f28bd75ec67a63a3e9499afb32ca6.png

表3:全局信息与局部信息的作用

14e75c92eac9bd6e3c9c680db14232d8.png

表4:超参数的设置

图4是模型的一些可视化结果。可以看到我们的方法能够克服许多困难的情形,得出不错的检测结果。

4ccf21debf4aebd8779b59749bd7ebbe.png

图4:可视化结果

23e86b67ac2b1a1fcd4fc0562f465268.png

结语

在本文中,我们提出了基于记忆增强的全局-局部整合网络(MEGA),它从全局和局部两方面出发,共同解决视频物体检测的问题。首先我们将全局特征整合到局部特征中,以解决无效的问题。之后,我们引入了新的长时记忆模块(Long Range Memory, LRM)来解决整合规模太小的问题。在视频物体检测数据集 ImageNet VID 上进行的实验表明,我们的方法取得了在该数据集上的至今最佳结果。

更多细节请参考原文:

https://arxiv.org/abs/2003.12063

代码请参考:

https://github.com/Scalsol/mega.pytorch

你也许还想看

e512785d44f3ba970d9e6189fbf95a88.png9d0a3390695f6a2449dceca77ec69f47.pnge5a3d0ad051368941e43ff5411c47544.png

4260ef9bfd53050232ae224076979639.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/543139.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第三章:多态

一、多态 1、什么是多态? 解析&#xff1a;不同的对象对于同一个操作&#xff0c;做出的响应不同 具有表现多种形态的能力的特征 2、使用多态的优点 解析&#xff1a;为了实现统一调用 一个小例子&#xff1a;<父类类型作为参数> 父类(Pet) 子类(Gog,Penguin) 主人类(Ma…

请检查virtualboxapi是否正确安装_电机行业安装绝缘轴承规范

1.安装前检查轴承安装前&#xff0c;请检查滚动体表面是否有毛刺&#xff0c;划痕或裂缝。 轴承的径向游隙和轴向游隙是否合格&#xff0c;通常仅测量径向游隙。 其次&#xff0c;检查轴承型号是否正确。 有关滚动轴承的径向游隙标准&#xff0c;请参见下表。 例如&#xff1a;…

matlab时域离散信号与系统,时域离散信号和系统的频域分析

信号与系统的分析方法有两种&#xff1a;时域分析方法和频域分析方法。在连续时间信号与系统中&#xff0c;信号一般用连续变量时间t的函数表示&#xff0c;系统用微分方程描述&#xff0c;其频域分析方法是拉普拉斯变换和傅立叶变换。在时域离散信号与系统中&#xff0c;信号用…

genymotion 此应用与您的手机不兼容

2019独角兽企业重金招聘Python工程师标准>>> 安装arm芯片的转换包&#xff0c;转换包的下载地址&#xff1a;http://pan.baidu.com/s/1dE2EqAH 只要把下载下来的压缩包拖动到模拟器中&#xff0c;点击确定后安装。 安装完成后&#xff0c;需要重启模拟器。 转载于:h…

安卓按钮设置背景颜色不管用_MIUI10新功能:时钟背景黑白自选、公交卡自定义时段唤起...

经历清明假与米粉节后&#xff0c;MIUI10恢复开挂模式&#xff0c;开发版每周给大家推送新功能。本期主要跟大家分享两个要点&#xff0c;其一是时钟背景颜色支持用户选择黑色或者白色&#xff0c;其二是NFC刷卡支持设置优先唤醒时间&#xff0c;降低手工切换操作。■时钟背景可…

数字电视 星座图 matlab,数字电视 MER 及星座图剖析

向天明中国电子测量与仪器学会委员随着数字电视的发展&#xff0c;人们越来越重视数字电视的质量问题&#xff0c;数字电视质量的好坏首先是数字电视信号的质量&#xff0c;因此数字电视信号的分析、测试非常重要&#xff0c;本文重点对数字电视信号的MER及星座图剖析。1、广义…

关于ASP.NET 中的主题

2019独角兽企业重金招聘Python工程师标准>>> 网站的外观是否美观将直接决定其受欢迎的程度&#xff0c;这就意味着网站在开发过程中设计和实现美观实用的用户界面是非常重要的。 在ASP.net 2.0之前主要是用样式表css来实现外观设计。但在ASP.Net 2.0之后&#xff0c…

傅里叶变换matlab案例,基于matlab的傅里叶变换

例子1作用&#xff1a;使用傅里叶变换找出隐藏在噪声中的信号的频率成分。(指定信号的参数&#xff0c;采样频率为1 kHz&#xff0c;信号持续时间为1秒。)Fs 1000; % 采样频率T 1/Fs; % 采样周期L 1000; % 信号长度t (0:L-1)*T; % 时间向量%%形成一个信号&#xff0c;包含振…

WEB渗透—PHP反序列化(八)

Web渗透—PHP反序列化 课程学习分享&#xff08;课程非本人制作&#xff0c;仅提供学习分享&#xff09; 靶场下载地址&#xff1a;GitHub - mcc0624/php_ser_Class: php反序列化靶场课程&#xff0c;基于课程制作的靶场 课程地址&#xff1a;PHP反序列化漏洞学习_哔哩…

如何部署 Hyperic ,使得从内网监测外网服务器

2019独角兽企业重金招聘Python工程师标准>>> 环境介绍&#xff1a; 外网服务器&#xff1a; www.InnovateDigital.com 用户名/密码 test/test 内网服务器&#xff1a;192.168.1.125 操作系统都是 Centos 7 64bit 过程&#xff1a; 下载 Hyperic 5.8.5 &#xff0c…

tcp 发送 最大数据量_网络基础知识夯实总结(三):TCP协议

近期分享的网络知识包括HTTP协议、DNS协议、HTTPS协议、TCP协议、IP协议、TCP/IP、Web攻击及其他协议。今天内容是TCP协议。TCP协议1. 传输层2. 作用提供可靠的字节流服务3. 大块数据分割成报文段(segment)4. 三次握手1) 发送端发带SYN标志的数据包给对方。2) 接收端收到后&…

安卓开发语言php,go语言支持安卓开发吗

go语言支持安卓开发。使用golang开发android需要下载安装gomobile&#xff0c;然后有两种开发方式&#xff0c;分别为&#xff1a;1、原生应用开发&#xff1b;2、混合绑定开发。本教程操作环境&#xff1a;windows10系统、GO 1.11.2、thinkpad t480电脑。大概14年的时候go语言…

解决python连接mysql,UTF-8乱码问题

在测试“Bluemix云端数据库服务ClearDB MySQL使用示例———Python开发投票程序”的程序时&#xff0c;从MySQL中读取的中文输出到网页显示都是问号&#xff0c;如下图&#xff1a; 解决方法&#xff1a; 产生乱码问题&#xff0c;通常都是由于几方面的编码不统一导致的&#x…

Crawler - 如何爬取列表后进行文章的爬取

2019独角兽企业重金招聘Python工程师标准>>> 已知BUG&#xff1a;(version:5) 1-爬取后生成的XML默认编码是Java环境决定导入数据库可能出问题 方法修改xml编码后导入 重点CL 和 CI命令 CL 是爬取List列表 会通过file生成文件 CI 中file是CL执行后生存的File文件 CL…

程序员出差是去干什么_让我来告诉你,35岁以上的人都在干什么!

欢迎关注专栏&#xff1a;里面定期分享Android和Flutter架构技术知识点及解析&#xff0c;还会不断更新的BATJ面试专题&#xff0c;欢迎大家前来探讨交流&#xff0c;如有好的文章也欢迎投稿。Android高级进阶​zhuanlan.zhihu.com让我来告诉你&#xff0c;35岁以上的人都在干什…

opencv入门_【OpenCV入门之十八】通过形态学操作提取水平与垂直线

小白导读学习计算机视觉最重要的能力应该就是编程了&#xff0c;为了帮助小伙伴尽快入门计算机视觉&#xff0c;小白准备了【OpenCV入门】系列。新的一年文章的内容进行了很大的完善&#xff0c;主要是借鉴了更多大神的文章&#xff0c;希望让小伙伴更加容易理解。如果小伙伴觉…

【译】NoClassDefFoundError和ClassNotFoundException的不同

本文翻译自&#xff1a;Difference between NoClassDefFoundError vs ClassNotFoundExcepiton in Java 如果JVM或者ClassLoader在加载类时找不到对应的类&#xff0c;就会引发NoClassDefFoundError和ClassNotFoundException&#xff0c;这两种错误都非常严重。由于不同的ClassL…

Ubuntu上安装Robomongo及添加到启动器

到目前为止&#xff0c;Robomongo仍是MongoDB最好的客户端管理工具&#xff0c;如需在Ubuntu上安装Robomongo&#xff0c;可直接从官网下载.tar.gz压缩包进行解压&#xff0c;然后直接运行bin目录下的robomongo文件即可启动界面。例如我将下载下来的.tar.gz压缩包解压到/usr/lo…

pagefile.sys and heberfil.sys

dub 删除heberfil.sys大文件的方法 方法1:Windows/system32中的cmd.exe 输入 powercfg -h off&#xff0c;即可关闭休眠功能&#xff0c;同时 Hiberfil.sys 文件也会自动删除。 方法2:运行命令gpedit.msc打开策略组 依次打开Computer Configuration——Administrative Template…

加密生成指定长度_3分钟短文 | PHP伪随机Token生成器,实地测试,效果感人!

引言我们经常可能会用到邀请码&#xff0c;邮件验证码&#xff0c;或者需要使用unique 字符串标记用户属性的情况。今天我们且不说高深的“全局唯一ID”的生成方案&#xff0c;我们说一个简单的&#xff0c;如何生成一个唯一的&#xff0c;随机的&#xff0c;数组字母组成的字符…