raft2020年更新_ECCV2020最佳论文解读之递归全对场变换(RAFT)光流计算模型

计算机视觉三大国际顶级会议之一的 ECCV 2020 已经召开。今年 ECCV 共收到有效投稿 5025 篇,是 ECCV 2018 论文投稿数量的二倍还要多,接收论文1361 篇,接收率为 27%,相比上届会议下降了约 5%。在接收论文中,oral论文数为 104 篇,占有效投稿总数的 2%,spotlight 论文数目为 161 篇,占比约 3%。其中,最佳论文奖由普林斯顿大学 Zachary Teed 和 Jia Deng 摘得,论文题名为RAFT: Recurre-nt All-Pairs Field Transforms for Optical Flow。论文提出的RAFT模型由于其卓越的泛化能力,成为最新的光流baseline模型:该模型在KITTI在线评价指标中获得5.10%的异常值比率,相比于当前公布的最佳模型提升了16%,且在MPI-Sintel在线评价指标中获得2.855px的端点误差,相比于当前公布的最佳模型提升了30%。本文首先将对光流的基本概念进行阐述,接着对RAFT光流计算模型的具体实施步骤以及对应的思路进行介绍与分析。

1 光流的基本概念

光流是运动物体或场景表面像素点在投影平面的二维瞬时速度,因此图像序列对应的光流不仅携带其中运动目标与场景的运动信息,更包含了其结构信息。

图1-1 光流可视化效果展示

图1-1分别展示了光流计算技术在运动目标检测中的应用,可以看到:精确的光流不仅可以给出连续图像帧中每一像素点的运动信息,还可清晰地分割出运动目标轮廓,其中,通过不同的颜色区分运动方向,颜色的深浅定义运动矢量大小。

图1-2光流计算技术应用

21世纪以来,随着计算机计算的不断提升,光流计算技术广泛的应用于各种更高级的计算机视觉任务中。例如,图1-2(a) 在针对视频的人体行为识别的研究中,可利用人体行为的光流特征,增强在时空域中人体行为特征的表述能力,显著降低异常值点对行为识别产生的不良影响。图1-2(b) 在运动目标检测与目标跟踪的研究中:可根据光流检测运动目标的结构、位移特性,减少运动目标之间的匹配时间消耗,提升在摄像机运动情况下,目标检测、跟踪的鲁棒性。图1-2(c) 在机器人导航避障的研究中,可利用光流针对图像区域的矢量信息,获得机器人前方区域的避障信息,提升机器人行动决策的精度。

2 RAFT光流计算模型

RAFT光流计算模型由特征提取模块、context提取模块、视觉相似性(Visual Similarity)计算模块以及更新迭代模块共同组成。下文将分别对RAFT光流计算模型中各模块的计算流程以及原理进行分析介绍。

2.1 特征提取模块与context提取模块

特征提取模块的作用为提取输入第一帧、第二帧图像中的特征,其中特征的分辨率为输入图像的1/8。Context提取模块的作用同样为提取特征,只不过只提取第一帧图像的上下文信息特征,分辨率同样为输入图像的1/8。在结构上,特征提取模块context提取模块的结构基本类似,区别有两点:首先模块中选择的规范化层不同,特征提取模块采用的为instance规划化技术,而context提取模块采用的为batch规划化技术。其次特征提取模块输出单一的输入图像特征,而context提取模块输出两份输入的图像特征。

2.2 视觉相似性(Visual Similarity)计算模块

视觉相似性计算模块的作用和2018cvpr光流领域经典论文PWC-Net的思想类似,区别便是,PWC-Net是在每一层特征金字塔中利用上层金字塔预测光流对当前层的第二帧图像特征向第一帧图像特征进行warp,然后对warp的第二帧图像特征与原始第一帧图像特征进行匹配获得对应的cost volume,PWC-Net中cost volume的尺寸为[batch, d, h, w],例如[2,81,24,80],代表第一帧图像特征中的每一个像素点,与warp后第二帧图像中以这个像素点为中心的9x9邻域范围内的点做匹配(点乘操作),如上式所示,其中k=4,代表匹配的半径长度为4,与分别代表第一帧图像特征中的像素点与第二帧图像特征中的像素点,总共对2个batch进行上述操作。

而RAFT中的视觉相似性计算模块的计算流程是首先对第一帧图像特征与第二帧图像特征匹配获得一个[batch, h, w, h, w]的cost volume,代表第一帧图像中的每一个像素点,都与第二帧图像特征中所有像素点进行匹

配,总共进行batch次上述操作。匹配过程如下式所示,其中与分别为第一帧图像特征与第二帧图像特征,i,j,k,l分别为第一帧与第二帧图像特征的高、宽索引, h为图像特征的通道维度索引。RAFT在原始图像分辨率1/8的图像特征上通过迭代优化光流,光流的初始值设定为0,也就是说不产生移动,然后通过该光流索引上述尺寸为[batch, h, w, h, w]的cost volume(方便表示记作CT1),具体来说便是:在第一次迭代中,因为光流初始值为0,那么便利用上述CT1索引第二帧图像中以当前像素点为中心的9x9邻域范围内点的匹配结果,后续迭代中,因光流迭代之后不为0,同样进行上述索引,只不过需要在当前点上施加一个光流的位移,通过此操作获得的cost volume记作CT2,尺寸为[batch, d, h, w],d与PWC-Net论文中的参数一样,一般为81。通过上述操作便可使匹配范围进一步扩大,进而在下文中将要提到的更新迭代模块中求得残差光流,用来补偿初始光流。可通过Pooling操作获得不同分辨率下的CT2,用来获得局部以及整体的特征。

2.3 更新迭代模块

更新迭代模块的输入由四部分组成:两份context提取模块输出,CT2,以及上层迭代过程输出的光流。该模块利用GRU模块以及卷积操作,计算出相对于上次迭代过程输出光流的残差光流,然后与上次迭代过程输出光流进行相加用作补偿。需要注意的是,该模块中利用卷积操作学习上采样权值,使当前1/8分辨率下的光流上采样到与输入图像同尺寸,具体形式如下图所示,其中w1-w9为利用卷积操作学习到的权重,也就是说,上采样之后的光流结果中每一像素点的值都与其周围的9个像素点有关。最后,输出每一次迭代过程生成的全分辨率光流结果,用于损失函数计算,更新模型中的参数。

3 RAFT模型中的损失函数

RAFT模型中总共进行12次优化迭代,也就是说会产生12个全分辨率下的光流结果。迭代次数越多,光流计算精度越精确。RAFT模型采用的是监督算法,具体步骤可以表示为:通过求取12次光流迭代过程中的光流计算结果与光流真实值的L1范数,并且迭代的次数越多,对应L1范数结果的权值也就越大(说明该结果对整个损失函数的影响越大),如下式所示,其中,N=12。

4 总结

本文叙述了ECCV最佳论文RAFT的一般计算步骤,如有不足,请多多指教。

本文仅做学术分享,如有侵权,请联系删文。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/528826.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

android从服务检查,android开发分享Android:你如何检查是否启用了特定的AccessibilityService...

我最后自己做了这个:public boolean isAccessibilityEnabled(){ int accessibilityEnabled 0; final String LIGHTFLOW_ACCESSIBILITY_SERVICE "com.example.test/com.example.text.ccessibilityService"; boolean accessibilityFound false; try { ac…

华为云服务怎么弄金卡会员_万科牵手华为终端云服务,共建松山湖智慧商圈

12月18日,坐落在东莞松山湖南华为旁的44000㎡的开放式商业mall——滨湖万科里正式启幕。现场华为终端云服务部还与万科南方区域商业事业部签署了战略合作协议,开启共建智慧商圈的新版图。值得一提的是,这也是华为终端云服务与万科在商业板块的…

cad2014打开文件崩溃_CAD玩的再牛,崩溃了咋办?

导读前几天,一入职新人晚上加班画完的图纸在最后一刻CAD崩溃了!好在最后在临时保存文件夹中找到了完整的图纸。这才免于通宵。CAD崩溃是我们画图中经常遇到的问题。对于CAD崩溃后的处理,相信老司机都已经游刃有余。但也有防不胜防的时候&…

android 弹窗ui,Android 弹出窗口与对话框 UI设计

左图: Android 自带的日期选择弹窗; 右图: Android 自带的时间选择弹窗.左图: Android 日历中的重复选择; 右图: Chrome 中的打印.干净简洁的布局与有趣儿又引人注目的交互让操作变得轻松而愉快, 尤其是那在时间选择器中出现的双环.同样的, 也有很多人试图在自己的应用中给他们…

staruml透明_第05组 团队项目-需求分析报告

组队后的团队项目的整体计划安排(1 2分)序号持续时间主要任务是否完成一9.28组队√二10.1-10.21制作团队选题报告√三10.22-10.27制作团队需求分析报告√四10.28-11.2团队编程准备与制作五10.28-11.11alpha冲刺准备六11.12-11.22进行alpha冲刺,并发布alpha版本七11.…

ffmpeg编译android,FFMPEG Android(2) 编译编译静态ffmpeg可执行文件

基础编译,请参考上一篇文章:http://blog.csdn.net/muwesky/article/details/55259945如果想编译静态ffmpeg可执行文件,编译脚本如下:#!/bin/bashexport TMPDIR/Users/aivensmac/work/project/ffmpeg/armbuild/tmpNDK/Users/aivens…

php5.4.41 绿色_编译安装PHP5.4.41

一、部署LAMP环境,安装顺序二、编译、安装php三、安装xcache,为php(opcode)加速四、其他一、部署LAMP环境,安装顺序编译安装部署LAMP环境,安装顺序3、编译安装php二、编译、安装php1、下载php并解压[rootlocalhost downloads]# wg…

vim反向删除_VIM之操纵缓冲区列表

引子昨天遇到了一个奇怪的问题,一条在Sublime里面看着十分正常的SQL语句,执行了也是正常的,导出的Insert语句也是看着没毛病的,但是在查询出来,传递到下游的时候,说多了一个乱码。WTF,然后就开始…

android studio管理依赖,Android Studio 中的 Gradle 依赖统一管理

在我们的实际项目开发中,通常在一个 Project 项目中会存在多个 Module 的情况,在这些 Module 中会存在一些相同的版本依赖配置,针对进行版本升级的时候需要逐个修改,显得特别麻烦,所以将依赖的配置抽取出来是一个不错的…

卸载 windows_Windows 10可能很快会自动卸载有问题的Windows更新

看起来微软已经悄悄地向Windows 10添加了一项新功能,该功能将允许操作系统自动删除导致问题的任何有问题的Windows更新。这是一个好消息,因为Windows 10最近有一些有问题的更新,其中一些阻止了Windows 10的加载。根据微软刚刚发布的一份新支持…

android 5.0 sd卡读写,如何使用为Android 5.0(Lollipop)提供的新SD卡存取API?

很多好的问题,让我们深入。:)你如何使用它?这是一个伟大的教程与KitKat中的存储访问框架交互:在Lollipop中与新的API交互非常相似。要提示用户选择目录树,您可以启动这样的意图:Intent intent new Intent(Intent.ACTI…

android /data/system/dropbox,Android导出dropbox日志

文章内容已重新排版:Android导出dropbox日志,请到该链接浏览,谢谢支持。大项目中出现anr几乎是必然事件,这里我就不再去赘述怎么分析anr日志了。但是作为分析anr重要依据的必然离不开dropbox日志。问题来了,dropbox文件…

pgsql thinkphp5_thinkphp 连接postgresql

PHP连接:php.ini中将extensionphp_pgsql.dll前面的分号去掉,然后设置extension_dir指向php文件下的ext文件夹。正常情况下这样php就可以连接postgres了,但是我的仍然出错,提示“Fatal error: Call to undefined function pg_conne…

android蓝牙串口 hc06,Android手机通过蓝牙模块HC-06连接Arduino串口输出

通过手机进行通信是可以实现很多遥控功能,虽然距离是比较短,一般是10米,但对于我这种新手做测试,比起买一个几百块的多通道遥控器成本要低很多。实验目的:用Android实现蓝牙连接通过Arduino串口输出信息这次使用的是蓝…

esrgan_港中文-商汤联合实验室:ECCV2018 PIRM-SR 超分辨率比赛冠军:ESRGAN(已开源)...

Summary:中科院和京东AI研究院提出:改进SRN人脸检测算法,目前业界最强!Author:AmusiDate:2019-02-09微信公众号:CVer原文链接:香港中文大学-商汤联合实验室:ECCV2018 PIR…

联通物联卡为什么没有网络_联通物联卡的资费和优势怎样

近年来,物联网的发展如火如荼,许多物联网卡应用不断兴起,中国移动、中国电信、中国联通都加入了物联网这一事件,中国联通物联网卡和腾讯将联网网卡升级为TUSISIM网卡,这种新的联通TUSI物联网卡也可以理解为一种新的身份…

android中如何新建一个activity,《Android Activity》活动的介绍和创建

Activity 是什么Android 有四大组件:Activity、Service、Broadcast Receiver 和 Content Provider。Activity,活动,即用来承载用户界面的容器,Android 四大组件之一。我们在 APP 里面看到的页面就需要一个 Activity,页…

ffmpeg 音乐循环_[宜配屋]听图阁

ffmpeg -i out3.mp4 -i music3D.wav -filter_complex [1:a]alooploop-1:size2e09[out];[out][0:a]amix -ss 0 -t 60 -y out.mp4参数详细介绍:ffmpeg//输入视频,最好选一个大于一分钟的尝试-i out3.mp4//输入背景音,最好短一点,方便…

android qq红点,Android高仿QQ小红点功能

先给大家展示下效果图:绘制贝塞尔曲线:主要是当在一定范围内拖拽时算出固定圆和拖拽圆的外切直线以及对应的切点,就可以通过path.quadTo()来绘制二阶贝塞尔曲线了~整体思路:1、当小红点静止时,什么都不做,只…

modern android5.1,Modern摩登印

Modern摩登印可以帮助小伙伴们轻松制作手机相册,超多素材为你提供,支持个性化设置,将照片一秒变高大上的海报,还能支持音乐相册效果,超多原创音乐随你挑选,结合潮流相册模板,让你的作品更精美哦…