PanoFlow:学习360°用于周围时间理解的光流

1.摘要:

光流估计是自动驾驶和机器人系统中的一项基本任务,它能够在时间上解释交通场景。自动驾驶汽车显然受益于360提供的超宽视野(FoV)◦ 全景传感器。

然而,由于全景相机独特的成像过程,为针孔图像设计的模型并不能直接令人满意地推广到360◦ 全景图像。本文提出了一种新的网络框架——PANOFLOW,用于学习全景图像的光流。为了克服等矩形投影在全景变换中引入的失真,我们设计了一种流失真增强(FDA)方法,该方法包含径向流失真(FDA-R)或等矩形流失真(FDA-E)。我们进一步研究了全景视频中循环光流的定义和性质,并在此提出了一种循环流估计(CFE)方法,该方法利用球面图像的循环性来推断360◦ 光流和将大位移转换为相对小的位移。PanoFlow适用于任何现有的流量估计方法,并受益于窄FoV流量估计的进展。

此外,我们创建并发布了一个基于CARLA的合成全景数据集FlowScape,以便于训练和定量分析。PanoFlow在公共OmniFlowNet和新建立的FlowScape基准上实现了最先进的性能。我们提出的方法将FlowScape上的终点误差(EPE)降低了27.3%。在OmniFlowNet上,PanoFlow实现了3.17像素的EPE,比最佳公布结果(7.12像素)降低了55.5%的误差。我们还通过户外采集车和公共的真实世界OmniPhotos数据集对我们的方法进行了定性验证,这表明我们的方法在真实世界导航应用中具有强大的潜力和稳健性。代码和数据集可在PanoFlow上公开获取https://github.com/MasterHow/PanoFlow

图1。(a) 由我们的移动感知系统捕获的原始全景环形图像,(b)-(c)针对360的真实世界周围视图提出的全景光流估计◦ 无缝的场景时间理解。

1.引言

  光学流量估计是自动驾驶的基本挑战之一[1]-[5]。流量估计提供了有关环境和传感器运动的信息,从而实现对世界的时间理解,这对许多机器人和车辆应用至关重要,包括场景解析、基于图像的导航、视觉里程计和SLAM[6]–[12]。随着球形相机的发展[13],全景图像现在更容易为360拍摄◦ 场景感知[14]-[16],并且由于类似的投影模型[17],可以更好地与激光雷达集成。然而,基于学习的方法一直专注于由基于针孔投影模型的相机产生的传统2D图像[18]–[20]。为具有窄视场(FoV)的相机设计的模型对于全面理解来说通常是次优的。将它们与360连接◦ 激光雷达还将直接导致固有的和领域适应问题[21]。因此,推断相机完整周围的光流的能力激发了360的研究◦ 流量估算。

与经典的线性图像不同,由于球面相机的等矩形投影(ERP),全景内容经常遭受严重失真[22]。

  对象将全景图像在不同纬度处发生不同程度的变形,使得目标图像和关注图像之间的流量估计更加困难。另一个关键问题在于球面边界的循环性,这意味着从源点到目标点有不止一条路径,通常有一条更短和更长的路径[23]。这两条路线在球体上形成一个大圈。换句话说,这两条路线的几何意义是相等的。然而,传统的基于学习的模型无法跟踪在图像边界之外移动的像素,因此别无选择,只能推断更难的长距离运动矢量,导致估计不太令人满意。

  为了解决这些问题,我们引入了一种新的全景流量估计框架——PANOFLOW,以直接从全景图像中估计密集流场。我们在两个不同的最先进的光流网络[19]、[20]上实现了PanoFlow,以验证所提出的框架的通用性。据作者所知,我们提出了第一种流失真增强(FDA)方法,该方法建立在对ERP引起的失真的深入了解之上,以增强对全景图像变形的鲁棒性

虽然失真增强用于全景场景解析[24],[25],但尚未在光流估计中进行研究,因为光流是2D矢量,这会带来进一步的挑战。与处理常数性质的传统几何增广方法不同,光流的畸变增广是不平凡的,它必须考虑光流的变化,因为光流的起点和终点会发生不同程度的畸变。通过将参与图像(关注图像和目标图像)和流场实况投影到畸变场上,我们提高了模型推广到变形区域的能力。

我们提出了两种增加流量畸变的变体:径向流量畸变(FDA-R)和等矩形流量畸变(FDA-E)。尽管FDA-E与一般ERP引入的失真一致,但考虑到针孔数据集的FoV较小,真正参与监督的像素数量减少了。

因此,我们还探讨了FDA-R在克服ERP失真中的作用。我们发现,尽管它们的变形模型并不完全相同,但FDA-R也提高了网络处理变形区域的能力。

从另一个失真自适应的角度来看,我们进一步建议通过用可变形卷积层替换编码器的第一层来解决失真[26]。所提出的FDA和可变形卷积使该模型能够处理特征全景图像失真和稳健的流量估计。作为一种新的数据增强方法,FDA是任何基于学习的光流网络的即插即用模块

此外,我们给出了适用于全景视频流的循环光流的标准定义,分析了循环光流特性,并将其与经典光流进行了比较。然后,我们基于先前的见解设计了一种循环流估计(CFE)方法,以利用全景图像的循环性,并将长距离估计转换为相对较短的距离估计。

CFE很好地缓解了模型在大位移估计中的应力,使模型能够专注于局部细粒度光流估计。CFE是一种通用的光流估计方法,因此可以受益于窄视场流量估计方法的进步。有趣的是,定量和定性结果都表明,与之前在立方体映射平面和二十面体切平面上迭代估计的最佳方法[23]相比,CFE方法简单但非常有效.

我们还计算了使用CFE方法前后精度随水平FoV变化的分布,发现CFE可以显著提高全景垂直边界附近的光流估计精度,这是全景流估计的一个独特困难。

此外,为了克服缺乏可用的全景训练数据的问题,并促进对360的研究◦ 理解后,我们建立并发布了一个新的街景合成全景流量估计基准——FlowScape。我们通过CARLA模拟器生成数据集[27]。FlowScape由6400张彩色图像、光流和像素级语义地面实况组成,由于动态天气、多样化的城市街景和不同类型的车辆,提供了一个与现实世界相似的环境。我们使用这个数据集来学习从全景内容推断流量。当只给出正向光流时,我们还分析了现有光流数据集[22]、[23]、[28]的真实质量,并根据观测结果确定了我们的评估数据集。

我们在已建立的FlowScape基准上进行了广泛的定量实验。与之前的最佳模型相比,PanoFlow在该数据集上的终点误差(EPE)降低了27.3%。此外,我们在公共OmniFlowNet数据集[22]上的方法的EPE与已发表的最佳结果(3.34像素对7.12像素)相比降低了55.5%。此外,一组全面的消融实验证明了所提出的FDA和CFE方法的有效性。我们还对公共的真实世界OmniPhotos数据集[29]进行了定性分析,以在真实世界的环境感知中验证我们的方法。为了进一步证明PanoFlow的泛化能力,我们还组装了一辆安装了全景环形透镜(PAL)系统的户外数据采集车。如图所示,PanoFlow为真实世界的周围场景提供了清晰、干净的全向光流估计。

总之,我们的主要贡献如下:•我们对360提出了严格的理论定义◦ 光流。

•我们介绍了流失真增强,这是一种用于光流网络的新数据增强方法,可以帮助模型学习捕捉变形区域的运动线索。

•我们提出了一种通用的循环流量估计方法,该方法可以根据连续全景的几何性质将大位移估计转换为相对较短的位移估计。

•我们生成FlowScape,这是一个新的公开可用的全景数据集,由各种合成街道场景组成,提供像素级的流量和语义基础真相。我们还评估了现有全景流量数据集的地面实况质量。

•我们的整个框架PANOFLOW在既定的FlowScape基准上以及公共OmniFlowNet数据集。实现了最先进的性能.

•PanoFlow在公共现实世界OmniPhotos数据集和我们捕获的户外全景视频流上都表现出强大的泛化能力。

2、相关工作
A.基于深度学习的光流估计

经典的光流估计方法[30]、[31]使用变分方法,基于亮度恒定性和空间平滑性来最小化能量。自从FlowNet[32]出现以来,已经出现了其他一些基于卷积神经网络(CNNs)[33]-[44]的工作。此外,还有一些自我监督的方法[45],[46]来学习闭塞的光流。这些方法中的大多数通常被设计用于拍摄有限成像角度的针孔相机

FlowNet[32]首先将光流估计视为一个学习问题。为了进一步提高光流的精度,FlowNet2.0[47]在多个级联的FlowNets之间引入了图像扭曲。由于FlowNet2.0[47]的模型尺寸较大,已经提出了许多方法来同时提高光流精度和减小模型尺寸。其中,PWC-Net[18]将经典的光流估计原理(包括金字塔处理、图像扭曲和成本量)与学习相结合。LiteFlowNet2[48]借鉴了经典变分光流方法中的数据保真度和正则化思想。RAFT[19]使用多尺度4D相关体积迭代更新光学流场,为了更好地将光流估计应用于自动驾驶系统,CSFlow[20]提出了一种新的光流深度网络架构,该架构由交叉带相关模块(CSC)和相关回归初始化模块(CRI)组成。此外,FlowFormer[49]用基于变换器的主干取代了RAFT架构中基于CNN的主干,这进一步提高了光流估计的准确性,同时将参数数量增加了三倍。相比之下,PanoFlow是一个全景光流框架,可以适用于任何具有编码器-解码器架构的光流网络。

B. FoV 以外的光流估计

随着越来越实惠、便携和精确的全景相机进入市场,360◦ 流量估计是迫切需要的,它可以提供广泛的FoV时间理解,为此开发了一些基于深度学习的方法。LiteFlowNet360[50]被设计为一个域自适应框架,以应对360中的固有失真◦ 由球体到平面投影引起的视频。他们在特征金字塔网络中采用卷积层的增量变换,将数据增强和自监督学习与目标域360相结合,以减少网络增长规模和计算成本◦ 视频。

OmniFlowNet[22]建立在专门研究透视图像的CNN模型上,然后应用于全向图像,而无需在新的数据集上进行训练,其卷积运算与矩形投影相统一,优于原始网络。

360投影◦ 图像到ERP图像是一个非线性映射,由此引起的失真将影响360◦ 因此,Yuan等人[23]提出了一种360◦ 基于切线图像的光流估计方法,包括对二十面体和立方体全景的数十次估计和细化。

总体而言,现有的基于学习的全景流方法在模型层面采用了固定的投影范式来处理ERP失真。考虑到细胞神经网络的局部偏向行为,这将降低模型对潜在视觉线索建模的能力,并导致不令人满意的性能。另一方面,切平面上的估计和细化引入了额外的计算成本,导致推理速度有限。最近,一项并行工作[51]也探讨了360◦ 通过siamese表示学习方案的光流,该方案具有精心设计的损耗和旋转增强,以采用现有的流网络。

与这些作品不同的是,我们处理了整个360中出现的图像失真和对象变形◦ 并利用连续全向数据的周期性来增强全景光流估计。

C.光流和全景感知数据集、

全景数据集在各种应用领域都是必需的,包括深度估计[52]-[54]、场景分割[55]-[57]和光流估计[22]、[23]、[28]。Stanford2D3D[58]是一个大型室内空间数据集,由具有实例级语义注释的规则数据和全景数据组成。

360D数据集[21]重复使用已发布的大规模3D数据集,并将其重新用于360◦ 通过渲染进行密集深度估计。PASS[24]提出了一个全景环形语义分割框架和相关的数据集,用于可信评估。DensePASS[59]介绍了一个具有标记和未标记360的数据集◦ 用于从无监督领域自适应的角度对全景语义分割进行基准测试的图像。KITTI360[60]由立体透视相机、一对鱼眼相机和一个用于启用360的激光扫描单元收集◦ 知觉WoodScape[61]包括多个环视鱼眼相机和多个任务,如分割和污垢检测。OmniScape数据集[62]包括语义分割、深度图、摄像头的固有参数和摩托车的动态参数。Waymo Open数据集[63]是一个用于全景图像分割的标记全景视频数据集。

为了提高光流估计的准确性,OmniFlow[64]是一个合成的全方位人类光流数据集,包含FoV为180的家庭活动图像◦. OmniFlowNet[22]使用基于Blender的简单几何模型,渲染全景光流的测试集仅用于验证。Replica360[23]为Replica渲染管道[65]实现了ERP相机模型,并包含用于验证的等矩形格式的地面实况光流,SynWoodScape[28]是一个合成鱼眼环绕视图数据集,具有用于逐像素光流和深度估计的地面实况。OmniPhotos[29]是一款快速360◦ 全景VR摄影方法,使用已发布的户外数据集,但无法获得光学的地面实况流,我们注意到,到目前为止,既没有针对户外复杂街道场景的全向图像数据集,也没有覆盖360◦ 可用于培训和评估。本文试图通过提出一个虚拟环境来填补这一空白,在这个虚拟环境中,一辆带全景摄像头的汽车在假设行人和车辆按照交通规则行驶的情况下行驶。表一关联并总结了当前包含地面实况光流的全景数据集。第四节将详细分析光流的地面实况质量。

表一:用于光流估计的现有全景数据集的比较

 图2。循环光流示意图。(a) 光流和循环光流在球面坐标系上形成一个互补的大圆,(b)等矩形图像上的循环光流具有相对较小的位移,并跨越全景的水平边界

3、 PANOFLOW:提出的框架
A. 360°的定义 光流

球形图像不包含任何边界,并且坐标在图像上的任何方向上都是连续的[22]。然而,在将球面图像展开为等矩形图像的过程中,自然会引入平行于子午线的边界,如图所示2。给定球体上的任何一个点A,它在时间t后移动到另一个点B。由于球体本身的循环性质,这两个点之间实际上有无限的弧轨迹,现在我们只考虑两个弧

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/101955.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

NSIC2050JBT3G 车规级120V 50mA ±15% 用于LED照明的线性恒流调节器(CCR) 增强汽车安全

随着汽车行业的巨大变革,高品质的汽车氛围灯效、仪表盘等LED指示灯效已成为汽车内饰设计中不可或缺的元素。深力科安森美LED驱动芯片系列赋能智能座舱灯效充满艺术感和科技感——NSIC2050JBT3G LED驱动芯片,实现对每路LED亮度和颜色进行细腻控制&#xf…

SLAM从入门到精通(launch文件学习)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 大家应该还记得我们在一开始学习ros的时候,如果需要启动一个节点的话,需要首先打开roscore,接着用rosrun打开对…

shiro550复现环境搭建

前言 Shiro反序列化漏洞指的是Apache Shiro安全框架中的一个潜在漏洞,该漏洞可能导致攻击者能够通过精心构造的恶意序列化对象来执行任意代码或进行拒绝服务(DoS)攻击。 这种漏洞的根源是在Shiro的RememberMe功能中,当用户选择“…

制造业单项冠军(国家级、广东省、深圳市)奖励政策及申报对比

制造业单项冠军的头衔含金量极高,是某一细分领域的“领头雁”。下面深科信对“制造业单项冠军”(国家级、广东省级、深圳市级)的认定标准、奖励政策进行梳理 。 2023年9月25日,工信部办公厅正式发布《关于开展2023年制造业单项冠军…

【TensorFlow2 之012】TF2.0 中的 TF 迁移学习

#012 TensorFlow 2.0 中的 TF 迁移学习 一、说明 在这篇文章中,我们将展示如何在不从头开始构建计算机视觉模型的情况下构建它。迁移学习背后的想法是,在大型数据集上训练的神经网络可以将其知识应用于以前从未见过的数据集。也就是说,为什么…

linux 安装mysql

1、下载mysql安装包 2、创建mysql文件夹 mkdir /usr/local/mysql 3、解压mysql安装包,并将解压出来的文件夹下面的内容全部移动到/usr/local/mysql下 解压 tar zxvf mysql-5.7.39-linux-glibc2.12-x86_64.tar.gz 移动 mv /usr/local/src/mysql-5.7.39-linux-gl…

Unity设计模式——装饰模式

装饰模式(Decorator),动态地给一个对象添加一些额外的职责,就增加功能来说,装饰模式比生成子类更为灵活。 Component类: abstract class Component : MonoBehaviour {public abstract void Operation(); …

华为认证 | HCIP-Datacom,这门认证正式发布新版本!

华为认证数通高级工程师HCIP-Datacom-Campus Network Planning and Deployment V1.5(中文版)自2023年9月28日起,正式在中国区发布。 01 发布概述 基于“平台生态”战略,围绕“云-管-端”协同的新ICT技术架构,华为公司…

互联网性能和可用性优化CDN和DNS

当涉及到互联网性能和可用性优化时,DNS(Domain Name System)和CDN(Content Delivery Network)是两个至关重要的元素。它们各自发挥着关键作用,以确保用户能够快速、可靠地访问网站和应用程序。在本文中&…

软件工程与计算总结(六)需求分析方法

本贴介绍需求分析方法,涉及到诸多实践性的东西,掌握各种图表的绘制是重中之重~ 一.需求分析基础 1.原因 需求获取中得到的信息仅仅解释了用户对软件系统的理解与期待,使用的是实际业务的表达方式,还不是开发者能够立即加以实现…

【算法|动态规划No.16】leetcode931. 下降路径最小和

个人主页:兜里有颗棉花糖 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 兜里有颗棉花糖 原创 收录于专栏【手撕算法系列专栏】【LeetCode】 🍔本专栏旨在提高自己算法能力的同时,记录一下自己的学习过程,希望…

VSCODE+PHP8.2配置踩坑记录

VSCODEPHP8.2配置踩坑记录 – WhiteNights Site 我配置过的最恶心的环境之一:windows上的php。另一个是我centos服务器上的php。 进不了断点 端口配置和xdebug的安装 这个应该是最常见的问题了。从网上下载完php并解压到本地,打开vscode,安装…

基于SpringBoot的网上摄影工作室

目录 前言 一、技术栈 二、系统功能介绍 用户信息管理 作品分类管理 轮播图管理 摄影作品管理 摄影作品收藏 摄影圈 摄影作品发布 三、核心代码 1、登录模块 2、文件上传模块 3、代码封装 前言 随着信息技术在管理上越来越深入而广泛的应用,管理信息系统…

华为云云耀云服务器L实例评测|华为云上的CentOS性能监测与调优指南

目录 引言 ​编辑1 性能调优的基本要素 2 性能监控功能 2.1 监控数据指标 2.2 数据历史记录 2.3 多种统计指标 3 性能优化策略 3.1 资源分配 3.2 磁盘性能优化 3.3 网络性能优化 3.4 操作系统参数和内核优化 结论 引言 在云计算时代,性能优化和调优对于…

Qt QPair

QPair 文章目录 QPair 摘要QPairQPair 特点代码示例QPair 与 QMap 区别 关键字: Qt、 QPair、 QMap、 键值、 容器 摘要 今天在观摩小伙伴撸代码的时候,突然听到了QPair自己使用Qt开发这么就,竟然都不知道,所以趁没有被人发…

3、在 CentOS 8 系统上安装 PostgreSQL 15.4

PostgreSQL,作为一款备受欢迎的开源关系数据库管理系统(RDBMS),已经存在了三十多年的历史。它提供了SQL语言支持,用于管理数据库和执行CRUD操作(创建、读取、更新、删除)。 由于其卓越的健壮性…

k8s 集群部署 kubesphere

一、最小化部署 kubesphere 1、在已有的 Kubernetes 集群上部署 KubeSphere,下载 YAML 文件: wget https://github.com/kubesphere/ks-installer/releases/download/v3.4.0/kubesphere-installer.yaml wget https://github.com/kubesphere/ks-installer/releases/…

iPhone手机记笔记工具选择用哪个

iPhone手机大家应该都比较熟悉,其使用性能是比较流畅的,在iPhone手机上记录笔记可以帮助大家快速地进行总结工作、记录工作内容等,在iPhone手机上记笔记工具选择用哪个呢? 可以在iPhone手机上使用的笔记工具是比较多的&#xff0…

Andriod学习笔记(一)

写在前面的话 App开发的编程语言Java和KotlinXML App连接的数据库App工程目录结构模块级别的编译配置文件清单文件 界面显示与逻辑处理 安卓是一种基于Linux内核的自由及开放源代码的操作系统,主要使用于移动设备。 Mininum SDK表示安卓该版本以上的设备都可以运行该…

在Openresty中使用lua语言向请求浏览器返回请求头User-Agent里边的值

可以参考《Linux学习之Ubuntu 20.04在https://openresty.org下载源码安装Openresty 1.19.3.1,使用systemd管理OpenResty服务》安装Openresty。 然后把下边的内容写入到openresty配置文件/usr/local/openresty/nginx/conf/nginx.conf(根据实际情况进行选…