TartanVO: A Generalizable Learning-based VO 论文阅读

论文信息

题目:TartanVO: A Generalizable Learning-based VO
作者:Wenshan Wang, Yaoyu Hu
来源:ICRL
时间:2021
代码地址:https://github.com/castacks/tartanvo

Abstract

我们提出了第一个基于学习的视觉里程计(VO)模型,该模型可推广到多个数据集和现实场景,并且在具有挑战性的场景中优于基于几何的方法。

我们通过利用 SLAM 数据集 TartanAir 来实现这一目标,该数据集在具有挑战性的环境中提供了大量多样化的合成数据。此外,为了使我们的 VO 模型能够跨数据集泛化,我们提出了一个大规模损失函数,并将相机内在参数合并到模型中。

实验表明,仅在合成数据上进行训练且无需任何微调的单一模型 TartanVO 可以推广到现实世界的数据集(例如 KITTI 和 EuRoC),在具有挑战性的轨迹上表现出相对于基于几何的方法的显着优势。

Introduction

基于几何的方法 [2,3,4,5] 和基于学习的方法 [6,7,8,9] 都取得了令人印象深刻的进展。然而,为实际应用开发稳健可靠的 VO 方法仍然是一个具有挑战性的问题

一方面,基于几何的方法在许多现实生活中不够稳健[10, 11]。

另一方面,虽然基于学习的方法在许多视觉任务上表现出了强大的性能,包括对象识别、语义分割、深度重建和光流,但我们还没有看到同样的情况发生在 VO 上。

现有的 VO 模型训练的多样性不足,这对于基于学习的方法能够泛化至关重要。
其次,当前大多数基于学习的 VO 模型都忽略了问题的一些基本性质,而这些性质在基于几何的 VO 理论中得到了很好的阐述。

为此,我们提出了一种基于学习的方法,可以解决上述两个问题,并且可以跨数据集泛化。我们的贡献有三个方面。

  1. 我们通过比较不同数量的训练数据的性能来证明数据多样性对 VO 模型泛化能力的关键影响。
  2. 我们设计了一个尺度损失函数来处理单目 VO 的尺度模糊性。
  3. 我们在 VO 模型中创建一个内在层 (IL),以实现跨不同相机的泛化。

Related Work

为了提高性能,端到端 VO 模型往往具有与相机运动相关的辅助输出,例如深度和光流。通过深度预测,模型通过在时间连续图像之间施加深度一致性来获取监督信号 [17, 21]。此过程可以解释为匹配 3D 空间中的时间观察结果。时间匹配的类似效果可以通过产生光流来实现,例如,[16,22,18]联合预测深度、光流和相机运动。

光流也可以被视为明确表达 2D 匹配的中间表示。然后,相机运动估计器可以处理光流数据,而不是直接处理原始图像[20, 23]。如果以这种方式设计,甚至可以根据可用的光流数据单独训练用于估计相机运动的组件[19]。我们遵循这些设计并使用光流作为中间表示

众所周知,单目 VO 系统存在尺度模糊性。然而,大多数监督学习模型没有处理这个问题,而是直接使用模型预测和真实相机运动之间的差异作为监督[20,24,25]。在[19]中,通过将光流划分为子区域并在这些区域之间施加运动预测的一致性来处理尺度。在非学习方法中,如果 3D 地图可用,则可以解决尺度模糊性[26]。 Ummenhofer 等人[20]引入深度预测来校正尺度漂移。 Tateno 等人 [27] 和 Shen 等人 [28] 通过利用 SLAM 系统的关键帧选择技术改善了尺度问题。最近,Zhan 等人[29]使用 PnP 技术来显式求解比例因子。上述方法给 VO 系统带来了额外的复杂性,然而,对于单目设置,尤其是在评估阶段,尺度模糊性并没有完全被抑制。

相反,一些模型选择只产生符合规模的预测。 Wang等人[30]通过在计算损失函数之前对深度预测进行归一化来减少单目深度估计任务中的尺度模糊性。同样,我们将通过定义新的最大尺度损失函数,专注于预测平移方向,而不是从单目图像中恢复全尺寸。

当对来自新环境或新相机的图像进行测试时,基于学习的模型会遇到泛化问题。大多数 VO 模型都是在同一数据集上进行训练和测试的 [16,17,31,18]。一些多任务模型[6,20,32,22]仅测试其在深度预测上的泛化能力,而不是在相机姿态估计上的泛化能力。最近的努力,例如[33],使用模型适应来处理新环境,但是,需要在每个环境或每个摄像机的基础上进行额外的训练。在这项工作中,我们提出了一种通过将相机内在函数直接合并到模型中来实现跨相机/数据集泛化的新颖方法。

Approach

Background

我们关注单目 VO 问题,该问题采用两个连续的未失真图像 { I t , I t + 1 } \{I_t, I_{t+1}\} {It,It+1},并估计相对相机运动 δ t t + 1 = ( T , R ) δ^{t+1}_t = (T, R) δtt+1=(T,R),其中 T ∈ R 3 T ∈ \mathbb{R}^3 TR3 是 3D 平移, R ∈ s o ( 3 ) R ∈ so (3) Rso(3) 表示 3D 旋转。根据对极几何理论[3​​4],基于几何的 VO 有两个方面。

首先,从 I t I_t It I t + 1 I_{t+1} It+1中提取并匹配视觉特征。
然后使用匹配结果,计算导致恢复最大尺度相机运动 δ t t + 1 δ^{t+1}_t δtt+1的基本矩阵。

我们的模型由两个子模块组成。
一个是匹配模块 M θ ( I t , I t + 1 ) M_θ(I_t, I_{t+1}) Mθ(It,It+1),从两个连续的 RGB 图像(即光流)。
另一个是位姿模块 P ϕ ( F t t + 1 ) P\phi(F_t^{t+1}) (Ftt+1),它从匹配结果中恢复相机运动 δ t t + 1 δ_t^{t+1} δtt+1(图 1)。
这种模块化设计也广泛应用于其他基于学习的方法,特别是无监督 VO
在这里插入图片描述

Training on large scale diverse data

泛化能力一直是基于学习的方法最关键的问题之一。之前的大多数监督模型都是在 KITTI 数据集或由微型飞行器(MA V)收集的 EuRoC 数据集 [36]。

大多数无监督方法也只在非常统一的场景中训练模型(例如 KITTI 和 Cityscape [37])。据我们所知,目前还没有基于学习的模型表现出在多种类型场景(汽车/MA V、室内/室外)上运行的能力。为了实现这一目标,我们认为训练数据必须涵盖不同的场景和运动模式。

TartanAir [11] 是一个大规模数据集,具有高度多样化的场景和运动模式,包含超过 400,000 个数据帧。它提供多模态地面真实标签,包括深度、分割、光流和相机姿势。场景包括室内、室外、城市、自然和科幻环境。数据通过模拟针孔相机收集,该相机在 3D 空间中以随机且丰富的 6DoF 运动模式移动。

我们在任务中利用单目图像序列 { I t } \{I_t\} {It}、光流标签 { F t t + 1 } \{F ^{t+1}_t \} {Ftt+1} 和地面实况相机运动 { δ t t + 1 } \{δ^{t+1}_t\} {δtt+1}。我们的目标是共同最小化光流损耗 L f L_f Lf 和相机运动损耗 L p L_p Lp。端到端损耗定义为:
在这里插入图片描述

Up-to-scale loss function

在大多数现有的基于学习的VO研究中,模型通常忽略尺度问题并尝试用尺度来恢复运动。如果模型是使用相同的相机并在相同类型的场景中进行训练和测试的,这是可行的。但一旦相机发生变化就不可行。

按照基于几何的方法,我们仅从单目序列中恢复最大尺度的相机运动。知道尺度模糊度只影响平移 T T T ,我们为 T T T 设计了一个新的损失函数,并保持旋转 R R R 的损失不变。我们为 L P L_P LP 提出了两个大规模损失函数:余弦相似度损失 L p c o s L^{cos}_p Lpcos 和归一化距离损失 L p n o r m L^{norm}_p Lpnorm L p c o s L^{cos}_p Lpcos 由估计的 T ^ \hat{T} T^ 和标签 T T T 之间的余弦角定义:
在这里插入图片描述

Cross generalization by encoding camera intrinsics

在对极几何理论中,从基本矩阵恢复相机位姿时需要相机本征(假设图像未失真)。事实上,基于学习的方法不太可能推广到具有不同相机内在特性的数据。想象一个简单的情况,相机更换了更大焦距的镜头。假设图像的分辨率保持不变,相同量的相机运动将引入更大的光流值,我们称之为内在模糊度。

对于内在模糊性的一个诱人的解决方案是扭曲输入图像以匹配训练数据的相机内在。然而,这不太实用,尤其是当相机差异太大时。如图2-a所示,如果模型在TartanAir上训练,扭曲的KITTI图像仅覆盖TartanAir视野(FoV)的一小部分。训练后,模型学会利用视场中所有可能位置的线索以及这些线索之间的相互关系。扭曲的 KITTI 图像中不再存在一些线索,导致性能急剧下降。
在这里插入图片描述

Instrinsics layer

我们建议训练一个以 RGB 图像和相机内部参数作为输入的模型,以便于该模型可以直接处理来自各种相机设置的图像。
具体来说,我们设计了一个新的姿态网络 P ϕ ( F t t + 1 , K ) P_\phi(F^{t+1}_t , K) Pϕ(Ftt+1,K),而不是仅从特征匹配 F t t + 1 F^{t+1}_t Ftt+1 中恢复相机运动 T t t + 1 T^{t+1}_t Ttt+1 ,该网络也取决于相机内在参数 K = { f x , f y , o x , o y } K = \{f_x ,f_y,o_x,o_y\} K={fx,fy,ox,oy},其中 f x f_x fx f y f_y fy是焦距, o x o_x ox o y o_y oy表示主点的位置。
在这里插入图片描述

Data generation for various camera intrinsics

为了使模型可以跨不同相机推广,我们需要具有各种相机内在特性的训练数据。
TartanAir 只有一组相机内在函数,其中 f x = f y = 320 、 o x = 320 f_x = f_y = 320、o_x = 320 fx=fy=320ox=320 o y = 240 o_y = 240 oy=240。我们通过随机裁剪和调整输入图像大小 (RCR) 来模拟各种内在函数。

如图3所示,我们首先在随机位置以随机大小裁剪图像。接下来,我们将裁剪后的图像调整为原始大小。
在这里插入图片描述
IL 的优点之一是,在 RCR 期间,我们可以使用图像裁剪 IL 并调整其大小,而无需重新计算 IL。为了覆盖 FoV 在 40° 到 90° 之间的典型相机,我们发现在 RCR 期间使用高达 2.5 的随机调整大小因子就足够了。
请注意,地面实况光流还应根据调整大小因子进行缩放。我们在训练中使用非常积极的裁剪和移动,这意味着光学中心可能远离图像中心。尽管所得的内在参数在现代相机中并不常见,但我们发现泛化能力得到了提高

Experimental

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/29231.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Grafana技术文档-概念-《十分钟扫盲》

Grafana官网链接 Grafana: The open observability platform | Grafana Labs 基本概念 Grafana是一个开源的度量分析和可视化套件,常用于对大量数据进行实时分析和可视化。以下是Grafana的基本概念: 数据源(Data Source)&#…

新一代开源流数据湖平台Apache Paimon入门实操-下

文章目录 实战写表插入和覆盖数据更新数据删除数据Merge Into 查询表批量查询时间旅行批量增量查询 流式查询时间旅行ConsumerID 查询优化 系统表表指定系统表分区表全局系统表维表 CDC集成MySQLKafka支持schema变更 实战 写表 插入和覆盖数据 可以使用INSERT语句向表中插入…

RISC-V公测平台发布:如何在SG2042上玩转OpenMPI

About HS-2 HS-2 RISC-V通用主板是澎峰科技与合作伙伴共同研发的一款专为开发者设计的标准mATX主板,它预装了澎峰科技为RISC-V高性能服务器定制开发的软件包,包括各种标准bencmark、支持V扩展的GCC编译器、计算库、中间件以及多种典型服务器应用程序。…

C语言内嵌汇编

反编译(二进制文件或者so库) objdump --help objdump -M intel -j .text -ld -C -S out > out.txt #显示源代码同时显示行号, 代码段反汇编-M intel 英特尔语法-M x86-64-C:将C符号名逆向解析-S 反汇编的同时,将反汇编代码和源代码交替显…

机器学习深度学习——非NVIDIA显卡怎么做深度学习(坑点排查)

👨‍🎓作者简介:一位即将上大四,正专攻机器学习的保研er 🌌上期文章:机器学习&&深度学习——数值稳定性和模型化参数(详细数学推导) 📚订阅专栏:机器…

conda install 和pip install有什么区别?

本篇为分享贴,截图部分选自知乎,部分选自csdn,文字内容是结合自己实践进行总结。 环境引用的包在哪? 首先,一条命令: python -m site 这条命令可以定位引用的包在哪里 ,当然也可以自己设置默认…

JavaWeb(9)——前端综合案例3(悬停显示下拉列表)

一、实例需求 ⌛ 实现类似百度首页的“一个简单的鼠标悬停显示的下拉列表效果”。 二、代码实现 ☕ <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Title</title><style>.dropdown-cont…

iframe 标签的作用是什么?用法是什么?属性有什么?

聚沙成塔每天进步一点点 ⭐ 专栏简介⭐ iframe 标签是什么&#xff1f;⭐ iframe 标签的作用什么&#xff1f;⭐ iframe 标签的用法⭐ iframe 标签的属性⭐ 写在最后 ⭐ 专栏简介 前端入门之旅&#xff1a;探索Web开发的奇妙世界 记得点击上方或者右侧链接订阅本专栏哦 几何带你…

【单片机】51单片机,TLC2543,驱动程序,读取adc

TLC2543 是一款 12 位精密模数转换器 (ADC)。 1~9、11、12——AIN0&#xff5e;AIN10为模拟输入端&#xff1b; 15——CS 为片选端&#xff1b; 17——DIN 为串行数据输入端&#xff1b;&#xff08;控制字输入端&#xff0c;用于选择转换及输出数据格式&#xff09; 16——…

机器学习复习题

1 单选题 ID3算法、C4.5算法、CART算法都是&#xff08; &#xff09;研究方向的算法。 A . 决策树 B. 随机森林 C. 人工神经网络 D. 贝叶斯学习 参考答案&#xff1a;A &#xff08; &#xff09;作为机器学习重要算法之一&#xff0c;是一种利用多个树分类器进行分类和预测…

chatGPT能力培训,客户最关注的99个方向

前言&#xff1a; chatGPT的主要应用&#xff0c;包括文本生成、图像生成和图文关联三大核心方向&#xff1a; 用户的在实际的工作和学习过程中&#xff0c;最关心的内容&#xff0c;可以按照上述类别进行划分&#xff0c;我们总结了&#xff0c;相关的插头GPT能力培训的相关主…

DAY04_SpringMVC—SpringMVC简介PostMan和ApiFox工具使用SpringMVC请求与响应REST风格

目录 一 SpringMVC简介1 SpringMVC概述问题导入1.1 SpringMVC概述 2 入门案例问题导入2.0 回顾Servlet技术开发web程序流程2.1 使用SpringMVC技术开发web程序流程2.2 代码实现【第一步】创建web工程&#xff08;Maven结构&#xff09;【第二步】设置tomcat服务器&#xff0c;加…

【iOS安全】开启任意app的WebView远程调试

参考&#xff1a;https://mp.weixin.qq.com/s/bNKxQaVrPaXsZ5BPbsXy7w &#xff08;来自周智老师的公众号&#xff09; 概述 Safari 有一个内置的前端调试器&#xff0c; 在iPhone通过局域网或者USB连接MacBook 并启用Safari 远程调试之后&#xff0c;前端调试器默认情况下对…

构建Docker容器监控系统 (1)(Cadvisor +InfluxDB+Grafana)

目录 Cadvisor InfluxDBGrafana 1. Cadvisor 2.InfluxDB 3.Grafana 开始部署&#xff1a; 下载组件镜像 创建自定义网络 创建influxdb容器 创建数据库和数据库用户 创建Cadvisor 容器 准备测试镜像 创建granafa容器 访问granfana 添加数据源 Add data source 新建 …

java.sql.SQLFeatureNotSupportedException 问题及可能的解决方法

目录 问题 分析&#xff1a; 解决方法 问题 java.sql.SQLFeatureNotSupportedException 分析&#xff1a; 可能是你的 druid的maven依赖版本太低了&#xff0c;我的以前是1.1.16&#xff0c;就出现了异常&#xff01; 解决方法 把druid的maven依赖版本调高&#xff01; 运…

unity海康威视原生SDK拉取网络摄像头画面,并展示在一个Material上

原理是使用sdk获取视频流&#xff0c;格式为YUV&#xff0c;然后分离YUV通道到三张不同的Texture2D上&#xff0c;通过shader将三个通道重新输出为原始图像。 我将所用的各个部分已经整理成一个压缩包&#xff0c;免积分下载 压缩包结构如下 使用步骤 1 DLL:放在Plugins文件…

湘大oj1138爱你一生一世题解:最大公约数 逆向思维 int整除会向下取整

一、链接 爱你一生一世 二、题目 题目描述 在2013年1月4日&#xff0c;这个“爱你一生一世”的特别日子&#xff0c;男生都想向自己的喜欢的女生表达爱意。 你准备在该死的C语言考试后&#xff0c;去向她&#xff08;或者他&#xff1f;&#xff09;告白。告白怎么能缺了礼…

渗透攻击方法:原型链污染

目录 一、什么是原型链 1、原型对象 2、prototype属性 3、原型链 1、显示原型 2、隐式原型 3、原型链 4、constructor属性 二、原型链污染重现 实例 Nodejs沙箱逃逸 1、什么是沙箱&#xff08;sandbox&#xff09; 2、vm模块 一、什么是原型链 1、原型对象 JavaS…

不只是Axure,这5 个也能轻松画原型图!

在设计和开发过程中&#xff0c;原型图是一个至关重要的工具。它是将设计理念转化为可视化、交互式的形式&#xff0c;使团队成员和利益相关者更好地理解和评估产品的功能和用户体验。选择适合的软件工具对于画原型图至关重要&#xff0c;本文将介绍 5 种常用的画原型图软件&am…

spring 面试题

一、Spring面试题 专题部分 1.1、什么是spring? Spring是一个轻量级Java开发框架&#xff0c;最早有Rod Johnson创建&#xff0c;目的是为了解决企业级应用开发的业务逻辑层和其他各层的耦合问题。它是一个分层的JavaSE/JavaEE full-stack&#xff08;一站式&#xff09;轻量…