rgb fusion检测不到显卡_【论文阅读27】Co-Fusion

3723a1d5820db3e48c777ce06e4f828b.png

主要内容

  • 物体级别的语义SLAM。维护一个背景模型和多物体模型,每个模型由面元地图表示。
  • 基于运动分割语义信息检测运动物体。
  • 使用基于ICP对齐的几何误差和基于颜色差异的光度误差跟踪背景模型(相机位姿)和多个运动物体。
  • 根据[8]的方法更新每个模型的面元地图。
  • 开源代码地址:martinruenz/co-fusion。

M. Runz, L. Agapito. Co-fusion: Real-time segmentation, tracking and fusion of multiple objects. IEEE International Conference on Robotics and Automation, 2017.

摘要

本文中,我们介绍了Co-Fusion,一种稠密SLAM系统,以RGB-D图片流为输入,并分割场景为不同物体(使用运动或语义线索)同时实时跟踪和重建它们的3D形状。我们使用一个多模型拟合方法,其中每个物体能够独立于背景进行运动,并被有效地跟踪,并且它的形状使用与该物体标号关联的像素随时间被融合。之前试图解决动态场景的尝试一般假设运动区域为外点,并且不建模它们的形状或跟踪它们随时间的运动。相反地,我们让机器人维护每个物体的3D模型,并通过随时间的融合提高模型结果。因此,我们的系统能够使机器人以物体级别描述场景,具有和环境交互的潜力;甚至在动态环境中。

1. 介绍

虽然SLAM取得很大进步,但是大部分假设静态环境或把动态物体当做外点。但是,在机器人应用中,大多数在前景中运动的物体是机器人感兴趣的。如果我们想设计与动态环境交互的机器人,必须配置如下两个功能:(i)发现场景中的物体(ii)跟踪并估计物体的3D几何。这种高层基于物体的场景表示将会极大增强机器人的感知和交互能力。

本文中我们提出了Co-Fusion,一种新的基于RGB-D的SLAM系统,能够分割场景为背景和不同的前景物体,使用运动或语义信息,同时跟踪和重建它们的3D几何。系统提供两种可替换的分割策略——运动分割和物体实例分割。分割完成后,物体被添加到一组积极模型中,并被跟踪和融合。每个物体的跟踪和融合线程基于最近的基于面元的方法[8][30]。

本文主要贡献如下:

  • 允许机器人不仅重建周围环境而且能够获得未知物体的详细3D几何信息。
  • 系统能够使得机器人发现场景中的新物体,并通过主动运动学习准确的3D模型。

我们证实Co-Fusion在许多场景下——在桌子上放置之前未看到的不同物体并学习它们的几何(图1),手递手传递物体(图3),手持运动相机跟踪一个运动物体(图9)和一个驾驶场景(图5a)。我们也定量证实了跟踪和重建的鲁棒性。

edc244a3739944b9c43d46d62d68b914.png
图1. 一个序列,证实动态SLAM系统。三个物体被依次放置在桌子上:首先一个小篮子(蓝色标签),一个瓶子(黄色)和一个泰迪熊(绿色)。结果展示了所有物体被成功地分割,跟踪和建模。

2. 相关工作

微软Kinect设备和廉价深度相机的到来促进了实时3D扫描的研究。例如KinectFusion[14]的系统首先使得实时准确地建图任意室内场景几何变得可能,通过融合深度相机获得的图片通过在环境中移动相机。准确和稠密3D几何的实时获取开启了快速扫描或AR/VR和移动机器人的应用,之前通过离线或稀疏技术是不可能做到的。KinectFusion的后继者快速解决了一些缺点。虽然这些主要关注处理大场景的扩展[7][29][15][31]或包括回环[30],增强跟踪的鲁棒性[31]或增加的内存和尺度效率通过使用基于点而不是体素表示[8],得到增加的3D重建质量[10]。获得更高层次的语义场景理解通过使用一个稠密平面表示[21]或者实时3D物体识别[22]进一步提高跟踪表现同时打开了与场景的虚拟或真实交互。更近的方法例如[25][11]实时组合语义分割甚至识别到SLAM系统中。虽然他们展示了令人印象深刻的表现,他们仍然限制在静态场景。

许多传统SLAM和稠密重建系统的核心潜在假设是场景大部分静态。这些稠密系统如何被扩展到跟踪和重建更多的模型而不妥协实时表现?SLAMMOT项目[28]向动态环境中的SLAM框架迈出了重要的一步通过组合运动物体的检测和分割到SLAM操作中。它主要在驾驶场景中验证并限制为稀疏重建。最近稠密动态环境的实时重建问题才被解决。大多数工作致力于实时捕捉非刚体几何通过RGB-D相机。假设是相机观测的单个物体随着时间自由分解。DynamicFusion[13]是弹幕实时系统的一个主要例子,其融合来自深度传感器的可分解物体的帧而不需要任何预训练模型或形状模板。通过使用多个RGB-D传感器,4DFusion[2]能够捕捉实时可分解形状以非常细节的层次,并能够处理较大的分解和拓扑变化。另一方面,基于模板的技术也能够获得高度真实的结果,但是它们限制在需要增加模板的获取步骤[32]或者致力于跟踪特定的物体通过使用手工设计的或预训练的模型[26]。这些包括一般的人工跟踪方法,或者需要物体在某个位姿下的几何模板[27],或者骨架结构的先验知识[23]。

相反地,捕捉动态场景的全几何可能包含更多运动物体,但是仍然没有收到很大关注。Ren等人[18]提出一种同时跟踪和重建3D物体的方法通过精修一个初始简单形状实体。但是,与我们的方法相反,它只能跟踪一个运动物体并需要一个手工初始化。[12]提出一个组合的方法用于估计人造物的位姿,形状和运动学结构基于运动分割。虽然它业绩预联合跟踪和分割,关注点在于发现人造物,只有前景物体被重建,并且它的表现不是实时的。Stuckler和Behnke[24]提出了一个稠密刚体运动分割算法用于RGB-D序列。他们只分割RGB-D图片并估计运动但是不同时重建物体。最终[3]构建一个环境模型并使用变化检测考虑场景中变得与模型不一致的新物体部分。但是,该方法需要一个人在环中来获得一个已知的正确的分割并且不提供实时操作。

一些最近的纯RGB方法也解决了动态场景的单目3D重建问题。例如[20][4][9]的工作类似我们的同时分割,跟踪和重建方法。Russell等人[20]执行多模型拟合来分解场景为逐片刚体部分,被组合以形成单个物体。他们方法的优点是处理非刚体,刚体或人造物混合的灵活性。Fragkiadaki等人[4]跟随一个流程方法,首先执行长期跟踪并聚类为不同物体,然后执行非刚体重建。但是,这些方法都执行稀疏跟踪,并且都是批处理方法,需要提前知道所有帧。我们的方法也和[19]的稠密RGB多目标重建方法有相似之处,其执行同时分割,跟踪和多刚体模型的3D重建,不同的是我们的方法是在线实时的,而他们的方法是批处理方法,每帧需要几秒来执行。

3. 方法综述

dc14b08c618742886d64f22020813e63.png
图2. 方法综述

Co-Fusion是一个在线RGB-D SLAM系统,能够实时处理每个新帧。同时维护一个背景的细节几何全局模型和每个物体的模型,并跟踪每个物体的运动。每个模型存储为一组点。我们的系统维护两组物体模型:积极模型是当前可见的物体,消极模型是曾经可见的物体。

图2展示了我们系统的逐帧操作。在一开始,场景被初始化单个积极模型——背景。一旦融合的背景3D模型和相机位姿稳定后,对每个新帧,接下来的步骤被执行:

跟踪。首先,我们跟踪每个积极模型在当前帧的6DoF位姿。这通过对每个物体最小化一个基于稠密ICP对齐的几何误差和基于当前帧中的点和存储3D模型中的点之间的颜色差的光度代价的目标函数。

分割。在该步骤,我们分割当前帧的像素属于某一个积极模型/物体。我们的系统基于运动和语义标号进行分割。

1)运动分割。我们将运动分割构建为一个使用全连接条件随机场的标号问题,并使用[9]中的高效方法在CPU上实时优化。标号后是连通区域提取。如果连通区域大部分被外点占据,则认为该区域对应一个物体,并建立一个新模型。

2)多类别图片分割。使用[16]基于语义的方法分割图片。

融合。使用新估计的6DOF位姿,每个积极模型的稠密3D几何被更新通过融合属于该模型的标号点。我们使用基于面元的融合方法[8][30]。

注:论文[8]的详细分析详见

robot L:【论文阅读25】Flat Point/Surfel-based Fusion​zhuanlan.zhihu.com
05cc48d2377160511a6afa8122da57d1.png

4 记号和预备知识

使用

表示2D图片域,由像素坐标
组成,齐次形式为
。一帧RGB-D包含深度图
和一个彩色图
。灰度值记作
。3D点
到像素的投影表示为
,其中

反投影为

本文将每个物体用一个面元地图进行表示。一个面元地图记作

,其中每个面元
,分别表示位置,法向量,颜色,权重,半径和两个时间戳(最旧和最新)。

本文使用

表示
时刻的物体位姿集合。
将面元地图
中的点变换到全局参考系中。特别地,我们使用
表示背景模型的位姿变换(即相机在全局参考系中的位姿)。

5 跟踪积极模型

A 能量

对于每个面元地图

,最小化一个代价函数,其包括基于点面ICP的几何项和光度彩色项

(1)

B 几何项

对于每个面元地图

,我们想最小化(i)当前深度地图的3D反投影和(ii)来自前一帧
的预测深度地图之间的点面ICP配准误差:

(2)

其中

是当前帧深度图中的点,
时刻的预测深度点,
是对齐
时刻模型的变换。

C 光度颜色项

(2)

为了提高效率,采用四层金字塔策略。GPU应用采用[30]的开源代码。

6 运动分割

在跟踪步骤结束后,我们有了跟踪物体们的位姿的新估计

接下来,我们需要将当前

时刻的像素分类,属于跟踪的某个物体或者不属于任何物体。假设跟踪的物体个数有
个,现在我们需要寻找一个映射
,分配一个标号
给每个像素点
,其中
是外点标号(不属于任何跟踪物体)。

为了在CPU上实时进行运动分割,我们首先过分割当前帧图片为SLIC超像素使用[17]的快速应用,并在这些超像素上使用标号算法。超像素的位置,颜色和深度被估计通过平均内部所有像素的结果。

然后遵循[9]的能量最小化方法,优化超像素的标号集合

(4)

其中

遍历所有的超像素(超像素一共有
个)。

后处理。首先融合所有相连的具有相似几何变换的模型。其次抑制不相连的具有相同标号的模型,除了该标号模型的最大的连通块之外。

7 物体实例分割

使用物体实力分割[16]中排名靠前的SOTA方法来分割感兴趣物体。

8 融合

使用类似[8]的方法融合并更新面元模型。

9 评估

我们执行一个定量的评估同时在具有真值数据的仿真和真实序列中。合适的具有Kinect类似噪声的仿真序列[6]被特别地创建为该工作(ToyCar3和Room4)并且已经公开可用了,伴随着评测工具。为了得到真是数据的真值,我们在一组物体上贴上了标签如图10所示,并且使用NextEngine 3D扫描仪准确地重建它们。该场景被记录使用一个运动捕捉系统(OptoTrack)以获得轨迹的真值数据。一个Asus Xtion被使用以获取真实序列。虽然在我们的流程中每个阶段的质量依赖其他阶段的表现,即较差的分割也许导致较差的重建,评估不同的模块还是有价值的。

位姿估计。我们比较了估计和真值轨迹通过计算绝对轨迹(AT)均方根误差(RMSE)对于场景中的每个物体。在仿真数据中的结果被展示在表2和图7中。在真实序列中的结果被放在补充材料中(Co-Fusion: Real-time Segmentation, Tracking and Fusion of Multiple Objects)。

4ea8a4040a322109efbaab0c0c7bdc54.png
表2. 估计轨迹的AT-RMSEs用于我们的仿真序列(毫米)。

7074f490b5e112f718872d2e9ea3bcd1.png
图7. 估计轨迹和真值的比较对于每个物体在(a)ToyCar3和(b)Room4序列中。IoU测量对于每个标签和每帧在(c)ToyCar3和(d)Room4序列中。car1和car2的图开始较晚,因为之前该物体还没有被分割。

运动分割。因为分割阶段的结果是纯2D的,分割质量的传统度量被使用。我们计算交并比(IoU)测量对于每个编号对于仿真序列的每帧(我们没有真值分割对于真实序列)。图7展示了在ToyCar3和Room4序列中的IoU。

融合。为了获取融合质量,我们可以分别或联合检验每个物体的3D重建误差,通过在同一个坐标系统中输出几何。该误差强烈依赖跟踪,但是很好地突出了整个系统的质量。对于积极模型的统一地图中的每个面元,我们计算到真值网格上最近点的距离,在对齐两个表示之后。图8可视化了重建误差通过一个热度图,并突出了与ElasticFusion的差异。对于真实场景Esone1我们独立地计算每个物体的3D重建误差。结果展示在表1和图10中。

c50cc81e12094f4ab68860272a31ee1b.png
图10. Esone1序列的图示。标记被添加到真实3D物体上,并使用OptiTrack系统跟踪。高度准确的3D扫描仪被用于获取物体几何的真值数据以允许定量评估。

定性结果。我们执行一组定性实验来证实Co-Fusion的能力。它的一个优点是放宽了3D扫描过程,因为我们不需要依赖静态世界假设。特别地,用户可以一只手手持并旋转一个物体,另一只手在物体周围移动深度传感器。这种操作模式提供了更多的灵活性,与需要转盘的方法相比。图9展示了实验结果。

e446dff2bdf0e9da17f2dc8f7ab87aa9.png
图9. 手持泰迪熊的重建结果。左手需要旋转熊,右手移动RGB-D传感器,需要跟踪两个独立的运动。

我们的最终证实展示了Co-Fusion连续跟踪和精修物体当它们被一个接着一个被放置到桌面上时,如图1所示。成功分割的结果被展示在图1(b)中。

部分参考文献

[8] M. Keller, D. Lefloch, M. Lambers, S. Izadi, T. Weyrich, and A. Kolb. Real-time 3d reconstruction in dynamic scenes using point-based fusion. In International Conference on 3D Vision, 3DV, Washington, DC, USA, 2013. IEEE Computer Society.

[9] P. Krahenbuhl and V. Koltun. Efficient inference in fully connected crfs with gaussian edge potentials. In Advances in Neural Information Processing Systems. Curran Associates, Inc., 2011.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/355815.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

修改linux系统用户最大线程数限制

linux系统对线程数量有个最大限制,当达到系统限制的最大线程数时使用账号密码ssh到系统时是无法登陆的,会报Write failed: Broken pipe,或者是shell request faied on chanel 0。在root用户下切换到该用户也会报错,su clouder&…

u盘插在电脑上灯亮没有反应_u盘插入电脑无反应怎么解决 u盘插入电脑无反应解决方法【步骤介绍】...

u盘的轻巧、便捷使其在生活工作中重要的工具设备,在使用u盘的过程中插入的 u盘无法识别 ,电脑对插入的u盘无反应,遇到这样的问题该怎么办呢?接下来小编就和大家介绍 电脑无法识别u盘 的解决办法。1 、使用其它的移动设备插在电脑usb接口上&a…

recaptcha_与reCAPTCHA的Spring集成

recaptcha有时我们只需要CAPTCHA ,这是一个可悲的事实。 今天,我们将学习如何与reCAPTCHA集成。 因为主题本身并不是特别有趣和高级,所以我们将通过使用Spring Integration处理低级细节来过度设计(?)。 Goo…

vbs关不掉的计算机窗口,恶搞之关不掉的窗口.vbs脚本

过完小年,到处都是过年的气息,给大家介绍一些轻松好玩的东西:一个好玩的脚本——关不掉的窗口。1、在电脑上创建一个XXX.txt文本,把代码复制进去,不要写注释,也不要在句尾留空格,保存&#xff0…

honeywell新风系统控制面板说明_如何选择新风系统中的新风设备万家舒适家

喜欢点击蓝字关注我们吧我们常说“看人不光要看外表,更要看内在”,这个说法对新风机同样适用。新风机的内部件主要分为:动力模块、电控模块、净化模块、热交换模块这四个部分。首先、动力模块,就是风机。从我们消费者角度来看&…

第八周学习进度条

转载于:https://www.cnblogs.com/baiyue/p/7110849.html

keras 生成句子向量 词向量_在Keras模型中使用预训练的词向量

在Keras模型中使用预训练的词向量文章信息通过本教程,你可以掌握技能:使用预先训练的词向量和卷积神经网络解决一个文本分类问题本文代码已上传到Github本文作者:Francois Chollet什么是词向量?”词向量”(词嵌入)是将一类将词的语义映射到向…

设计模式的Java 8 Lambda表达式–策略设计模式

策略模式定义封装在通常称为Context的驱动程序类中的一系列算法,并使这些算法可互换。 它使算法易于互换,并提供了在特定时间选择适当算法的机制。 算法(策略)在运行时由客户端或上下文选择。 在与客户端交互期间,Con…

2016美国计算机研究生,2016美国留学:美国大学研究生计算机工程专业排名

排名学校名称学校英文名所在地学费/年1Massachusetts Instituteof TechnologyCambridge, MA$44,7201StanfordUniversityStanford, CA$47,0731University ofCalifornia—BerkeleyBerkeley, CA$26,3224卡耐基梅隆大学Carnegie MellonUniversityPittsburgh, PA$41,0005伊利诺伊大学…

hdu 4961 Boring Sum(高效)

题目链接&#xff1a;hdu 4961 Boring Sum 题目大意&#xff1a;给定ai数组; 构造bi, kmax(j|0<j<i,aj%ai0), biak;构造ci, kmin(j|i<j≤n,aj%ai0), ciak; 求∑i1nbi∗ci解题思路&#xff1a;由于ai≤105,所以预先处理好每一个数的因子&#xff0c;然后在处理bi&#…

sata修改为ahci后系统无法启动_固态重装系统

固态硬盘凭借其高速的读写速度&#xff0c;已经成为现如今很多用户电脑的标配。对于刚刚为电脑换上固态硬盘的用户来说&#xff0c;固态硬盘里并没有装有系统&#xff0c;因此首要任务就是进行重装系统win10。那么&#xff0c;固态硬盘如何装系统呢?为固态硬盘重装系统&#x…

幼儿课外活动游戏_幼儿园户外游戏活动大全

幼儿园户外游戏活动大全幼儿园户外游戏活动收集《玩转小布球》游戏目标&#xff1a;进行抛、接、跳、投等多种动作技能的练习&#xff0c;发展幼儿的上、下肢力量和身体协调等多种素质&#xff0c;激发幼儿的练习兴趣。游戏准备&#xff1a;利用废旧布的边角余料&#xff0c;缝…

复旦大学计算机保研经历,#易保研#经验分享 | 个人经历分享,圆梦复旦大学!...

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼先介绍下我的情况&#xff0c;南京某大学对外汉语本科生&#xff0c;保研到复旦大学汉语国际教育硕士。这次和大家分享自己的保研经历&#xff0c;纯属是因为两个月前我也是对保研各种迷茫&#xff0c;完全不知道有哪些程序、手续&…

构建之法---初识篇(软件工程师的成长和两人合作)

这周主要看的是第三章和第四章:软件工程师的成长和两人合作&#xff0c;首先衔接上一次的第二章的内容&#xff0c;继续了解如何成为一个合格的软件工程师&#xff0c;当我们真正成为一个合格的软件工程师的时候&#xff0c;我们就应该进行团队合作了&#xff0c;首先从最基础的…

10年老电脑如何提速_中国电信宣布将对宽带免费提速,最高500Mbps

电信宽带用户们有福了&#xff01;中国电信宣布&#xff0c;自11月9日到12月31日&#xff0c;启动“智慧生活好物节&#xff0c;宽带免费加速度”活动&#xff0c;对接入速率200Mbps以下的电信光纤宽带家庭用户&#xff0c;免费在线提速到200Mbps。接入速率大于等于200Mbps但小…

gromacs 安装_带你入门带你飞 gromacs材料计算模拟系列

为了帮助大家了解掌握gromacs材料计算模拟计算&#xff0c;材料人于9月28日举办该主题研讨会。视频回看已经上线。培训内容1 GROMACS入门操作基础1.1掌握GROMACS所用的Linux命令1.2 GROMACS的linux版编译安装1.3 GROMACS各种输入输出文件讲解1.4 GROMACS力场讲解2 GROMACS建模2…

计算机c盘能分区吗,电脑C盘怎么分区

电脑C盘怎么分区C盘是指电脑硬盘主分区之一&#xff0c;一般用于储存或安装系统使用。针对安装在本地硬盘的单操作系统来说&#xff0c;是默认的本地系统启动硬盘。下面是jy135小编收集整理的电脑C盘怎么分区&#xff0c;欢迎阅读。以Windows 7为例&#xff0c;鼠标右键选择计算…

PCB-电解电容的封装

点击到完成即可 转载于:https://www.cnblogs.com/liangjinjie/p/6719605.html

osgi导出包和非导出包_了解如何解决OSGI捆绑包

osgi导出包和非导出包我想回顾一下OSGI包如何解决并使用Apache Karaf进行演示。 Karaf是基于Apache Felix内核的功能齐全的OSGI容器&#xff0c;并且是Apache ServiceMix集成容器的基石。 对于第一部分&#xff0c;我将讨论OSGI框架如何解决捆绑包。 在第二部分中&#xff0c;我…

java虚拟机_Oracle独家:Java虚拟机学习指南

大家好&#xff0c;我是极客时间《深入拆解 Java 虚拟机》作者、Oracle Labs 高级研究员郑雨迪。有幸借这个专题的机会&#xff0c;能和大家分享为何 Java 工程师要学 Java 虚拟机&#xff1f;如何掌握 Java 虚拟机&#xff1f;工欲善其事&#xff0c;必先利其器“为什么学 Jav…