【佳佳怪文献分享】使用点云从半监督到全监督房间布局估计

标题:From Semi-supervised to Omni-supervised Room Layout Estimation Using Point Cloud

作者:Huan-ang Gao, Beiwen Tian, Pengfei Li, Xiaoxue Chen, Hao Zhao, Guyue Zhou , Yurong Chen and Hongbin Zha

来源:2023 IEEE International Conference on Robotics and Automation (ICRA 2023)

这是佳佳怪分享的第6篇文章

摘要

房间布局估计是一项存在已久的机器人视觉任务,对环境感知和运动规划都有好处。然而,由于标注困难,使用点云(PC)进行布局估计仍存在数据稀缺的问题。因此,我们基于模型指数移动平均的理念,解决了这一任务的半监督设置问题。但要将这一方案调整为基于 PC 的布局估计的最先进(SOTA)解决方案并非易事。为此,我们定义了一种四元组匹配策略,并根据为布局四元组量身定制的指标定义了几种一致性损失。此外,我们还提出了一种新的在线伪标签采集算法,该算法将四边形和 PC 之间的混合距离度量分布分解为两个部分。该技术无需手动选择阈值,可直观地鼓励四边形与可靠的布局点对齐。令人惊讶的是,这一框架也适用于完全监督设置,在 ScanNet 基准测试中取得了新的 SOTA。最后但并非最不重要的一点是,我们还将半监督设置推向了现实的全监督设置,在新注释的 ARKitScenes 测试集上展示了显著提升的性能。我们的代码、数据和模型都是公开的。

在这里插入图片描述
图 1. (a) 输入是三维点云,其颜色仅用于可视化。(b) 我们仅使用 ScanNet 训练集中 20% 的标注数据训练前 SOTA 方法 PQ-Transformer,并将其作为基线。© 我们在整个 ScanNet 训练集上采用我们的方法,只使用 20% 的标注数据,结果布局预测更加准确。
在这里插入图片描述
​图 2. 方法概述。在每次训练迭代中,我们从有标签数据集和无标签数据集中分别抽取样本,形成一个批次。首先对输入批次进行随机变换,然后将其输入学生模型,生成预测结果。与此同时,输入批次也被送入教师模型,然后经过变换得出预测结果。在采用的两种转换中,FPS 采样使用不同的种子,而旋转、翻转和缩放则完全相同。我们总共施加了三种损失:(1) 转化标签与学生模型预测之间的监督损失。(2) 一致性损失,即最小化学生预测与教师预测之间的差异。(3) 鼓励四边形与可靠布局点对齐的伪标签损失。学生参数根据三种损失之和通过梯度下降法更新,而教师参数则通过学生参数的指数移动平均(EMA)法更新。
在这里插入图片描述
图 3. 师生对齐图解。(a) 对于每一个教师预测的四边形,我们都会找到最近的学生预测的四边形。尽管教师的预测是有噪声的,但四边形度得分却能说明预测的准确性。预测的准确性。(b) 这三个图说明了两个四边形之间定义距离的三个组成部分。定义的两个四边形之间的距离。
在这里插入图片描述
图4。关于Gamma混合滤波的插图。我们在(b)中计算了所提出的点和四边形之间的混合度量,其中较暖的颜色表示较短的距离。然后,我们将度量的分布分解为两个分量,分别对应于属于四边形和不属于四边形的点。我们使用混合分布模型(如(c)所示)过滤掉冗余点,并以更高的精度重新估计四边形,供学生模型学习。
在这里插入图片描述
图 5. ScanNet 的定性结果。比例代表使用中的注释数据比例。
在这里插入图片描述
图 6. ARKitScenes 的定性结果。地面真实布局由crowd-sorcing注释。
在这里插入图片描述
表I 扫描网的布局估计F1-SCORES
在这里插入图片描述
表 II 场景布局估计 F1 分数
在这里插入图片描述
表III 数据转换策略的消融
在这里插入图片描述
表IV 四均值教师消融
在这里插入图片描述

表 V 伽马混合滤波的消融情况

结论

我们的研究迈出了仅使用点云进行全监督布局估计的第一步,这在机器人领域具有很好的应用前景。我们的训练框架结合了四均值教师和伽玛混合滤波,以更好地利用未标记的数据。实验结果证明了我们的方法在半监督、全监督和全监督环境中的有效性。尽管我们的方法有效,但局限性仍然存在。在不完整的场景中,我们的方法的预测是不令人满意的,在这些场景中,不足的点无法形成布局墙。未来,由于PQ Transformer[29]实现带来的准实时速度,我们将考虑可能的纠正措施,包括整合在线推理结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/39919.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

根据源码,模拟实现 RabbitMQ - 通过 SQLite + MyBatis 设计数据库(2)

目录 一、数据库设计 1.1、数据库选择 1.2、环境配置 1.3、建库建表接口实现 1.4、封装数据库操作 1.5、针对 DataBaseManager 进行单元测试 一、数据库设计 1.1、数据库选择 MySQL 是我们最熟悉的数据库,但是这里我们选择使用 SQLite,原因如下&am…

手机出现 不读卡 / 无信号时应该怎么办?

当手机屏幕亮起,一般在屏幕最上方都会有代表手机卡状态的显示,其中网络信号和读卡状态的标识,依旧有很多人分不太清,更不清楚改怎么办了。 1、当我们的手机里有两张卡时,则会有两个信号显示 2、信号状态一般是由短到…

CSS自己实现一个步骤条

前言 步骤条是一种用于引导用户按照特定流程完成任务的导航条,在各种分步表单交互场景中广泛应用。例如:在HIS系统-门诊医生站中的接诊场景中,我们就可以使用步骤条来实现。她的执行步骤分别是:门诊病历>遗嘱录入>完成接诊…

ArcGIS Pro基础入门、制图、空间分析、影像分析、三维建模、空间统计分析与建模、python融合、案例全流程科研能力提升

目录 第一章 入门篇 GIS理论及ArcGIS Pro基础 第二章 基础篇 ArcGIS数据管理与转换 第三章 数据编辑与查询、拓扑检查 第四章 制图篇 地图符号与版面设计 第五章 空间分析篇 ArcGIS矢量空间分析及应用 第六章 ArcGIS栅格空间分析及应用 第七章 影像篇 遥感影像处理 第八…

Python random模块用法整理

随机数在计算机科学领域扮演着重要的角色,用于模拟真实世界的随机性、数据生成、密码学等多个领域。Python 中的 random 模块提供了丰富的随机数生成功能,本文整理了 random 模块的使用。 文章目录 Python random 模块注意事项Python random 模块的内置…

30行JS代码带你手写自动回复语音聊天机器人

🥂(❁◡❁)您的点赞👍➕评论📝➕收藏⭐是作者创作的最大动力🤞 前言 现如今生活中到处都是聊天机器人的身影,聊天机器人不仅仅能减少人工的聊天压力,而且十分的可爱有趣,安卓系统的小AI&#xf…

Springboot整合Mybatis调用Oracle存储过程

1、配置说明 Oracel11g+springboot2.7.14+mybatis3.5.13 目标:springboot整合mybatis访问oracle中的存储过程,存储过程返回游标信息。 mybatis调用oracle中的存储过程方式 2、工程结构 3、具体实现 3.1、在Oracle中创建测试数据库表 具体数据可自行添加 create table s…

Lodash——使用与实例

1. 简介 Lodash是一个一致性、模块化、高性能的JavaScript实用库。Lodash通过降低array、number、objects、string等等的使用难度从而让JavaScript变得简单。Lodash的模块方法,非常适用于: 遍历array、object 和 string对值进行操作和检测创建符合功能的…

字符个数统计(同类型只统计一次)

思路:因为题目圈定出现的字符都是 ascii 值小于等于127的字符,因此只需要定义一个标记数组大小为128 ,然后将字符作为数组下标在数组中进行标记,若数组中没有标记过表示第一次出现,进行计数,否则表示重复字…

简单线性回归:预测事物间简单关系的利器

文章目录 🍀简介🍀什么是简单线性回归?🍀简单线性回归的应用场景使用步骤:注意事项: 🍀代码演示🍀结论 🍀简介 在数据科学领域,线性回归是一种基本而强大的统…

Kali Linux助您网络安全攻防实战

Kali Linux:黑客与防御者的神器 Kali Linux是一款专为网络安全测试和攻防实践而设计的操作系统。它汇集了大量的安全工具,可以用于渗透测试、漏洞扫描、密码破解等任务,不仅为黑客提供了强大的攻击能力,也为安全防御者提供了测试和…

Kafka 入门到起飞 - 什么是 HW 和 LEO?何时更新HW和LEO呢?

上文我们已经学到, 一个Topic(主题)会有多个Partition(分区)为了保证高可用,每个分区有多个Replication(副本)副本分为Leader 和 Follower 两个角色,Follower 从Leader同…

爬虫逆向实战(十八)--某得科技登录

一、数据接口分析 主页地址:某得科技 1、抓包 通过抓包可以发现数据接口是AjaxLogin 2、判断是否有加密参数 请求参数是否加密? 查看“载荷”模块可以发现有一个password加密参数和一个__RequestVerificationToken 请求头是否加密? 无…

【Linux】Reactor模式

Reactor模式 Reactor模式的定义 Reactor反应器模式,也叫做分发者模式或通知者模式,是一种将就绪事件派发给对应服务处理程序的事件设计模式。 Reactor模式的角色构成 Reactor主要由以下五个角色构成: reactor模式的角色 角色解释Handle(句…

保姆级别讲解Python数据处理,你绝对能会

名字:阿玥的小东东 学习:Python、C/C 主页链接:阿玥的小东东的博客_CSDN博客-python&&c高级知识,过年必备,C/C知识讲解领域博主 目录 1. 文件读取 2. 数据处理 3. 处理结果输出 总的来说 为了咱们让程序跑起来,我们需…

DAY3,ARM(LED点灯实验)

1.汇编实现开发板三盏灯点亮熄灭&#xff1b; .text .global _start _start: /**********LED123点灯**************/RCC_INIT:1使能PE10 PF10 PE8RCC..寄存器,E[4]1 F[5]1 0x50000a28ldr r0,0x50000a28ldr r1,[r0]orr r1,r1,#(0x3 << 4)str r1,[r0]LED1_INET:2初始化LED…

酷开系统 | 酷开科技大数据,更好的与目标消费人群建立联系

众所周知&#xff0c;OTT的一大优势在于强曝光&#xff0c;能够给消费者带来强烈的视觉冲击&#xff0c;强化品牌认知。但是&#xff0c;要想达到提升品牌认知&#xff0c;首先要保证OTT的流量规模&#xff0c;实现对目标人群的有效覆盖。得年轻消费者得“天下”&#xff0c;年…

tk切换到mac的code分享

文章目录 前言一、基础环境配置二、开发软件与扩展1.用到的开发软件与平替、扩展情况 总结 前言 最近换上了coding人生的第一台mac&#xff0c;以前一直偏好tk&#xff0c;近来身边的朋友越来越多的用mac了&#xff0c;win的自动更新越来越占磁盘了&#xff0c;而且win11抛弃了…

vue elementui v-for 循环el-table-column 第一列数据变到最后一个

这个动态渲染table表格时发现el-table-column 第一列数据变到最后一个 序号被排到后面 代码 修改后 <el-table:data"tableData"tooltip-effect"dark"style"width: 100%"height"500"><template v-for"(item, index) i…

每天一道leetcode:1926. 迷宫中离入口最近的出口(图论中等广度优先遍历)

今日份题目&#xff1a; 给你一个 m x n 的迷宫矩阵 maze &#xff08;下标从 0 开始&#xff09;&#xff0c;矩阵中有空格子&#xff08;用 . 表示&#xff09;和墙&#xff08;用 表示&#xff09;。同时给你迷宫的入口 entrance &#xff0c;用 entrance [entrancerow, …