优秀博士学位论文分享:动态三维场景理解与重建

优秀博士学位论文代表了各学科领域博士研究生研究成果的最高水平,本公众号近期将推出“优秀博士学位论文分享”系列文章,对人工智能领域2023年优秀博士学位论文进行介绍和分享,方便广大读者了解人工智能领域最前沿的研究进展。

“博士学位论文激励计划”(原优秀博士学位论文奖)是对博士研究生学位论文的一项重大奖励,由各大学会通过严格评选后颁布。中国计算机学会、中国自动化学会、中国人工智能学会等各大学会每年都会颁布该奖项。该奖项的目的是促进学术研究的卓越性,并鼓励产出高质量的博士论文。博士研究生如果能够荣获该奖项,则表明其学术研究生涯早期的成果受到了很高的认可。

本文主要介绍清华大学黄家晖的博士论文《动态三维场景理解与重建》,该论文专注于智能体在动态三维环境中的准确感知与建模,提出了一系列算法,这些算法能够处理不同的传感器输入,针对各种动态场景,构建准确的三维模型。这些模型不仅描述了场景的静态部分,也能捕捉到其动态变化,从而支持智能体进行更为精准的行为规划、决策和执行。显著推动了三维场景理解与重建技术的发展。目前该论文已获得2023年“博士学位论文激励计划”。此外,本文还对其导师胡事民院士及其实验室进行了介绍,以方便读者了解更多相关信息。本文的作者为黄星宇,审校为邱雪和李杨。

一、论文介绍

1.1 背景与挑战

动态三维场景的理解与重建,是计算机视觉与计算机图形学领域研究的重点问题之一。该问题旨在以各类传感器输入数据为基础,使智能体除了对场景的静态部分进行分析建模之外,还对周围动态物体的形态、位置以及运动趋势进行准确的判断和感知,从而对下一步行动进行必要的规划与决策。与单纯的静态场景处理算法不同,动态场景由于额外引入了时间变化维度,且包含了不同目标在不同模式下的复杂运动,为算法的鲁棒性和准确性带来了更高的需求,也为相关研究带来了较大的挑战与机遇。

图1 动态三维场景理解与重建的重要挑战

总体而言,针对多种输入、多种运动模式的动态三维场景进行分析理解,并快速准确地为场景的静态与动态部分联合建立稠密三维模型,是支持更复杂、更实用的潜在未来应用的重要组成部分,也是研究的重点方向。

1.2 方法与实验结果

(1) 多物体视频的运动聚类与轨迹估计方法

本文提出了使用双目视频作为输入的多物体运动场景分析方法,能够针对每个输入帧实时输出该帧所包含运动物体的分割和轨迹、以及拍摄视频的相机自身位姿。该方法首先采用多层次概率关联手段,将稀疏特征点以及语义包围盒和运动物体以及三维路标点云关联,并利用误差传播理论对关联进行概率建模。为计算刚体分割,使用异构条件随机场模块综合对二维、三维以及运动信息进行分析。最后,通过双轨式帧管理策略和滑动窗口优化模块进行准确的系统状态估计。

图2 多物体视频的运动聚类与轨迹估计方法的执行流程

通过详尽的实验对比,证明了在相机位姿估计以及动态物体轨迹估计这两个任务上,本方法能够取得较有竞争力的结果。同时,实验结果还证明了该算法的通用性和准确性,可以实时应用在长时间室内运动序列或自动驾驶视频序列中。

(2) 多刚体点云的动态场景分割与联合注册方法

面对多刚体运动场景,本文提出了以多三维点云作为输入、能同时进行运动分割以及每个刚体部件位姿恢复的算法。该方法首先利用场景流估计模块建立成对点云匹配关系,并将其转换成置换矩阵,置换矩阵及其权重信息会通过一个新颖的带权置换同步模块,增强估计的循环一致性,通过多输入的信息减少成对估计的误差。接着采用成对运动分割模块基于场景流向量对刚体分割进行推理,并使用运动分割同步模块综合考虑所有成对运动分割信息,输出全局统一的刚体编号。最后,采用位姿同步对所有刚性部件的绝对位姿进行推理运算,并迭代整个方法流程以精化结果。所有的同步模块均采用闭式解进行定义,可以高效进行反向传播,支持端到端训练。

图3 多刚体点云的动态场景分割与联合注册方法的执行流程

实验表明,算法能够准确进行运动分割,并基于该分割输出精确的多刚体场景流。

(3) 柔性体点云的动态场景注册框架

4展示了针对柔性体动态场景的多输入三维点云注册框架。该框架基于函数映射这种新型的点云对齐表示方式,通过对齐函数空间而非点云本身,取得了更高的效率以及灵活性。通过稀疏卷积网络为每个输入点云学习非正交的一组基函数,并通过IRLS从可能带有造成的点云匹配中恢复出函数映射矩阵。在多输入情况下,可以通过函数映射矩阵自身的同步方法增强多帧注册输出之间的循环一致性,减小噪声。同步后,结合逐点匹配与坐标函数映射这两种方案恢复场景流,使得动态注册更加准确,且能够处理噪声、残缺等情况。

图4 柔性体点云的动态场景注册框架的执行流程

大量实验表明该框架所展示的算法能够在具有挑战性的柔性体注册任务中取得较高的准确性。该方法能够在诸多用例中取得较优效果,这也为未来计算机图形学中的经典几何处理框架和视觉领域中处理遮挡、噪声等复杂问题的方法的交叉融合发展带来了一定启发。

(4) 基于隐式场的动态场景表面重建方法

本文提出了一种基于神经伽辽金方法的表面重建求解器,利用动态点云重建稠密的几何形状。该方法首先采用稀疏卷积编码器对输入进行编码,并采用一种自适应的解码器输出容纳目标几何的体素网格,网格中每个体素均包含三维基函数。该基函数可用于表面拟合求解器进行隐式函数求解:求解过程最小化变分问题,可以利用有限元分析转换成易于闭式求解的线性方程组。最终得到的隐式场由基函数自身以及求解系数组合而成,能够通过各类轮廓提取方法得到用于下游任务的三角网格。

图5 基于隐式场的动态场景表面重建方法的执行流程

1.3 结论

论文围绕动态三维场景理解与重建问题,针对数据采集设备多种多样、待理解场景运动模式复杂、以及需快速准确建立三维模型的挑战开展研究工作,分别以双目视频和点云这两种最常见的数据表达形式作为输入,提出了针对多物体、多刚体铰链物体以及柔性体这几种不同运动模式进行注册对齐的有效方法,并依据对齐后的三维数据快速精确构建稠密三维模型,用于下游任务。从技术上,论文统一按照从观测到分割与关联,再到状态估计,最终进行重建的步骤形成动态三维问题处理框架,并将此框架成功应用到了所有算法章节中,以模块化的方式贯穿整文,并有望为未来关于动态三维场景理解与重建的研究提供方法论,进一步推动该领域的发展。

二、作者简介

黄家晖博士1997年出生于江苏省徐州市。2014年9月考入清华大学计算机科学与技术系。 2018年9月免试进入清华大学计算机科学与技术系攻读工学博士学位至今。师从中国科学院院士胡事民,学业生涯中发表多篇高水平学术论文和若干专利,为获得优秀博士论文打下了坚实基础。黄家晖博士生涯的相关成果细节如表1所示。

表1 博士生涯成果​​​​​​​

成果类型

成果

发表机构

学术论文

Multiway non-rigid point cloud registration via learned functional map synchronization

PAMI

A neural galerkin solver for accurate surface reconstruction

TOG

Multibodysync: Multi-body segmentation and motion estimation via 3d scan synchronization

CVPR

Online implicit 3d reconstruction with deep priors

CVPR

ClusterVO: Clustering moving instances and estimating visual odometry for self and surroundings

CVPR

Wallnet: Reconstructing general room layouts from rgb images

Graphical Models

ClusterSLAM: A slam backend for simultaneous rigid body clustering and motion estimation

ICCV

DeepPrimitive: Image decomposition by layered primitive detection

Computational Visual Media

Real-time globally consistent 3d re construction with semantic priors

IEEE Transactions on Visualization and Computer Graphics

Subdivisionbased mesh convolution networks

TOG

Circle: Convolutional implicit reconstruction and completion for large-scale indoor scene

ECCV

Hdr-net-fusion: Real-time 3d dynamic scene reconstruction with a hierarchical deep reinforcement network

Computational Visual Media

动态三维场景重建研究综述​​​​​​​

图学学报

同时定位建图方法及装置
一种三维重建方法、装置、电子设备及存储介质
一种基于网格细分结构的三维模型特征提取方法

专利

同时定位建图方法及装置

一种三维重建方法、装置、电子设备及存储介质

一种基于网格细分结构的三维模型特征提取方法

三、导师介绍

胡事民老师为中国科学院院士、清华大学计算机科学与技术系教授、国家杰出青年科学基金获得者和创新群体的学术带头人。现任中国计算机学会副理事长、ACM SIGGRAPH执委、亚洲图形学会主席。胡院士长期从事计算机图形学、几何计算与人工智能相关领域的教学和研究工作,在可视媒体智能处理的理论、方法和应用研究方面做出了系统性的贡献,成果应用于流程工厂的数字重建和大规模街景系统构建,研制了我国空间站首个天地协同混合现实系统。胡院士创新性地提出元算子融合思想和统一计算图策略,研制并开源了自主深度学习框架“计图”,有效降低了算子优化难度和异构硬件适配复杂度,实现了国产CPU、GPU和AI芯片的高效适配,在节省显存的同时,大幅提升了神经网络和大模型的训练推理效率。胡院士以第一完成人获国家自然科学奖二等奖、国家技术发明奖二等奖、国家科技进步奖二等奖各1项,并获得中国计算机学会“王选奖”和全国创新争先奖。若想了解更多关于胡事民院士的信息,可以访问他的个人主页:https://cg.cs.tsinghua.edu.cn/shimin.htm。

四、实验室介绍

黄家晖博士为人机交互与媒体集成研究所(简称媒体所)成员。媒体所包含多个著名研究机构,如“普适计算教育部重点实验室”、“清华大学—腾讯互联网创新技术联合实验室”、“网络多媒体北京市重点实验室”、“清华大学计算机系—华为终端智能交互技术创新联合实验室”等。近年来,媒体所主持多项本学科领域重要项目,包括十三五重点研发计划、973NSFC重点等,获得了国家级科技奖励多项,技术成果在行业内取得重要影响。媒体所的研究方向主要包括:计算机图形学与计算机视觉、媒体计算、和谐人机交互、普适计算环境等。更多信息请查阅实验室相关网站:https://www.cs.tsinghua.edu.cn/info/1062/1024.htm。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/4909.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【数据结构初阶】时间复杂度和空间复杂度详解

今天我们来详细讲讲时间复杂度和空间复杂度,途中如果有不懂的地方可翻阅我之前文章。 个人主页:小八哥向前冲~-CSDN博客 数据结构专栏:数据结构【c语言版】_小八哥向前冲~的博客-CSDN博客 c语言专栏:c语言_小八哥向前冲~的博客-CS…

matlab新手快速上手6(引力搜索算法)

本文根据一个较为简单的matlab引力搜索算法框架详细分析蚁群算法的实现过程,对matlab新手友好,源码在文末给出。 引力搜索算法简介: 引力搜索算法是一种启发式优化算法,最初于2009年由伊朗的Esmat Rashedi、Hossein Nezamabadi-p…

uniapp 对接facebook第三方登录

1.登录facebook开发者中心,打开我的应用页面在这里插入图片描述 2.创建应用 3.选择类型 4.填写信息 5.添加登录 6.添加平台 安卓密钥生成【需要 Java 环境!!! 和 openssl库】 Google Code Archive 的 Windows 版 openssl-for-windows OpenSSL 库 将openssl下载到…

如何利用FMEA进行不良事件分析——FMEA软件

免费试用FMEA软件-免费版-SunFMEA FMEA(Failure Modes and Effects Analysis)是一种预防性的质量工具,它帮助识别产品或过程中可能的故障模式,评估其对系统的影响,并优先处理那些对系统性能影响最大的故障模式。在医疗…

新时代教师口才演讲稿(3篇)

新时代教师口才演讲稿(3篇) 新时代教师口才演讲稿(一) 尊敬的各位领导、亲爱的同事们: 大家好! 今天,我站在这里,深感荣幸与激动。在这个新时代里,教师的口才不仅仅是传…

webpack3升级webpack4遇到的各种问题汇总

webpack3升级webpack4遇到的各种问题汇总 问题1 var outputNamecompilation.mainTemplate.applyPluginWaterfull(asset-path,outputOptions.filename,{......)TypeError: compilation.mainTemplate.applyPluginsWaterfall is not a function解决方法 html-webpack-plugin 版…

上市公司-双重差分模型手动匹配绿色企业数据及参考资料

01、数据简介 双重差分模型(DID,Differences-in-Differences)是一种用于估计某个政策或处理效果的经济计量学模型。通过双重差分模型,可以控制一些不易观察的个体特征和时间趋势,以更准确地估计政策的效应。将绿色企业…

文件上传漏洞(upload-labs)

目录 一、文件上传漏洞 1.什么是文件上传漏洞 常见的WebShell 2.文件上传产生漏洞的原因 二、文件上传绕过 (一)客服端绕过-JS验证 1.前端验证 upload-labs第一关 (二)绕过黑名单验证 黑名单验证 1.特殊解析后缀 upl…

快速掌握Yarn:软件包管理工具的安装与使用指南【写作AI免费】

首先,这篇文章是基于笔尖AI写作进行文章创作的,喜欢的宝子,也可以去体验下,解放双手,上班直接摸鱼~ 按照惯例,先介绍下这款笔尖AI写作,宝子也可以直接下滑跳过看正文~ 笔尖Ai写作:…

Linux第十五章

🐶博主主页:ᰔᩚ. 一怀明月ꦿ ❤️‍🔥专栏系列:线性代数,C初学者入门训练,题解C,C的使用文章,「初学」C,linux 🔥座右铭:“不要等到什么都没有了…

MySQL随便聊----之MySQL的调控按钮-启动选项和系统变量

-------MySQL是怎么运行的 基本介绍 如果你用过手机,你的手机上一定有一个设置的功能,你可以选择设置手机的来电铃声、设置音量大小、设置解锁密码等等。假如没有这些设置功能,我们的生活将置于尴尬的境地,比如在图书馆里无法把手…

Hive安装部署

Apache Hive是一个基于Hadoop分布式文件系统、使用MapReduce算法执行大规模离线数据分析的数据仓库,本文主要描述Hive的安装部署。 如上所示,Hive总体应用架构图,其中,Hive基于HBase或者使用Hadoop分布式文件系统执行MapReduce的分…

注意力机制(四)(多头注意力机制)

​🌈 个人主页:十二月的猫-CSDN博客 🔥 系列专栏: 🏀《深度学习基础知识》 相关专栏: ⚽《机器学习基础知识》 🏐《机器学习项目实战》 🥎《深度学习项目实…

react报错:Warning: Each child in a list should have a unique “key“ prop.

我是万万没想到的,使用Popconfirm不添加key属性也会报错: react-refresh:160Warning: Each child in a list should have a unique "key" prop. Check the render method of Cell. Seehttps://reactjs.org/link/warning-keys for more informa…

nginx--安装

yum安装 官方包链接:nginx: Linux packages 官方yum源链接:nginx: Linux packages 配置yum源 [rootlocalhost ~]# yum install -y nginx [nginx-stable] namenginx stable repo baseurlhttp://nginx.org/packages/centos/$releasever/$basearch/ gp…

零基础HTML教程(31)--HTML5多媒体

文章目录 1. 背景2. audio音频3. video视频4. audio与video常用属性5. 小结 1. 背景 在H5之前,我们要在网页上播放音频、视频,需要借助第三方插件。 这些插件里面最火的就是Flash了,使用它有几个问题: 首先要单独安装Flash&…

竞争分析:波特五力模型

波特五力模型是分析企业竞争环境的一个分析模型。 根据波特的观点,每家企业都受到“直接竞争对手、顾客、供应商、潜在新进公司和替代性产品”这五个“竞争作用力”的影响。 我们用波特五力模型试着分析下实体书店竞争是否激励。 直接竞争对手:如果直接…

01.Kafka简介与基本概念介绍

1 Kafka 简介 Kafka 是最初由 Linkedin公司开发,是一个分布式、支持分区(partition)的、多副本(replica)的,基于 Zookeeper 协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于 hadoop 的…

Spring AOP详解,简单Demo

目录 一、Spring AOP 是什么? 二、学习AOP 有什么作用? 三、AOP 的组成 四、 Spring AOP 简单demo 一、Spring AOP 是什么? Spring AOP(Aspect-Oriented Programming in Spring)是Spring框架中的一个重要组件&…

c# 构造函数 静态构造函数 内联字段(即静态字段和实例字段) 父类构造函数 父类静态构造函数 父类内联字段 执行顺序

顺序如下: 1.子类的内联字段 2.子类的静态构造函数 3.父类的内联字段 4.父类的静态构造函数 5.父类的构造函数 6.子类的构造函数 7.子类的方法 public class A{public static string a1"A0";static A(){Console.WriteLine("父类内联字段:…