优秀博士学位论文代表了各学科领域博士研究生研究成果的最高水平,本公众号近期将推出“优秀博士学位论文分享”系列文章,对人工智能领域2023年优秀博士学位论文进行介绍和分享,方便广大读者了解人工智能领域最前沿的研究进展。
“博士学位论文激励计划”(原优秀博士学位论文奖)是对博士研究生学位论文的一项重大奖励,由各大学会通过严格评选后颁布。中国计算机学会、中国自动化学会、中国人工智能学会等各大学会每年都会颁布该奖项。该奖项的目的是促进学术研究的卓越性,并鼓励产出高质量的博士论文。博士研究生如果能够荣获该奖项,则表明其学术研究生涯早期的成果受到了很高的认可。
本文主要介绍清华大学黄家晖的博士论文《动态三维场景理解与重建》,该论文专注于智能体在动态三维环境中的准确感知与建模,提出了一系列算法,这些算法能够处理不同的传感器输入,针对各种动态场景,构建准确的三维模型。这些模型不仅描述了场景的静态部分,也能捕捉到其动态变化,从而支持智能体进行更为精准的行为规划、决策和执行。显著推动了三维场景理解与重建技术的发展。目前该论文已获得2023年“博士学位论文激励计划”。此外,本文还对其导师胡事民院士及其实验室进行了介绍,以方便读者了解更多相关信息。本文的作者为黄星宇,审校为邱雪和李杨。
一、论文介绍
1.1 背景与挑战
动态三维场景的理解与重建,是计算机视觉与计算机图形学领域研究的重点问题之一。该问题旨在以各类传感器输入数据为基础,使智能体除了对场景的静态部分进行分析建模之外,还对周围动态物体的形态、位置以及运动趋势进行准确的判断和感知,从而对下一步行动进行必要的规划与决策。与单纯的静态场景处理算法不同,动态场景由于额外引入了时间变化维度,且包含了不同目标在不同模式下的复杂运动,为算法的鲁棒性和准确性带来了更高的需求,也为相关研究带来了较大的挑战与机遇。
图1 动态三维场景理解与重建的重要挑战
总体而言,针对多种输入、多种运动模式的动态三维场景进行分析理解,并快速准确地为场景的静态与动态部分联合建立稠密三维模型,是支持更复杂、更实用的潜在未来应用的重要组成部分,也是研究的重点方向。
1.2 方法与实验结果
(1) 多物体视频的运动聚类与轨迹估计方法
本文提出了使用双目视频作为输入的多物体运动场景分析方法,能够针对每个输入帧实时输出该帧所包含运动物体的分割和轨迹、以及拍摄视频的相机自身位姿。该方法首先采用多层次概率关联手段,将稀疏特征点以及语义包围盒和运动物体以及三维路标点云关联,并利用误差传播理论对关联进行概率建模。为计算刚体分割,使用异构条件随机场模块综合对二维、三维以及运动信息进行分析。最后,通过双轨式帧管理策略和滑动窗口优化模块进行准确的系统状态估计。
图2 多物体视频的运动聚类与轨迹估计方法的执行流程
通过详尽的实验对比,证明了在相机位姿估计以及动态物体轨迹估计这两个任务上,本方法能够取得较有竞争力的结果。同时,实验结果还证明了该算法的通用性和准确性,可以实时应用在长时间室内运动序列或自动驾驶视频序列中。
(2) 多刚体点云的动态场景分割与联合注册方法
面对多刚体运动场景,本文提出了以多三维点云作为输入、能同时进行运动分割以及每个刚体部件位姿恢复的算法。该方法首先利用场景流估计模块建立成对点云匹配关系,并将其转换成置换矩阵,置换矩阵及其权重信息会通过一个新颖的带权置换同步模块,增强估计的循环一致性,通过多输入的信息减少成对估计的误差。接着采用成对运动分割模块基于场景流向量对刚体分割进行推理,并使用运动分割同步模块综合考虑所有成对运动分割信息,输出全局统一的刚体编号。最后,采用位姿同步对所有刚性部件的绝对位姿进行推理运算,并迭代整个方法流程以精化结果。所有的同步模块均采用闭式解进行定义,可以高效进行反向传播,支持端到端训练。
图3 多刚体点云的动态场景分割与联合注册方法的执行流程
实验表明,该算法能够准确进行运动分割,并基于该分割输出精确的多刚体场景流。
(3) 柔性体点云的动态场景注册框架
图4展示了针对柔性体动态场景的多输入三维点云注册框架。该框架基于函数映射这种新型的点云对齐表示方式,通过对齐函数空间而非点云本身,取得了更高的效率以及灵活性。通过稀疏卷积网络为每个输入点云学习非正交的一组基函数,并通过IRLS从可能带有造成的点云匹配中恢复出函数映射矩阵。在多输入情况下,可以通过函数映射矩阵自身的同步方法增强多帧注册输出之间的循环一致性,减小噪声。同步后,结合逐点匹配与坐标函数映射这两种方案恢复场景流,使得动态注册更加准确,且能够处理噪声、残缺等情况。
图4 柔性体点云的动态场景注册框架的执行流程
大量实验表明该框架所展示的算法能够在具有挑战性的柔性体注册任务中取得较高的准确性。该方法能够在诸多用例中取得较优效果,这也为未来计算机图形学中的经典几何处理框架和视觉领域中处理遮挡、噪声等复杂问题的方法的交叉融合发展带来了一定启发。
(4) 基于隐式场的动态场景表面重建方法
本文提出了一种基于神经伽辽金方法的表面重建求解器,利用动态点云重建稠密的几何形状。该方法首先采用稀疏卷积编码器对输入进行编码,并采用一种自适应的解码器输出容纳目标几何的体素网格,网格中每个体素均包含三维基函数。该基函数可用于表面拟合求解器进行隐式函数求解:求解过程最小化变分问题,可以利用有限元分析转换成易于闭式求解的线性方程组。最终得到的隐式场由基函数自身以及求解系数组合而成,能够通过各类轮廓提取方法得到用于下游任务的三角网格。
图5 基于隐式场的动态场景表面重建方法的执行流程
1.3 结论
论文围绕动态三维场景理解与重建问题,针对数据采集设备多种多样、待理解场景运动模式复杂、以及需快速准确建立三维模型的挑战开展研究工作,分别以双目视频和点云这两种最常见的数据表达形式作为输入,提出了针对多物体、多刚体铰链物体以及柔性体这几种不同运动模式进行注册对齐的有效方法,并依据对齐后的三维数据快速精确构建稠密三维模型,用于下游任务。从技术上,论文统一按照从观测到分割与关联,再到状态估计,最终进行重建的步骤形成动态三维问题处理框架,并将此框架成功应用到了所有算法章节中,以模块化的方式贯穿整文,并有望为未来关于动态三维场景理解与重建的研究提供方法论,进一步推动该领域的发展。
二、作者简介
黄家晖博士1997年出生于江苏省徐州市。2014年9月考入清华大学计算机科学与技术系。 2018年9月免试进入清华大学计算机科学与技术系攻读工学博士学位至今。师从中国科学院院士胡事民,学业生涯中发表多篇高水平学术论文和若干专利,为获得优秀博士论文打下了坚实基础。黄家晖博士生涯的相关成果细节如表1所示。
表1 博士生涯成果
成果类型 | 成果 | 发表机构 |
学术论文 | Multiway non-rigid point cloud registration via learned functional map synchronization | PAMI |
A neural galerkin solver for accurate surface reconstruction | TOG | |
Multibodysync: Multi-body segmentation and motion estimation via 3d scan synchronization | CVPR | |
Online implicit 3d reconstruction with deep priors | CVPR | |
ClusterVO: Clustering moving instances and estimating visual odometry for self and surroundings | CVPR | |
Wallnet: Reconstructing general room layouts from rgb images | Graphical Models | |
ClusterSLAM: A slam backend for simultaneous rigid body clustering and motion estimation | ICCV | |
DeepPrimitive: Image decomposition by layered primitive detection | Computational Visual Media | |
Real-time globally consistent 3d re construction with semantic priors | IEEE Transactions on Visualization and Computer Graphics | |
Subdivisionbased mesh convolution networks | TOG | |
Circle: Convolutional implicit reconstruction and completion for large-scale indoor scene | ECCV | |
Hdr-net-fusion: Real-time 3d dynamic scene reconstruction with a hierarchical deep reinforcement network | Computational Visual Media | |
动态三维场景重建研究综述 | 图学学报 | |
同时定位建图方法及装置 | ||
一种三维重建方法、装置、电子设备及存储介质 | ||
一种基于网格细分结构的三维模型特征提取方法 | ||
专利 | 同时定位建图方法及装置 | |
一种三维重建方法、装置、电子设备及存储介质 | ||
一种基于网格细分结构的三维模型特征提取方法 |
三、导师介绍
胡事民老师为中国科学院院士、清华大学计算机科学与技术系教授、国家杰出青年科学基金获得者和创新群体的学术带头人。现任中国计算机学会副理事长、ACM SIGGRAPH执委、亚洲图形学会主席。胡院士长期从事计算机图形学、几何计算与人工智能相关领域的教学和研究工作,在可视媒体智能处理的理论、方法和应用研究方面做出了系统性的贡献,成果应用于流程工厂的数字重建和大规模街景系统构建,研制了我国空间站首个天地协同混合现实系统。胡院士创新性地提出元算子融合思想和统一计算图策略,研制并开源了自主深度学习框架“计图”,有效降低了算子优化难度和异构硬件适配复杂度,实现了国产CPU、GPU和AI芯片的高效适配,在节省显存的同时,大幅提升了神经网络和大模型的训练推理效率。胡院士以第一完成人获国家自然科学奖二等奖、国家技术发明奖二等奖、国家科技进步奖二等奖各1项,并获得中国计算机学会“王选奖”和全国创新争先奖。若想了解更多关于胡事民院士的信息,可以访问他的个人主页:https://cg.cs.tsinghua.edu.cn/shimin.htm。
四、实验室介绍
黄家晖博士为人机交互与媒体集成研究所(简称媒体所)成员。媒体所包含多个著名研究机构,如“普适计算教育部重点实验室”、“清华大学—腾讯互联网创新技术联合实验室”、“网络多媒体北京市重点实验室”、“清华大学计算机系—华为终端智能交互技术创新联合实验室”等。近年来,媒体所主持多项本学科领域重要项目,包括十三五重点研发计划、973、NSFC重点等,获得了国家级科技奖励多项,技术成果在行业内取得重要影响。媒体所的研究方向主要包括:计算机图形学与计算机视觉、媒体计算、和谐人机交互、普适计算环境等。更多信息请查阅实验室相关网站:https://www.cs.tsinghua.edu.cn/info/1062/1024.htm。