原理:
在3D重建领域,单视图重建任务由于其固有的不确定性而充满挑战。为了克服这一难题,研究者们一直在探索如何利用大型数据集训练模型以学习形状和纹理的通用先验知识。然而,现有训练方法依赖于合成数据或多视图捕获,这些方法在数据扩展性和真实性方面存在局限。针对这些问题,Hanwen Jiang、Qixing Huang和Georgios Pavlakos三位来自UT Austin的研究者提出了Real3D,这是一个创新的3D重建系统,能够通过单视图真实世界图像进行训练。
Real3D的核心是其自训练框架,它结合了现有的3D/多视图合成数据和多样化的单视图真实图像。该系统引入了两种无监督损失函数,允许模型在没有3D真值或新视图的情况下,在像素和语义级别上进行自我监督。此外,研究者们开发了一种自动数据筛选方法,用于从大量野外图像中筛选出高质量的训练样本。
在实验部分,Real3D在包括真实和合成数据以及领域内和领域外形状的四种不同评估设置中,均展现出超越先前工作的性能。这证明了Real3D在不同场景下的泛化能力和对真实世界图像的有效性。
Real3D的训练过程包括在合成数据上进行的全监督训练和在真实图像上的无监督自训练。无监督自训练中,模型采用了循环一致性渲染损失和CLIP相似度度量,以增强像素级和语义级的监督。此外,通过姿势抽样课程,模型能够在训练过程中逐步适应从简单到复杂的学习目标。
在与基线模型TripoSR的比较中,Real3D在多个测试数据集上展现了其优越性。当使用更多真实数据进行自训练时,Real3D的性能得到了显著提升,这表明了其在数据扩展方面的潜力。
这项工作不仅为3D重建领域提供了一种新的训练方法,也为如何有效利用真实世界图像数据提供了宝贵的见解。随着技术的不断进步,Real3D有望在未来的3D重建任务中发挥更大的作用。