1、On Scaling Up 3D Gaussian Splatting Training
中文标题:扩展 3D 高斯泼溅训练
简介:3D高斯点描(3DGS)由于其卓越的视觉质量和渲染速度,越来越受欢迎用于3D重建。然而,3DGS的训练目前仅在单个GPU上进行,由于内存限制,它的处理高分辨率和大规模3D重建任务的能力受到限制。
为了解决这个问题,我们开发了Grendel,这是一个分布式系统,旨在将3DGS参数分区并在多个GPU上并行计算。由于每个高斯影响渲染像素的一个小的动态子集,Grendel采用稀疏全对全通信将必要的高斯传输到像素分区,并执行动态负载平衡。与现有的一次使用一个摄像头视图图像进行训练的3DGS系统不同,Grendel支持使用多个视图进行批量训练。
我们探索了各种优化超参数缩放策略,并发现简单的sqrt(批量大小)缩放规则非常有效。使用大规模、高分辨率场景的评估表明,Grendel通过在多个GPU上扩展3DGS参数来提高渲染质量。在Rubble数据集上,我们将4040万个高斯分布在16个GPU上,获得了27.28的测试PSNR,而在单个GPU上使用1120万个高斯时,只有26.28的PSNR。
Grendel是一个开源项目,可在 https://github.com/nyu-systems/Grendel-GS 上获得。
2、MultiDiff: Consistent Novel View Synthesis from a Single Image
中文标题:MultiDiff:从单个图像合成一致的新颖视图
简介:我们介绍了一种新颖的方法——MultiDiff,用于从单个RGB图像一致地合成场景的新视角。从单个参考图像合成新视角的任务本质上是高度不适定的,因为存在多个未观察区域的合理解释。
为了解决这个问题,我们采用了形式上的单目深度预测和视频扩散模型等强先验。单目深度使我们能够将模型的条件设置为目标视角的变形参考图像,从而提高几何稳定性。视频扩散先验为3D场景提供了强有力的代理,使模型能够学习生成图像之间的连续且像素精确的对应关系。与依赖于自回归图像生成的方法相比,后者容易出现漂移和误差积累,MultiDiff同时合成一系列帧,可以产生高质量和多视角一致的结果,即使是具有大相机移动的长期场景生成,同时将推理时间降低一个数量级。
为了进一步提高一致性和图像质量,我们引入了一种新颖的结构噪声分布。我们的实验结果表明,MultiDiff在具有挑战性的真实世界数据集RealEstate10K和ScanNet上优于最先进的方法。最后,我们的模型自然支持多视角一致的编辑,无需进一步调整。
3、ChronoMagic-Bench: A Benchmark for Metamorphic Evaluation of Text-to-Time-lapse Video Generation
中文标题:ChronoMagic-Bench:文本转延时视频生成的变形评估基准
简介:我们提出了一个新的文本到视频(T2V)生成基准,名为ChronoMagic-Bench,用于评估T2V模型(如Sora和Lumiere)在延时视频生成中的时间和形态能力。与现有基准侧重于所生成视频的视觉质量和文本相关性不同,ChronoMagic-Bench侧重于模型生成具有显著形态变化和时间连贯性的延时视频的能力。
该基准以自由形式文本查询的方式探测T2V模型的物理、生物和化学能力。为此,ChronoMagic-Bench引入了1,649个提示和真实世界视频作为参考,分为四类主要的延时视频:生物、人类创造、气象和物理现象,这些又进一步分为75个子类别。这种分类全面评估了模型处理各种复杂变换的能力。
为了准确地将人类喜好与基准对齐,我们引入了两个新的自动度量标准,MTScore和CHScore,用于评估视频的形态变化属性和时间连贯性。MTScore衡量形态变化幅度,反映随时间的变化程度,而CHScore评估时间连贯性,确保生成的视频保持逻辑进展和连续性。
基于ChronoMagic-Bench,我们对十个代表性的T2V模型进行了全面的手动评估,揭示了它们在不同提示类别下的优缺点,并提供了一个全面的评估框架,解决了视频生成研究中的当前差距。此外,我们创建了一个大规模的ChronoMagic-Pro数据集,包含460k对720p延时视频和详细标题,确保具有高物理相关性和大形态变化幅度。