1、Sora Generates Videos with Stunning Geometrical Consistency
中文标题:Sora 生成具有惊人几何一致性的视频。
简介:最近发布的 Sora 模型展示了在视频生成领域的出色表现,引发了人们对其模拟真实世界现象能力的激烈讨论。尽管该模型越来越受欢迎,但由于缺乏既定的度量标准来定量评估其与真实世界物理的相似度,因此存在一定挑战。为解决此问题,本文提出了一个新的评估基准,根据生成的视频与真实世界物理原理的一致性程度来评估其质量。研究采用一种方法,将生成的视频转换为 3D 模型,并依赖于 3D 重建的准确性与视频质量之间的关系。通过从 3D 重建的角度出发,利用构建的 3D 模型满足的几何约束的逼真程度作为代理,来评估生成的视频符合真实世界物理规则的程度。该项目详细信息可参考项目页面:https://sora-geometrical-consistency.github.io/
2、Multi-LoRA Composition for Image Generation
中文标题:多LoRA组合用于图像生成
简介:在这篇文章中,Low-Rank Adaptation(LoRA)被广泛运用于文本到图像模型,以精确呈现生成图像中的特定元素,比如独特的字符或风格。然而,现有方法在有效地组合多个LoRA方面存在挑战,尤其是随着要整合的LoRA数量增加,这阻碍了复杂图像的生成。本文研究了多个LoRA组合的角度,并提出了两种无需训练的方法:LoRA Switch,在每个去噪步骤中交替使用不同的LoRA;LoRA Composite,同时结合所有LoRA以指导更连贯的图像合成。为了评估我们提出的方法,我们建立了ComposLoRA作为本研究的新综合测试平台,其中包含各种LoRA类别和480个组合集。通过基于GPT-4V的评估框架,我们的研究结果显示,与流行基准线相比,我们的方法在性能上有显著改进,尤其是在增加LoRA组合数量时效果更加显著。
3、3D Gaussian as a New Vision Era: A Survey
中文标题:3D高斯作为新视觉时代:一项调查
简介:3D高斯点云绘制(3D-GS)是计算机图形学领域的重要进展,它可以提供清晰的场景表示和创新的视图合成,而无需依赖神经网络,如神经辐射场(NeRF)。这项技术在机器人、城市地图制作、自主导航、虚拟现实和增强现实等领域得到广泛应用。由于3D高斯点云绘制技术的普及和研究范围的扩大,本文对过去一年相关论文进行了全面调查。我们根据特征和应用将调查内容分类,并介绍了3D高斯点云绘制的理论基础。通过这项调查,我们旨在让新研究人员了解3D高斯点云绘制,为该领域的开创性工作提供有价值的参考,并在结论部分探讨未来的研究方向。