1、OW-VISCap: Open-World Video Instance Segmentation and Captioning
中文标题:OW-VISCap:开放世界视频实例分割和字幕
简介:开放世界视频实例分割是一项重要的视频理解任务,然而现有的方法存在一些限制。大多数方法要么只能在封闭世界的设置下运行,要么需要额外的用户输入,或者使用基于区域的提议来识别从未见过的对象。此外,这些方法只为检测到的对象分配一个单词标签,无法生成丰富的以对象为中心的描述,并且常常受到高度重叠预测的困扰。
为了解决这些问题,我们提出了一种名为开放世界视频实例分割和字幕生成(OW-VISCap)的方法,旨在共同分割、跟踪和描述视频中以前见过或未见过的对象。我们引入了开放世界对象查询的概念,以便发现从未见过的对象,而无需额外的用户输入。通过使用掩膜注意力增强的LLM输入,我们为每个检测到的对象生成了丰富而描述性的以对象为中心的字幕。为了确保对象查询之间的差异性,我们引入了一种互查询对比损失。
我们的综合方法在三个任务上达到或超过了最先进的水平:在BURST数据集上进行开放世界视频实例分割,在VidSTG数据集上进行密集视频对象字幕生成,在OVIS数据集上进行封闭世界视频实例分割。
2、RaFE: Generative Radiance Fields Restoration
中文标题:RaFE:生成辐射场恢复
简介:NeRF(神经辐射场)在新视角合成和3D重建方面展示了巨大的潜力。然而,该方法对输入图像质量非常敏感,当提供低质量的稀疏输入视点时,很难实现高保真渲染。以前的NeRF恢复方法是针对特定的退化类型量身定制的,忽略了恢复的通用性。
为了克服这一限制,我们提出了一种通用的辐射场恢复流程,名为RaFE。该方法适用于各种类型的退化,例如低分辨率、模糊、噪声、压缩伪影或它们的组合。我们的方法借鉴了现有的2D恢复方法的成功,并单独恢复多视图图像。
我们引入了一种新颖的方法,利用生成对抗网络(GAN)进行NeRF生成,以更好地适应多视图图像中存在的几何和外观不一致性。与通过平均不一致性来重建模糊的NeRF不同,我们的方法通过两级三平面架构实现。在该架构中,粗略级别保持固定以表示低质量的NeRF,而要添加到粗略级别的细节水平残差三平面被建模为一个分布,使用GAN来捕捉恢复中的潜在变化。
我们通过在合成和实际案例中验证RaFE,展示了其在各种恢复任务中优越的性能。与其他特定于单个任务的3D恢复方法相比,RaFE展现出更好的表现。更多详细信息,请参阅我们的项目网站:https://zkaiwu.github.io/RaFE-Project/。
3、The More You See in 2D, the More You Perceive in 3D
中文标题:您在 2D 中看到的越多,在 3D 中感知的就越多
简介:本摘要介绍了SAP3D系统,该系统受到人类从2D图像推断3D结构的启发。它能够在没有定位信息的情况下,基于过去的经验从多张图像中进行3D重建和新视角合成。
该系统通过测试时微调来调整预训练的视角条件扩散模型和图像的相机姿态,以适应给定的未定位图像集。微调后的扩散模型和相机姿态被用作实例特定的先验信息,用于进行3D重建和新视角合成。随着输入图像数量的增加,该方法的性能得到改善,填补了基于优化的无先验3D重建方法和单图像到3D扩散方法之间的差距。
作者通过在真实图像和标准合成基准测试上展示该系统的性能,以及通过消融实验证实了该适应性行为对于更准确的3D理解的重要性。