1、LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models
中文标题:LLaVA-NeXT-Interleave:处理大型多模态模型中的多图像、视频和 3D
简介:视觉指令调整在增强大型多模态模型(LMMs)的能力方面取得了显著进展。然而,现有的开放式LMMs主要集中在单图像任务上,它们在多图像、多帧(视频)、多视角(3D)和多块(单图像)等更复杂的场景中的应用尚未得到充分探索。此外,先前的LMM研究分别处理不同的情境,缺乏将新兴能力跨情境推广的机制。
为了解决这些问题,我们提出了LLaVA-NeXT-Interleave。该模型旨在同时处理LMMs中的多图像、多帧、多视角和多块情境。为了实现这些能力,我们将交错数据格式视为通用模板,并使用1177.6k个样本编译了M4-Instruct数据集,涵盖了4个主要领域、14个任务和41个数据集。我们还策划了LLaVA-Interleave Bench来全面评估LMMs的多图像性能。
通过广泛的实验,LLaVA-NeXT-Interleave在多图像、视频和3D基准测试中取得了领先的结果,同时保持了单图像任务的性能。此外,我们的模型还展示了几个新兴的能力,例如在不同设置和模态之间转移任务。我们的代码可在https://github.com/LLaVA-VL/LLaVA-NeXT获得。
2、Generative Image as Action Models
中文标题:作为动作模型的生成图像
简介:图像生成扩散模型已经被优化以解锁新的功能,如图像编辑和新颖视角合成。这引发了一个问题:是否可以将这些图像生成模型应用于视觉动作控制?
为了回答这个问题,我们提出了GENIMA,这是一种行为克隆代理。GENIMA通过微调稳定扩散模型在RGB图像上"绘制联合动作"作为目标,将这些图像输入到一个控制器,从而将视觉目标映射到一系列关节位置。
我们在25个RLBench和9个真实世界的操作任务上研究了GENIMA。结果表明,通过将动作提升到图像空间,互联网预训练的扩散模型可以生成优于最先进的视觉动作方法的策略,特别是在场景扰动的鲁棒性和推广到新颖物体方面。值得注意的是,尽管GENIMA缺乏深度、关键点或运动规划器等先验,但它仍然与3D代理相竞争。
总之,这项工作展示了将图像生成扩散模型应用于视觉动作控制的潜力,并为进一步探索这一方向提供了启示。我们的代码和数据可在https://github.com/GENIMA/GENIMA获得。
3、Controlling Space and Time with Diffusion Models
中文标题:用扩散模型控制空间和时间
简介:我们提出了4DiM,这是一个级联扩散模型,用于基于一个或多个输入图像以及一组相机姿态和时间戳进行4D新视图合成。为了克服4D训练数据有限的挑战,我们提倡在3D(仅含相机姿态)、4D(含姿态和时间)和视频(仅含时间)数据上进行联合训练,并提出了一种新的架构来实现这一点。我们进一步提出使用单目度量深度估计器来校准SfM姿态数据,以实现度量尺度相机控制。
为了对模型进行评估,我们引入了新的指标来补充和克服当前评估方案的不足,并展示了在保真度和姿态控制方面优于现有3D NVS扩散模型的最新结果,同时增加了处理时间动态的能力。4DiM还可用于改进全景拼接、姿态条件视频到视频转换和其他几项任务。更多细节请参见https://4d-diffusion.github.io。