1、X-VILA: Cross-Modality Alignment for Large Language Model
中文标题:X-VILA: 跨模态对齐的大型语言模型
简介:我们提出了X-VILA,这是一种全模态模型,旨在通过整合图像、视频和音频模态来扩展大型语言模型(LLM)的能力。X-VILA通过将模态特定的编码器与LLM输入对齐,并将扩散解码器与LLM输出对齐,实现了跨模态的理解、推理和生成。为了促进这种跨模态对齐,我们策划了一个高效的交错任意模态指令跟踪数据集。
此外,我们还发现了当前跨模态对齐方法存在一个重要问题,即会导致视觉信息丢失。为了解决这个问题,我们提出了一种具有视觉嵌入高速公路模块的视觉对齐机制。
我们还介绍了一种资源高效的X-VILA训练方法,它在任意模态对话方面表现出色,远远超过了之前的方法。值得一提的是,X-VILA还展示了跨模态的新性质,即使在缺乏类似训练数据的情况下也能实现。
这个项目将作为一个开源项目对外发布。
2、NPGA: Neural Parametric Gaussian Avatars
中文标题:NPGA: 神经参数高斯头像
简介:这篇文章探讨了创建高保真数字化人头的方法,这是将虚拟组件进一步融入日常生活的重要一步。由于需要高逼真的照片效果和实时渲染,构建这样的数字化人头是一个具有挑战性的研究问题。
作者提出了一种称为"神经参数高斯化身"(NPGA)的数据驱动方法,该方法利用多视角视频录制来创建高保真、可控的数字化人头。他们基于3D高斯喷洒,借助高效的渲染能力和点云的拓扑灵活性来构建这种方法。与之前的工作不同,作者将数字化人头的动态条件设置为神经参数头模型(NPHM)的丰富表情空间,而不是基于网格的3DMM。
为了增强数字化人头的表现能力,作者使用每个基元的潜在特征来增强规范高斯点云,这些特征控制其动态行为。他们在潜在特征和预测动态上提出了拉普拉斯项,以规范化这种增加的动态表现力。
最后,作者在公共NeRSemble数据集上评估了该方法,证明NPGA在自我再演任务上优于之前最先进的数字化人头,并展示了从单眼视频中准确动画化的能力。
这篇论文提出了一种新颖的数据驱动方法来创造高保真度和可控的数字化人头,为将虚拟组件融入现实生活迈出了一大步。
3、Reasoning3D -- Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models
中文标题:Reasoning3D -- 基于3D的理解和推理: 通过大型视觉语言模型实现细粒度零样本开放词汇3D推理部件分割
简介:这篇文章介绍了一种新的任务 - 零样本三维推理分割。这是一种可以用于对象部件搜索和定位的新方法,超越了之前的类别特定三维语义分割、三维实例分割和开放词汇三维分割。
作者设计了一种名为Reasoning3D的简单基线方法。它具有理解和执行复杂命令的能力,可以进行具有上下文感知和推理功能的交互式分割,精细地分割三维网格的特定部分。Reasoning3D利用预训练的2D分割网络,并由大型语言模型(LLM)驱动,以零样本的方式解释用户输入查询。
该方法利用了LLM广泛的预训练所获得的先验世界知识,使其能够理解复杂的命令,从而即使用有限的三维数据集也能有效地"分割任何东西"。实验结果显示,这种方法具有通用性,可以根据隐含的文本查询,在三维网格中有效地定位和突出显示三维对象及其部件,包括真实世界扫描数据。这种方法还可以生成与这些三维模型和分解相对应的自然语言解释。
此外,这种无需训练的方法允许快速部署,可以作为未来研究的可行通用基线,用于各种领域的部件级三维(语义)对象理解,包括机器人技术、物体操作、部件组装、自动驾驶应用、AR/VR和医疗应用。