大家好,今日必读的大模型论文来啦!
1.Meta 领衔:一文读懂视觉语言建模(VLM)
人们正在尝试将大型语言模型(LLMs)扩展到视觉领域。从可以引导我们穿越陌生环境的视觉助手,到仅使用高级文本描述就能生成图像的生成模型,视觉语言模型(VLM)的应用将极大地影响我们与技术的关系。然而,要提高这些模型的可靠性,还需要应对许多挑战。语言是离散的,而视觉是在一个维度更高的空间中发展的,其中的概念并不总是很容易被离散化。
为了更好地理解将视觉映射到语言背后的机制,来自 Meta 的研究团队及其合作者详细介绍了 VLM,希望能对任何想进入这一领域的人有所帮助。首先,他们介绍了什么是 VLM、VLM 如何工作以及如何训练 VLM。然后,他们介绍并讨论了评估 VLM 的方法。虽然这项工作主要侧重于将图像映射为语言,但他们也讨论了将 VLM 扩展到视频的问题。
论文链接:
https://arxiv.org/abs/2405.17247
2.Transformer 可以通过正确的嵌入进行算术运算
Transformer 在算术任务中表现不佳,似乎在很大程度上是由于它们无法跟踪大跨度数字中每个数字的准确位置。
来自马里兰大学的研究团队及其合作者,通过为每个数字添加嵌入,编码其相对于数字开头的位置,从而解决了这一问题。除了这些嵌入本身带来的提升外,他们还展示了这一修复措施能够通过输入注入和递归层等架构修改进一步提高性能。
在解决位置问题后,他们也研究了 Transformer 的逻辑外推能力——它们能否解决比训练数据更大、更复杂的算术问题?他们发现,只用一个 GPU 对 20 位数字进行为期一天的训练,就能达到 SOTA,在 100 位加法问题上实现高达 99% 的准确率。最后,他们还发现,计算能力的提高还能改善其他多步推理任务,包括排序和乘法。
论文链接:
https://arxiv.org/abs/2405.17399
3.清华朱军团队推出高保真 4D 重构模型 Vidu4D
视频生成模型由于能够生成逼真而富有想象力的画面而受到特别关注。此外,据观察,这些模型还表现出很强的 3D 一致性,大大提高了它们作为世界模拟器的潜力。
在这项工作中,清华大学朱军团队推出了一种新颖的重构模型——Vidu4D,其能从单个生成的视频中精确重构出 4D(即连续的 3D 呈现),解决了与非刚性和帧失真相关的难题。这种能力对于创建保持空间和时间一致性的高保真虚拟内容至关重要。
Vidu4D 的核心为动态高斯曲面(DGS)技术。DGS 优化时变翘曲函数,将高斯曲面(曲面元素)从静态状态转换为动态翘曲状态。这种变换可以精确地描绘运动和变形随时间的变化。
为了保持曲面对齐高斯曲面的结构完整性,他们设计了基于连续翘曲场的翘曲状态几何正则化,用于估计法线。此外,他们还对高斯曲面的旋转和缩放参数进行了细化,从而大大减轻了翘曲过程中的纹理闪烁,并增强了对细粒度外观细节的捕捉。Vidu4D 还包含一个新颖的初始化状态,为 DGS 中的翘曲场提供了一个正确的起点。Vidu4D 配备了现有的视频生成模型,整个框架在外观和几何方面都展示了高保真文本到 4D 的生成。
论文链接:
https://arxiv.org/abs/2405.16822
项目地址:
https://vidu4d-dgs.github.io/
4.谷歌新研究:将扩散模型提炼为一步生成器模型
虽然扩散模型可以学习复杂的分布,但采样需要一个计算昂贵的迭代过程。现有的蒸馏方法可以实现高效采样,但也有明显的局限性,例如采样步骤很少就会导致性能下降,依赖于训练数据访问,或可能无法捕捉到完整分布的寻模优化。
来自 Google DeepMind、Google Research 和加州大学洛杉矶分校的研究团队,提出了 EM Distillation(EMD)方法,这是一种基于最大似然法的方法,可将扩散模型提炼为一步生成器模型,同时将感知质量的损失降到最低。该方法从期望最大化(EM)的角度出发,使用扩散教师先验和推断生成器潜变量联合分布的样本来更新生成器参数。
他们开发了一种重新参数化的采样方案和一种噪音消除技术,共同稳定了蒸馏过程。他们进一步揭示了该方法与现有的最小化模式搜索 KL 方法之间的联系。在 ImageNet-64 和 ImageNet-128 上,就 FID 分数而言,EMD 优于现有的一步法生成方法,与之前的文本到图像扩散模型蒸馏方法相当。
论文链接:
https://arxiv.org/abs/2405.16852
5.Collaborative Video Diffusion:利用相机控制生成一致的多视频
视频生成方面的研究最近取得了诸多进步,能够根据文本提示或图像生成高质量视频。在视频生成过程中增加控制是未来的一个重要目标,而最近根据摄像机轨迹调节视频生成模型的方法则在这方面取得了进步。
然而,从多个不同的摄像机轨迹生成同一场景的视频仍然具有挑战性。解决这一多视频生成问题的方法,除其他应用外,还能利用可编辑的摄像机轨迹生成大规模三维场景。
为此,来自斯坦福大学、香港中文大学的研究团队提出了协同视频扩散(collaborative video diffusion,CVD),其包括一个新颖的跨视频同步模块,该模块利用对极注意力机制,促进从不同摄像机姿态渲染的同一视频的相应帧之间的一致性。在用于视频生成的相机控制模块基础上进行训练,CVD 生成的由不同相机轨迹呈现的多个视频的一致性明显优于基线,这一点已在大量实验中得到证实。
论文链接:
https://arxiv.org/abs/2405.17414
项目地址:
https://collaborativevideodiffusion.github.io/