大模型日报｜今日必读的 8 篇大模型论文

在这里插入图片描述

大家好，今日必读的大模型论文来啦！

1.Google DeepMind 新研究：当 Transformer 遇见神经算法推理器

Transformer 以其简单而有效的架构彻底改变了机器学习。在互联网的海量文本数据集上预先训练 Transformer，为自然语言理解（NLU）任务带来了强大的泛化能力。然而，在执行算法形式的推理任务时，这种语言模型仍然很脆弱，计算必须精确而鲁棒。

为了解决这一局限性，来自 Google DeepMind 的研究团队提出了一种新方法，将 Transformer 的语言理解能力与基于图神经网络（GNN）的神经算法推理器（NARs）的鲁棒性结合起来。事实证明，当以图谱的形式指定时，这种 NARs 可以有效地作为算法任务的通用求解器。为了让 Transformer 可以访问它们的嵌入，他们提出了一种具有两阶段训练程序的混合架构，允许语言模型中的 token 与 NAR 中的节点嵌入交叉关注。他们在 CLRS-Text 模型（CLRS-30 基准的文本版本）上评估了产生的 TransNAR 模型，结果表明，在算法推理方面，无论是在发布中还是发布外，这一模型都比纯 Transformer 模型有显著提高。

论文链接：
https://arxiv.org/abs/2406.09308

2.清华团队推出 DiTFastAttn：解决 DiT 推理三大关键冗余

扩散 Transformer（DiT）在图像和视频生成方面表现出色，但由于自注意力的二次方复杂性而面临计算挑战。

为此，来自清华大学、Infinigence AI、卡内基梅隆大学、上海交通大学的研究团队提出了一种新型后训练压缩方法——DiTFastAttn。他们确定了 DiT 推理过程中注意力计算的三个关键冗余：1）空间冗余，即许多注意力集中在局部信息上；2）时间冗余，即相邻步骤的注意力输出之间具有高度相似性；3）条件冗余，即有条件推论和无条件推论表现出明显的相似性。为了解决这些冗余问题，他们提出了三种技术：1）利用残余缓存的窗口关注来减少空间冗余；2）利用步骤间的相似性实现时间相似性还原；3. 条件冗余消除，在条件生成过程中跳过冗余计算。

为了证明 DiTFastAttn 的有效性，他们将其应用于 DiT、PixArt-Sigma（图像生成任务）和 OpenSora（视频生成任务）。评估结果表明，对于图像生成，这一方法最多可减少 88% 的 FLOPs，并在高分辨率生成时实现高达 1.6 倍的速度提升。

论文链接：
https://arxiv.org/abs/2406.08552

3.斯坦福团队推出开源视觉-语言-动作模型 OpenVLA

结合互联网规模的视觉语言数据和各种机器人演示进行预训练的大型策略，有可能改变我们教授机器人新技能的方式：我们可以微调这种视觉-语言-动作（VLA）模型，从而获得鲁棒、通用的视觉运动控制策略，而不是从头开始训练新的行为。然而，将视觉-语言-动作模型广泛应用于机器人技术一直是个挑战，因为：1）现有的视觉-语言-动作模型大多是封闭的，公众无法访问；2）先前的工作未能探索针对新任务有效微调视觉-语言-动作模型的方法，而微调是采用视觉-语言-动作模型的关键要素。

为了应对这些挑战，来自斯坦福的研究团队及其合作者推出了一个具有 7B 参数的开源 VLA——OpenVLA，其在 97 万真实世界机器人演示的不同集合上进行了训练。OpenVLA 基于 Llama 2 语言模型和视觉编码器，后者融合了 DINOv2 和 SigLIP 的预训练特征。作为新增数据多样性和新模型组件的产物，OpenVLA 在通用操作方面取得了优异成绩，在 29 个任务和多个机器人示例中，OpenVLA 的绝对任务成功率比 RT-2-X（55B）等封闭模型高出 16.5%，而参数却减少到 1/7。

他们还进一步证明，可以针对新的环境对 OpenVLA 进行有效的微调，在涉及多个对象和强大语言基础能力的多任务环境中，OpenVLA 的泛化效果很好，比 Diffusion Policy 等从头开始模仿学习方法高出 20.4%。

他们还探索了计算效率；他们展示了 OpenVLA 可以通过低阶适应方法在消费级 GPU 上进行微调，并通过量化高效地提供服务，而不会影响下游成功率。最后，他们发布了模型检查点、微调笔记本，以及 PyTorch 代码库，该代码库内置支持在 Open X-Embodiment 数据集上大规模训练 VLA。

论文链接：
https://arxiv.org/abs/2406.09246
项目地址：
https://openvla.github.io/

4.港大、TikTok 推出 Depth Anything V2

在这项工作中，来自香港大学和 TikTok 的研究团队提出了 Depth Anything V2。与 V1 相比，V2 通过三个关键实践，产生了更精细、更鲁棒的深度预测：1）用合成图像替换所有标注的真实图像；2）扩大教师模型的容量；3）通过大规模伪标注真实图像的桥梁教授学生模型。与建立在 Stable Diffusion 基础上的模型相比，Depth Anything V2 明显更高效（快 10 倍以上）、更准确。

为支持广泛的应用场景，他们提供了不同规模的模型（从 2500 万到 1300 亿参数不等）。得益于其强大的泛化能力，他们利用度量深度标签对其进行了微调，从而获得了度量深度模型。此外，考虑到当前测试集的有限多样性和频繁出现的噪声，他们还构建了一个具有精确注释和多样化场景的多功能评估基准，从而促进未来的研究。

论文链接：
https://arxiv.org/abs/2406.09414

5.英伟达推出 HelpSteer2：用于训练更好奖励模型的开源数据集

高质量的偏好数据集对于训练奖励模型至关重要，这些模型可以有效地指导大语言模型（LLM）生成与人类偏好一致的高质量响应。随着 LLM 变得更强大、更符合人类偏好，Open Assistant、HH-RLHF 和 HelpSteer 等许可偏好数据集也需要更新，从而保持对奖励建模的有效性。从 GPT-4 等专有 LLM 中提炼偏好数据的方法受到模型提供者对商业使用的限制。

为了提高生成的响应和属性标签质量，来自英伟达的研究团队推出了 HelpSteer2，这是一个获得许可的偏好数据集（CC-BY-4.0）。利用在 HelpSteer2 上训练的强大内部基础模型，他们能够在 Reward-Bench 的主要数据集上获得 SOTA 分数（92.0%），超过目前列出的开放和专有模型（截至 2024 年 6 月 12 日）。值得注意的是，HelpSteer2 只包含一万个响应对，比现有的偏好数据集（如 HH-RLHF）低一个数量级，这使得它在训练奖励模型时非常高效。

大量实验证明，使用 HelpSteer2 训练的奖励模型可以有效地对齐 LLM。他们特别提出了 SteerLM 2.0，这是一种能有效利用奖励模型预测的丰富多属性得分的模型对齐方法。

论文链接：
https://arxiv.org/abs/2406.08673
GitHub 地址：
https://github.com/NVIDIA/NeMo-Aligner

6.谷歌推出 LLM 时间推理能力评估数据集

大语言模型（LLM）展示了非凡的推理能力，但它们仍然容易出错，尤其是在涉及复杂时间逻辑的时间推理（temporal reasoning）任务中。现有研究利用各种数据集和基准探索了 LLM 在时间推理方面的性能。然而，这些研究通常依赖于 LLM 在预训练时可能遇到的真实世界数据，或采用可能无意中引入事实不一致的匿名技术。

在这项工作中，来自谷歌的研究团队推出了新的合成数据集，专门用于评估 LLM 在各种场景下的时间推理能力，从而解决了这些局限性。这些数据集的问题类型多种多样，有助于系统地研究问题结构、规模、问题类型、事实顺序和其他因素对 LLM 性能的影响。研究结果为了解当前 LLM 在时间推理任务中的优缺点提供了宝贵的见解。

论文链接：
https://arxiv.org/abs/2406.09170

7.微软新研究：用于高效无限上下文语言建模的简单混合状态空间模型

如何高效地为具有无限上下文长度的序列建模是一个长期存在的问题。过去的工作要么存在二次计算复杂性问题，要么在长度泛化方面的外推能力有限。

在这项工作中，来自微软的研究团队提出了一种简单的混合架构 Samba，它分层结合了选择性状态空间模型（SSM）Mamba 和滑动窗口注意力（SWA）。Samba 可选择性地将给定序列压缩为递归隐藏状态，同时仍能保持利用注意力机制精确调用记忆的能力。

他们用 3.2T 个训练 token 将 Samba 扩展到 3.8B 个参数，结果表明，在各种基准测试中，Samba 都优于基于纯注意力或 SSM 的 SOTA 模型。在 4K 长度的序列上进行训练时，Samba 可以有效地推断出 256K 上下文长度，并具有完美的记忆召回能力，同时在高达 100 万上下文长度的情况下，Samba 的 token 预测能力也有所提高。作为一种线性时间序列模型，在处理 128K 长度的用户提示时，Samba 的吞吐量比使用分组查询注意力的 Transformer 高出 3.73 倍；在以无限流生成 64K token 时，Samba 的速度提高了 3.64 倍。

论文链接：
https://arxiv.org/abs/2406.07522
GitHub 地址：
https://github.com/microsoft/Samba

8.EMMA：让图像生成模型接受多模态提示

图像生成技术的最新进展使人们能够根据文本条件生成高质量的图像。然而，在面对多模态条件（如文本与参考图像相结合）时，现有方法难以有效平衡多种条件，通常会表现出对一种模态的偏好。

为了应对这一挑战，来自南洋理工大学和腾讯的研究团队推出了一种新型图像生成模型——EMMA，其可接受多模态提示，建立在文本到图像（T2I）SOTA 扩散模型 ELLA 的基础上。

EMMA 通过创新的多模态特征连接器设计，将文字和补充模态信息有效地整合在一起，利用一种特殊的注意力机制，将文字和补充模态信息无缝地整合在一起，从而指导图像生成。

通过冻结原始 T2I 扩散模型中的所有参数，仅调整一些附加层，他们发现，预训练的 T2I 扩散模型可以接受多模态提示。这一有趣的特性有助于轻松适应不同的现有框架，使 EMMA 成为制作个性化和情境感知图像甚至视频的灵活且有效的工具。

此外，他们还提出了一种策略，将学习到的 EMMA 模块组合在一起，同时生成以多模态为条件的图像，从而消除了对混合多模态提示进行额外训练的需要。大量实验证明，EMMA 能有效保持生成图像的高保真和细节，展示了其作为高级多模态条件图像生成任务的强大解决方案的潜力。

论文链接：
https://arxiv.org/abs/2406.09162
项目地址：
https://tencentqqgylab.github.io/EMMA/