大家好,今日必读的大模型论文来啦!
1.Google DeepMind 提出 RecurrentGemma:超越 Transformer,迈向高效开放语言模型
Google DeepMind 团队提出了 RecurrentGemma,一个使用 Google 新颖的 Griffin 架构的开放语言模型。Griffin 将线性递归与局部注意力相结合,在语言上取得了优异的性能。它具有固定大小的状态,从而减少了内存使用,并能够对长序列进行有效的推理。
他们提出了一个具有 2B 非嵌入参数的预训练模型和一个指令微调的变体。尽管在更少的 token 上进行训练,但这两个模型都取得了与 Gemma-2B 相当的性能。
论文链接:
https://arxiv.org/abs/2404.07839
2.麻省理工大学新研究 JetMoE:10 万美元,达到 Llama2 表现
大型语言模型(LLMs)已经取得了显著的成果,但其日益增长的资源需求已经成为发展强大和可访问的超人类智能的主要障碍。
来自麻省理工大学和普林斯顿大学的研究团队提出了 JetMoE-8B,这是一种训练费用不到 10 万美元的新的 LLM,使用来自精心混合的开源语料库的 1.25T token 和 30000 个 H100 GPU 小时进行训练。
尽管成本低,但 JetMoE-8B 表现出了令人印象深刻的性能,它超过了 Llama2-7B 模型,JetMoE-8B-chat 超过了Llama2-13B-Chat 模型。
结果表明,LLM 训练可能比通常认为的更具成本效益。JetMoE-8B 基于高效的稀疏门控专家混合(SMoE)架构,由注意力和前馈专家组成。这两层都是稀疏激活的,允许 JetMoE-8B 具有 8B 参数,而每个输入 token 仅激活 2B,与 Llama2-7B 相比,减少了约 70% 的推理计算。
此外,JetMoE-8B 是高度开放和学术友好的,只使用公共数据集和训练代码。该团队详细介绍了所有训练参数和数据混合,从而促进未来开发开放式基础模型的努力。这种透明度旨在鼓励在可访问和高效的 LLMs 领域的合作和进步。
论文链接:
https://arxiv.org/abs/2404.07413
Github 地址:
https://github.com/myshell-ai/JetMoE
3.Any2Point:增强任何模态的大型模型有效的 3D 理解
最近,大型基础模型成为一个突出的兴趣焦点,在广泛的场景中取得了卓越的性能。由于 3D 数据的稀缺性,人们已经做出了许多努力,以适应预训练的变形从视觉到 3D 领域。
然而,由于潜在的空间几何损失和高计算成本,这种 2D-to-3D 方法仍然受到限制。更重要的是,他们的框架主要是为 2D 模型设计的,缺乏通用的任意到 3D 的范式。
来自上海 AI Lab 和北京大学的研究团队提出了一种参数有效的方法——Any2Point,来增强任何模态的大型模型(视觉,语言,音频)进行 3D 理解。
给定来自任何源模态的冻结 transformer,他们提出了一种 3D 到任意(1D或2D)虚拟投影策略,该策略将输入 3D 点与源模态内的原始 1D 或 2D 位置关联起来。该机制能够使用与预训练模型相匹配的位置编码来分配每个 3D token,从而避免了真实投影造成的 3D 损失,并更好地激励 transformer 使用 1D 或 2D 位置先验进行 3D 学习。然后,在每个 transformer 块内,他们插入一个任意到 3D 的引导适配器模块,用于参数高效微调。
该适配器结合了来自源模态的先验空间知识来指导 3D tokens 的局部特征聚合,强制任何模态转换器的语义自适应。实验证明,该方法具有有效性和效率。
论文链接:
https://arxiv.org/abs/2404.07989
Github 地址:
https://github.com/Ivan-Tang-3D/Any2Point
4.ResearchAgent:基于 LLM 的科学文献迭代研究思想生成
一些对改善人类生活至关重要的科学研究,由于其固有的复杂性、缓慢的速度和对专业专家的需求而受到阻碍。
为了提高它的生产力,来自韩国科学技术院和微软的研究团队,提出了一个大型语言模型驱动的研究思想写作智能—— ResearchAgent,它自动生成问题、方法和实验设计,同时根据科学文献迭代对它们进行改进。
具体来说,从一篇核心论文为主要焦点来产生想法开始,ResearchAgent 不仅通过连接学术图上的信息来关联出版物,而且根据其基本概念从以实体为中心的知识存储中检索实体,在许多论文中进行挖掘和共享。
此外,反映了人类通过同行讨论迭代改进想法的方法,利用多个评审智能体迭代来提供评审和反馈。用人类偏好对齐的大型语言模型来实例化它们,这些模型的评估标准来自实际的人类判断。他们在多学科的科学出版物上验证了 ResearchAgent,展示了其在基于人工和基于模型的评估结果生成新颖、清晰和有效的研究想法方面的有效性。
论文链接:
https://arxiv.org/abs/2404.07738
5.Ferret-v2:提高大型语言模型的引用和接地能力
来自苹果公司、哥伦比亚大学和加州大学的研究团队提出了 Ferret-v2。
Ferret-v2 具有三个关键设计:(1)任何分辨率基础和参考:一种灵活的方法,可以毫不费力地处理更高的图像分辨率,提高模型处理和理解图像更详细的能力。(2)多粒度视觉编码:通过集成额外的 DINOv2 编码器,模型可以更好地学习全局和细粒度视觉信息的多样化底层上下文。(3)三阶段训练范式:除了图像标题对齐外,在最终指令微调之前,还提出了一个高分辨率密集对齐的阶段。
实验表明,由于其高分辨率缩放和细粒度的视觉处理,Ferret-v2 比 Ferret 和其他先进方法有了很大的改进。
论文链接:
https://arxiv.org/abs/2404.07973
6.英伟达推出 Audio Dialogues:用于音频和音乐理解的对话数据集
现有的音频理解数据集主要集中在单回合交互(即音频字幕、音频问答)上,用于以自然语言描述音频,从而限制了通过交互式对话理解音频。
为了解决这一差距,英伟达研究团队提出了一个包含 163.8k 样本的多回合对话数据集——Audio Dialogues,用于一般音频和音乐。除了对话,Audio Dialogues 还具有问答对,可以一起理解和比较多个输入音频。
Audio Dialogues 利用基于提示的方法和来自现有数据集的标题注释,使用大型语言模型(LLM )生成多回合对话。在所提出的数据集上评估了现有的音频增强的大型语言模型,从而证明音频对话的复杂性和适用性。
论文链接:
https://arxiv.org/abs/2404.07616
Github 地址:
https://audiodialogues.github.io/
7. 厦大、清华、微软提出 Rho-1:不是所有 token 都是你需要的
以往的语言模型预训练方法对所有训练 tokens 统一应采用 next-token 的预测损失。
然而,来自厦门大学、清华大学和微软的研究团队认为“并不是语料库中的所有 token 对语言模型训练都同样重要”。他们初步分析深入到语言模型的 token-level 训练动态,揭示了不同 token 的不同损失模式。
利用这些见解,他们提出了名为 Rho-1 的新语言模型。与学习预测语料库中每下一个 token 的传统 LMs 不同,Rho-1 使用选择性语言建模(SLM),它选择性地训练与期望分布一致的有用 tokens。这种方法包括使用参考模型对预训练 token 进行评分,然后将集中损失的语言模型训练在具有较高超额损失的 token 上。
在 15B OpenWebMath 语料库中进行持续预训练时,Rho-1 在 9 个数学任务中的少样本准确率绝对提高了 30%。经过微调,Rho-1-1B 和 7B 在 MATH 数据集上分别取得了 SOTA,仅用 3% 的预训练 tokens 匹配 DeepSeekMath。此外,当对 80B 个通用 tokens 进行预训练时,Rho-1 在 15 个不同的任务上实现了 6.8% 的平均增强,提高了语言模型预训练的效率和性能。
论文链接:
https://arxiv.org/abs/2404.07965
Github 地址:
https://github.com/microsoft/rho
8.Controlnet++:利用高效一致性反馈改进条件控制
目前,为了增强文本到图像扩散模型的可控性,ControlNet 纳入了基于图像的条件控制。
然而,来自佛罗里达中央大学和字节跳动公司的研究团队提出,现有方法在生成与图像条件控制一致的图像方面仍然面临重大挑战。
他们提出了一种新方法 Controlnet++,通过显式优化生成图像和条件控制之间的像素级循环一致性,来改善可控生成。具体来说,对于一个输入条件控制,他们使用预训练的判别奖励模型来提取生成图像的相应条件,然后优化输入条件控制与提取条件之间的一致性损失。一个直接的实现方法是从随机噪声中生成图像,然后计算一致性损失,但这种方法需要存储多个采样时间步的梯度,消耗了相当大的时间和内存成本。
为了解决这个问题,他们提出了一种有效的奖励策略,通过添加噪声故意干扰输入图像,然后使用单步去噪图像进行奖励微调。这避免了与图像采样相关的大量成本,允许更有效的奖励微调。
大量实验表明,Controlnet++ 在各种条件控制下显著提高了可控性。例如,在分割掩码、线条艺术边缘和深度条件方面,它比 ControlNet 分别提高了 7.9% mIoU、13.4% SSIM 和 7.6% RMSE。
论文链接:
https://arxiv.org/abs/2404.07987
项目地址:
https://liming-ai.github.io/ControlNet_Plus_Plus/
9.UC 伯克利提出 LLoCO:离线学习长上下文
目前,由于自注意力机制的二次计算和内存开销以及生成过程中大量的 KV 缓存大小等问题,处理长上下文对于大型语言模型(LLMs)来说仍然是一个挑战。
加州大学伯克利分校团队提出了一种新的方法来解决这个问题,通过上下文压缩和域内高效参数微调来离线学习上下文。该方法使 LLM 能够创建原始上下文的简明表示,并有效地检索相关信息以准确回答问题。他们提出了 LLoCO——一种使用 LoRA 结合上下文压缩、检索和参数高效调优的技术。
他们的方法扩展了 4k token LLaMA2-7B 模型的有效上下文窗口,以处理多达 128k 的 tokens。他们在几个长上下文问答数据集上评估了该方法,证明 LLoCO 在推理期间使用的 token 在减少 30 倍的情况下,显著优于上下文学习。LLoCO 实现了高达 7.62 倍的加速比,并极大地降低了长文档问答的代价,是一种高效的长文本问答解决方案。
论文链接:
https://arxiv.org/abs/2404.07979