介绍
大型语言模型 (LLM) 领域最近取得了快速进展,GPT-4、PaLM-2、Llama-2 等模型正在突破 AI 对语言处理能力的界限。然而,只有少数几家大型科技公司拥有训练包含数千亿个参数的模型所需的大量计算资源,才能使用最大的模型。
作为回应,开源社区团结起来,开发技术来创建更小但性能更高的 LLM,其性能可以媲美甚至超越其 10 到 100 倍大小的模型。推动这项工作的关键见解是,将多个较小的 LLM 混合、合并和堆叠在一起可以产生复合系统,其表现出的强大突发行为大于其各部分之和。
让我们研究一些最有前途的开源技术,这些技术可以将较小的模型组合在一起,产生“巨大”的性能,讨论现实世界的例子,并推测随着这些方法的发展,未来可能会发生什么。具体来说,我们将涵盖:
- 通过专家的集合和混合来混合模型
- 通过层拼接合并模型
- 将模型堆叠成可组合的管道
- 从较小的子系统实现巨大的性能
- 例如 Mixtral-8x7B 和 Mixture-of-Experts 模型
- 通过这些技术增强了 30–70b 模型的潜力
- 小型但性能卓越的开源模型如何挑战大型科技公司的大语言模型
通过 Ensembling 将模型混合在一起
提升模型性能的最直接但最有效的技术之一是集成,它已在机器学习中使用了数十年。这个概念很简单——你训练多个独立的模型,然后在推理中平均它们的预测,以生成一个复合模型,该模型通常比其组成部分更稳健、更准确。
LLM 研究人员发现,集成较小的模型(即使是相对简单的模型)可以产生与大得多的单个模型相媲美的突发行为。例如,DeepMind 创建的名为 Chinchilla 的 120 亿参数 LLM 集成被发现在某些 NLP 数据集上与 GPT-3.5 的准确率相当,尽管 GPT-3.5 的参数多 10 倍。
集成产生这种提升的原因如下:
- 与单个模型相比,平均可以减少噪声和方差
- 集合组件会产生部分独立的错误来抵消
- 结合不同的能力,实现更广泛的覆盖
模型集成的一大优势是它可以轻松并行化——您可以分别训练较小的组成模型,然后将它们组合起来,从而避免了对巨型单片模型的大量硬件要求。随着您添加更多较小的模型,集成会不断改进。
这使得集成在开源领域极有希望与大型科技公司的大语言模型相媲美。如果有足够多的模型贡献,即使是简单的数亿参数模型也可以汇总在一起产生巨大的影响。
混合专家建模的进展
Mixture-of-Experts 是集成的扩展,其中不同的模型专注于不同的领域,然后一个单独的“门控模型”动态地组合它们的输出。这让我们能够构建具有专业能力的复合 LLM,可以流畅地匹配或超越通用巨型模型。
例如,Naver 训练了一个名为 Hyperclova 的宪法模型,该模型有 8.3b 个参数 — 与 Google 的 PaLM 或 DeepMind 的 Gopher 模型(超过 100b 个参数)相比,这个模型微不足道。但 Hyperclova 动态混合了 5 个在不同领域训练的小型专家模型的答案,使其“发挥超乎寻常的作用”,在科学推理方面表现出色。
混合专家可组合性使得针对特定领域或任务训练更专业的专家模型成为可能,然后将它们组合成一个多功能、可泛化的系统。随着模型训练在开源生态系统中扩展,这为实现强大的泛化提供了一条途径,而无需依赖庞大的单片模型。
而且功能扩展非常顺畅 — 30b 混合专家系统的性能可能与 200b 的 LLM 相当(甚至更好)。这可以大大降低硬件和财务障碍,让更广泛的社区获得有影响力的 LLM。
Mixtral-8x7B:
- 架构:每层使用 8 个“专家”前馈块,而不是 Mistral-7B 中通常使用的块。
- 选择:使用门控网络在每一层为每个令牌仅选择两个专家。
- 性能:在各种基准测试中均优于 Llama 2 70B 和 GPT-3.5 等模型,并且在代码生成和多语言任务等领域表现出色。
- 效率:尽管每个 token 仅能见到两个专家,但由于每层有 8 个专家,因此模型会访问 47B 个参数。这在效率和性能之间提供了权衡。
- 动态路由:根据输入动态选择专家,从而可能带来更好的性能。
- 条件门控:根据附加信息(例如令牌的位置或先前的输出)来调节门控网络。
- 联合 MoE:允许在多个设备或位置上对分布式数据集进行训练。
通过拼接层合并模型
除了混合模型预测之外,我们还可以在架构层面上对模型进行结构合并。其中一种技术是层拼接,即在基础模型的中途,我们切换到另一个模型的层,从而有效地将它们拼接在一起。
这是基于这样一个观点:大语言模型的初始层通常学习更多基础推理,而后续层则倾向于专业化。层拼接让我们能够组合不同模型的优势——上层模型的一般知识和广泛能力,下层模型的任务专业知识和专业化。
同样,这避开了巨型单片模型的硬件强度。两个各具有 5b 参数的模型可以拼接起来,其性能与单个 10b 参数 LLM 相当甚至更好。随着模型大小向 30-70b 参数增长,层拼接可以产生令人印象深刻的复合材料,可与大几倍的模型相媲美。
它还释放了创造性的架构理念。我们可以逐步将知识从更通用的模型拼接到更专业的模型中,形成一个链式层次结构。专注于不同模式(文本、代码、图像等)的模型可以交叉链接。我们甚至可以拼接到辅助推理模块,如神经证明系统或符号求解器,以实现混合可组合性。
随着模型训练在开源社区中分散化,层拼接提供了一种灵活的方式来利用多样化但互补的能力。这可以帮助小团队发挥出超水平发挥,构建出与大型科技公司庞大的单一努力相媲美的模型。
将模型堆叠成可组合的管道
进一步提高可组合性,我们可以将整个模型链堆叠成多阶段管道。在这里,每个模型更专注于特定任务,但中间表示在它们之间流动,以便通过组合实现复杂的推理。
例如,Anthropic 的 Constitutional 模型管道将文本表示传递到各种推理、安全和摘要模块,以进行受控生成。这体现了模型可组合性 — 将功能拆分到协同工作的专门模型中。
其他示例包括语义解析管道,它首先分析语法和结构,然后提取含义,或多步推理,从前提到结论合乎逻辑。更雄心勃勃的是,我们可以构建越来越抽象的模型的长循环链,逐层传递提炼的表示。
重要的是,模型堆叠还可以为训练方案带来极大的灵活性。可以冻结较早的模型,而只训练较晚的模型,从而大大降低资源需求。可组合的管道可以顺利集成任何未来的模型升级或交换。这种可持续的可迭代性与需要端到端重新训练的单片模型形成鲜明对比。
总体而言,模型堆叠通过结合模块化训练的专门能力来解锁新兴推理能力。与巨型单片模型相比,这更符合分散的开源开发。它可以使小型学术实验室以极低的成本构建实现最先进性能的先进管道。
未来之路:通过合成技术增强 30–70b 模型
退一步来说,集成、混合专家、层拼接和将模型堆叠到管道等技术对于开源 LLM 开发来说似乎非常有前景。它们为较小的模型提供了具体的机制,使其能够表现出与最大的 LLM 相媲美(或优于)的新兴行为。
下一个前沿是将这些技术应用于 300-700 亿参数范围内的中型模型,因为它们变得更易于训练。例如,Anthropic 已宣布计划发布一个名为 Compradors 的宪法模型,该模型具有约 370 亿个参数。同样,Meta 正在训练一个名为 Galactica 的 600 亿参数 LLM。
在这个规模下,使用多个 30-70b 模型进行层拼接等方法可能会产生与 GPT-4 匹敌甚至超越它的复合材料。同时,与单个巨型模型相比,中等规模的模型集成或混合专家组装可以展示出更强的泛化能力、跨领域的适用性和鲁棒性。
至关重要的是,开源实验室已经在 7-13b 规模的小型模型上展现了令人印象深刻的创新。随着 30-70b 规模的模型变得越来越容易获得,我们预计组合技术将迅速普及,从而提升超越单个模型规模的能力。这可以牢固地确立高性能且合乎道德的开源 LLM 作为大型科技公司大规模模型的真正竞争对手的地位。
展望未来的发展轨迹,如果多个中型 50b+ 宪法模型可以通过组合匹配 500b LLM,那么为什么还要追求巨型个体模型呢?多模型管道的模块化设计和灵活的可组合性更适合分散、迭代的开源生态系统。它降低了更广泛的社区有意义地参与建设共同利益技术的障碍。
结论
集成、混合专家、层拼接和模型堆叠等技术通过将较小但互补的 LLM 组合在一起来解锁新兴推理。这让我们能够利用在开源生态系统中模块化训练的各种能力,同时避免依赖庞大的单片模型。
随着模型规模进入 300 亿至 700 亿个参数的范围,组合方法的重要性将迅速增加。我们预见到,随着分散的开源实验室发明巧妙的集成策略来提升模型能力,创造力将蓬勃发展。新兴的表现可以牢固地巩固高性能、稳健和道德的开源 LLM 作为大型科技公司庞大的单个模型的竞争对手的地位。
小团队可能缺乏资源来开发 70b 以上的单体应用,但这可能证明是一种优势。围绕可组合管道的全新基础工作可以让开源社区走在推动下一代人工智能开发的前沿,这些人工智能开发基于模块化、灵活性、可迭代性和道德考量。
最终,我们的目标仍然是让人工智能广泛普及,让所有人都能从中受益。随着大语言模型变得越来越强大,通过道德设计保持同步至关重要,这样才能让社会受益匪浅。开源运动开创的组合技术与这一愿景非常契合。经过相应改进的 50-70b 规模模型可以跨语言、跨知识领域,为所有人带来巨大的收益。
在模型能力和负责任的实施方面,还有许多工作要做。但过去几年的进展表明,有一点很清楚——协作创新的开放性推动了真正的前沿。人工智能的下一个重大飞跃将来自追求共同利益的性能和道德的开放生态系统。因此,从研究人员到开发人员再到政策制定者,我们所有人都应发挥作用,推动进步,使所有人平等地、永久地获得权力。