Mixtral-8x7B 背后的 MoE 技术

什么是专家混合（MoE）？
MoE 的历史
什么是稀疏性？
MoE 和 Transformers
Switch Transformers
微调 MoE
加速 MoE 的运行
服务技巧
开源 MoE 项目

正文

什么是专家混合（MoE）？

模型的规模对于提升其质量至关重要。在有限的计算资源下，相较于用更多步骤训练一个小型模型，训练一个大型模型即便步骤更少效果通常更好。MoE 让模型以「远低于传统密集模型的计算成本」进行预训练，这意味着你可以在相同的计算预算下显著扩大模型或数据集的规模。特别是在预训练阶段，MoE 模型能比其同等规模的密集型模型更快地达到相同的性能水平。

那么，MoE 究竟是什么呢？在 Transformer 模型的背景下，MoE 主要由两个部分组成：

稀疏 MoE 层代替了传统的密集前馈网络 (FFN) 层。MoE 层包含若干“专家”，例如 8 个，每个专家都是一个独立的神经网络。实际上，这些专家通常是 FFN，但它们也可以是更复杂的网络，甚至可以是 MoE 本身，形成一个层级结构的 MoE。
门控网络或路由器，用于决定哪些 Token 分配给哪个专家。值得注意的是，一个 Token 可以被分配给多个专家。

如何高效地将 Token 分配给合适的专家，是使用 MoE 技术时需要考虑的关键问题之一。路由器由一系列可学习的参数构成，它与模型的其他部分一起进行预训练。

MoE 的历史

MoE 的概念最早出现在 1991 年的论文《Adaptive Mixture of Local Experts》中。这一理念与集成方法相似，目的是通过监督程序管理一个由不同网络构成的系统，每个网络处理训练样本的一部分。每个单独网络或“专家”，都在输入空间的不同区域有其特长。由单独的门控网络决定每个专家的权重，在训练过程中，同时对专家和门控网络进行训练。

在 2010 至 2015 年间，两个不同的研究领域推动了 MoE 的进一步发展：

将专家作为组件：在传统的 MoE 结构中，系统由一个门控网络和多个专家组成。MoE 作为整体模型已在 SVM、高斯过程等方法中得到应用。Eigen 等人的研究将 MoE 作为更深层网络的一部分进行探索。这意味着 MoE 可以作为多层网络中的一层，使模型在大规模和高效率之间达到平衡。
条件计算：传统网络会将所有输入数据通过每一层。在此期间，Yoshua Bengio 探索了一种基于输入 Token 动态激活或停用网络组件的方法。这些研究促进了在自然语言处理领域对混合专家模型的探索。具体来说，Shazeer 等人 (2017 年的研究，团队成员包括 Geoffrey Hinton 和 Jeff Dean) 将这一理念应用到了一个 137B 的 LSTM (当时的 NLP 主要架构) 上，通过引入稀疏性概念，即使在大规模应用中也能保持快速的推理速度。这项工作主要关注翻译领域，但也面临着高通信成本和训练不稳定等挑战。

什么是稀疏性？

稀疏性基于条件计算的概念。不同于密集模型中所有参数对所有输入都有效，稀疏性让我们能够只激活系统的部分区域。条件计算 (即网络的某些部分仅针对特定样本激活) 使得在不增加计算量的情况下扩大模型规模成为可能，从而在每层 MoE 中使用了数千名专家。

这种方法也带来了挑战。比如，虽然大批量处理通常能提高性能，但在 MoE 中，当数据通过活跃的专家时，实际的批量大小会减小。例如，如果我们的批量输入包含 10 个 Token，可能有 5 个 Token 由一个专家处理，另外 5 个 Token 分别由 5 个不同的专家处理，这导致批量大小不均匀，资源利用率低下。

那我们该如何解决这些问题呢？让我们深入探讨 Shazeer 在翻译领域对 MoE 的研究。通过一个学习型的门控网络 (G)，决定将输入的哪些部分分配给哪些专家 (E)：

$\sum_{i=1}^{\text{n}} G(x)_i E_i(x)$