混合专家模型(MoEs)技术揭秘
混合专家模型(Mixture-of-Experts, MoEs)技术发展简史
Mixtral 8x7B :质效并举的稀疏混合专家模型
Mixtral 8x7B :质效并举的稀疏混合专家模型
MoEs 技术发展简史
MoEs 开山鼻祖:自适应局部专家混合 (Adaptive Mixtures of Local Experts, 1991)
- 混合专家模型:提出了一种有效减弱干扰效应的模型结构,设立多个独立的子网络(“专家”)来处理不同的输入数据子集(子任务),从而实现学习网络独立的权重更新。
- 门控网络:除了专家网络,这个模型还引入了一个称为“门控网络”(Gating Network)的结构。门控网络的职责,根据输入数据决定使用哪个专家网络(或组合)处理当前输入。
- 自适应学习:同时对每个专家和门控网络进行训练,模型可以根据数据自适应地改变每个专家的权重和作用。
核心贡献
- **分治处理复杂问题:**MoE 模型结构能够将复杂的任务分解为更小、更易于管理的子任务,每个由不同的专家网络处理。
- **引入了新的学习机制:**通过结合多个专家的知识和专长,混合专家模型能够更灵活地适应各种不同的数据模式和任务。
- **对后续研究的启发:**该论文在深度学习和机器学习领域具有重要影响,为后续关于神经网络架构创新、分布式学习以及模型优化方法的研究提供了灵感和基础
MoEs 与 集成学习技术对比
深度 MoEs ( Learning Factored Representations in a Deep Mixture of Experts ,2013)
Hinton 和 Jeff Dean 合作发表稀疏门控 MoE (2017 ICLR)
MoEs 与 大模型结合后的技术发展
GShard**:基于** MoE 探索巨型 Transformer 网络(Google, 2020)
在 GShard 中,编码器和解码器里的部分 FFN (Feed-Forward Network) 层被 MoE (Mixture of Experts) 层替代,并采用了一种称为 top-2 的门控机制。这种设计对大规模计算尤其有利:当模型扩展到多个设备时,MoE层在这些设备间共享,而其他层则在每个设备上独立存在。
为了在大规模应用中保持效率和均衡的负载,GShard 团队在设计上做了一些创新,包括:
• 随机路由机制:在 top-2 设计中,我们始终选择表现最优的专家,但第二选择的专家则根据其权重以一定概率被选中。
• 专家处理能力限制:我们可以设定一个专家能处理的 Token 数量的上限。如果两个专家的处理能力都已达到上限,那么这个 Token 就会被认为是多余的,并通过残差连接传递到下一层,或在某些情况下被直接丢弃。这一概念在 MoEs 的应用中非常关键。
注:在模型编译时所有的张量形状(Tensor Shape)都是静态确定的,但无法预先知道每个专家将处理多少Token,因此需要设定一个固定的处理能力上限。
GLaM**:使用** MoE 扩展语言模型性能(Google, 2021)
GShard vs GLaM
Switch Transformer**:使用稀疏技术实现万亿模型(Google, 2022)**
并行提升 MoEs 效率
Mixtral 8x7B 稀疏专家模型(2024)