llm大模型
- 混合专家模型(MoE)
- MoE结构
- 路由router
- 专家expert
- Switch Transformer的典型MOE模型
- 最后MoE总结
混合专家模型(MoE)
模型规模是提升LLM大语言模型性能的关键因素,但也会增加计算成本。Mixture of Experts (MoE) 架构通过分布式专家层和动态门控机制,有效降低了计算资源,使模型能够在扩展参数规模的同时保持高效的运行。因为MoE是稀疏的。
MoE结构
典型的MOE结构包括两个部分:
- Router 路由:决定采用哪个Expert
- Experts:多个Expert
路由router
transformer结构中,每个token(分词)是一个向量。哪个token被分到哪个或哪些专家模型。比如有的网络专家适合处理数字,有的网络专家适合处理动词等。
所以门控或路由是一个线性层,路由层的输出维度等于专家数量。定义 Wg为路由层权重,其形状为(dim, n_experts)。TopK是超参,每个token选择K个专家,然后对K个特征取softmax进行归一化。
专家expert
混合专家层定义为为 { E0 , E i , . . . , E n − 1 },路由层定义为 G,计算公式如下:
在Mixtral中,每个专家层都是一个FFN。路由层提供不同专家的权重,与专家层的输出加权求和,得到MoE的输出
Switch Transformer的典型MOE模型
替换transformer中的FFN layer为MoE layer,包含4 experts。
通过Router选中一个Expert进行激活。