MoE全称是“混合专家”,它由多个专家网络和一个门控网络组成……整个MoE完全复用了Transformer的结构,只是将其中的FFN层替换成了MoE层。MoE层里的门控网络其实就是个专家分类器,每次根据输入Token生成专家的概率分布,然后选择排序靠前的K个专家进行Token处理,最后再将K个专家的结果加权汇总输出给下一层网络。
为什么MoE推理效率更高:精简FFN
主要是在之前的传统大模型中,Transformer中的FFN参数占比较高,通常超过60+%,而且随着模型参数量的增加,这块占比可能会高达百分之九十以上;并且FNN的处理具有严重的稀疏性,虽说参数量很大,可通常每次计算只有少部分参数被激活或使用,因此可以通过减少FFN的推理激活参数量来优化大模型的推理速度。