大模型MoE技术深度解读,引领AI走向新高度

0ca1f460aa83cfaff3e3583dbc9586ff.jpeg

大模型系列之解读MoE

   Mixtral 8x7B的亮相,引领我们深入探索MoE大模型架构的奥秘。MoE究竟是什么?一起揭开它的神秘面纱。

1. MoE溯源

MoE,源自1991年的研究论文《Adaptive Mixture of Local Experts》,与集成学习方法相契合,专注于构建由多个独立网络构成的高效系统。该系统通过监管机制,使每个网络针对训练样本的不同子集进行专注处理,精准覆盖输入空间的特定区域,实现精准高效的学习与应用。

后来,业界探索了将 MoE 作为更深层网络的一个组件。这种方法允许将 MoE 嵌入到多层网络中的某一层,使得模型既大又高效。而且, 由研究开始探索基于输入令牌动态激活或停用网络组件的方法。2017年,将这一概念应用于 137B 的 LSTM ,通过引入稀疏性,这项工作在保持高规模的同时实现了快速的推理速度。

总之,MoE 的引入使得训练具有数千亿甚至万亿参数的模型成为可能。

2.什么是MoE?

MoE的核心思想是“集思广益”,即整合多个专家网络,各显神通处理数据不同层面,提升性能。其目标构建一动态系统,灵活利用各专家优势,基于输入数据实现更精准、灵活的预测,超越单一模型的能力边界。

MoE是一种集成学习技术,它将大任务细分为小单元,由各领域专家独立处理。最终,通过智能决策机制,灵活选择并融合专家建议,实现高效的问题解决。

e209e9dc7651b6a169085ca1e0acea7b.jpeg

此方法涵盖四大核心步骤:首先,将大问题细化为多个小单元;其次,为各单元培养顶尖专家;随后,引入门控模型作为决策者,指导专家协作;最后,整合专家意见与决策者选择,形成精准预测。

MoE作为一类transformer模型,运用“稀疏”方法,每个输入仅激活部分模型组件。这种策略不仅实现了高效的预训练和快速推理,还支持管理更大规模的模型。每位“专家”都是一个专注于处理不同数据面的神经网络(如FFN),从而确保模型在处理多样化任务时更加高效。

140d1eeef34b25f9728c737c4a821cfe.jpeg

MoE凭借其减少计算的优势,实现了模型预训练的加速。相较于小模型多步骤训练,大模型少步骤训练效果更佳。推理时,MoE模型参数相同但速度更快,因其仅利用参数子集,实现高效预测,展现了显著的性能优势。

3. MoE的组成

MoE系统革新了Transformer模型,将前馈网络层升级为MoE层。MoE层由两大关键元素构成:智能门控网络和多位专家。这一创新结构为系统带来了更高效的信息处理能力。

Token在封装输入数据中扮演着关键角色,以高维向量形式呈现,综合结构化地编码输入特征。每个token的多维度结构代表了数据的独特特征或方面。这种高维向量组织方式使系统能够精准捕捉输入数据的复杂性和细微差异,为深入分析提供了丰富且精准的数据支撑。

Token的高维表示赋予专家从数据中洞察细微模式和见解的能力。处理为高维向量后,专家模型借助先进算法技术揭示隐藏关联,显著提升MoE系统的分析能力。

3.1 专家模型

专家模型专为解决特定小问题而设计,不限于神经网络,可涵盖各类模型。经训练后,各专家模型能在特定输入空间精准预测数据点。神经网络亦可兼具决策者与专家双重身份,即“混合密度网络”。所有专家基于统一数据集进行预测,共同致力于精确分析。

"专家"是模型的关键组件,专注于特定任务或数据模式,如代码生成、推理与汇总。其专业化程度源于训练数据和模型结构,更侧重于计算任务的本质,如模式识别与特定输入处理,而非特定领域知识。

MoE模型中,每个专家模型均为训练有素的神经网络,专注于处理特定数据或任务子集。共同骨干网络作为特征提取器,将原始输入转化为高级表示,助力专家模型高效工作。这种结构让每位“专家”聚焦于其擅长处理的模式或特征,实现精准预测。

3.2 门控模型

在特定情境下,门控模型作为决策者,负责选择最佳专家建议。该模型基于输入数据,确定哪个专家模型的预测最适宜。当门控模型以神经网络形式呈现时,即称为门控网络。它充当决策者角色,依据专家熟练度和输入数据相关性,动态调整专家权重。简而言之,门控网络灵活调配专家资源,确保信息得到最佳处理。

10bfc538daa25c1cf870212092ac26c7.jpeg

门控网络是MoE的核心,它基于输入数据为专家输出分配精准注意力,确保预测准确性。这种分配基于门控网络对专家能力的评估,确保输入导向最匹配的专家。门控机制引导集合,高效整合专家输出,形成精准预测。MoE因此展现出高度适应性和效率,为每个任务精准调配资源,实现最佳性能。

在神经网络模型训练中,门控网络与专家模型协同作战,如同团队般默契配合。传统“期望最大化”方法已解决协同难题。门控网络为专家评分,如概率般展现信任度,确保预测精准可靠。

MoE模型在Softmax与噪声Top-k门机制的助力下,实现了显著进步。Softmax通过评估专家与输入的相关性,为其分配权重,确保预测精准。而噪声Top-k门控则随机选取Top-k专家进行预测,为模型引入多样性,显著增强鲁棒性和泛化能力。这一组合不仅提升了模型性能,更展现了现代机器学习技术的无限潜力。

4. MoE 的实现

MoE系统实现的核心在于精巧的体系结构设计,其中Switch Transformer结构尤为突出,它巧妙集成混合专家模型层。这一设计让系统汇聚了多专家模型的专长,极大提升了决策和预测的精准性。

fa65b3362de7b72fed4d145e4c9e6378.jpeg

构建Switch Transformer时,关键在于确保专家混合层无缝融合。这些层以多角度处理数据,赋予系统基于多元见解的智慧决策能力。实现流程简明扼要:确保集成顺畅,分析全面,决策明智。

  1. 结合Switch Transformer框架,设计MoE系统的总体架构;
  2. 将专家模型混合层集成到系统中,以支持并行的数据处理;
  3. 实现根据上下文和信息类型将数据路由到适当专家的机制;
  4. 优化训练过程,微调专家权重和切换机制。

MoE系统成功的关键在于动态路由与负载均衡。这一策略能确保token高效分布,最大化性能与资源利用。动态路由依据工作量和信息复杂度,实时将任务与数据分配给专家模型,确保系统持续高效运作。负载均衡则确保计算任务与数据处理在专家间均匀分配,防止资源瓶颈,提升系统整体性能。这一策略的实施,为MoE系统注入了强劲动力。

  1. 监控每个专家模型的工作负载,并动态地重新分发token以保持平衡。
  2. 实现基于紧迫性和复杂性对任务进行优先排序的算法,以优化处理效率。
  3. 利用反馈机制不断调整负载均衡参数。

571bd9f15c36ef0071cbec93795fa7d6.jpeg

下面这些开源项目可以用于训练MoE:

  • Megablocks:数据构建的未来,斯坦福大学未来数据实验室的开源杰作。探索高效数据处理新途径,引领大数据时代潮流。速览https://github.com/stanford-futuredata/megablocks
  • Fairseq,由Facebook研究团队推出的强大语言模型工具,位于GitHub的[链接],提供moe_lm等丰富示例,助您轻松构建高效、先进的自然语言处理模型。
  • OpenMoE,强大开源平台,访问https://github.com/XueFuzhao/OpenMoE,发现更多可能。

5. MoE 的训练

5.1 MoE 系统训练的特点

  • 该模型在涵盖多种任务与领域的广泛数据集上训练,确保专家能应对多样数据与挑战,突显其强大的适应性与实用性。
  • MoE模型独特的门控机制精准分配任务,智能选择专家处理输入数据的特定部分。训练过程中,门控网络学习根据专家专长分配数据,实现高效资源利用。
  • 专家模型在训练中逐步精通特定数据处理任务,实现高度专门化。这种转变源于模型对处理数据时最佳数据类型的有效学习和吸收。
  • 反馈回路高效运作:当专家模型在特定数据上表现卓越时,门控机制倾向于推送同类数据,从而强化各专家的专长,实现精准的数据分配与专业深化。
  • 训练过程融入正规化技术和特定损失函数,以优化学习效率和避免过度泛化,确保模型在专业领域内精准表现,实现专业化分布。
  • 模型微调强调特定任务,深化组件专长。指令调优成为超越传统模型的关键,通过优化专家指令,在不增加复杂性的前提下,实现精度与效率的双重提升,为模型性能带来质的飞跃。

专家模型超越单一任务范畴,其“专业知识”在于特定数据或任务效率的显著提升,而非局限于严格领域定义,展现广泛适用性。

5.2 联合训练

优化MoE模型的关键在于联合训练门控网络与其他组件。通过反向传播更新门控网络参数,使其根据专家模型反馈调整路由决策。这种集成优化策略平衡了专家贡献,优化了路由机制,确保模型实现最佳性能。

5.3 指令调优

指令调优法可优化MoE系统,核心在于调整路由机制和专家模型,以提升模型应对不同任务和输入数据分布的性能。常见策略涵盖精细化的微调操作。

  1. 软路由技术运用连续概率精准分配专家模型对输出的贡献,将路由决策转化为概率模型,尤其在多专家互补信息下,实现更平滑、灵活的路由执行,显著提升系统效能。
  2. 硬路由为给定输入选择单一专家模型,其离散决策机制简便易行且解释性强,尤其适用于需要明确专家选择的场景,相较于软路由更具优势。
  3. 正则化技术:L1和L2正则化可应用于路由参数,有效防止过拟合,提升模型泛化能力。通过抑制复杂路由决策,正则化促使模型采纳更稳健、可解释的路由策略。
  4. 自适应路由机制智能地根据输入数据和模型状态动态调整路由决策,灵活应对数据模式变化,实现高效、自适应的专家选择,确保系统性能卓越。

6. MoE 的典型应用

MoE架构高效构建大型语言模型神经网络,擅长处理代码生成、推理与汇总等任务。其应用于强化学习,专家各自专攻环境不同领域。在迁移学习中,MoE助力跨领域知识迁移,实现高效学习与应用。

MoE在个性化推荐系统上取得显著突破,通过专家参与匹配不同内容及用户偏好,实现精准推荐。其基于输入数据的适应和专门化能力,使MoE成为未来应用领域的瞩目焦点。

举例而言,谷歌的 Gemini 1.5采用了MoE架构,这种架构使Gemini 1.5更有效的训练和服务。它将您的请求路由到一组较小的“专家”神经网络,这样响应速度更快,质量更高。Gemini 1.5 Pro,这是一个中等大小的多模态模型,针对不同任务的缩放进行了优化。它的性能与1.0 Ultra 相当,后者可能是迄今为止谷歌最重要的模型。Gemini 1.5 Pro 还在长语境理解方面引入了一个突破性的实验特性。它提供了一个标准的128,000 token 上下文窗口,但是有限的开发人员和企业客户可以使用最多100万token的上下文窗口来进行尝试。

另一个应用示例是Mixtral 8x7B ,它使用稀疏混合专家架构(SMoE)。它的架构与Mixtral 7B 相同,不同之处在于每一层包含八个前馈网络。对于每一个token,在每一层,门控网络选择两个专家来处理当前状态并合并他们的输出。因此,每个令牌都可以访问47B 参数,但是在推理期间只使用13B 活动参数。Mistral 8x7B 在所有评估的基准测试中都优于或匹配 Llama 270B 和 GPT-3.5。特别爹,Mixtral 在数学、代码生成和多语言基准测试方面远远超过了Llama 270B 。

15dd1b277e5eb36099330ef6121c6b22.jpeg

7. MoE 的简单示例

MoE模型高效应对复杂数据分布,通过集成不同专家子模型实现精准预测。以下是运用TensorFlow/Keras构建基础MoE模型的精简步骤。

(1)定义专家模型, 可以是任何典型的神经网络结构

import numpy as np
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.layers import Dense, Input, Lambda, Layer, Softmax
from tensorflow.keras.models import Model

def create_expert_model(input_dim, output_dim):
inputs = Input(shape=(input_dim,))
x = Dense(64, activation='relu')(inputs)
x = Dense(32, activation='relu')(x)
outputs = Dense(output_dim, activation='softmax')(x)
model = Model(inputs=inputs, outputs=outputs)
return model

def create_gating_network(input_dim, num_experts):
inputs = Input(shape=(input_dim,))
x = Dense(32, activation='relu')(inputs)
x = Dense(num_experts, activation='softmax')(x)
outputs = x
model = Model(inputs=inputs, outputs=outputs)
return model

(3)创建 MoE 模型,使用门控机制来计算专家模型预测的加权和

def create_moe_model(input_dim, output_dim, num_experts):
input_layer = Input(shape=(input_dim,))
expert_models = [create_expert_model(input_dim, output_dim) for _ in range(num_experts)]
gating_network = create_gating_network(input_dim, num_experts)
expert_outputs = [expert(input_layer) for expert in expert_models]
gating_coefficients = gating_network(input_layer)
def moe_function(args):
expert_outputs, gating_coefficients = args
return tf.reduce_sum(expert_outputs * tf.expand_dims(gating_coefficients, axis=-1), axis=1)
moe_output = Lambda(moe_function)([expert_outputs, gating_coefficients])
model = Model(inputs=input_layer, outputs=moe_output)
return model

(4)选择适当的损失函数,编译模型并在数据集上对其进行训练

input_dim = X_train.shape[1]
output_dim = len(np.unique(y_train))
num_experts = 5
moe_model = create_moe_model(input_dim, output_dim, num_experts)
moe_model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
moe_model.fit(X_train, y_train, epochs=10, batch_size=32)

 

-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/838606.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机器学习笔记 KAN网络架构简述(Kolmogorov-Arnold Networks)

一、简述 在最近的研究中,出现了号称传统多层感知器 (MLP) 的突破性替代方案,重塑了人工神经网络 (ANN) 的格局。这种创新架构被称为柯尔莫哥洛夫-阿诺德网络 (KAN),它提出了一种受柯尔莫哥洛夫-阿诺德表示定理启发的函数逼近的方法。 与 MLP 不同,MLP 依赖于各个节…

NASA数据集——GES DISC 的 AIRS-CloudSat 云掩模、雷达反射率和云分类匹配 V3.2 (AIRS_CPR_MAT)

AIRS-AMSU variables-CloudSat cloud mask, radar reflectivities, and cloud classification matchups V3.2 (AIRSM_CPR_MAT) at GES DISC GES DISC 的 AIRS-CloudSat 云掩模、雷达反射率和云分类匹配 V3.2 (AIRS_CPR_MAT) 简介 这是 NetCDF-4 格式的 AIRS-CloudSat 定位子…

餐谱的展示程序

开发背景 可以根据分类直接找到需要展示的餐谱,大的分类A、B、C、D等 二级分类 A1、A2、A3、A4。。。 餐谱就是图片 加 说明 页面 选择一级分类A,选择二级分类A1,查询出该分类下的餐谱 代码 /*** 查询列表*/RequiresPermissions("…

node.js的Express框架的介绍 与 安装详细教程

一、Express框架介绍 (1)Express定义: Express 是一个简洁而灵活的 node.js Web应用框架, 提供了一系列强大特性帮助你创建各种 Web 应用,和丰富的 HTTP 工具。 使用 Express 可以快速地搭建一个完整功能的网站。 &#xff08…

IDEA 每次启动都显示选择项目页面

IDEA版本:2021.3.3 打开 Settings > Appearance & Behavior > System Settings 取消勾选 Reopen projects on startup 然后下次启动 IDEA 会显示选择项目页面

Python代码:一、HelloWorld

1、题目: 将字符串 Hello World! 存储到变量str中,再使用print语句将其打印出来。 2、代码 import sys str Hello World ! print(str)3、在sublime运行的结果

第18节 神级开源shellcode工具:donut

我做了一个关于shellcode入门和开发的专题👩🏻‍💻,主要面向对网络安全技术感兴趣的小伙伴。这是视频版内容对应的文字版材料,内容里面的每一个环境我都亲自测试实操过的记录,有需要的小伙伴可以参考。 我的…

python创建新环境并安装pytorch

python创建新环境并安装pytorch 一、创建新环境1、准备工作2、创建虚拟环境并命名3、激活虚拟环境 二、安装pytorch1、pytorch官网2、选择与你的系统相对应的版本3、安装成功 一、创建新环境 1、准备工作 本次创建的环境是在anaconda环境下,否则需要在纯净环境下创…

AutoNeRF:Training Implicit Scene Representations with Autonomous Agents

论文概述 《AutoNeRF》是由Pierre Marza等人撰写的一篇研究论文,旨在通过自主智能体收集数据来训练隐式场景表示(如神经辐射场,NeRF)。传统的NeRF训练通常需要人为的数据收集,而AutoNeRF则提出了一种使用自主智能体高效…

Spring Boot | Spring Boot 中 自定义“用户退出控制“、获取“登录用户信息“

目录: 一、SpringBoot 中 自定义 "用户授权管理" ( 总体内容介绍 ) :二、 自定义 "用户退出控制" ( 通过 "HttpSecurity类" 的 logout( )方法来实现 "自定义用户用户登录控制" ) :1.基础项目文件准备2.实现 "自定义身份认证"…

springboot005学生心理咨询评估系统

springboot005学生心理咨询评估系统 亲测完美运行带论文:获取源码,私信评论或者v:niliuapp 运行视频 包含的文件列表(含论文) 数据库脚本:db.sql其他文件:ppt.ppt论文:开题.doc论文&#xf…

WT99C262-SG LoRa开发板使用教程

WT99C262-SG模块是全新一代的Wi-FiBLELoRa无线扩频模块,基于启明云端WTLRC262-SG系列模组设计开发的新一代LoRa扩频芯片方案设计的无线串口模块。具有多种传输方式,LoRa扩频技术,且模组大部分管脚均已引出至两侧排针,开发人员可根…

爬虫界的“闪电侠”:异步爬虫与分布式系统的实战秘籍

Hi,我是阿佑,前文给大家讲了,如何做一个合法“采蜜”的蜜蜂,有了这么个自保的能力后,阿佑今天就将和大家踏入 —— 异步爬虫 的大门! 异步爬虫大法 1. 引言1.1 爬虫框架的价值:效率与复杂度管理…

卷轴分红商城模式:适用于多种的商业营销模式

卷轴分红商城模式是一种基于区块链技术的去中心化积分商城系统,通过智能合约和数字资产分红实现积分流通和价值回馈,适用于多种场景。 什么是卷轴分红商城模式: 这是一个去中心化的积分商城系统,消费者在商城消费时,可…

番外篇 | 一文读懂卷积神经网络(CNN)的基础概念及原理

前言:Hello大家好,我是小哥谈。卷积神经网络(Convolutional Neural Network,CNN)是一种深度学习模型,主要用于图像识别和计算机视觉任务。本文旨在对卷积神经网络进行详细的讲解,从基本原理到实际应用,帮助读者全面了解CNN的工作原理、优势和基本组成等,以及其在现实生…

异步编程CompletableFuture总结

文章目录 1. 简介:2. 比较1、传统方式2、使用CompletableFuture:异步执行返回值 3、组合处理:anyOfallof : 4. 异步回调:thenAcceptthenApplywhenComplete等同于 thenAccepthandel()等同于thenApply 5. 常用方法:1、su…

Python——IO编程

IO在计算机中指Input/Output,也就是输入和输出。由于程序和运行时数据是在内存中驻留,由CPU这个超快的计算核心来执行,涉及到数据交换的地方,通常是磁盘、网络等,就需要IO接口。 比如你打开浏览器,访问新浪…

Linux查看进程命令ps和top

Linux 是一种自由和开放源代码的操作系统,它的使用在全球范围内非常广泛。在 Linux 中,进程是操作系统中最重要的组成部分之一,它代表了正在运行的程序。了解如何查看正在运行的进程是非常重要的,因为它可以帮助你了解系统的运行状…

Python 白底黑字图片去除红色水印

Python 白底黑字图片去除红色水印 import os from PIL import Imagedef remove_color(image_path, new_image_path):"""初始化:param image_path: 图片路径:param new_image_path: 新图片路径"""# 打开图片并转换为RGBA格式img Image.open(imag…

java入门1.1.2

前言: 第一:一坨垃圾的迭代,还是垃圾 第二:本内容为对类,对象,构造函数的最新抽象理解 正片 先将类,对象,还要构造函数翻译成英文 class,object,construc…