llm大模型学习

llm大模型学习

web/2025/7/13 4:41:54/文章来源:https://blog.csdn.net/henyaoyuancc/article/details/144984907

llm大模型

混合专家模型（MoE）
- MoE结构
- 路由router
- 专家expert
- Switch Transformer的典型MOE模型
- 最后MoE总结

混合专家模型（MoE）

模型规模是提升LLM大语言模型性能的关键因素，但也会增加计算成本。Mixture of Experts (MoE) 架构通过分布式专家层和动态门控机制，有效降低了计算资源，使模型能够在扩展参数规模的同时保持高效的运行。因为MoE是稀疏的。

MoE结构

典型的MOE结构包括两个部分：

Router 路由：决定采用哪个Expert
Experts：多个Expert

在这里插入图片描述

路由router

transformer结构中，每个token（分词）是一个向量。哪个token被分到哪个或哪些专家模型。比如有的网络专家适合处理数字，有的网络专家适合处理动词等。
所以门控或路由是一个线性层，路由层的输出维度等于专家数量。定义 Wg为路由层权重，其形状为(dim, n_experts)。TopK是超参，每个token选择K个专家，然后对K个特征取softmax进行归一化。
在这里插入图片描述

专家expert

混合专家层定义为为 { E0 , E i , . . . , E n − 1 }，路由层定义为 G，计算公式如下：在这里插入图片描述
在Mixtral中，每个专家层都是一个FFN。路由层提供不同专家的权重，与专家层的输出加权求和，得到MoE的输出

Switch Transformer的典型MOE模型

替换transformer中的FFN layer为MoE layer，包含4 experts。
通过Router选中一个Expert进行激活。
在这里插入图片描述

最后MoE总结

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/web/65424.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Linux入门攻坚——43、keepalived入门-1

Linux入门攻坚——43、keepalived入门-1

Linux Cluster（Linux集群的类型）：LB、HA、HPC，分别是负载均衡集群、高可用性集群、高性能集群。 LB：lvs，nginx HA：keepalived，heartbeat，corosync，cman HP&am…

阅读更多...

HTML5 动画效果：淡入淡出（Fade In/Out）详解

HTML5 动画效果：淡入淡出（Fade In/Out）详解

HTML5 动画效果：淡入淡出（Fade In/Out）详解淡入淡出（Fade In/Out）是一种常见的动画效果，使元素逐渐显现或消失，增强用户体验。以下是淡入淡出的详细介绍及实现示例。 1. 淡入淡出的特点平滑…

阅读更多...

YOLOv8/YOLOv11改进添加CBAM、GAM、SimAM、EMA、CAA、ECA、CA等多种注意力机制

YOLOv8/YOLOv11改进添加CBAM、GAM、SimAM、EMA、CAA、ECA、CA等多种注意力机制

目录前言 CBAM GAM SimAM EMA CAA ECA CA 添加方法 YAML文件添加使用改进训练前言本篇文章将为大家介绍Ultralytics/YOLOv8/YOLOv11中常用注意力机制的添加，可以满足一些简单的涨点需求。本文仅写方法，原理不多讲解，需要可跳…

阅读更多...

Go语言的的多态性（Polymorphism）基础知识

Go语言的的多态性（Polymorphism）基础知识

Go语言的多态性（Polymorphism）基础知识在编程语言中，多态性是一个核心概念，它允许同一接口被不同的数据类型所实现，从而在不影响代码结构的情况下增强代码的灵活性和可扩展性。在Go语言中，多态性通过接口…

阅读更多...

nginx运行之后显示的是上一个项目，如何解决

nginx运行之后显示的是上一个项目，如何解决

重启 Nginx 使配置生效修改 Nginx 配置后，你需要重新加载或重启 Nginx，以使配置生效。执行以下命令： sudo nginx -t # 测试配置是否正确 sudo systemctl restart nginx # 重启 Nginxbash 复制代码检查浏览器缓存浏览器可能缓存了旧…

阅读更多...

与 Oracle Dataguard 相关的进程及作用分析

与 Oracle Dataguard 相关的进程及作用分析

与 Oracle Dataguard 相关的进程及作用分析目录与 Oracle Dataguard 相关的进程及作用分析与 Oracle Dataguard 相关的进程及作用分析一、主库的进程1、LGWR 进程2、ARCH进程3、LNS 进程二、备库的进程1、RFS 进程2、ARCH3、MRP（Managed Recovery Process&#x…

阅读更多...

【C语言】_指针与数组

【C语言】_指针与数组

目录 1. 数组名的含义 1.1 数组名与数组首元素的地址的联系 1.3 数组名与首元素地址相异的情况 2. 使用指针访问数组 3. 一维数组传参的本质 3.1 代码示例1：函数体内计算sz（sz不作实参传递） 3.2 代码示例2：sz作为实参传递 3…

阅读更多...

解决“KEIL5软件模拟仿真无法打印浮点数”之问题

解决“KEIL5软件模拟仿真无法打印浮点数”之问题

在没有外部硬件支持时，我们会使用KEIL5软件模拟仿真，这是是仿真必须要掌握的技巧。 1、点击“Project”，然后点击“Options for target 项目名字”，点击“Device”,选择CPU型号。 2、点击“OK” 3、点击“Target”,勾选“Use Mi…

阅读更多...

donet （MVC）webAPI 的接受json 的操作

donet （MVC）webAPI 的接受json 的操作

直接用对象来进行接收，这个方法还不错的。 public class BangdingWeiguiJiluController : ApiController{/// <summary>/// Json数据录入错误信息/// </summary>/// <param name"WeiguiInfos"></param>/// <returns></r…

阅读更多...

设计模式与游戏完美开发(3)

设计模式与游戏完美开发(3)

更多内容可以浏览本人博客：https://azureblog.cn/ 😊 该文章主体内容来自《设计模式与游戏完美开发》—蔡升达第二篇基础系统第五章获取游戏服务的唯一对象——单例模式（Singleton） 游戏实现中的唯一对象在游戏开发过程中…

阅读更多...

pygame飞机大战

pygame飞机大战

飞机大战 1.main类2.配置类3.游戏主类4.游戏资源类5.资源下载6.游戏效果 1.main类启动游戏。 from MainWindow import MainWindow if __name__ __main__:appMainWindow()app.run()2.配置类该类主要存放游戏的各种设置参数。 #窗口尺寸 #窗口尺寸 import random import p…

阅读更多...

thinkphp通过html生成pdf

thinkphp通过html生成pdf

thinkphp 生成pdf {__NOLAYOUT__} <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>合同模板</title><style>/*打印内容*/media print {page {size: A4 landscape; /* auto is the initi…

阅读更多...

如何让用户在网页中填写PDF表格？

如何让用户在网页中填写PDF表格？

在网页中让用户直接填写PDF表格，可以大大简化填写、打印、扫描和提交表单的流程。通过使用复选框、按钮和列表等交互元素，PDF表格不仅让填写过程更高效，还能方便地在电脑或移动设备上访问和提交数据。以下是在浏览器中显示可填写PDF表单的四…

阅读更多...

ThinkPHP 8高效构建Web应用-获取请求对象

ThinkPHP 8高效构建Web应用-获取请求对象

【图书介绍】《ThinkPHP 8高效构建Web应用》-CSDN博客《2025新书 ThinkPHP 8高效构建Web应用编程与应用开发丛书夏磊清华大学出版社教材书籍 9787302678236 ThinkPHP 8高效构建Web应用》【摘要书评试读】- 京东图书使用VS Code开发ThinkPHP项目-CSDN博客编程与应用开…

阅读更多...

软件架构的康威定律：AI如何重构团队协作模式

软件架构的康威定律：AI如何重构团队协作模式

1. 引言康威定律，一个简洁却深刻的观察：任何组织设计出的系统，其结构都与组织自身的沟通结构保持一致。这意味着，一个团队的沟通方式、组织结构直接影响着最终产品的架构。这在软件开发领域尤为明显。一个沟通效率低下的团队&am…

阅读更多...

23.行号没有了怎么办滚动条没有了怎么办 C#例子

23.行号没有了怎么办滚动条没有了怎么办 C#例子

新建了一个C#项目，发现行号没有了。想把行号调出来，打开项目，选择工具>选项> 如下图，在文本编辑器的C#里有一个行号，打开就可以了滚动条在这里：

阅读更多...

30天开发操作系统第 12 天 -- 定时器

30天开发操作系统第 12 天 -- 定时器

前言定时器(Timer)对于操作系统非常重要。它在原理上却很简单，只是每隔一段时间(比如0.01秒)就发送一个中断信号给CPU。幸亏有了定时器，CPU才不用辛苦地去计量时间。……如果没有定时器会怎么样呢?让我们想象一下吧。假如CPU看不到定时器而仍想计量时…

阅读更多...

el-table 实现纵向多级表头

el-table 实现纵向多级表头

为了实现上图效果，最开始打算用el-row、el-col去实现，但发现把表头和数据分成两大列时，数据太多时会导致所在格高度变高。但由于每一格数据肯定不一样，为保持高度样式一致，就需要我们手动去获取最高格的高度之后再设置…

阅读更多...

ES_如何设置ElasticSearch 8.0版本的匿名访问以及https_http模式的互相切换

ES_如何设置ElasticSearch 8.0版本的匿名访问以及https_http模式的互相切换

总结： 设置匿名访问，只需要设置xpack.security.authc.anonymous.username和xpack.security.authc.anonymous.roles参数就行，设置好后，可以匿名访问也可以非匿名访问，但是非匿名访问的情况下必须保证用户名和密码正确取…

阅读更多...

uni-app深度解码：跨平台APP开发的核心引擎与创新实践

uni-app深度解码：跨平台APP开发的核心引擎与创新实践

在当今数字化浪潮中，移动应用市场呈现出爆炸式增长。为了满足不同用户群体在不同操作系统上的需求，跨平台 APP 开发成为众多开发者的首选策略。uni-app 作为一款领先的跨平台开发框架，以其独特的优势和创新的实践在众多同类产品中脱颖而出。它…

阅读更多...

最新文章