快速理解MoE模型

快速理解MoE模型

news/2025/4/26 21:55:15/文章来源:https://blog.csdn.net/wxl781227/article/details/135929450

最近由于一些开源MoE模型的出现，带火了开源社区，为何？因为它开源了最有名气的GPT4的模型结构（OPEN AI），GPT4为何那么强大呢？看看MoE模型的你就知道了。

MoE模型结构：

图中，显示了3类模型的结构，小模型，典型的稠密大模型和MoE模型。

MoE模型在训练的时候，是动态选择专家模型的，即有些专家模型是不被激活的。因此就会减少训练的计算量，降低计算所需要的GPU（8B*7的模型，本应该需要56B模型所需的GPU，使用专家模型结构后，装载模型需要47B模型所需的GPU，训练时只需要14B模型的GPU）同时参数是共享的，也会进一步的减少GPU（减少到12B模型的GPU占用）。

模型在推理时，并不是所有的专家模型被激活，降低了GPU的占用。

模型越大，能力更强是共识，因为参数越多，拟合能力越强。此类模型容易过拟合。

有人可能会说了，这不就是集成学习的思想吗？是的。下面来看看与集成学习的差异。

从上图可以看到，虽然使用的技术不同，目的不同，训练步骤不同，但结果都是组合各个模型的结果进行输出。这个就是集成学习的核心思想。

那么它核心解决什么问题呢？

它是一种为了搞超大模型时降低资源的有效方法。GPT4和GLaM都是MoE结构的模型，MoE模型并没有解决幻觉的问题，只是在超大的模型上，减少了训练和推理的计算，降低了训练和推理的成本，让专家模型更专注。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/656407.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Netty-ChannelHandle的业务处理

Netty-ChannelHandle的业务处理

ChannelHandle结构 ChannelHandler基础接口基础接口里面定义的基础通用方法。增加handler，移除handler，异常处理。 ChannelInboundHandler public interface ChannelInboundHandler extends ChannelHandler {/*** The {link Channel} of the {link Ch…

阅读更多...

猫突然不吃东西没精神？性价比高可以迅速恢复精神的生骨肉冻干推荐

猫突然不吃东西没精神？性价比高可以迅速恢复精神的生骨肉冻干推荐

猫突然不吃东西没精神怎么办？当猫咪不吃东西、精神不振时，可能是由于健康问题、环境因素或食物原因所引起。首先应进行身体检查，观察是否有其他并发症，如无则可排除健康问题。为猫咪提供安全舒适的环境、给予关爱，可改…

阅读更多...

亚信安慧AntDB：AntDB-M元数据锁(七)

亚信安慧AntDB：AntDB-M元数据锁(七)

5.4.5 慢路径锁的授予条件当且仅当满足如下两个条件时，才可以授予锁。 1. 其他线程没有持有不兼容类型锁。 2. 当前申请的锁的优先级高于请求等待列表中的。首先通过锁位图判断等待队列，不兼容则不能授予锁。再判断快速路径，不兼容则不…

阅读更多...

win11下 “pytorch导出模型“ 以及 “C++使用onnxruntime部署”

win11下 “pytorch导出模型“ 以及 “C++使用onnxruntime部署”

部分一：PyTorch导出模型在Win11下，PyTorch是一个强大的深度学习框架，它提供了丰富的工具来训练和导出模型。在这一部分，我们将使用鸢尾花数据集，演示如何在PyTorch中训练一个简单的模型，并将其导出为ONNX…

阅读更多...

改变this指针的三个方法？

改变this指针的三个方法？

要改变 this 的指向，JavaScript 提供了一系列的方法： call()： 使用 call() 可以直接改变 this 的指向。它接受两个参数：第一个是要调用的目标函数，第二个是将作为 this 的值的对象或对象引用的数组。例如&#xff0c…

阅读更多...

protobuf-go pragma.go 文件介绍

protobuf-go pragma.go 文件介绍

pragma.go 文件文件位于： https://github.com/protocolbuffers/protobuf-go/blob/master/internal/pragma/pragma.go 该文件核心思想： 利用 Golang 语法机制，扩展 Golang 语言特性目前，该文件提供以下 4 个功能： …

阅读更多...

C++STL模板库

C++STL模板库

类： pair: 头文件：<utility> 定义： 是一个标准库类型。可以看作是有两个成员变量first和second的结构体，并且重载了<运算符(先比较first大小，再比较second大小)当我们创建一个pair时，必须提供两…

阅读更多...

SQLite 简介

SQLite 简介

什么是SQLite？ SQLite是一个轻量级的嵌入式关系型数据库，它以一个小型的C语言库的形式存在。它的设计目标是嵌入式的，而且已经在很多嵌入式产品中使用了它，它占用资源非常的低，在嵌入式设备中，可能只需要几…

阅读更多...

机器学习面试题总结60-99

机器学习面试题总结60-99

目录 60、Python到底是什么样的语言？ 61.Python是如何进行内存管理的？引用计数和垃圾回收。

阅读更多...

leetcode-存在重复元素

leetcode-存在重复元素

217. 存在重复元素把列表转成集合，我们知道集合中是没有重复元素的，然后和原列表的长度做对比，不相等说明是有重复元素的 class Solution:def containsDuplicate(self, nums: List[int]) -> bool:if len(set(nums)) len(nums):return …

阅读更多...

状态码400以及状态码415

状态码400以及状态码415

首先检查前端传递的参数是放在header里边还是放在body里边。此图前端传参post请求，定义为’Content-Type’：‘application/x-www-form-urlencoded’ 此刻他的参数在FormData中。看下图后端接参数应为（此刻参数前边什么都不加默认为requestP…

阅读更多...

Qt QScrollArea 不显示滚动条不滚动

Qt QScrollArea 不显示滚动条不滚动

使用QScrollArea时，发现添加的控件超出QScrollArea 并没有显示，且没有滚动条效果原因是 scrollArea指的是scrollArea控件本身的大小，肉眼能看到的外形尺寸。 scrollAreaWidgetContents指的是scrollArea控件内部的显示区域，里面可…

阅读更多...

2024 高级前端面试题之 React 「精选篇」

2024 高级前端面试题之 React 「精选篇」

该内容主要整理关于 React 模块的相关面试题，其他内容面试题请移步至「最新最全的前端面试题集锦」查看。 React模块精选篇 1. 如何理解React State不可变性的原则2. JSX本质3. React合成事件机制4. setState和batchUpdate机制5. 组件渲染和更新过程6. Diff算法相…

阅读更多...

windows server 开启远程连接RDP连接

windows server 开启远程连接RDP连接

windows server 开启远程连接，RDP连接windows server 打开gpedit.msc, 找到计算机配置-管理模板-windows组件-远程桌面服务-远程桌面会话主机-授权 1 使用指定的远程桌面许可证服务器 2 设置远程桌面授权模式 3 重启windows server服务器生效 4使用mstsc命令连接…

阅读更多...

未来每家公司都需要有自己的大模型- Hugging Face创始人分享

未来每家公司都需要有自己的大模型- Hugging Face创始人分享

自ChatGPT发布以来，有人称其是统治性一切的模型。Hugging Face创始人兼首席执行官Clem Delangue介绍，Hugging Face平台已经有15000家公司分享了25万个开源模型，当然这些公司不会为了训练模型而训练模型，因为训练模型需要投入大量资…

阅读更多...

Springboot自定义线程池实现多线程任务

Springboot自定义线程池实现多线程任务

1. 在启动类添加EnableAsync注解 2.自定义线程池 package com.bt.springboot.config;import org.springframework.context.annotation.Bean; import org.springframework.context.annotation.Configuration; import org.springframework.scheduling.concurrent.ThreadPoolTask…

阅读更多...

记录 | ubuntu nm命令的基本使用

记录 | ubuntu nm命令的基本使用

什么是nm命令 nm命令是linux下针对某些特定文件的分析工具，能够列出库文件（.a、.lib）、目标文件（*.o）、可执行文件的符号表。 nm命令的常用参数 -A 或 -o 或 --print-file-name：打印出每个符号属于的文件…

阅读更多...

webassembly003 TTS BARK.CPP

webassembly003 TTS BARK.CPP

TTS task TTS（Text-to-Speech）任务是一种自然语言处理（NLP）任务，其中模型的目标是将输入的文本转换为声音，实现自动语音合成。具体来说，模型需要理解输入的文本并生成对应的语音输出&#xff0…

阅读更多...

Mysql 为表增加计算列

Mysql 为表增加计算列

什么叫计算列呢？简单来说就是某一列的值是通过别的列计算得来的。增加计算列的语法格式如下： col_name data_type [GENERATED ALWAYS] AS (expression) [VIRTUAL | STORED] [UNIQUE [KEY]] [COMMENT comment] [NOT NULL | NULL] [[PRIMARY] KEY]; 下…

阅读更多...

c++学习记录多态—案例2—电脑组装

c++学习记录多态—案例2—电脑组装

#include<iostream> using namespace std;//抽象不同的零件//抽象的cpu类 class Cpu { public://抽象的计算函数virtual void calculate() 0; };//抽象的显卡类 class VideoCard { public://抽象的显示函数virtual void display() 0; };//抽象的内存条类 class Memory …

阅读更多...

最新文章