MOE学习笔记

MOE网络结构

和传统的 transformer 网络结构相比,我们将 Transformer 模型的每个 FFN 层替换为 MoE 层,MoE 层由门网络(Router)和一定数量的专家(Expert)组成。

  • 这些 Expert 其实也是 FFN 层,但是是 sparse FFN 层。
  • Router 理论上可以是一个简单的网络最后加上一个 Softmax 来归一化得到每个 expert 的分数即可。

MOE优缺点

优点:降低推理耗时

因为在 transformer 的推理过程中 FFN 的权重的维度是 ffn1: d_model x d_ff(d_ff 通常很大例如等于 4*d_model),ffn2: d_ff x d_model,所以除了 attention 之外这两个 ffn 的推理耗时占比也是比较大的,因此将 transformer 换成 MOE 的一个优点就是降低推理耗时。

这里需要注意的是 MOE 的所有 expert 加起来参数比 transformer 的参数要多,但是我们推理过程中只会根据 Router 来选择激活一个或者几个 expert,所以这时的推理时的参数是要比 transformer 要小的。

缺点:增加网络参数量、finetune 困难目前不成熟

因为 MOE 需要提前加载所有 Expert 的参数,所以比起 transformer 来说参数量会大一些(只是提前加载的参数量)

Sparse model 更容易过拟合,并且 MOE 比较难 finetune。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/33447.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

刷代码随想录有感(116):动态规划——单词拆分

题干&#xff1a; 代码&#xff1a; class Solution { public:bool wordBreak(string s, vector<string>& wordDict) {unordered_set<string>set(wordDict.begin(), wordDict.end());vector<bool>dp(s.size() 1, false);dp[0] true;for(int j 0; j &…

SAPUI5基础知识9 - JSON Module与数据绑定

1. 背景 在前面的博客中&#xff0c;我们已经学习了SAPUI5中视图和控制器的使用&#xff0c;在本篇博客中&#xff0c;让我们学习下MVC架构中的M-模型了。 SAPUI5中的JSON Model是一个客户端模型&#xff0c;可以用于在SAPUI5应用程序中处理和操作JSON数据。SAPUI5提供了绑定…

【服务器05】之【登录/注册账号成功转至游戏场景】

Unity登录注册数据库 打开【服务器01】的文章项目 导入新UI系统 点击2D 双击输入栏位置 修改输入框尺寸及位置 放大字体 修改默认输入文字 发现中文字变成了口口口口 原因是新UI系统不支持中文&#xff0c;解决这个问题需要更换字体 并且修改输入时字体大小 我们取电脑中找Fon…

2k240hz显示器推荐 - 精选10款 - 高能评测

今天给大家精选了10款2k240hz显示屏&#xff0c;欢迎大家了解。 1.HKC G25H4 - 2k240hz显示器推荐 售价&#xff1a;1999 &#x1f440; 今天我要跟大家分享一款让我彻底被种草的显示器——HKC G25H4&#xff01;&#x1f389; 如果你跟我一样&#xff0c;对游戏和视觉体验有…

存储无界限:MK米客方德SD NAND系列,小容量到大容量的全方位覆盖

在这个数字化飞速前进的时代&#xff0c;数据存储的需求日益增长&#xff0c;不同的应用场景对存储容量的要求也各不相同。MK米客方德公司以其SD NAND系列产品&#xff0c;凭借其广泛的容量覆盖&#xff0c;从1Gb到512Gb&#xff0c;为各种应用场景提供了完美的存储解决方案。今…

代码随想录算法训练营第四十一天| 416. 分割等和子集

416. 分割等和子集 - 力扣&#xff08;LeetCode&#xff09; class Solution {public boolean canPartition(int[] nums) {int sum 0;for (int i0;i<nums.length;i){sum nums[i];}if(sum%2!0){return false;}int weight sum /2;// int[][] dp new int[nums.length][weig…

java线程间的通信 - join 和 ThreadLocal

你好&#xff0c;我是 shengjk1&#xff0c;多年大厂经验&#xff0c;努力构建 通俗易懂的、好玩的编程语言教程。 欢迎关注&#xff01;你会有如下收益&#xff1a; 了解大厂经验拥有和大厂相匹配的技术等 希望看什么&#xff0c;评论或者私信告诉我&#xff01; 文章目录 一…

力扣1.两数之和

力扣1.两数之和 遍历每个元素 同时查找哈希表中数值存入哈希表 class Solution {public:vector<int> twoSum(vector<int>& nums, int target) {unordered_map<int,int> cnt;for(int j0;;j){auto it cnt.find(target - nums[j]);if(it ! cnt.end()) r…

27、架构-技术方法论-向微服务迈进

微服务需要的条件 在决定采用微服务架构之前&#xff0c;需要明确其前提条件。微服务架构不仅仅是技术上的变革&#xff0c;更涉及组织结构和团队文化的调整。以下是微服务需要的几个关键条件&#xff1a; 1. 组织结构 微服务的成功实施依赖于组织结构的支持。根据康威定律&…

deepl翻译的PDF文档保护密码解除

1、首先将后缀名(.docx)修改为压缩包格式(.zip)。 2、修改解密word加密.py里zip的位置&#xff0c;和新生成的zip的位置和名称 import zipfile import xml.etree.ElementTree as ET import os import shutil# 定义文件路径 zip_file_path rC:\Users\Administrator\Desktop\新…

React的生命周期函数详解

import React,{Component} from "react";import SonApp from ./sonAppclass App extends Component{state{hobby:爱吃很多好吃的}// 是否要更新数据&#xff0c;这里返回true才会更新数据shouldComponentUpdate(nextProps,nextState){console.log("app.js第一步…

【计算机视觉】人脸算法之图像处理基础知识(六)

图像直方图 图像直方图是描述图像中像素强度分布的一种统计图表&#xff0c;它是图像处理和计算机视觉领域中一个非常基础且重要的概念。图像直方图通常用于分析图像的亮度、对比度特性&#xff0c;以及在图像增强、阈值分割、特征提取等多种图像处理任务。 import cv2 impor…

【C++】二叉搜索树|Key模型|key_value模型|基本操作

目录 ​编辑 二叉搜索树的定义&#xff0c;创建&#xff08;Key模型&#xff09; 定义 创建 基本操作 插入 查找 删除 Key模型和Key_Value模型 二叉搜索树&#xff08;Key_Value模型&#xff09; 定义 创建 基本操作 插入 应用 二叉搜索树的定义&#xff0c;创建&…

第二十九篇——交叉验证:电信诈骗为什么能成功?

目录 一、背景介绍二、思路&方案三、过程1.思维导图2.文章中经典的句子理解3.学习之后对于投资市场的理解4.通过这篇文章结合我知道的东西我能想到什么&#xff1f; 四、总结五、升华 一、背景介绍 具体的应用中&#xff0c;让我理解了交叉验证的重要意义&#xff0c;他也…

【Altium】查找PCB上未连接的网络

【更多软件使用问题请点击亿道电子官方网站】 1、文档目标&#xff1a; PCB设计后期检查中找出没有连接的网络 应用场景&#xff1a;PCB设计后期&#xff0c;需要检查是否所有网络都已连接布线。虽然未连接的网络会有飞线显示&#xff0c;但是由于布线后期整板布线密度较高&…

【加密与解密】【05】数据加密知识体系

常用加密算法 包括加密算法的分类&#xff0c;加密算法的作用&#xff0c;加密算法的优缺点&#xff0c;加密算法应用场景 加密算法实践 包括Java加密套件使用方式&#xff0c;BouncyCastle的CommonsCodec的使用 常见概念 公钥&#xff0c;私钥&#xff0c;对称秘钥&#xff…

如何优雅的删库跑路?

本文已收录于&#xff1a;https://github.com/danmuking/all-in-one&#xff08;持续更新&#xff09; 前言 哈喽&#xff0c;大家好&#xff0c;我是 DanMu。鲁迅说过&#xff1a;一个程序员成熟的标志是一次优雅是删库。&#xff08;鲁迅&#xff1a;这bi话我可没说过&#x…

LeetCode刷题之HOT100之排序链表

2024/6/24 周末两天没去实验室&#xff0c;可能跟天气有关&#xff0c;也可能跟我不想去有关。最近实在太热&#xff0c;不想出门。早上来&#xff0c;去二楼看了一下我的栀子花&#xff0c;长得很好&#xff0c;但是花苞都没了&#xff0c;只剩下唯一一颗&#xff0c;给它浇了…

vue3滚动日历选择器

倒叙日历&#xff1a; <template><div class"date-picker"><div class"column" wheel"onYearScroll"><div v-for"(year, index) in displayedYears" :key"index" :class"{current: year current…

Ubuntu下载QT5.8安装包-bestswinger课程

最近在看UP的QT开发课&#xff0c;真的找了巨久这个安装包&#xff0c;谁都不想在安装上花太多时间。。出一版小小教程吧&#xff5e; 首先打开qt download官网&#xff0c;5.8好像在镜像网站上没有看到&#xff0c;所以我最后还是老老实实官网了&#xff0c;而且5.8会小一点 …