AIGC笔记--MoE模型的简单实现

1--MoE模型

        MoE模型全称是混合专家模型(Mixture of Experts, MoE),其主要将多个专家神经网络模型组合成一个更大的模型。

        MoE模型的核心组成有两部分:第一部分是多个专家网络模型,每个专家网络模型往往是独立的,且分别用于不同的问题;第二部分是门控网络,用于确定使用哪些专家网络模型,一般通过计算每个专家网络的分数(权重)来实现。

2--简单实例

import torch
import torch.nn as nn
import torch.nn.functional as F# 定义专家模型
class Expert(nn.Module):def __init__(self, input_size, output_size):super(Expert, self).__init__()self.fc = nn.Linear(input_size, output_size)def forward(self, x):return self.fc(x)# 定义MoE模型
class MoE(nn.Module):def __init__(self, num_experts, intput_size, output_size):super(MoE, self).__init__()# 专家模型数self.num_experts = num_experts# 初始化多个专家模型self.experts = nn.ModuleList([Expert(input_size, output_size) for _ in range(self.num_experts)])self.gating_network = nn.Linear(input_size, num_experts)def forward(self, x):# 门控网络决定权重gating_scores = F.softmax(self.gating_network(x), dim = 1) # [Batchsize, num_experts]# 获取每个专家网络的输出expert_outputs = torch.stack([expert(x) for expert in self.experts], dim = 1) # [Batchsize, num_experts, output_size]# 专家网络的结果进行加权融合,获取最终输出moe_output = torch.bmm(gating_scores.unsqueeze(1), expert_outputs).squeeze(1) # [Batchsize, output_size]return moe_outputif __name__ == "__main__":# 定义测试参数input_size = 8output_size = 64num_experts = 4# 初始化MoE模型moe_model = MoE(num_experts, input_size, output_size)# 初始化输入测试batchsize = 2input = torch.randn(batchsize, input_size)# 推理output = moe_model(input)print("output.shape: ", output.shape) # [batchsize, output_size]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/21380.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【UE+GIS】UE5GIS CAD或shp构建3D地形

贴合地形的矢量图形实现方法 一、灰度图的制作和拉伸换算1、基于高程点集实现2、基于等高线实现3、拉伸计算 二、生成地形模型的实现方案1、3Dmax导入灰度图2、使用ArcMap/Arcpro/FME等GIS数据处理工具3、UE导入灰度图 三、地形上叠加地形渲染效果的实现方案1、贴花2、数据渲染…

日志管理:Slf4j、Log4j、LogBack与ELK实战指南

1.现代软件开发中日志的重要性 在软件开发和运维的世界里,日志管理是一项至关重要的技术。正确地记录、管理和分析日志数据,能为系统的可靠性、可维护性和安全性带来显著的好处。 1.1 日志在故障排查中的作用 日志是系统活动的详细记录。当系统发生故…

Z字形变换 ---- 模拟

题目链接 题目: 分析: 题意如图所示:如果我们按照题意, 真的实现一个矩阵, 这样做的时间和空间复杂度很高, 所以我们可以试试看找规律, 优化一下我们观察他们的下标: 如果找到下标的规律, 那么我们就不用创建矩阵, 就能找到最终结果的下一个字符是什么特殊情况, 当numRows 1…

读AI未来进行式笔记01深度学习

1. AI 1.1. AI已经发展成一门涵盖许多子领域的重要学科 1.2. 机器学习是迄今为止AI应用最成功的子领域 1.2.1. 在这个领域中,最大的技术突破就是深度学习 1.3. “人工智能”“机器学习”和“深度学习”的时候&#xff…

C语言编程技巧:深度挖掘与高效实践

C语言编程技巧:深度挖掘与高效实践 在编程的世界里,C语言以其高效、灵活和底层控制能力强等特点,一直备受开发者们的青睐。然而,要想真正掌握C语言的精髓,并编写出高效、健壮的代码,却并非易事。本文将从四…

基于STM32与TB6600的机械臂项目

基于STM32与TB6600的机械臂项目是一个涉及硬件设计、软件开发和控制算法实现的综合项目。以下是对该项目的一个简要介绍,以及一些基础的代码示例。 项目概述 1. 系统组成 STM32微控制器:作为系统的主控制器,负责处理传感器数据和控制机械臂…

Pointnet学习以及对代码的实现

由于点云不是常规数据格式,通常将此类数据转换为规则的 3D 体素网格或图像集合,然后再用神经网络进行处理。数据表示转换使生成的数据过于庞大。 PointNet是第一个直接处理原始点云的方法。只有全连接层和最大池化层,PointNet网络在推理速度…

Android串口调试ADB

在Android设备上,通过串口(通常指的是ADB,即Android Debug Bridge)来执行dumpsys命令来检查某个包(例如com.android.bluetooth)是否支持某个服务(如A2dpSinkService)是开发者或高级用…

深入理解 Python 迭代器与生成器:详细指南

迭代器和生成器是 Python 中强大的特性,用于简化代码和提高效率。它们允许我们在需要时逐步计算结果,避免一次性加载所有数据到内存中。本文将详细介绍 Python 迭代器和生成器的基本语法、命令、示例、应用场景、注意事项,并进行总结。 迭代…

Android在不同层面增加应用

1 App 应用代码一般在开发者的项目目录下,packages/apps/YourApp/,比如app/src/main/java目录下 对于系统应用,源代码可能位于packages/apps/目录下,例如packages/apps/Settings。 用户安装的应用(从Google Play或其…

代码随想录--哈希表--两数之和

题目 给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。 你可以假设每种输入只会对应一个答案。但是,数组中同一个元素不能使用两遍。 示例: 给定 nums [2, 7, 11, 15], t…

李廉洋:6.3黄金原油下周一开盘行情价格涨跌趋势分析及最新操作建议多空布局

黄金消息面分析:上周黄金市场的走势受到了PCE通胀数据和美联储政策预期的显着影响。尽管市场对黄金的长期看涨情绪依然存在,但短期内金价的波动性预计将持续。4月份的PCE通胀数据显示价格压力有所降温,这一结果与分析师预期一致,但…

2024年6月2日 (周日) 叶子游戏新闻

中医百科中药: 中医百科中药是一款非常强大的中药知识科普软件,该应用提供500多味中草药的文献资料,强大的搜索功能可根据功效、特点和关键词来快速查找中药,而且每味中药的图片、功效、主治、炮制方法等百科知识,可以很好的帮助你…

Pycharm SSH远程连接时出现报错,测试 SFTP 连接,连接到 ‘connect.westb.seetacloud.com‘ 失败

问题由来 很离谱!今天本来打算租借AutoDL的显卡完成一项深度学习的任务,很离谱的是同步文件夹的时候报了标题说的错。 就很莫名奇妙,一天都在网上找解决办法,结果都不对头。 其他报错 最后摸索着,在使用pycharm远程登…

SpringBoot 定时任务+Quartz

1、分部解释2、整体代码 前言: 1、定时任务技术: JDK 的 Timer, 定义多个定时任务,其中某个任务出现异常,当时整个定时任务终止。Spring Task , 不支持 持久化与分布式部署,所有任务是单线程执行…

Prism 入门01,基础

Prism 框架是支持多平台的一种MVVM框架(Model-View-ViewModel) 除了具备一些基础的属性通知绑定,命令操作,消息聚合器等功能外。还具备一些强大的功能:例如,区域,导航,会话服务,模块注入等特性。 一.如何在WPF 项目中使用Prism 框架 1.打开Visual Studio 2022,选择创…

初探Arthasan安装使用

最近在项目中用到 Arthas,即阿尔塞斯 是阿里开源的Java分析工具。 下载地址:Github 一、安装运行 1)window 系统 下载 jar 包,直接通过java命令运行 // 下载 jar包 curl -O https://arthas.aliyun.com/arthas-boot.jar // 启动…

3个常用的Python性能分析工具及其使用方法

以下是几个常用的性能分析工具及其使用方法和常用命令: 1. cProfile cProfile是Python标准库中的性能分析工具,可以用来统计函数的运行时间和调用次数。 使用方法: 在命令行中使用以下命令: python -m cProfile my_script.py…

【排序】选择排序(含优化版)

本章我们继续讲排序算法,这里我们将学习选择排序,也是一个很普遍很常见的排序算法,逻辑和代码都比较简单,比较容易掌握,我们直接走起 选择排序 基本思想:选择排序(SelectSort)&…

Layui2.5.6树形表格TreeTable使用

1、问题概述? Layui2.5.6的树形表格-TreeTable终于用明白了,步骤详细,提供源码下载。 如果你使用的是Layui2.8+版本,那么点个赞,赶紧去官网看吧,官网更行了。 更新地址:树表组件 treeTable - Layui 文档 最近在项目中需要使用到树形表格,用来显示菜单的层级关系,当…