LLM之makeMoE：makeMoE的简介、安装和使用方法、案例应用之详细攻略

LLM之makeMoE：makeMoE的简介、安装和使用方法、案例应用之详细攻略

news/2025/4/8 1:18:30/文章来源:https://blog.csdn.net/qq_41185868/article/details/135923514

LLM之makeMoE：makeMoE的简介、安装和使用方法、案例应用之详细攻略

目录

makeMoE的简介

1、对比makemore

2、相关代码文件

makMoE_from_Scratch.ipynb文件

makeMoE_Concise.ipynb文件

makeMoE的安装和使用方法

1、基于Databricks使用单个A100进行开发

makeMoE的案例应用

makeMoE的简介

2024年1月23日，AviSoori1x发布了makeMoE。makeMoE是一个从头开始实现的稀疏专家混合语言模型，灵感主要来自（并且在很大程度上基于）Andrej Karpathy的https://github.com/karpathy/makemore

GitHub地址：https://github.com/AviSoori1x/makeMoE/tree/main

HuggingFace社区博客地址：https://huggingface.co/blog/AviSoori1x/makemoe-from-scratch

1、对比makemore

简介	这是一个从头开始实现的稀疏专家混合语言模型。灵感主要来自Andrej Karpathy的项目'makemore'，并借用了该实现的可重用组件。与makemore一样，makeMoE也是一个自回归的字符级语言模型，但使用了前述的稀疏专家混合架构。
对比	与makemore一样，pytorch是唯一的要求（所以希望从头开始的说法是合理的）。与makemore架构相比的重要变化： >> 稀疏专家混合代替独立的前馈神经网络。 >> Top-k门控和有噪声的Top-k门控实现。 >> 初始化 - 这里使用了Kaiming He初始化，但这个笔记本的目的是可黑客化的，所以你可以替换为Xavier Glorot等，并试试效果。
对比	与makemore相同的部分： >> 数据集、预处理（标记化）和Andrej最初选择的语言建模任务 - 生成类似莎士比亚的文本。 >> 因果自注意力实现 >> 训练循环 >> 推理逻辑
引用	>> "Outrageously Large Neural Networks: The Sparsely-Gated Mixture-Of-Experts layer"：https://arxiv.org/pdf/1701.06538.pdf >> "Mixture of Experts"：https://arxiv.org/pdf/2401.04088.pdf

2、相关代码文件

makMoE_from_Scratch.ipynb文件

makMoE_from_Scratch.ipynb详细介绍了整个模型架构的直觉以及所有组件如何配合。建议从这里开始。

makeMoE_Concise.ipynb文件

makeMoE_Concise.ipynb是一个简洁的、可修改性的实现，我鼓励你去修改，理解，改进并使其成为你自己的。

makeMoE的安装和使用方法

1、基于Databricks使用单个A100进行开发

该代码完全在Databricks上使用单个A100进行开发。如果你在Databricks上运行这个代码，可以在你选择的云提供商上轻松地将其扩展到任意大的GPU集群上。

我选择使用MLFlow（在Databricks中预先安装）。这是完全开源的，你也可以在其他地方轻松pip install。我发现使用它来跟踪和记录所有必要的指标非常有帮助。这是完全可选的。

请注意，该实现强调可读性和可修改性而不是性能，因此有许多方法可以改进。请尝试并告诉我！

makeMoE的案例应用

更新中……

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/655257.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

消息队列和Kafka

消息队列和Kafka

消息队列（类似于蜂巢柜的功能）：异步操作特点：低耦合，响应时间快，异步削峰限流（在不繁忙的时间段处理再处理任务），系统结构弹性大，易于扩展 kafka Kafka的主…

阅读更多...

线程锁多线程的复习

线程锁多线程的复习

线程实现方式3种乐观锁&悲观锁线程池线程池总结进程:是正在运行的程序线程:是进程中的单个顺序控制流,是一条执行路径实现方式3种 1.Thread //步骤一:定义一个继承Thread的类 //步骤二:再定义的类中重写run()方法 //步骤三:创建定义类对象 //步骤四:启动线程 class M…

阅读更多...

webpack环境配置

webpack环境配置

1.首先安装 cross-env npm install cross-env --save-dev 在package.json里面配置根据不同命令打包 "scripts": {"dev": "cross-env NODE_ENVdevelopment webpack-dev-server --config webpack.config.dev.js","dev:test": "c…

阅读更多...

Armv8-M的TrustZone技术之在安全状态和非安全状态之间切换

Armv8-M的TrustZone技术之在安全状态和非安全状态之间切换

Armv8-M安全扩展允许在安全和非安全软件之间直接调用。 Armv8-M处理器提供了几条指令来处理状态转换：下图显示了安全状态转换。如果入口点的第一条指令是SG且位于非安全可调用内存位置中，则允许从非安全到安全软件的直接API函数调用。当非安全程序调用安全API时，API通过…

阅读更多...

CSS的flex弹性布局

CSS的flex弹性布局

<!DOCTYPE html> <html> <head> <meta charset"UTF-8" /> <title>flex弹性布局</title> <style> /* 加了flex是弹性容器 */ .box{ display: flex; height: 300px; /* justify-content: start; 默认情况 */ /* justify-c…

阅读更多...

vue中的vuex

vue中的vuex

在Windows的应用程序开发中，我们习惯了变量（对象）声明和使用方式，就是有全局和局部之分，定义好了全局变量（对象）以后在其他窗体中就可以使用，但是窗体之间的变量（对象&am…

阅读更多...

20240129收获

20240129收获

今天终于发现《八部金刚功》第五部我一直做的是错的，嗨。这里这个写法非常聪明，创立的数组，以及用obj[key] item[key]这样的写法，这个写法充分展示了js常规写法中只有等号右边会去参与运算，等号左边就是普通的键的写法…

阅读更多...

项目实现网页分享QQ空间功能

项目实现网页分享QQ空间功能

文章目录 🐒个人主页🏅Vue项目常用组件模板仓库📖前言：🎀源码如下： 🐒个人主页 🏅Vue项目常用组件模板仓库 📖前言： 本篇博客主要提供“点击转发按钮&#x…

阅读更多...

TensorFlow2实战-系列教程9：RNN文本分类1

TensorFlow2实战-系列教程9：RNN文本分类1

🧡💛💚TensorFlow2实战-系列教程总目录有任何问题欢迎在下面留言本篇文章的代码运行界面均在Jupyter Notebook中进行本篇文章配套的代码资源已经上传 1、文本分类任务 1.1 文本分类数据集构建：影评数据集进行情感分析&…

阅读更多...

笔记 | Clickhouse 命令行连接及查询

笔记 | Clickhouse 命令行连接及查询

在 ClickHouse 中，可以使用命令行客户端执行查询。默认情况下，ClickHouse 的命令行客户端称为 clickhouse-client。下面是一些基本的步骤和示例，用于使用 clickhouse-client 进行查询。首先，需要确保已经安装了 ClickHouse 服务…

阅读更多...

Hana SQL+正则表达式

Hana SQL+正则表达式

目录一、Pre 前言二、知识点拆解 1）case when…then…else 2）json_value 函数拓展资料 3）CAST 函数拓展资料 4) ROUND 函数 5）occurences_regexpr 函数拓展资料 6）正则表达式拓展资料三、整合分析…

阅读更多...

代码随想录算法训练营第三十天|860.柠檬水找零， 406.根据身高重建队列， 452. 用最少数量的箭引爆气球

代码随想录算法训练营第三十天|860.柠檬水找零， 406.根据身高重建队列， 452. 用最少数量的箭引爆气球

60.柠檬水找零代码随想录情况一：账单是5，直接收下。情况二：账单是10，消耗一个5，增加一个10 情况三：账单是20，优先消耗一个10和一个5，如果不够，再消耗三个5 所…

阅读更多...

10s 内得到一个干净、开箱即用的 Linux 系统

10s 内得到一个干净、开箱即用的 Linux 系统

安装使用官方脚本安装我的服务器不行官方脚本 mkdir instantbox && cd $_ bash <(curl -sSL https://raw.githubusercontent.com/instantbox/instantbox/master/init.sh) 下面是我的完整安装过程 mkdir /opt/instantbox cd /opt/instantbox 1.脚本文件 (这个没…

阅读更多...

[PHP]严格类型

[PHP]严格类型

PHP: 类型声明 - Manual

阅读更多...

【学网攻】第(15)节 -- 标准ACL访问控制列表

【学网攻】第(15)节 -- 标准ACL访问控制列表

系列文章目录目录系列文章目录文章目录前言一、ACL(访问控制列表)是什么? 二、实验 1.引入实验拓扑图实验配置测试PC2能否Ping通PC3 配置ACL访问控制实验验证 PC1 Ping PC3 总结文章目录【学网攻】第(1)节 -- 认识网络【学网攻】第(2)节 -- 交换机认…

阅读更多...

python 循环解压解压多重压缩包

python 循环解压解压多重压缩包

在实际数据中，经常会有压缩包套压缩包的情况，并且有可能出现“zip”压缩包下面套“tar”的可能。你可以运行后面的代码，来完成自动解压。代码会不断检查folder_a_path 文件夹下是否还有压缩包。目前支持zip、rar、tar、7z等四种格式的压缩文…

阅读更多...

@EnableEurekaServer

@EnableEurekaServer

定义：EnableEurekaServer注解是Spring Cloud中的一个注解，用于将Spring Boot应用程序指定为Eureka服务器。 Eureka服务器是一个服务注册中心，也被称为发现服务器，管理和协调微服务。保存有关所有客户端服务应用程序的信息。每个…

阅读更多...

龙哥风向标 20230321~20230328 GPT拆解

龙哥风向标 20230321~20230328 GPT拆解

AI领域多家公司发布创新产品盈利点：利用AI领域多家公司发布创新产品的商机，可以开发针对这些新产品的培训课程或者定制化解决方案，以满足市场对新技术的需求。操作步骤： 调研各家公司发布的新产品，了解其特点和应…

阅读更多...

colorThief+vite+react使用方法

colorThief+vite+react使用方法

官网: Color Thief npm i --save colorthief 第一种,import载入图片经过尝试,在vite中,要引入.mjs版本 import ColorThief from colorthief/dist/color-thief.mjs 第一种,通过import载入图片 import aa from /assets/123.jpgconst [resultColor,setResultColor]useState() …

阅读更多...

Spring Boot导出EXCEL 文件

Spring Boot导出EXCEL 文件

主要功能:实现java导出excel到本地 JDK版本：openJDK 20.0.1 依赖pom.xml <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchem…

阅读更多...

最新文章