从零实现Llama3中文版

1.前言

一个月前,Meta 发布了开源大模型 llama3 系列,在多个关键基准测试中优于业界 SOTA 模型,并在代码生成任务上全面领先。

此后,开发者们便开始了本地部署和实现,比如 llama3 的中文实现、llama3 的纯 NumPy 实现等。

几天前,有位名为「Nishant Aklecha」的开发者发布了一个从零开始实现 llama3 的存储库,包括跨多个头的注意力矩阵乘法、位置编码和每个层在内都有非常详细的解释,帮助我们理解大语言模型是如果构建和工作的。

在这里插入图片描述

该项目得到了大神 Karpathy 的称赞,他表示项目看起来不错,完全展开后,通过模块嵌套和相互调用,可以更容易看到实际的情况。

项目地址:https://github.com/naklecha/llama3-from-scratch

2.从零实现Llama3中文版

详细实现见仓库地址:wdndev/llama3-from-scratch-zh: 从零实现一个 llama3 中文版

项目主要翻译「Nishant Aklecha」的 llama3-from-scratch 仓库,并对中文版做了特殊的适配,使该项目能在一台 16G RAM 的笔记本电脑上运行

  1. 将英文翻译为中文,文中的 Youtube 视频也替换为 Bilibili链接,方便查看;
  2. 将原版 Llama3-8B模型上传至Modescope社区,方便国内下载;
  3. 因原版 Llama3-8B 模型采用32层 Transformers,且大佬「Nishant Aklecha」使用CPU加载,如果加载全部的参数,16G内存机器加载失败,故选取原版 Llama3-8B 模型权重的前2层,重新保存,大小约占为2.7G,此教程也可以直接加载,实际测试内存占用约4~5G,唯一缺点是后续推理结果不对,但不影响学习矩阵变换等其他知识;
  4. Jupyter文件,可直接在 16G RAM 笔记本电脑运行;

2.1 实现细节

  1. 分词器(Tokenizer):
    • 使用tiktoken库进行文本分词。
    • 定义了一些特殊标记,如文本开始<|begin_of_text|>、文本结束<|end_of_text|>等。
    • 通过tokenizer.encode将文本转换为标记序列,通过tokenizer.decode将标记序列转换回文本。
  2. 模型权重和配置:
    • 加载Llama3-8B模型Pytorch格式权重。
    • 加载Llama3-8B模型配置,包括:
      • 维度dim: 4096
      • 层数n_layers: 32
      • 注意力头数n_heads: 32
      • 键值头数n_kv_heads: 8
      • 词汇表大小vocab_size: 128256
      • 其他参数如multiple_offfn_dim_multipliernorm_epsrope_theta等。
  3. 文本到标记(Tokenization):
    • 使用分词器将输入文本转换为标记序列。
    • 将标记转换为对应的标记ID。
  4. 标记嵌入(Embeddings):
    • 使用torch.nn.Embedding层将标记ID转换为词嵌入向量。
    • 将词嵌入向量进行归一化处理。
  5. Transformer层:
    • 实现了Transformer模型的一个层,包括:
      • 归一化: 使用RMS归一化对输入进行归一化。
      • 注意力机制:
        • 使用模型权重初始化查询(Query)、键(Key)、值(Value)矩阵。
        • 对查询矩阵进行拆分,得到每个注意力头的查询向量。
        • 通过点积计算查询向量与键向量的关系,得到注意力分数矩阵。
        • 对注意力分数应用掩码,防止未来信息的泄露。
        • 使用Softmax函数对注意力分数进行归一化。
        • 将归一化的注意力分数与值向量相乘,得到加权的值向量。
      • 多头注意力: 对每个注意力头重复上述过程,并将结果合并。
      • 输出权重: 使用模型权重将注意力输出映射到最终的输出向量。
  6. 前馈网络(Feed-Forward Network):
    • 使用SwiGLU网络架构,增加模型的非线性表达能力。
    • 通过矩阵乘法实现前馈网络的计算。
  7. 多层堆叠:
    • 将上述Transformer层和前馈网络堆叠32层。
    • 每一层都会对输入进行更复杂的变换和抽象。
  8. 输出解码:
    • 使用模型的输出层权重将最终的嵌入向量映射到词汇表上。
    • 通过取最大值获取预测的下一个标记ID。
    • 使用分词器将标记ID解码回文本。

2.2 总结

  • 详细展示了从头开始构建大型语言模型的一个层的完整过程。
  • 通过分步实现文本分词、标记嵌入、注意力机制、多头注意力、前馈网络等关键组件,让读者能够深入理解模型的工作原理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/16090.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构——链式二叉树知识点以及链式二叉树数据操作函数详解!!

引言&#xff1a;该博客将会详细的讲解二叉树的三种遍历方法&#xff1a;前序、中序、后序&#xff0c;也同时会讲到关于二叉树的数据操作函数。值得一提的是&#xff0c;这些函数几乎都是建立在一个函数思想——递归之上的。这次的代码其实写起来十分简单&#xff0c;用不了几…

告别红色波浪线:tsconfig.json 配置详解

使用PC端的朋友&#xff0c;请将页面缩小到最小比例&#xff0c;阅读最佳&#xff01; tsconfig.json 文件用于配置 TypeScript 项目的编译选项。如果配不对&#xff0c;就会在项目中显示一波又一波的红色波浪线&#xff0c;警告你这些地方的类型声明存在问题。 一般我们遇到这…

在没有dubbo-admin情况下如何判断zk中注册的dubbo服务是否注册成功

通常我们都是通过dubbo-admin来查看dubbo服务是否注册成功&#xff0c;那么如果没有部署dubbo-admind的情况下&#xff0c;我们如何来判断dubbo服务是否注册成功&#xff1a; 一、首先我们进入到zookeeper bin目录下使用以下指令连接到zk: ./zkCli.sh -server ip:port ip&…

Linux文件系统原理

Linux文件系统 冯诺依曼在1945年提出计算机的五大组成部分 运算器&#xff1a;CPU 控制器&#xff1a;CPU 存储器&#xff1a;内存和硬盘 输入设备&#xff1a;鼠标、硬盘 输出设备&#xff1a;显示器一、硬盘结构 机械硬盘结构 扇区&#xff1a;硬盘的最小存储单位&#xff…

Transformer讲解大纲,写PPT的可参考

前言 在这个信息如星辰般璀璨的时代,我们被无数的语言和文字包围。它们如同夜空中闪烁的繁星,每一颗都蕴藏着独特的故事和知识。然而,如何解读这些星辰的秘密,如何将它们的光芒汇聚成智慧的海洋,成为了我们这个时代的挑战。今天,我们将一起探索一种名为Transformer的神秘…

【路径规划】基于遗传算法GA实现最短距离 多起点多终点多旅行商问题求解附Matlab代码

基于遗传算法GA实现最短距离 多起点多终点多旅行商问题求解 研究背景:研究步骤:研究方法和技术路线:代码研究背景: 多起点多终点多旅行商问题是旅行商问题(TSP)的一个扩展,该问题要求确定多个旅行商从各自的起点出发,分别经过一系列目标点最终回到各自的终点,使得总路…

IOT技术怎么落地?以宝马,施耐德为例

物联网技术 物联网&#xff08;IoT&#xff09;技术正逐渐成为数字化工厂转型的核心驱动力。本文将通过实际案例&#xff0c;探讨IoT技术如何促进制造业的数字化转型&#xff0c;提高生产效率&#xff0c;降低成本&#xff0c;并提升产品质量。 1. 物联网技术简介 物联网技术通…

vue 模拟随机经纬度(小数点后保留6位),直接可用

1.随机生成经纬度 // 随机生成经纬度的方法function generateRandomLatLng(latitudeRange, longitudeRange) {const randomLat (Math.random() * latitudeRange.max latitudeRange.min).toFixed(6)const randomLng (Math.random() * longitudeRange.max longitudeRange.mi…

MySQL数据库基础:使用、架构、SQL语句、存储引擎

文章目录 什么是数据库CS模式 基本使用安装链接服务器服务器、数据库、表关系简单使用数据库在Linux下的体现 MySQL架构连接器层客户端层服务层存储引擎层物理存储层 SQL分类存储引擎 什么是数据库 mysql&#xff1a;数据库服务的客户端mysqld&#xff1a;数据库服务的服务器端…

PLC_博图系列☞R_TRIG:检测信号上升沿

PLC_博图系列☞R_TRIG&#xff1a;检测信号上升沿 文章目录 PLC_博图系列☞R_TRIG&#xff1a;检测信号上升沿背景介绍R_TRIG&#xff1a; 检测信号上升沿说明参数示例 关键字&#xff1a; PLC、 西门子、 博图、 Siemens 、 R_TRIG 背景介绍 这是一篇关于PLC编程的文章&a…

[ C++ ] 类和对象( 中 ) 2

目录 前置和后置重载 运算符重载和函数重载 流插入流提取的重载 全局函数访问类私有变量 友员 const成员 取地址及const取地址操作符重载 前置和后置重载 运算符重载和函数重载 流插入流提取的重载 重载成成员函数会出现顺序不同的情况&#xff08;函数重载形参顺序必须相…

数据结构(五)树与二叉树

2024年5月26日一稿(王道P142) 基本概念 术语 性质 二叉树 5.2.2 二叉树存储结构

Spring从零开始学使用系列(三)--Spring框架中@Value注解和配置管理详解

如果各位老爷觉得可以&#xff0c;请点赞收藏评论&#xff0c;谢谢啦&#xff01;&#xff01; 文章中涉及到的图片均由AI生成 公众号在最下方&#xff01;&#xff01;&#xff01; 目录 1. 如何在Spring中使用Value注解 1.1 基本用法 1.2提供默认值 2. 如何配置和使用Prop…

嵌入式进阶——数码管2

&#x1f3ac; 秋野酱&#xff1a;《个人主页》 &#x1f525; 个人专栏:《Java专栏》《Python专栏》 ⛺️心若有所向往,何惧道阻且长 文章目录 驱动封装封装的一些疑问数字走马灯实现扩展知识 驱动封装 根据前面的内容可以将代码进行封装&#xff0c;封装后作为一个独立的整…

贪心题目总结

1. 最长递增子序列 我们来看一下我们的贪心策略体现在哪里&#xff1f;&#xff1f;&#xff1f; 我们来总结一下&#xff1a; 我们在考虑最长递增子序列的长度的时候&#xff0c;其实并不关心这个序列长什么样子,我们只是关心最后一个元素是谁。这样新来一个元素之后&#xf…

HTML5 Web组件技术应用

目录 Custom ElementsShadow DOMHTML TemplatesHTML ImportsHTML5 Web Components技术是一组相关标准和API的集合,旨在增强Web开发中的组件化能力,允许开发者创建可重用、封装良好的自定义UI组件,这些组件拥有独立的视图层(样式)、逻辑(行为)和结构(模板)。Web Compon…

【Week-R1】RNN实现心脏病预测,基于tensorflow框架

文章目录 一、什么是RNN&#xff1f;二、准备环境和数据2.1 导入数据 三、构建模型四、训练和预测五、其他&#xff08;1&#xff09;sklearn模块导入报错&#xff1a;ModuleNotFoundError: No module named sklearn&#xff08;2&#xff09;优化器改为SGD&#xff0c;accurac…

类和对象2

三、C对象模型和this指针 3.1 成员变量和成员函数分开存储 在C中&#xff0c;类内的成员变量和成员函数分开存储&#xff0c;只有非静态成员变量才属于类的对象上 #define _CRT_SECURE_NO_WARNINGS 1 #include <iostream> #include <string.h> using namespace …

Linux系统之GoAccess实时Web日志分析工具的基本使用

Linux系统之GoAccess实时Web日志分析工具的基本使用 一、GoAccess介绍1.1 GoAccess简介1.2 GoAccess功能1.3 Web日志格式 二、本地环境介绍2.1 本地环境规划2.2 本次实践介绍 三、检查本地环境3.1 检查本地操作系统版本3.2 检查系统内核版本3.3 检查系统镜像源3.4 更新软件列表…

JavaFX安装与使用

前言 最近学习了javafx,开始时在配置环境和导包时遇到了一些麻烦,关于网上很多方法都尝试过了,现在问题都解决了,和大家分享一下我是怎么实现javafx的配置,希望大家可以通过这个方法实现自己的环境配置! &#x1f648;个人主页: 心.c &#x1f525;文章专题:javafx &#x1f49…