【大模型】llama系列模型基础

【大模型】llama系列模型基础

pingmian/2025/7/16 8:00:53/文章来源:https://blog.csdn.net/idiotyi/article/details/141641350

前言：llama基于transformer架构，与GPT相似，只用了transformer的解码器部分。本文主要是关于llama，llama2和llama3的结构解读。

目录

1. llama
- 1.1 整体结构
- 1.2 RoPE
- 1.3 SwiGLU 激活函数
2. llama2
- 2.2 GQA架构
- 2.3 RLHF
3. llama3
参考文献

1. llama

1.1 整体结构

在这里插入图片描述
由self-attention和mlp堆叠形成，相比较transformer结构主要区别有三个：

位置编码：transformer使用的绝对位置编码，llama使用的RoPE（旋转位置编码），对Q和K使用
归一化: transformer使用的layernorm在子层输出后，llama使用的RMSNorm 归一化函数，对子层的输入进行了归一化。pre-layer-norm使得训练更稳定，但是post-layer-norm使得模型具有更强的表达力。
激活函数：用 SwiGLU 激活函数替换 ReLU 非线性，以提高性能。

1.2 RoPE

RoPE的目标是找到一种函数，实现以下功能：
在这里插入图片描述

推导
以二维平面为例，m和n为绝对位置， ${\theta}$ 可以由以下公式得到：

d为词向量维度

论文中提出了一种形式如下：
在这里插入图片描述
${f_q和f_k}$ 可以表示为：

最终：

扩展到多维：

Rope最终公式：

优势：相对于绝对位置编码，可以更好的捕捉相对位置信息。相邻位置的编码之间有一定的相似性，而远离位置的编码之间有一定的差异性。

1.3 SwiGLU 激活函数

计算公式：sigmoid（x）*x
结合了GLU和SiLU的优点。

表达能力更强
SwiGLU 通过在激活函数前引入门控机制（GLU），允许模型在特定条件下选择性地激活或抑制某些神经元，从而增强模型的非线性表达能力。这对于处理复杂的数据模式特别有效。
梯度流动更稳定
SwiGLU 在使用 SiLU 激活函数时，由于其平滑的曲线和非饱和性质，有助于保持稳定的梯度流动，避免梯度消失或爆炸的情况。这使得在训练深度神经网络时，模型能够更容易地收敛。
适应性更强
SwiGLU 的门控机制使得模型可以根据输入特征的不同，自适应地调整激活的强度。这种灵活性有助于在不同的输入条件下，模型能够选择最优的特征表示，从而提高整体性能。
提高计算效率
SwiGLU 的设计相对简单，计算复杂度较低，因此在大型模型或需要高计算效率的场景中，能够提供较好的性能提升，同时不会显著增加计算成本。

2. llama2

包含7B、13B和70B。其中，7B和13B沿用了Llama 1的经典架构，而70B模型则采用了创新的分组查询注意力（GQA）架构，相较于Llama 1，Llama 2的预训练语料增加了40%。整体结构基本与llama1相似，但是新增了GQA架构，与llama1相比主要优势：

扩展上下文长度：Llama 2 模型提供 4,096 个令牌的上下文长度，是 LLaMa 1 的两倍。上下文长度（或上下文窗口）是指模型在推理（即生成文本或正在进行的对话）期间“记住”的最大令牌数。这样，自然语言就更加复杂，交流也更加连贯流畅。
提高可访问性：LLaMa 1 专为研究用途而发布，而 Llama 2 可供任何组织（活跃用户少于 7 亿）使用。
更强大的训练：Llama 2 使用增加 40% 的数据进行预训练，增强其知识库和上下文理解。此外，与 LLaMa 1 不同，Llama 2 聊天模型使用基于人类反馈的强化学习 (RLHF) 进行微调，有助于更好地将模型响应与人类期望保持一致。

2.2 GQA架构

一种在大型语言模型 (LLM) 中的多查询注意力 (MQA) 和多头注意力 (MHA) 之间进行插值的方法，它的目标是在保持 MQA 速度的同时实现 MHA 的质量。
在这里插入图片描述

MQA
让所有的头之间共享同一份 K 和 V矩阵，每个头正常的只单独保留了一份 Q参数，从而大大减少 Key 和 Value 矩阵的参数量。
MHA
transformer中的模块，将Q,K,V分成多组，最后拼接，每个头的K，V矩阵不共享。
GQA
Q分成N组，每个组共享一个K和V

2.3 RLHF

核心思想：训练阶段，如果直接用人的偏好（或者说人的反馈）来对模型整体的输出结果计算reward或loss，显然是要比上面传统的“给定上下文，预测下一个词”的损失函数合理的多。

主要包含三个步骤：

收集样本预训练模型
常规的有监督训练
训练奖励模型
用多个模型（可以是初始模型、finetune模型和人工等等）给出问题的多个回答，然后人工给这些问答对按一些标准（可读性、无害、正确性blabla）进行排序（打分的话标注员差异太大），用排序数据训练一个奖励模型/偏好模型来打分（reward model）。对响应进行排名多半比编写响应更简单。
训练强化学习策略，微调 LM
用强化学习做LM训练的一种思路是用Policy Gradient做，这一块OpenAI用的是他们在17年提出的PPO算法，即Proximal Policy Optimization。

3. llama3

具有8B和70B，模型架构与llama2基本没区别，但是改进了tokinizer，对长文本的处理变快。由sentencepiece换成了tiktoken，这与GPT4 保持一致。同时，词表大小由32k扩展到了128k。

参考文献

[1] 十分钟读懂旋转编码（RoPE）
[2] 从零实现ChatGPT——RLHF技术笔记

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/pingmian/52814.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

javascript用while语句计算1-100的和

javascript用while语句计算1-100的和

while语句计算1-100的和的思路是定义一个变量a1,变量b0 while(a<100) { bba或者ba a } 最后是输出b <html><head><meta charset"UTF-8"><title></title></head><body><script>let i1let a0while(i<1…

阅读更多...

Springboot中使用Elasticsearch（部署+使用+讲解最完整）

Springboot中使用Elasticsearch（部署+使用+讲解最完整）

目录引言一、docker中安装Elasticsearch 1、创建es专有的网络 2、开放端口 3、在es-net网络上安装es和kibana 4、可能出现的问题 5、测试 6、安装IK分词器 7、测试IK分词器二、结合业务实战 1、准备依赖 2、配置yml 3、读取yml配置 4、准备es配置类 5、编写测…

阅读更多...

Leetcode面试经典150题-136.只出现一次的数字

Leetcode面试经典150题-136.只出现一次的数字

解法都在代码里，不懂就留言或者私信这个题不知道为啥会考，过于简单了，我解题写注释用了两分钟不到，5行代码。。。 class Solution {public int singleNumber(int[] nums) {/**这个题目确实时间的题，根据位运算法则我…

阅读更多...

依赖倒置原则详细介绍

依赖倒置原则详细介绍

一.概念依赖倒置原则(Dependency Inversion Principle, DIP)是SOLID五大设计原则之一,它是面向对象设计中非常重要的一个原则。它主要包含以下两个方面: 高层模块不应该依赖于低层模块,两者都应该依赖于抽象。这意味着高层模块(上层)不应该直接依赖于低层模块(下层)的实现…

阅读更多...

创建表与删除表

创建表与删除表

创建表使用DDL语句创建表 CREATE TABLE 表名(列名类型,列名类型......); 示例： 创建一个employees表包含雇员ID，雇员名字，雇员薪水。 create table employees(employee_id int,employee_name varchar(10),salary float(8,2)); 查看已…

阅读更多...

斗破C++编程入门系列之十九：C++程序设计必知：多文件结构和编译预处理命令（九星斗者）

斗破C++编程入门系列之十九：C++程序设计必知：多文件结构和编译预处理命令（九星斗者）

斗破C目录： 斗破C编程入门系列之前言（斗之气三段） 斗破C编程入门系列之二：Qt的使用介绍（斗之气三段） 斗破C编程入门系列之三：数据结构（斗之气三段） 斗破C编程入门系列之…

阅读更多...

ctfshow之web55~web57（无字母的rce）

ctfshow之web55~web57（无字母的rce）

目录 web55 思路一： 思路二： web56 web57 本系列主要针对无字母rce或无字母无数字rce 声明：本章内容是引荐几位师傅的博客，然后根据自己的理解编写而成。 web55 if(isset($_GET[c])){$c$_GET[c];if(!preg_match("/\…

阅读更多...

gin 通过 OpenTelemetry 实现链路追踪

gin 通过 OpenTelemetry 实现链路追踪

OpenTelemetry 可用于跟踪 Gin 应用程序的性能问题和错误。 OpenTelemetry 是 Cloud Native Computing Foundation (CNCF) 下的一个开源项目,旨在标准化遥测数据的生成和收集。遥测数据包括日志、指标和跟踪。 Gin 是一个用 Go (Golang) 编写的 HTTP Web 框架。它具有类似 Mar…

阅读更多...

乐凡三防：工业界的硬核产品——重新定义三防平板的极限

乐凡三防：工业界的硬核产品——重新定义三防平板的极限

在工业4.0的浪潮中，科技与制造业的深度融合催生了一系列高性能、高耐用的智能产品。乐凡三防平板，作为工业界的新宠，正以其卓越的防护性能和强大的功能，重新定义了三防平板的极限，成为硬核科技的代表。硬核防护&#…

阅读更多...

GD32F4xx---RTC初始化设置及闹钟方式实现秒中断讲解

GD32F4xx---RTC初始化设置及闹钟方式实现秒中断讲解

GD32F4xx—RTC初始化设置及闹钟方式实现秒中断讲解 1、下载链接：源码工程一、概述 GD32F4x的RTC例程网上资源较少，详细阅读用户手册后做出如下配置。RTC模块提供了一个包含日期（年/月/日）和时间（时/分/秒/亚秒）的日历功能。除亚秒用二进制码显示外，时间和日期都以BC…

阅读更多...

大连网站建设手机网页页面设计

大连网站建设手机网页页面设计

在现代社会，随着智能手机的普及，越来越多的用户选择通过手机访问网站，这使得移动端网页设计的重要性日益凸显。大连作为一个经济和文化中心，网站建设行业也在不断发展。针对大连的网站建设，手机网页页面设计需要特别注…

阅读更多...

【Java设计模式】事件溯源模式

【Java设计模式】事件溯源模式

文章目录【Java设计模式】事件溯源模式一、概述二、别名三、事件溯源设计模式的意图四、通过实际示例详细解释事件溯源模式五、Java中事件溯源模式的编程示例六、何时在Java中使用事件溯源模式七、事件溯源模式在Java中的实际应用八、事件溯源模式的好处和权衡九、源码下载【…

阅读更多...

如何清理Linux旧内核并设置默认内核版本

如何清理Linux旧内核并设置默认内核版本

文章目录 1. 引言2. 检查和清理旧内核2.1 检查 /boot 目录中的残留文件2.2 手动删除与旧内核相关的文件2.3 更新 GRUB 配置2.4 清理旧内核包（可选） 3. 安装并保留特定内核版本3.1 安装内核版本 5.15.0-1193.2 删除其他不需要的内核版本 4. 设置默认内核版…

阅读更多...

内存管理篇-16二级页表工作原理

内存管理篇-16二级页表工作原理

1.修正上节课的转换图上节课的页表的一级页表其实并不完全正确，一般虚拟页帧和物理页帧号不会都占用实际字段，这样毕竟很浪费内存。 2.再分析一下页表的开销情况： 一级页表：以4KB物理页为映射单位，每个进程4MB的虚…

阅读更多...

动态读取nacos中修改的项目配置文件

动态读取nacos中修改的项目配置文件

本项目用的还是springboot项目，咱们直接上代码一：首先看下nacos中需要动态获取的属性二：把需要动态读取的配置类中的属性整理一个实体类 mport lombok.Data; import org.springframework.boot.context.properties.ConfigurationPropert…

阅读更多...

Python酷库之旅-第三方库Pandas(114)

Python酷库之旅-第三方库Pandas(114)

目录一、用法精讲 501、pandas.DataFrame.mode方法 501-1、语法 501-2、参数 501-3、功能 501-4、返回值 501-5、说明 501-6、用法 501-6-1、数据准备 501-6-2、代码示例 501-6-3、结果输出 502、pandas.DataFrame.pct_change方法 502-1、语法 502-2、参数 502…

阅读更多...

Django 第十一课 -- ORM - 多表实例

Django 第十一课 -- ORM - 多表实例

目录一. 前言二. 创建模型三. 插入数据四. ORM - 添加数据 4.1. 一对多(外键 ForeignKey) 4.2. 多对多(ManyToManyField)：在第三张关系表中新增数据 4.3. 关联管理器(对象调用) 五. ORM 查询 5.1. 一对多 5.2. 一对一 5.3. 多对多六. 基于双下划线…

阅读更多...

SprinBoot+Vue实验室考勤管理小程序的设计与实现

SprinBoot+Vue实验室考勤管理小程序的设计与实现

目录 1 项目介绍2 项目截图3 核心代码3.1 Controller3.2 Service3.3 Dao3.4 application.yml3.5 SpringbootApplication3.5 Vue3.6 uniapp代码 4 数据库表设计5 文档参考6 计算机毕设选题推荐7 源码获取 1 项目介绍博主个人介绍：CSDN认证博客专家，CSDN平…

阅读更多...

【机器学习】数据预处理-特征工程与特征选择

【机器学习】数据预处理-特征工程与特征选择

目录一、特征工程二、数据变换 1.变换 2.归一化三、数据清洗 1.异常数据 2.数据清洗四、特征选择 1.Filter过滤法 2.Wrapper包裹法 ... 3.Embedded嵌入法 ... 五、降维算法 1.SVD 2.PCA 一、特征工程特征工程就是从原始数据提取特征的过程，这些…

阅读更多...

问：Java中++i和i++的区别？

问：Java中++i和i++的区别？

在Java中，i（前缀增量操作符）和i（后缀增量操作符）都用于增加变量i的值，但它们在表达式中的行为有所不同。主要区别在于它们的值以及它们在表达式中的副作用何时发生。前缀增量操作符 i 作用：先…

阅读更多...

最新文章