大语言模型数据流程源码解读(基于llama3模型)

大语言模型数据流程源码解读(基于llama3模型)

web/2025/7/6 8:53:27/文章来源:https://blog.csdn.net/weixin_38252409/article/details/143302225

文章目录

前言
一、数据进入LlamaForCausalLM(LlamaPreTrainedModel)类
二、数据进入LlamaModel(LlamaPreTrainedModel)类
- 1、input_ids的embedding编码
- 2、position_ids位置获取
- 3、causal_mask因果mask构建
- - 1、causal_mask调用
  - 2、因果mask代码解读(_update_causal_mask)
- 4、hidden_states获取
- 5、decoder_layers解码
三、数据进入LlamaDecoderLayer(nn.Module)类
- 1、LlamaDecoderLayer类源码解读
- 2、input_layernorm结构处理hidden_states输入
四、数据进入LlamaSdpaAttention(LlamaAttention)类
- 1、LlamaSdpaAttention类源码解读
- 2、qkv获取
- 3、位置rotary_emb编码
- - 1、位置编码调用
  - 2、位置编码源码
- 4、位置编码应用
- - 1、位置编码应用调用方法
  - 2、位置编码apply_rotary_pos_emb应用
- 5、past_key_value更新
- 6、key与value重复
- 7、因果关系处理
- 8、attention实现方法torch.nn.functional.scaled_dot_product_attention
- 9、attn_output进行线性
- 10、返回值
五、数据再次进入LlamaDecoderLayer(nn.Module)类
- 1、hidden_states返回值处理
- 2、FFN操作
- 3、输出内容outputs
六、数据再次进入LlamaModel类
- 1、获取hidden_states内容
- 2、hidden_states的norm方法
- 3、后续源码
七、数据再次进入LlamaForCausalLM类
- 1、lm_head加工
- 2、loss计算？和返回内容

前言

如果只是简单构建训练与推理的大语言模型，还是比较简单，直接使用huggignface调用即可。然而，理解其源码或内部原理是比较麻烦的，尽管我在之前文章给出了很多解释，但我还是想通过数据流走向来解读模型整个流程与源码内部机理。这样，我们可方便更深入的理解大语言模型！

一、数据进入LlamaForCausalLM(LlamaPreTrainedModel)类

数据转成input_ids与attention_mask后该如何转换，我们首先看到原始数据会进入到下面调用方法self.model，其如下图：

在这里插入图片描述

我们知道input_ids与attention_mask是[1,96]，是未进行embedding！

二、数据进入LlamaModel(LlamaPreTrainedModel)类

1、input_ids的embedding

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/web/57197.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Docker镜像的创建、修改与导出

Docker镜像的创建、修改与导出

Docker镜像的创建、修改与导出前言一、创建Docker镜像1. 基于已有镜像创建方法一：修改现有镜像方法二：使用Dockerfile通过源码编译安装nginx二、修改Docker镜像1. 基于已有镜像创建新镜像方法一：修改现有镜像2. 使用`docker commit`命令创建新镜像方法一：提交正在运行的容…

阅读更多...

Depcheck——专门用于检测 JavaScript 和 Node.js 项目中未使用依赖项的工具

Depcheck——专门用于检测 JavaScript 和 Node.js 项目中未使用依赖项的工具

文章目录 Depcheck 是什麽核心功能📚检测未使用的依赖🐛检测缺失的依赖✨支持多种文件类型🌍可扩展性安装与使用1. 安装 Depcheck2. 使用 Depcheck Depcheck 的应用总结项目源码： Depcheck 是什麽来看一个常见错误场景&#x1…

阅读更多...

Sqoop的安装配置及使用

Sqoop的安装配置及使用

Sqoop安装前需要检查之前是否安装了Tez,否则会产生版本或依赖冲突，我们需要移除tez-site.xml，并将hadoop中的mapred-site.xml配置文件中的mapreduce驱动改回成yarn，然后分发到其他节点，hive里面配置的tez也要移除，然后…

阅读更多...

sqoop抽取数据报驱动包不存在的问题

sqoop抽取数据报驱动包不存在的问题

sqoop抽取数据报驱动包不存在的问题报错示例:需要把相应的jar包放到sqoop的lib目录下: 可以正常查询

阅读更多...

SpringBoot后端开发常用工具详细介绍——flyway数据库版本控制工具

SpringBoot后端开发常用工具详细介绍——flyway数据库版本控制工具

文章目录什么是flyway简介为什么要使用flyway 流程介绍整合springboot添加pom文件配置flyway向resource/db/migration添加sql文件注意事项1. 迁移报错2. 迁移顺序参考什么是flyway 简介为什么要使用flyway 我们在开发时往往会有这样一种情况： 进行软件开发…

阅读更多...

HCIP-HarmonyOS Application Developer V1.0 笔记（一）

HCIP-HarmonyOS Application Developer V1.0 笔记（一）

HarmonyOS的系统特性硬件互助，资源共享;一次开发，多端部署;统一OS，弹性部署。分布式软总线：分布式任务调度、分布式数据管理、分布式硬件虚拟化的基座 18N的独立设备 1个手机，8种设备（车机&#xff0c…

阅读更多...

深入解析HTTP与HTTPS的区别及实现原理

深入解析HTTP与HTTPS的区别及实现原理

文章目录引言HTTP协议基础HTTP响应 HTTPS协议SSL/TLS协议总结参考资料引言 HTTP（HyperText Transfer Protocol）超文本传输协议是用于从Web服务器传输超文本到本地浏览器的主要协议。随着网络安全意识的提高，HTTPS（HTTP Secure…

阅读更多...

stm32使用SIM900A模块实现MQTT对接远程服务器

stm32使用SIM900A模块实现MQTT对接远程服务器

SIM900A模块是一种GSM/GPRS无线通信模块，它可以通过SIM卡连接移动通信网络，并通过串口或USB接口与微控制器或计算机进行通信。 SIM900A驱动代码如下： #include "stm32f10x.h" #include "stdio.h" #include "stdlib.h" #include "sim900a…

阅读更多...

算法：LeetCode283_移动零_Java实现

算法：LeetCode283_移动零_Java实现

package com.leetcode;import java.util.Arrays;/*** LeetCode283：移动零*/ public class LeetCode283 {public static void moveZeroes(int[] nums) {//1.remove nums中0int slowIndex0;for(int fastindex0;fastindex<nums.length;fastindex){if(nums[fastindex…

阅读更多...

Docker搭建基于Nextcloud的个人云盘/私有云盘/个人相册/家庭NAS

Docker搭建基于Nextcloud的个人云盘/私有云盘/个人相册/家庭NAS

安装配置Docker 官方安装文档：https://docs.docker.com/engine/install/ Docker常用命令：https://blog.csdn.net/qq_43003203/article/details/139532097?spm1001.2014.3001.5502 Docker镜像仓库配置方法和国内常用镜像仓库地址： 输入&a…

阅读更多...

杂项笔记

杂项笔记

这个好像如果如果分配空间就会执行这个扩容好像会进行拷贝 4 没懂 X x 0; X x1 {0,0}; 都会调用X::X(int x1, int x2 0)

阅读更多...

【VUE点击父组件按钮，跳转到子组件】

【VUE点击父组件按钮，跳转到子组件】

要实现在Vue中，父组件通过点击按钮进入子组件的 <el-dialog> 弹窗，并在弹窗中嵌套 <el-table> 表格，可以按照以下步骤进行编写代码： 在父组件中，定义一个数据属性用于控制子组件弹窗的显示与隐藏。 data…

阅读更多...

HTTP介绍及请求过程

HTTP介绍及请求过程

HTTP（HyperText Transfer Protocol），即超文本传输协议，是一种用于分布式、协作式和超媒体信息系统的应用层协议。以下是关于 HTTP 的详细介绍：一、基本概念定义与作用： HTTP 是互联网上应用最为广泛的一种网络协议，它定义了客户端和服务器之间请求和响应的标准方式。…

阅读更多...

Python从入门到高手7.3节-列表的常用操作方法

Python从入门到高手7.3节-列表的常用操作方法

目录 7.3.1 列表常用操作方法 7.3.2 列表的添加 7.3.3 列表的查找 7.3.4 列表的修改 7.3.5 列表的删除 7.3.6 与列表有关的其它操作方法 7.3.7 与10月说再见 7.3.1 列表常用操作方法列表类型是一种抽象数据类型，抽象数据类型定义了数据类型的操作方法。在本…

阅读更多...

2024.10.29- Linux(CentOS7)笔记（1）

2024.10.29- Linux(CentOS7)笔记（1）

一、Linux文件系统的介绍 Linux的文件系统与Unix的文件系统类似，也是一个树形结构。最基本的是根目录：/ 。相当于windows文件系统的盘符。 /： 根路径， 根路径下有以下文件夹 /bin -> usr/bin : 存储的是用户级别的指令…

阅读更多...

腾讯通低成本替代方案：支持银河麒麟及统信等国产系统和移动端

腾讯通低成本替代方案：支持银河麒麟及统信等国产系统和移动端

一、腾讯通继续使用的核心痛点自腾讯通停更及官网下架后，用户获取更新、技术支持和资源下载的渠道被切断，面临以下无法解决的关键问题： ● 在国产系统及移动端无法使用：腾讯通仅兼容Windows与MAC系统，致使用户在国产…

阅读更多...

vue路由的基本使用

vue路由的基本使用

vue路由的基本使用 vue-router简介一、路由配置和使用1、安装2、创建路由实例2、在组件中引用路由 router-view ,如APP根组件中直接引用：3、最后还需要把路由挂载到APP实例中，在main.js中注册路由： 二、路由重定向与别名三、声明式导航1、传统…

阅读更多...

大模型低资源部署策略

大模型低资源部署策略

文章目录解码效率分析大模型训练后量化方法经验性分析与相关结论由于大模型的参数量巨大，在解码阶段需要占用大量的显存资源，因而在实际应用中的部署代价非常高。在本文中，我们将介绍一种常用的模型压缩方法，即模型量化（ModelQuantization），来减少大模型的显存占用，从…

阅读更多...

Qt元对象系统 —— 信号与槽

Qt元对象系统 —— 信号与槽

信号与槽讨论的是Qt对象之间的连接与交互。我们就是使用这种方式实现了一个简单的异步调用。换而言之，信号与槽让我们可以不必考虑复杂的调用。只需要当我们需要在程序中表达：“希望在程序中通知一个事件而且按照我们设定的方式给出回应”的时候&#xf…

阅读更多...

基于Springboot+微信小程序的“学课助手”小程序（含源码数据库）

基于Springboot+微信小程序的“学课助手”小程序（含源码数据库）

1.开发环境开发系统:Windows10/11 架构模式:MVC/前后端分离 JDK版本: Java JDK1.8 开发工具:IDEA 数据库版本: mysql5.7或8.0 数据库可视化工具: navicat 服务器: SpringBoot自带 apache tomcat 主要技术: Java,Springboot,mybatis,mysql,vue 2.视频演示地址 3.功能该系统…

阅读更多...

最新文章