大模型Transformer 推理：kvCache原理浅析

大模型Transformer 推理：kvCache原理浅析

news/2025/10/18 21:48:49/文章来源:https://blog.csdn.net/duan_zhihua/article/details/134799301

大模型Transformer 推理：kvCache原理浅析

kvCache 原理

在采样时，Transformer模型会以给定的提示/上下文作为初始输入进行推理（可以并行处理），然后逐一生成额外的标记来继续完善生成的序列（体现了模型的自回归性质）。在采样过程中，Transformer会执行自注意力操作，为此需要给当前序列中的每个元素（无论是提示/上下文还是生成的标记）提取键值（kv）向量。这些向量存储在一个矩阵中，通常被称为kv缓存或者past缓存（开源GPT-2的实现称其为past缓存）。past缓存通常表示为：[batch, 2, num_heads, seq_len, features]

在这里插入图片描述
kv缓存是为了避免每次采样标记时重新计算key键向量、value值向量。利用预先计算好的k值和v值，可以节省大量计算时间，尽管这会占用一定的存储空间。每个token所存储的字节数为：

第一个2表示k和v这两个向量。在每一层中我们都要存储这些k，v向量，每个值都为一个矩阵。
然后再乘以2，以计算每个向量所需的字节数，假设采用16位格式。

所有层的k和v需进行的浮点运算次数为：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/225997.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

27系列DGUS智能屏发布：可实时播放高清模拟信号摄像头视频

27系列DGUS智能屏发布：可实时播放高清模拟信号摄像头视频

针对高清晰度的模拟信号摄像头视频画面的显示需求，迪文特推出27系列DGUS智能屏。该系列智能屏可适配常见的AHD摄像头、CVBS摄像头，支持单路1080P高清显示、两路720P同屏显示（同一类型摄像头）。用户通过DGUS简单开发即可实现摄像头…

阅读更多...

【送书活动】智能汽车、自动驾驶、车联网的发展趋势和关键技术

【送书活动】智能汽车、自动驾驶、车联网的发展趋势和关键技术

文章目录前言01 《智能汽车》推荐语 02 《SoC底层软件低功耗系统设计与实现》推荐语 03 《SoC设计指南》推荐语 05 《智能汽车网络安全权威指南（上册）》推荐语 06 《智能汽车网络安全权威指南（下册）》推荐语后记赠书活动前言 …

阅读更多...

mac安装pnpm与使用

mac安装pnpm与使用

1、什么是pnpm？ pnpm 全称 performant npm，意思是高性能的 npm。pnpm 由 npm/yarn 衍生而来，解决了 npm/yarn 内部潜在的 bug，极大的优化了性能，扩展了使用场景。被誉为 “最先进的包管理工具”。 2、pnpm特点速度…

阅读更多...

虚拟机启动 I/O error in “xfs_read_agi+0x95“

虚拟机启动 I/O error in “xfs_read_agi+0x95“

1.在选择系统界面按e 进入维护模式 2.找到ro把ro改成 rw init/sysroot/bin/sh 然后按Ctrlx 3.找到坏掉的分区，以nvme0n1p3为例进行修复 xfs_repair -d /dev/nvme0n1p3 4.init 6 重新启动以下情况先umount 再修复则修复成功

阅读更多...

接口测试 — 4.Requests库GET、Post请求

接口测试 — 4.Requests库GET、Post请求

Requests库GET请求是使用HTTP协议中的GET请求方式对目标网站发起请求。 （不带参数的GET请求请看上一篇文章的练习） 1、Requests库待参数的GET请求使用Get方法带参数请求时，是params参数字典，而不是data参数字典。data参数字典…

阅读更多...

dcoker-compose一键部署EFAK —— 筑梦之路

dcoker-compose一键部署EFAK —— 筑梦之路

简介 EFAK（Eagle For Apache Kafka，以前称为 Kafka Eagle）是一款由国内公司开源的Kafka集群监控系统，可以用来监视kafka集群的broker状态、Topic信息、IO、内存、consumer线程、偏移量等信息，并进行可视化图表展示。独…

阅读更多...

Lambda 表达式的常见用法

Lambda 表达式的常见用法

文章目录 Lambda 表达式的常见用法使用Lambda表达式集合遍历使用Lambda表达式排序使用Lambda表达式过滤使用Lambda表达式映射使用Lambda表达式归约使用Lambda表达式分组使用Lambda表达式函数式接口的实现使用Lambda表达式线程的创建使用Lambda表达式进行Optional 操作使用Lambd…

阅读更多...

Arduino中以太网Udp通信

Arduino中以太网Udp通信

目录 1、测试硬件 2、程序 （0）头文件添加 （1）变量定义 （2）初始化程序 （3）循环执行程序 3、程序下载 （1）开发板控制器和端口号选择 （2&am…

阅读更多...

pycharm某个xxx.sh文件显示问号,无法编辑

pycharm某个xxx.sh文件显示问号,无法编辑

文章目录 pycharm某个xxx.sh文件显示问号,无法编辑其他参考 pycharm某个xxx.sh文件显示问号,无法编辑问题描述：pycharm某个xxx.sh文件显示问号,无法编辑问题分析： pycharm无法识别文件类型。问题解决： 在pycharm中选中该文件&#xff0…

阅读更多...

BugKu-Web-滑稽

BugKu-Web-滑稽

题目环境持续的动态图片 F12审查元素拿下flag：flag{595d994a34342417bfc3a3c3a23e0a48}

阅读更多...

synchronized关键字的使用和原理

synchronized关键字的使用和原理

synchronized关键字的使用和原理 synchronized：对象锁，保证了临界区内代码的原子性，采用互斥的方式让同一时刻至多只有一个线程能持有对象锁，其它线程获取这个对象锁时会阻塞，保证拥有锁的线程可以安全的执行临界区内…

阅读更多...

【Android】MVC与MVP的区别，MVP网络请求实践

【Android】MVC与MVP的区别，MVP网络请求实践

一、MVC模式目录一、MVC模式二、MVP模式 1、MVP的简单应用 1.1 导入相关依赖包并设置权限1.2 实现Model1.2 实现Presenter1.3 实现View1.4分析项目结构和绑定过程1.5效果展示 2、MVP结合RxJava 一、MVC模式 MVC（Model(模型)——View(视图)——Controller(控制…

阅读更多...

设计模式-状态(State)模式

设计模式-状态(State)模式

目录开发过程中的一些场景状态模式的简单介绍状态模式UML类图类图讲解适用场景 Java中的例子案例讲解什么是状态机如何实现状态机 SpringBoot状态自动机优点缺点与其他模式的区别小结开发过程中的一些场景我们在平时的开发过程中，经常会…

阅读更多...

【Android】在Android上使用mlKit构建人脸检测程序

【Android】在Android上使用mlKit构建人脸检测程序

在Android上构建人脸检测程序目录 1、导入mlKit依赖包2、配置人脸检测器并且获取人脸检测器3、加载图片资源4、调用人脸检测器5、绘制矩形边框6、完整代码7、效果展示 1、导入mlKit依赖包 dependencies {// ...// Use this dependency to bundle the model with your appi…

阅读更多...

清除某条会话的未读消息用engine.clearUnreadCount清除成功 code 是0 的情况下，重新拉取会话，还是未被清除的状态

清除某条会话的未读消息用engine.clearUnreadCount清除成功 code 是0 的情况下，重新拉取会话，还是未被清除的状态

确认调用清除未读数是否有传入时间戳确认时间戳是否为 0 ，传入时间不可为 0 确认清除时间是否大于最新时间， 不可传入大于当前时间的时间戳确认传入的时间是否大于要被清除的时间的 senttime 确认传入的时间是否是毫秒单位如果需要传入最新时间可以获…

阅读更多...

SQL连续

SQL连续

SQL连续 1、连续概述2、SQL连续及应用2.1、静态连续2.2、动态连续1、连续概述连续问题是实际数据开发中比较常见的场景。例如，统计用户连续活跃天数等 SQL如何解决连续问题？本文主要介绍连续性问题，重点以常见的连续活跃场景为例，抽象出通用的连续问题解决方案。连续问题…

阅读更多...

CSS盒子的浮动与网页布局（重点，有电影页面案例）

CSS盒子的浮动与网页布局（重点，有电影页面案例）

浮动适用于那种盒子的并列布局 CSS 提供了三种传统布局方式(简单说,就是盒子如何进行排列顺序)：  普通流（标准流）  浮动  定位标准流（普通流/文档流） 所谓的标准流: 就是标签按照规定好默认方式排列. 1. 块级…

阅读更多...

带下雪背景的登陆注册页面

带下雪背景的登陆注册页面

创建带有下雪背景的登录注册页面涉及HTML、CSS和JavaScript。以下是一个简单的示例，其中使用了HTML和CSS来设置基本的登录和注册表单，并使用JavaScript来创建下雪的效果。请注意，此示例中的雪花效果是通过CSS和JavaScript组合实现的。 HTML&…

阅读更多...

abap 如何debug 更新进程

abap 如何debug 更新进程

今天在测试环境做一个外向交货单过账的时候，每次都会dump ST22中看到报错如下：DBSQL_DUPLICATE_KEY_ERROR 接着我就去SM13去看下在哪个跟新里面失败了双击错误条目可以看到那么我就想说去debug看看当时的变量到底是啥，为啥会主键重复&…

阅读更多...

数据库的三大范式

数据库的三大范式

第一范式： 属性不可分割：每个属性都是不可分割的原子项（实体的属性就是表中的列） 在上表中contact应该分为phone和adress两列第二范式： 在满足第一范式的情况下，表中不存在部分依赖，非主键列…

阅读更多...

最新文章