【极简】如何估算大模型inference所需的内存量

【极简】如何估算大模型inference所需的内存量

diannao/2025/4/26 23:21:17/文章来源:https://blog.csdn.net/Yonggie/article/details/138860753

1字节=8bit
16float=2字节
模型后面的xxb的单位是字节。
1b 字节≈ 0.93G，这个是以8bit运行，4bit减半，16bit（float）加倍，32bit（double）炒鸡加倍。

剩下的是小头，需要参数计算：

s:最大序列长度(输入中的令牌数量)
b:批大小
h:模型的隐藏维度
a:注意头的数量

对于整个层
总内存需求总计为11sbh + 5as²b(来自注意力块)+ 19sbh(来自MLP块)+ 4sbh(来自LN)。
每层激活内存消耗= 34 sbh + 5as²b

小头一般远小于10G。

所以比如llama7b，只需要7*0.93≈9G，再加10，内存19G就可以（实际会更少，因为小头远低于10G），注意这个是以8bit运行，4bit减半，16bit（float）加倍，32bit（double）炒鸡加倍。

感谢博客：https://developer.aliyun.com/article/1496103
感谢github：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/12352.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

苹果macOS无法给App麦克风授权解决办法

苹果macOS无法给App麦克风授权解决办法

好久没有在电脑上录制课程了，有些东西还是录下来记忆深刻，却意外发现MAC系统升级后无法授权给第三方的App使用摄像头和麦克风，而录屏软件是需要开启麦克风和摄像头才能录制屏幕上的操作和声音，官方提示在第三方APP若有使用摄像头和…

阅读更多...

css的4种导入方式

css的4种导入方式

熟悉CSS样式4种的引用方式，分别为行内式、内嵌式、链入式和导入式。行内式 <标签名 style"属性1:属性值1;属性2:属性值2;属性3:属性值3;">内容</ 标签名>style是标签的属性，实际上任何HTML标签都拥有style属性，用来…

阅读更多...

pyqt QComboBox下拉列表框控件

pyqt QComboBox下拉列表框控件

pyqt QComboBox下拉列表框控件 QComboBox效果代码 QComboBox QComboBox 是 PyQt（中的一个控件，它允许用户从下拉列表中选择一个选项。这个控件在需要用户从预定义选项中进行选择时非常有用。效果代码 import sys from PyQt5.QtWidgets import QAppl…

阅读更多...

vite创建的项目使用rem适配

vite创建的项目使用rem适配

下面以创建vue3.0 项目为例： npm init vitelatest “名称” 选择vue （选择你所对应的语言） 更具提示步骤执行 cd xxx npm i npm run dev 然后再项目中使用 rem 需要安装插件第一步安装插件 npm i amfe-flexible npm i postcss-pxtorem 第二…

阅读更多...

CS144 Checkpoint 4: interoperating in the world（2024）

CS144 Checkpoint 4: interoperating in the world（2024）

分析网络路径和性能： mtr命令 mtr 输出的详细分析： mtr 162.105.253.58 命令用于结合 traceroute 和 ping 的功能，实时监测并分析从你的计算机到目标主机（IP 地址 162.105.253.58，北京大学计算中心）之间…

阅读更多...

Nginx配置Referer防盗链

Nginx配置Referer防盗链

系列文章目录文章目录系列文章目录前言前言前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站，这篇文章男女通用，看懂了就去分享给你的码吧。 HTTP Referer是Hea…

阅读更多...

PBOOTCMS|URL静态制作教程（已解答）

PBOOTCMS|URL静态制作教程（已解答）

0、先解压源码文件，在覆盖静态文件，全部点是。打开程序后台登录地址www.xxx.com(你的域名)/admin.php/Menu/index 打开程序后台--系统菜单--菜单新增（清理缓存后重新登录账号） （选择父菜单，菜单名称&#…

阅读更多...

ROS2+TurtleBot3+Cartographer+Nav2实现slam建图和导航

ROS2+TurtleBot3+Cartographer+Nav2实现slam建图和导航

0 引言入门机器人最常见的应用就是slam建图和导航，本文将详细介绍这一流程， 便于初学这快速上手。首先对需要用到的软件包就行简单介绍。 turtlebot3: 是一个小型的，基于ros的移动机器人。学习机器人的很多示例程序都是基于turtlebot3。 …

阅读更多...

【Java基础】枚举类的方法及应用

【Java基础】枚举类的方法及应用

如何实现让一个类有固定个数的对象手动封装构造方法（private） → 创建静态对象 → final修饰静态对象，使其成为常量 class Season { //枚举类public final static Season SPRING new Season();public final static Season SUMMER new Se…

阅读更多...

MySQL数据库备份全攻略：从基础到高级，一文掌握所有备份技巧

MySQL数据库备份全攻略：从基础到高级，一文掌握所有备份技巧

在数据为王的时代，数据库的备份无疑是每一位数据库管理员（DBA）和开发者必须掌握的核心技能。MySQL作为世界上最流行的开源关系型数据库管理系统，其备份策略的多样性和灵活性更是值得我们深入探讨。今天，我们将从基础的…

阅读更多...

废品回收微信小程序基于FastAdmin+ThinkPHP+UniApp（源码搭建/上线/运营/售后/更新）

废品回收微信小程序基于FastAdmin+ThinkPHP+UniApp（源码搭建/上线/运营/售后/更新）

一款基于FastAdminThinkPHPUniApp开发的废品回收系统，适用废品回收站、再生资源回收公司上门回收使用的小程序。一、FastAdmin框架特色功能及优势模块化开发：控制器、模型、视图、JS一一对应，使用RequireJS进行插件机制，支持插…

阅读更多...

Java面试题:线程池的核心参数和工作原理

Java面试题:线程池的核心参数和工作原理

线程池的核心参数 ThreadPoolExecutor(int corePoolSize,//核心线程数目int MaximumPoolSize,//最大线程数核心线程临时线程long keepAliveTime,//临时线程的存活时间,在存活时间内如果没有新任务,线程资源会被释放TimeUnit unit,//存活时间的时间单位,一个枚举类型BlockingQu…

阅读更多...

sql操作、发送http请求和邮件发送全栈开发之路——后端篇（2）

sql操作、发送http请求和邮件发送全栈开发之路——后端篇（2）

全栈开发一条龙——前端篇第一篇：框架确定、ide设置与项目创建第二篇：介绍项目文件意义、组件结构与导入以及setup的引入。第三篇：setup语法，设置响应式数据。第四篇：数据绑定、计算属性和watch监视第五篇 : 组件…

阅读更多...

STL介绍及使用场景分析

STL介绍及使用场景分析

一.总体介绍 STL（Standard Template Library）是C标准模板库，提供了一系列的通用模板类和函数，用于实现常见的数据结构和算法，方便开发者快速地实现各种功能。STL包括了容器（Containers）、算法&a…

阅读更多...

[BJDCTF 2020]easy_md5、[HNCTF 2022 Week1]Interesting_include、[GDOUCTF 2023]泄露的伪装

[BJDCTF 2020]easy_md5、[HNCTF 2022 Week1]Interesting_include、[GDOUCTF 2023]泄露的伪装

目录 [BJDCTF 2020]easy_md5 ffifdyop [SWPUCTF 2021 新生赛]crypto8 [HNCTF 2022 Week1]Interesting_include php://filter协议 [GDOUCTF 2023]泄露的伪装 [BJDCTF 2020]easy_md5 尝试输入一个1，发现输入的内容会通过get传递但是没有其他回显观察一下响应…

阅读更多...

文本协议中嵌入二进制数据

文本协议中嵌入二进制数据

在文本协议中嵌入二进制数据时，通常不推荐使用new String(byte[], Charset)，除非你确定这些字节实际上是以指定的字符集编码的文本。这是因为如果字节不是有效的文本编码，那么使用new String(byte[], Charset)可能会产生不可预测的结果&#…

阅读更多...

VictoriaMetrics

VictoriaMetrics

概念介绍 VictoriaMetrics，是一个快速高效、经济并且可扩展的监控解决方案和时序数据库本文均用VM简称VictoriaMetric 作用用于作为prometheus的长期储存方案，代替prometheus存储监控采集的数据优点远程存储：可作为单一或多个Pro…

阅读更多...

【算法】二分查找——二分查找

【算法】二分查找——二分查找

本节博客详述“二分查找”并且以例子来进行讨论，有需要借鉴即可。目录 1.二分查找1.1使用前提1.2模板 2.题目3.题解代码示例4.二分查找的一般模板5.总结 1.二分查找 1.1使用前提使用的条件：数组具有“二段性”，二段性指的是数组可以根据某…

阅读更多...

110份财务常用excel模板（个税、采购、报销、预算），超实用！

110份财务常用excel模板（个税、采购、报销、预算），超实用！

如果你还在为报表头疼，那你一定不能错过这篇干货满满的分享！ 个税报表个人所得税，听起来就头大？别担心，掌握这些技巧，轻松搞定！ - 记录员工收入，确保数据准确无误 - 计算应纳税…

阅读更多...

【Unity Shader入门精要第7章】基础纹理（一）

【Unity Shader入门精要第7章】基础纹理（一）

1. 纹理映射每一张纹理可以看作拥有一个属于自己的2D坐标空间，其横轴用U表示，纵轴用V表示，因此也称为UV坐标空间。 UV空间的坐标范围为[0，0]到[1，1]，在Unity中，UV空间也是从左下到右上&#…

阅读更多...

最新文章