LLM大模型推理中的常见数字

LLM大模型推理中的常见数字

pingmian/2025/10/23 7:34:03/文章来源:https://blog.csdn.net/smartcat2010/article/details/145373090

1. 聊天机器人Chatbot，一般，input tokens : output tokens = 1100:15

2. LLama2的tokenizer，中文情况下，token:汉字=1:1.01

3. prefilling阶段的吞吐量(tokens/s)，一般是decoding阶段的50~100倍。

4. 4张带有NVLink的A100，在70B模型上的推理加速比，大约是3x（即是单张A100卡吞吐量的3倍）。

5. 开了continous batching，相比串行，吞吐量，在单卡上可提升70%；在4卡上可提升100%。

6. 4xA10(PCIe4.0)和1xA100，在70B模型上的吞吐量基本相等。

7. batching推理70B模型时，用nvidia-smi dmon看性能，4xA100，sm约为90%，mem约为55%；1xA100，sm约为100%，mem约为80%。

8. 同等条件下，70B模型的吞吐量：1req/s；13B模型的吞吐量：5req/s。（同等条件：同样的GPTQ W8A16量化，同样的1张A100，同样的聊天评测集，同样开batching）

9. batching的基础上，chunked prefill用和不用，吞吐量基本不变，延迟在并发请求数>1之后，用了的可明显快，并发量大可达数倍优势。

10. chunked prefill的chunk tokens太小时，例如小于128 tokens/chunk，则吞吐量和延迟都开始变差。因为计算密集不起来了。

11. prefilling kv cache，在多数任务上，效果不明显。即使是input比output长50~100倍的聊天任务，两阶段的延迟比例大约1:1，即使99%的前缀都相等，也就加速1倍。

效果明显的条件：input prompt公共前缀比不同后缀长很多倍，input比output长的倍数>50倍，显存足够大，来自同一个用户的请求被路由至同一张卡，用户回复的时间间隔较短。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/pingmian/68268.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【AI日记】25.01.26

【AI日记】25.01.26

【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】【AI日记】【读书与思考】 AI kaggle 比赛：Forecasting Sticker Sales 读书书名：自由宪章律己 AI：6 小时作息：00:30-8:30短视频：大于 1 小时读书和写作&a…

阅读更多...

RK3568 adb使用

RK3568 adb使用

文章目录一、adb介绍**ADB 主要功能****常用 ADB 命令****如何使用 ADB****总结** 二、Linux下载adb**方法 1：使用包管理器（适用于 Ubuntu/Debian 系统）****方法 2：通过 Snap 安装（适用于支持 Snap 的系统&#xff09…

阅读更多...

STM32项目分享：智能宠物喂食系统（升级版）

STM32项目分享：智能宠物喂食系统（升级版）

目录一、前言二、项目简介 1.功能详解 2.主要器件三、原理图设计四、PCB硬件设计 PCB图五、程序设计六、实验效果七、资料内容项目分享一、前言项目成品图片： 哔哩哔哩视频链接： STM32智能宠物喂食系统(升级版) （资…

阅读更多...

JS 时间格式大全（含大量示例）

JS 时间格式大全（含大量示例）

在 JS 中，处理时间和日期是常见的需求。无论是展示当前时间、格式化日期字符串，还是进行时间计算，JavaScript 都提供了丰富的 API 来满足这些需求。本文将详细介绍如何使用 JavaScript 生成各种时间格式，从基础到高级，…

阅读更多...

软件测试 —— 性能测试（jmeter）

软件测试 —— 性能测试（jmeter）

软件测试 —— 性能测试（jmeter） 什么是jmeter安装jmeterjmeter常用组件线程组取样器结果树我们之前学习了接口测试工具Postman，我们今天要学习的是性能测试工具——jmeter 什么是jmeter Apache JMeter 是一个开源的性能测试工具&#xff…

阅读更多...

element-plus 的table section如何实现单选

element-plus 的table section如何实现单选

如果是单选那么全新的按钮应该隐藏或者不可编辑的状态。但是我没找到改变成不可编辑的方法，只能采取隐藏 <template><div><el-table ref"proTab…

阅读更多...

电阻补偿OTA的噪声分析

电阻补偿OTA的噪声分析

上文（补偿电阻对ota零极点的影响-CSDN博客）分析了补偿电阻对五管OTA零极点的影响，该篇借分析电阻补偿OTA的噪声来串联复习下噪声章节的一些基础概念。 1.噪声分析辅助定理开始分析OTA噪声之前，先引入一个辅助定理（R…

阅读更多...

从CRUD到高级功能：EF Core在.NET Core中全面应用（四）

从CRUD到高级功能：EF Core在.NET Core中全面应用（四）

初识表达式树表达式树：是一种可以描述代码结构的数据结构，它由一个节点组成，节点表示代码中的操作、方法调用或条件表达式等，它将代码中的表达式转换成一个树形结构，每个节点代表了代码中的操作例如，如果…

阅读更多...

C语言初阶力扣刷题——349. 两个数组的交集【难度：简单】

C语言初阶力扣刷题——349. 两个数组的交集【难度：简单】

1. 题目描述力扣在线OJ题目给定两个数组，编写一个函数来计算它们的交集。示例： 输入：nums1 [1,2,2,1], nums2 [2,2] 输出：[2] 输入：nums1 [4,9,5], nums2 [9,4,9,8,4] 输出：[9,4] 2. 思路直接暴力…

阅读更多...

在Qt中实现点击一个界面上的按钮弹窗到另一个界面

在Qt中实现点击一个界面上的按钮弹窗到另一个界面

文章目录步骤 1：创建新窗口类步骤 2：设计窗口的 UI步骤 3：设计响应函数以下是一个完整的示例，展示在Qt中如何实现在一个窗口中通过点击按钮弹出一个新窗口。步骤 1：创建新窗口类假设你要创建一个名为 WelcomeWidg…

阅读更多...

StarRocks 安装部署

StarRocks 安装部署

StarRocks 安装部署 StarRocks端口： 官方《配置检查》有服务端口详细描述： https://docs.starrocks.io/zh/docs/deployment/environment_configurations/ StarRocks架构：https://docs.starrocks.io/zh/docs/introduction/Architecture/ Sta…

阅读更多...

二叉树的最大深度(力扣104)

二叉树的最大深度(力扣104)

所谓二叉树的最大深度其实也是根节点的最大高度，同时也是该二叉树的高度。那么要解决这个问题，我们该选择哪一种遍历方式呢？ 要获取最大高度，我们需要比较节点的左右子树的高度，取较大的那个值返回给父节点。通过不断…

阅读更多...

dm8在Linux环境安装精简步骤说明(2024年12月更新版dm8)

dm8在Linux环境安装精简步骤说明(2024年12月更新版dm8)

dm8在Linux环境安装详细步骤 - - 2025年1月之后dm8 环境介绍1 修改操作系统资源限制2 操作系统创建用户3 操作系统配置4 数据库安装5 初始化数据库6 实例参数优化7 登录数据库配置归档与备份8 配置审计9 创建用户10 屏蔽关键字与数据库兼容模式11 jdbc连接串配置12 更多达梦数据…

阅读更多...

kafka-保姆级配置说明(consumer)

kafka-保姆级配置说明(consumer)

bootstrap.servers #deserializer应该与producer保持对应 #key.deserializer #value.deserializer ##fetch请求返回时，至少获取的字节数，默认值为1 ##当数据量不足时，客户端请求将会阻塞 ##此值越大，客户端请求阻塞的时间越长&…

阅读更多...

Spring MVC 综合案例

Spring MVC 综合案例

目录一. 加法计算器 1. 准备工作 2. 约定前后端交互接口需求分析接口定义 3. 服务器端代码 4. 运行测试二. 用户登录 1. 准备工作 2. 约定前后端交互接口需求分析接口定义 (1) 登录界面接口 (2) 首页接口 3. 服务器端代码 4. 运行测试三. 留言板 1. 准备…

阅读更多...

神经网络|(一)加权平均法，感知机和神经元

神经网络|(一)加权平均法，感知机和神经元

【1】引言从这篇文章开始，将记述对神经网络知识的探索。相关文章都是学习过程中的感悟和理解，如有雷同或者南辕北辙的表述，请大家多多包涵。【2】加权平均法在数学课本和数理统计课本中，我们总会遇到求一组数据平均值的做法…

阅读更多...

PostGIS笔记：PostgreSQL 数据库与用户基础操作

PostGIS笔记：PostgreSQL 数据库与用户基础操作

数据库基础操作包括数据模型的实现、添加数据、查询数据、视图应用、创建日志规则等。我这里是在Ubuntu系统学习的数据库管理。Windows平台与Linux平台在命令上几乎无差异，只是说在 Windows 上虽然也能运行良好，但在性能、稳定性、功能扩展等方面&#x…

阅读更多...

【精选】基于数据挖掘的招聘信息分析与市场需求预测系统职位分析、求职者趋势分析职位匹配、人才趋势、市场需求分析数据挖掘技术职位需求分析、人才市场趋势预测

【精选】基于数据挖掘的招聘信息分析与市场需求预测系统职位分析、求职者趋势分析职位匹配、人才趋势、市场需求分析数据挖掘技术职位需求分析、人才市场趋势预测

博主介绍： ✌我是阿龙，一名专注于Java技术领域的程序员，全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师，我在计算机毕业设计开发方面积累了丰富的经验。同时，我也是掘金、华为云、阿里云、InfoQ等平台…

阅读更多...

【Redis】常见面试题

【Redis】常见面试题

什么是Redis？ Redis 和 Memcached 有什么区别？ 为什么用 Redis 作为 MySQL 的缓存？ 主要是因为Redis具备高性能和高并发两种特性。高性能：MySQL中数据是从磁盘读取的，而Redis是直接操作内存，速度相当快…

阅读更多...

python学opencv|读取图像（四十二）使用cv2.add()函数实现多图像叠加

python学opencv|读取图像（四十二）使用cv2.add()函数实现多图像叠加

【1】引言前序学习过程中，掌握了灰度图像和彩色图像的掩模操作： python学opencv|读取图像（九）用numpy创建黑白相间灰度图_numpy生成全黑图片-CSDN博客 python学opencv|读取图像（四十）掩模：三…

阅读更多...

最新文章