Quantitative Analysis: PIM Chip Demands for LLAMA-7B inference

1 Architecture

如果将LLAMA-7B模型参数量化为4bit,则存储模型参数需要3.3GB。那么,至少PIM chip 的存储至少要4GB。

  • AiM单个bank为32MB,单个die 512MB,至少需要8个die的芯片。
  • 8个die集成在一个芯片上。
    • 提供8×16bank级别的访存带宽。
  • 整个推理过程完全下放至PIM。
    • CPU把 prompt 传给 Controller
    • Controller 控制推理过程,将推理出的token返回给CPU
  • Controller
    • ALUs
      • 处理softmax、Norm和向量乘等。
    • CRAM
      • cache
    • CMEM
      • 推理过程中,保存中间结果
  • Die
    • DieRAM
      • 数据 buffer,Controller broadcast 数据时用到。
  • Bank
    • MACs
      • Multiply-And-Accumulate
      • 用于GEMV and GEMM
    • BRAM
      • cache
    • BMEM
      • capacity: 32MB

在这里插入图片描述

2 Data partition

2.1 LLAMA-7B

在这里插入图片描述

2.2 Model parameter

在 batch_size=1 的情况下

  • prefill 阶段,嵌入prompt,此时为GEMM算子
  • decode 阶段,推理出一个个token,此时为GEMV算子

模型参数划分就是将上图中的矩阵划分至8×16个bank中。

2.2.1 一维划分

在这里插入图片描述

2.2.2 二维划分
  • 在分布式计算场景下的常用划分
  • 优势:通信量小。但是,要求计算节点间存在通信能力。
  • 在PIM场景下,无法假设bank间存在通信能力,此时,Controller的reduction开销会很大。

在这里插入图片描述

2.3 KV cache

2.3.1 attention
  • NUM_HEAD 个相互独立的 attention 操作
  • max sequence length = (8×16×32×1024×1024 - 6607077376/2)/(32×4096/2) = 15128

在这里插入图片描述

2.3.2 a bank for a head
  • 一个head attention由一个bank执行
  • 优势:Controller 与 banks 通信少
  • 劣势:
    • NUM_HEAD < NUM_BANK,3/4的bank访存带宽和算力被浪费。
    • bank内不仅要支持MAC,还要支持softmax。

在这里插入图片描述

2.3.3 multiple banks for a head
  • 一个head attention由多个bank执行
  • 优势:所有的bank访存带宽和算力得到利用。
  • 劣势:
    • Controller 与 banks 通信开销变大
    • Controller 需要进行softmax和reduction。

在这里插入图片描述

3 Demands

本节使用量化方法来分析PIM chip,希望能够回答以下几个问题:

  • CRAM、CMEM、BRAM做多大合适?

  • Bank级并行带宽需要多少?并行算力需要多少?

  • Controller 如何与bank通信?通信带宽需要多少?

  • Controller 需要提供多大的算力?

PIM chip面向端侧推理,一般来说,推理的batch size = 1。LLM在推理时,可以大致分为两个阶段:

  • prefill
    • 在prefill阶段,模型嵌入prompt。
    • 假设嵌入prompt的长度为N,则在这个过程中模型参数会被复用N次。
      • 典型算子为GEMM
  • decode
    • 在decode阶段,模型以自回归的方式推理出一个个token
    • 假设推理出S个token
      • 每推理出一个token,则在这个过程中都必须扫描一遍模型参数和kv cache。
      • 典型算子为GEMV

3.1 bandwidth

显然,LLM模型在decode阶段的瓶颈在于访存带宽。定量分析decode过程,也就可以分析出在给定访存带宽下,模型推理的速度。

3.1.1 hypothesis
  • 假设推理的sequence的长度为L

  • 在decode阶段,Controller和bank内的算力均可以吃满访存带宽。

    • 对于GEMV算子,Operational intensity = 2 Ops/weight byte
    • 这个假设完全合理。
  • 并行intra-bank bandwidth 总带宽为BM

    • 对于AiM,BM = 8 × 512 GB/s
  • Controler-bank bandwidth 总带宽为CBM

    • 一般来说,CBM << BM

    • 对于AiM,CBM = 8 × 32 GB/s

    • 这儿应该进行更加精细的讨论

      • 每次 Controler-bank 通信的基础开销(时延)设置为 λ \lambda λ

      在这里插入图片描述

  • intra-Controler bandwidth 带宽为CM

    • 能够达到类似CPU 100GB/s的访存带宽?
  • 在decode过程,推理出一个token的时延 = bank内并行访存(GEMV)的时延 + Controler-bank 通信的时延 + Controler 内访存(softmax、Norm 和 reduction 等)的时延

3.1.2 intra-bank bandwidth

bank内并行访存(GEMV)的时延包含两部分:模型参数相关的GEMV的时延和kv cache相关的GEMV的时延。

  • 模型参数相关的GEMV的时延

    • 这个时延非常好算,其实就是 模型总参数量/BM。
    • 对于AiM,这个时延为 (6607077376 / 2 / 1024 / 1024 / 1024)/(BM) = 7.5 × 10^-4 s
  • kv cache相关的GEMV的时延

    • kv cache 大小
      • L×H×NUM_LAYER×2
    • 与kv cache相关的attention算子的时延计算就比较复杂,因为其有两者计算方案。
    • a bank for a head
      • NUM_HEAD 的数量为32,bank数量为8×16
      • bank并行访存带宽的利用率为25%
      • 时延 = ((L × H + NUM_HEAD × L + L × H) × NUM_LAYER / 2 / 1024 / 1024 / 1024)/(BM / 4)
      • 如果L=4096,时延 = 4.9 × 10^-4 s
    • multiple banks for a head
      • 4 banks for a head
      • 时延 = ((L × H + L × H) × NUM_LAYER / 2 / 1024 / 1024 / 1024)/(8 × 512)
      • 如果L=4096,时延 = 1.2 × 10^-4 s
3.1.3 Controler-bank bandwidth
  • 模型参数相关的通信时延

    • 通信次数
      • 运算一个GEMV算子,需要两次通信,向bank发送向量,取回结果。
      • 通信次数 2 × (1 + NUM_LAYER × 7)
    • 通信量
      • (V + H) + NUM_LAYER × (4 × 2 × H + 3 × (H + DIM_MLP))
    • 通信时延
      • (2 × (1 + NUM_LAYER × 7)) λ \lambda λ + ((V + H) + NUM_LAYER × (4 × 2 × H + 3 × (H + DIM_MLP))) /2 / 1024 / 1024 / 1024 / CBM
      • UPMEM中 λ \lambda λ=0.0001s,AiM中CBM=8 × 32 GB/s,此时,时延 = 450 λ \lambda λ + 4.61×10^-6 s
  • kv cache相关的通信时延

    • a bank for a head

      • 通信次数

        2 × NUM_LAYER

      • 通信量

        NUM_LAYER × (2H)

      • 通信时延

        (2 × NUM_LAYER) λ \lambda λ + NUM_LAYER × (2H) /2 / 1024 / 1024 / 1024 / (CBM/4)

        64 λ \lambda λ + 1.91 × 10^-6 s

    • multiple (4) banks for a head

      • 通信次数

        2 × NUM_LAYER × 2

      • 通信量

        NUM_LAYER × (4H + NUM_HEAD × L + NUM_HEAD × L + 4H)

      • 通信时延

        (2 × NUM_LAYER × 2) λ \lambda λ + NUM_LAYER × (4H + NUM_HEAD × L + NUM_HEAD × L + 4H) /2 / 1024 / 1024 / 1024 / CBM

        192 λ \lambda λ + 1.72 × 10^-5 s

3.1.4 intra-Controler bandwidth
  • 模型参数相关的GEMV的时延

    • 主要是做处理softmax、Norm和向量乘等。
    • 处理数据量
      • V + NUM_LAYER × (H + H + H + 2 × DIM_MLP + H)
    • 处理时延
      • (V + NUM_LAYER × (H + H + H + 2 × DIM_MLP + H)) /2 / 1024 / 1024 / 1024 / CM
      • 5.87 × 10^-6 s
  • kv cache相关的GEMV的时延

    • a bank for a head

    • multiple (4) banks for a head

      • softmax 和 reduction

      • 处理数据量

        NUM_LAYER × (L + 4 × H)

      • 处理时延

        NUM_LAYER × (L + 4 × H) /2 / 1024 / 1024 / 1024 / CM

        3.05 × 10^-6 s

3.1.5 summary
  • sequence len = 4096,推理出一个token的总时延

    • a bank for a head

      intra-bank 模型参数intra-bank qkvControler-bank 模型参数Controler-bank qkvintra-Controler 模型参数intra-Controler qkvtotal
      7.5 × 10^-4 s4.9 × 10^-4 s450 λ \lambda λ + 4.61×10^-6 s64 λ \lambda λ + 1.91 × 10^-6 s5.87 × 10^-6 s0514 λ \lambda λ+1.25 × 10^-3 s
    • multiple (4) banks for a head

      intra-bank 模型参数intra-bank qkvControler-bank 模型参数Controler-bank qkvintra-Controler 模型参数intra-Controler qkvtotal
      7.5 × 10^-4 s1.2 × 10^-4 s450 λ \lambda λ + 4.61×10^-6 s192 λ \lambda λ + 1.72 × 10^-5 s5.87 × 10^-6 s3.05 × 10^-6 s642 λ \lambda λ+1.27 × 10^-3 s
    • 如果可以将Controler-bank通信时延优化掉,1s 可以推理出500+ token。这时候,性能是冗余的。

    • Controler要放在PIM chip上,否则Controler-bank通信基础开销会成为系统瓶颈。

    • 削减成本,将上述三种带宽均减小一个数量级,系统吞吐 50+ token/s,性能也能满足需求。

3.2 Computing

LLM模型在prefill阶段的瓶颈在于硬件算力。

3.2.1 Controler
  • Controler 部分承担softmax、Norm 和 reduction 访存密集性算子
  • Controler 的算力只要能吃满 Controler 的访存带宽就可以。
  • CRAM容量
    • L最长16K,能够放入L长度的向量进行softmax就可以
    • CRAM容量最小 8KB,设置64KB是合理的。
    • 当然,如果追求更大的并行度,设置 NUM_HEAD × 8KB = 256 KB
  • CMEM容量
    • 在prefill阶段,要能够放入L×L的矩阵,最小128MB
    • 设置256MB是合理的
3.2.2 bank
  • bank 承担GEMM算子

    • 嵌入prompt的长度为N,模型参数加载进入cache可以重用N次

    • 核心还是MAC

      在这里插入图片描述

  • 可以将 N 以 batch_size (例如16) 为粒度进行切分,以tile的方式进行GEMM

    • 可以设置BRAM的大小为 16 KB ~ 64 KB,更大的BRAM可以允许更大的tile。
  • 需要算力:BM×2×batch_size ops

3.3 conclusion

如果decode阶段需要50+ token/s的推理速度:

  • CRAM、CMEM、BRAM做多大合适?

    CRAMCMEMBRAM
    256 KB256MB16 KB ~ 64 KB
  • Bank级并行带宽需要多少?并行算力需要多少?

    • 512 GB/s

    • 512×2 ~ 512×2×16 Gops

      • prefill 阶段的embedding速度和并行算力相关。

      • 512×2 Gops 对应50+ token/s的embedding速度

      • 512×2×16 Gops 对应50×16+ token/s的embedding速度

  • Controller 如何与bank通信?通信带宽需要多少?

    • Controller 必须在片内,降低通信时延
    • 4 ~ 32GB/s
  • Controller 需要提供多大的访存带宽和算力?

    • 16 GB/s
    • 32 Gops

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/686417.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++入门学习(二十九)goto语句

在C中&#xff0c;goto语句是一种控制流语句&#xff0c;用于无条件地转移到程序中指定的行。goto语句的使用通常是不推荐的&#xff0c;因为它可能导致代码结构变得混乱、不易理解和维护。然而&#xff0c;在某些特殊情况下&#xff0c;goto语句可能是一种有效的解决方法。 示…

php switch、for、foreach、while、do...while

php switch 1. switch2. for循环3. foreach4. while、do...while 1. switch <?php$height 190;switch ($height) {case 160:echo 太矮了;break; //跳出本次循环case 170:echo 还行吧;break; //跳出本次循环case 180:echo 帅哥;break; //跳出本次循环default:echo 迷; }2.…

机器学习面试:请你谈谈生成模型和判别模型的区别?

生成模型:由数据学习联合概率密度分布P(XY)&#xff0c;然后求出条件概率分布P(YIX)作为预测的模型&#xff0c;即生成模型:P(Y|X) P(X,Y)/ P(X)(贝叶斯概率)。基本思想是首先建立样本的联合概率概率密度模型P(X,Y)然后再得到后验概率P(Y|X)&#xff0c;再利用它进行分类。典型…

智胜未来,新时代IT技术人风口攻略-第四版(弃稿)

文章目录 前言鸿蒙生态科普调研人员画像高校助力鸿蒙高校鸿蒙课程开设占比教研力量并非唯一原因 企业布局规划全盘接纳仍需一段时间企业对鸿蒙的一些诉求 机构入场红利机构鸿蒙课程开设占比机构对鸿蒙的一些诉求 鸿蒙实际体验高校用户群体高度认同与影响体验企业用户群体未来可…

[高并发] - 1.高并发综述

1. 必备条件 高并发&#xff0c;高性能分布式ID 高并发过滤组件 Bloom FIlter 2. 数据库 &#xff08;1&#xff09;不要让mysql干不擅长的工作&#xff0c;例如全文搜索&#xff0c;而是采用对应的nosql来处理&#xff1b;对于擅长的存取数据则能很好胜任&#xff1b; &am…

Linux进程间通信(三)-----System V消息队列

消息队列的概念及原理 消息队列实际上就是在系统当中创建了一个队列&#xff0c;队列当中的每个成员都是一个数据块&#xff0c;这些数据块都由类型和信息两部分构成&#xff0c;两个互相通信的进程通过某种方式看到同一个消息队列&#xff0c;这两个进程向对方发数据时&#x…

MySQL DQL 基本查询

一.概念 数据查询不应只是简单返回数据库中存储的数据&#xff0c;还应该根据需要对数据进行筛选以及确定数据以什么样的格式显示。 二.语法格式 select 列名 from 表 where 条件 1.查询所有的商品 select * from product; 2.查询商品名和商品价格 select pname,price from…

最新PyCharm安装详细教程及pycharm配置

目录 一、PyCharm简介及其下载网站 二、单击网站的Downloads&#xff0c;进入二级页面&#xff0c;选择对应的操作系统下载PyCharm 三、PyCharm的安装程序的安装及其配置(configuration) 1、运行PyCharm Setup 2、安装位置设置 3、安装选项设置 4、开始菜单中PyCharm快捷方式的…

【C语言】实现队列

目录 &#xff08;一&#xff09;队列 &#xff08;二&#xff09;头文件 &#xff08;三&#xff09; 功能实现 &#xff08;1&#xff09;初始化 &#xff08;2&#xff09; 销毁队列 &#xff08;3&#xff09; 入队 &#xff08;4&#xff09;出队 &#xff08;5&a…

centos7系列:出现ZooKeeper JMX enabled by default这种错误的解决方法

出现ZooKeeper JMX enabled by default这种错误的解决方法 前言一 问题描述二 解决方法2.1 可能的原因分析2.2 小编的问题解决方法First&#xff1a;检查/etc/profile里面zookeeper的环境变量配置Second&#xff1a;检查 zookeeper/conf/zoo.cfg里面的dataDir的路径 总结 前言 …

【Linux内核】从0开始入门Linux Kernel源码

&#x1f308; 博客个人主页&#xff1a;Chris在Coding &#x1f3a5; 本文所属专栏&#xff1a;[Linux内核] ❤️ 前置学习专栏&#xff1a;[Linux学习]从0到1 ⏰ 我们仍在旅途 ​ 目录 …

Midjourney绘图欣赏系列(五)

Midjourney介绍 Midjourney 是生成式人工智能的一个很好的例子&#xff0c;它根据文本提示创建图像。它与 Dall-E 和 Stable Diffusion 一起成为最流行的 AI 艺术创作工具之一。与竞争对手不同&#xff0c;Midjourney 是自筹资金且闭源的&#xff0c;因此确切了解其幕后内容尚不…

MATLAB知识点:nchoosek函数(★★★☆☆)用来计算组合数,也能返回从向量v中抽取k个元素的所有组合

讲解视频&#xff1a;可以在bilibili搜索《MATLAB教程新手入门篇——数学建模清风主讲》。​ MATLAB教程新手入门篇&#xff08;数学建模清风主讲&#xff0c;适合零基础同学观看&#xff09;_哔哩哔哩_bilibili 节选自第3章&#xff1a;课后习题讲解中拓展的函数 在讲解第三…

模型 4E(交换、体验、随处、传教)理论

系列文章 分享 模型&#xff0c;了解更多&#x1f449; 模型_总纲目录。重在提升认知。聚焦体验营销。 1 模型 4E(交换、体验、随处、传教)理论的应用 1.1 4E 理论在软件产品营销中的应用 某软件公司利用 4E 理论提升软件产品的市场占有率。具体如下&#xff1a; Exchange&a…

人工智能学习与实训笔记(四):神经网络之NLP基础—词向量

人工智能专栏文章汇总&#xff1a;人工智能学习专栏文章汇总-CSDN博客 本篇目录 四、自然语言处理 4.1 词向量 (Word Embedding) 4.1.1 词向量的生成过程 4.1.2 word2vec介绍 4.1.3 word2vec&#xff1a;skip-gram算法的实现 4.2 句向量 - 情感分析 4.2.1 LSTM (Long S…

C语言之日历问题

一、代码展示 #include<stdio.h> int leapyear(int year)//判断是不是闰年函数 {if (year % 4 0 && year % 100 ! 0 || year % 400 0)return 1;elsereturn 0; } int days(int year, int month, int* day)//判断一个月有几天 {if (month ! 2)return day[month…

7.JS里表达式,if条件判断,三元运算符,switch语句,断点调试

表达式和语句的区别 表达式就是可以被求值的代码比如什么a 1 语句就是一段可以执行的代码比如什么if else 直接给B站的黑马程序员的老师引流一波总结的真好 分支语句 就是基本上所有的语言都会有的if else 语句就是满足不同的条件执行不同的代码&#xff0c;让计算机有条件…

【Java程序员面试专栏 Java领域】Java虚拟机 核心面试指引

关于Java 虚拟机部分的核心知识进行一网打尽,主要包括Java虚拟机的内存分区,执行流程等,通过一篇文章串联面试重点,并且帮助加强日常基础知识的理解,全局思维导图如下所示 JVM 程序执行流程 包括Java程序的完整执行流程,以及Javac编译,JIT即时编译 Java程序的完整执…

会声会影2024新功能及剪辑视频步骤教程

会声会影2024的新功能主要包括&#xff1a; 全新的标题动态与特效&#xff1a;用户可以为文字标题指定进入、中场和退出的不同动态效果&#xff0c;比如闪现进入、中场弹跳和淡出退出等&#xff0c;让文字标题更具动感。此外&#xff0c;还新增了多个标题特效&#xff0c;包括…

037-安全开发-JavaEE应用JNDI注入RMI服务LDAP服务JDK绕过调用链类

037-安全开发-JavaEE应用&JNDI注入&RMI服务&LDAP服务&JDK绕过&调用链类 #知识点&#xff1a; 1、JavaEE-JNDI注入-RMI&LDAP 2、JavaEE-漏洞结合-FastJson链 3、JavaEE-漏洞条件-JDK版本绕过 演示案例&#xff1a; ➢JNDI注入-RMI&LDAP服务 ➢JNDI注…