1、什么是HBM
HBM==High Bandwidth Memory 是一种用于某些 GPU的 3D 堆叠 DRAM存储器 (动态随机存取存储器)以及服务器、高性能计算 (HPC) 、网络连接的内存接口。其实就是将很多个DDR芯片堆叠在一起后和GPU封装在一起,实现大容量,高位宽的DDR组合阵列。先看个平面图:
中间的die是GPU/CPU,左右2边4个小die就是DDR颗粒的堆叠。在堆叠上,现在一般只有2/4/8三种数量的堆叠,立体上最多堆叠4层。
再看一个HBM DRAM 3D图形:
- DRAM通过堆叠的方式,叠在一起,Die之间用TSV(硅通孔)方式连接
- DRAM下面是DRAM逻辑控制单元, 对DRAM进行控制
- GPU和DRAM通过uBump和Interposer(起互联功能的硅片)连通
- Interposer再通过Bump和 Substrate(封装基板)连通到BALL
- 最后BGA BALL 连接到PCB上。
2、HBM技术
到现在为止生产的只有1-2代,第3代的SPEC刚刚被定义。
另据悉,AMD及NVIDIA下代显卡都会搭配4组HBM显存,等效位宽4096bit,总带宽可达1024GB/s,也就是NVIDIA之前宣传的TB/s级别带宽。
2.1 HBM Gen 1
最初的JESD235标准定义了具有1024位接口和最高1Gb/s数据速率的第一代HBM(HBM1)存储芯片,该芯片堆叠了两个,四个或八个DRAM设备。在基本逻辑芯片上每个设备具有两个128位通道。每个HBM堆栈(也称为KGSD-已知的良好堆叠管芯)最多支持八个128位通道,因为其物理接口限制为1024位。每个通道实质上都是具有2n预取架构(每个内存读写访问为256位)的128位DDR接口,它具有自己的DRAM组(取决于密度,为8或16组),命令和数据接口,时钟速率,每个通道可以独立于堆栈中的其他通道甚至在一个DRAM裸片中工作。 HBM堆栈使用无源硅中介层连接到主机处理器(例如GPU)。
SK Hynix(唯一一家将其商业化的公司)生产的HBM第一代存储器KGSD堆叠了四个2 Gb存储器管芯,每个引脚的数据速率为1 Gb / s。 AMD使用这些KGSD(每个堆栈具有1 GB的容量和128 GB / s的峰值带宽)来构建其斐济GPU封装系统(SiP)和Radeon R9 Fury / R9 Nano视频卡。图形适配器具有4 GB的VRAM板载,在2016年还不多。虽然AMD的旗舰视频卡目前似乎没有容量问题,但每个图形适配器具有4 GB的内存是一个限制。 AMD最新的图形卡具有512 GB / s的内存带宽,以今天的标准来看,这是一个很大的数目,但即使如此,这也可能成为未来高端GPU的限制。
2.2 HBM Gen 2
JSF235A标准概述了第二代HBM技术,它继承了具有2n预取架构,内部组织,1024位输入/输出,1.2 V的物理128位DDR接口。 I/O和核心电压以及原始技术的所有关键部分。就像之前的版本一样,HBM2在每个KGSD的基本逻辑裸片(2Hi,4Hi,8Hi堆栈)上支持两个,四个或八个DRAM设备。 HBM Gen 2将堆栈中的DRAM设备的容量扩展到8 Gb,并将支持的数据速率提高到每针1.6 Gb / s甚至2 Gb / s。另外,新技术带来了重要的改进,以最大程度地提高实际带宽。
HBM2的主要增强功能之一是其伪通道模式,该模式将通道分为两个单独的子通道,每个子通道分别具有64位I / O,从而为每个存储器的读写访问提供128位预取。伪通道以相同的时钟速率运行,它们共享行和列命令总线以及CK和CKE输入。但是,它们具有独立的存储体,它们分别解码和执行命令。 SK Hynix表示,伪通道模式可优化内存访问并降低延迟,从而提高有效带宽。
与第一代HBM相比,HBM2的其他改进包括用于通道的硬和软修复的通道重新映射模式(HBM1支持各种DRAM单元测试和修复技术以提高堆栈的产量,但不支持通道重新映射),防过热保护(KGSD可以提醒内存控制器温度不安全)等。
第一代HBM存储器可提供出色的带宽和能效,但是它仅由一家DRAM制造商生产,并没有得到各种ASIC开发商的广泛支持。相比之下,三星电子和SK Hynix这两家控制着全球DRAM总产量50%以上的公司将生产HBM2。美光科技尚未确认其建造HBM2的计划,但是由于这是一种行业标准类型的内存,因此,如果该公司希望生产它,则可以打开大门。
3、HBM优点
- 更高速,更高带宽
HBM 堆栈没有以物理方式与 CPU 或 GPU 集成,而是通过中介层紧凑而快速地连接,HBM 具备的特性几乎和芯片集成的 RAM一样。
- 更高位宽
HBM 堆栈方式可以实现更多的IO数量,1024位。
- 更低功耗
随着显卡芯片的快速发展,人们对快速传输信息(“带宽”)的要求也在不断提高。GDDR5 已经渐渐不能满足人们对带宽的需要,技术发展也已进入了瓶颈期。每秒增加 1 GB 的带宽将会带来更多的功耗,这不论对于设计人员还是消费者来说都不是一个明智、高效或合算的选择。因此,GDDR5 将会渐渐阻碍显卡芯片性能的持续增长。HBM 重新调整了内存的功耗效率,使每瓦带宽比 GDDR5 高出 3 倍还多。也即是功耗降低3倍多!
- 更小外形
除了性能和功耗外,HBM 在节省产品空间方面也独具匠心。随着游戏玩家对更轻便高效的电脑追求,HBM 应运而生,它小巧的外形令人惊叹,使游戏玩家可以摆脱笨重的 GDDR5 芯片,尽享高效。此外,HBM 比 GDDR5 节省了 94% 的表面积!
4、用途
推动AI成功。人工智能,云计算,深度学习出现3个算力阶段。
第一,早期,AI处理器架构的探讨源于学术界的半导体和体系架构领域,此时模型层数较少,计算规模较小,算力较低。
第二,模型逐渐加深,对算力需求相应增加,导致了带宽瓶颈,即IO问题,此时可通过增大片内缓存、优化调度模型来增加数据复用率等方式解决
第三,云端AI处理需求多用户、高吞吐、低延迟、高密度部署。计算单元剧增使IO瓶颈愈加严重,要解决需要付出较高代价(如增加DDR接口通道数量、片内缓存容量、多芯片互联)
此时,片上HBM(High Bandwidth Memory,高带宽存储器)的出现使AI/深度学习完全放到片上成为可能,集成度提升的同时,使带宽不再受制于芯片引脚的互联数量,从而在一定程度上解决了IO瓶颈。
尽管片上分布的大量缓存能提供足够的计算带宽,但由于存储结构和工艺制约,片上缓存占用了大部分的芯片面积(通常为1/3至2/3),限制了算力提升。
而以HBM为代表的存储器堆叠技术,将原本一维的存储器布局扩展到三维,大幅度提高了片上存储器的密度,使AI进入新的发展阶段,
5、主要问题
1:HBM需要较高的工艺而大幅度提升了成本。
2:大量DRAM堆叠,和GPU封装在一起,产生大量的热,如何散热是极大的挑战。
总结一句话:HBM就是将很多DRAM通过3D技术集成在一个封装内,满足各种计算对高带宽的需求。