HBM简介

1、什么是HBM

        HBM==High Bandwidth Memory 是一种用于某些 GPU的 3D 堆叠 DRAM存储器 (动态随机存取存储器)以及服务器、高性能计算 (HPC) 、网络连接的内存接口。其实就是将很多个DDR芯片堆叠在一起后和GPU封装在一起,实现大容量,高位宽的DDR组合阵列。先看个平面图:

        中间的die是GPU/CPU,左右2边4个小die就是DDR颗粒的堆叠。在堆叠上,现在一般只有2/4/8三种数量的堆叠,立体上最多堆叠4层。

        再看一个HBM DRAM 3D图形:

  • DRAM通过堆叠的方式,叠在一起,Die之间用TSV(硅通孔)方式连接
  • DRAM下面是DRAM逻辑控制单元, 对DRAM进行控制
  • GPU和DRAM通过uBump和Interposer(起互联功能的硅片)连通
  • Interposer再通过Bump和 Substrate(封装基板)连通到BALL
  • 最后BGA BALL 连接到PCB上。

2、HBM技术

        到现在为止生产的只有1-2代,第3代的SPEC刚刚被定义。

        另据悉,AMD及NVIDIA下代显卡都会搭配4组HBM显存,等效位宽4096bit,总带宽可达1024GB/s,也就是NVIDIA之前宣传的TB/s级别带宽。

2.1 HBM Gen 1

        最初的JESD235标准定义了具有1024位接口和最高1Gb/s数据速率的第一代HBM(HBM1)存储芯片,该芯片堆叠了两个,四个或八个DRAM设备。在基本逻辑芯片上每个设备具有两个128位通道。每个HBM堆栈(也称为KGSD-已知的良好堆叠管芯)最多支持八个128位通道,因为其物理接口限制为1024位。每个通道实质上都是具有2n预取架构(每个内存读写访问为256位)的128位DDR接口,它具有自己的DRAM组(取决于密度,为8或16组),命令和数据接口,时钟速率,每个通道可以独立于堆栈中的其他通道甚至在一个DRAM裸片中工作。 HBM堆栈使用无源硅中介层连接到主机处理器(例如GPU)。

        SK Hynix(唯一一家将其商业化的公司)生产的HBM第一代存储器KGSD堆叠了四个2 Gb存储器管芯,每个引脚的数据速率为1 Gb / s。 AMD使用这些KGSD(每个堆栈具有1 GB的容量和128 GB / s的峰值带宽)来构建其斐济GPU封装系统(SiP)和Radeon R9 Fury / R9 Nano视频卡。图形适配器具有4 GB的VRAM板载,在2016年还不多。虽然AMD的旗舰视频卡目前似乎没有容量问题,但每个图形适配器具有4 GB的内存是一个限制。 AMD最新的图形卡具有512 GB / s的内存带宽,以今天的标准来看,这是一个很大的数目,但即使如此,这也可能成为未来高端GPU的限制。

2.2 HBM Gen 2

        JSF235A标准概述了第二代HBM技术,它继承了具有2n预取架构,内部组织,1024位输入/输出,1.2 V的物理128位DDR接口。 I/O和核心电压以及原始技术的所有关键部分。就像之前的版本一样,HBM2在每个KGSD的基本逻辑裸片(2Hi,4Hi,8Hi堆栈)上支持两个,四个或八个DRAM设备。 HBM Gen 2将堆栈中的DRAM设备的容量扩展到8 Gb,并将支持的数据速率提高到每针1.6 Gb / s甚至2 Gb / s。另外,新技术带来了重要的改进,以最大程度地提高实际带宽。

        HBM2的主要增强功能之一是其伪通道模式,该模式将通道分为两个单独的子通道,每个子通道分别具有64位I / O,从而为每个存储器的读写访问提供128位预取。伪通道以相同的时钟速率运行,它们共享行和列命令总线以及CK和CKE输入。但是,它们具有独立的存储体,它们分别解码和执行命令。 SK Hynix表示,伪通道模式可优化内存访问并降低延迟,从而提高有效带宽。

        与第一代HBM相比,HBM2的其他改进包括用于通道的硬和软修复的通道重新映射模式(HBM1支持各种DRAM单元测试和修复技术以提高堆栈的产量,但不支持通道重新映射),防过热保护(KGSD可以提醒内存控制器温度不安全)等。

        第一代HBM存储器可提供出色的带宽和能效,但是它仅由一家DRAM制造商生产,并没有得到各种ASIC开发商的广泛支持。相比之下,三星电子和SK Hynix这两家控制着全球DRAM总产量50%以上的公司将生产HBM2。美光科技尚未确认其建造HBM2的计划,但是由于这是一种行业标准类型的内存,因此,如果该公司希望生产它,则可以打开大门。

3、HBM优点

  • 更高速,更高带宽

        HBM 堆栈没有以物理方式与 CPU 或 GPU 集成,而是通过中介层紧凑而快速地连接,HBM 具备的特性几乎和芯片集成的 RAM一样。

  • 更高位宽

        HBM 堆栈方式可以实现更多的IO数量,1024位。

  • 更低功耗

        随着显卡芯片的快速发展,人们对快速传输信息(“带宽”)的要求也在不断提高。GDDR5 已经渐渐不能满足人们对带宽的需要,技术发展也已进入了瓶颈期。每秒增加 1 GB 的带宽将会带来更多的功耗,这不论对于设计人员还是消费者来说都不是一个明智、高效或合算的选择。因此,GDDR5 将会渐渐阻碍显卡芯片性能的持续增长。HBM 重新调整了内存的功耗效率,使每瓦带宽比 GDDR5 高出 3 倍还多。也即是功耗降低3倍多!

  • 更小外形

        除了性能和功耗外,HBM 在节省产品空间方面也独具匠心。随着游戏玩家对更轻便高效的电脑追求,HBM 应运而生,它小巧的外形令人惊叹,使游戏玩家可以摆脱笨重的 GDDR5 芯片,尽享高效。此外,HBM 比 GDDR5 节省了 94% 的表面积!

4、用途

        推动AI成功。人工智能,云计算,深度学习出现3个算力阶段。

        第一,早期,AI处理器架构的探讨源于学术界的半导体和体系架构领域,此时模型层数较少,计算规模较小,算力较低。

        第二,模型逐渐加深,对算力需求相应增加,导致了带宽瓶颈,即IO问题,此时可通过增大片内缓存、优化调度模型来增加数据复用率等方式解决

        第三,云端AI处理需求多用户、高吞吐、低延迟、高密度部署。计算单元剧增使IO瓶颈愈加严重,要解决需要付出较高代价(如增加DDR接口通道数量、片内缓存容量、多芯片互联)

        此时,片上HBM(High Bandwidth Memory,高带宽存储器)的出现使AI/深度学习完全放到片上成为可能,集成度提升的同时,使带宽不再受制于芯片引脚的互联数量,从而在一定程度上解决了IO瓶颈。

        尽管片上分布的大量缓存能提供足够的计算带宽,但由于存储结构和工艺制约,片上缓存占用了大部分的芯片面积(通常为1/3至2/3),限制了算力提升。

        而以HBM为代表的存储器堆叠技术,将原本一维的存储器布局扩展到三维,大幅度提高了片上存储器的密度,使AI进入新的发展阶段,

5、主要问题

        1:HBM需要较高的工艺而大幅度提升了成本。

        2:大量DRAM堆叠,和GPU封装在一起,产生大量的热,如何散热是极大的挑战。

        总结一句话:HBM就是将很多DRAM通过3D技术集成在一个封装内,满足各种计算对高带宽的需求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/23816.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ROS socketcan_bridge使用说明

ROS socketcan_bridge使用说明(以ubuntu20.04为例) socketcan_bridge是什么 ROS针对socketcan提供了三个层次的驱动库,分别是ros_canopen,socketcan_bridge和socketcan_interface。 socketcan_interface: 功能&#x…

政安晨【零基础玩转各类开源AI项目】:解析开源项目:Champ 利用三维参数指导制作可控且一致的人体图像动画

目录 论文题目 Champ: 利用三维参数指导制作可控且一致的人体图像动画 安装 创建 conda 环境: 使用 pip 安装软件包 推理 1. 下载预训练模型 2. 准备准备引导动作数据 运行推理 训练模型 准备数据集 运行训练脚本 数据集 政安晨的个人主页:…

工业无线通信解决方案,企业在进行智能化升级改造

某大型制造企业在进行智能化升级改造,需要将分布在各个车间的数控机床、自动化生产线、AGV小车等设备连接到云端,实现设备的远程监控、数据采集分析等功能。之前工厂内部是用工业以太网连接,存在布线难、成本高、灵活性差等问题。 在了解客户需求后,我司星创易联的工程师建议客…

淘宝扭蛋机小程序,扭蛋市场创新模式

扭蛋机作为潮玩市场的娱乐消费方式,成为了当下消费者的新宠。扭蛋机凭借自身性价比高、商品多样、惊喜性等特点,吸引了各个年龄层的消费者,不仅年轻人喜欢,不少小学生和老年人也非常喜欢,扭蛋机市场迎来了快速发展期。…

简单聊下办公白环境

在当今信息化时代,办公环境对于工作效率和员工满意度有着至关重要的影响。而白名单作为一种网络安全策略,其是否适合办公环境,成为了许多企业和组织需要思考的问题。本文将从白名单的定义、特点及其在办公环境中的应用等方面,探讨…

NRP-Z81探头NRP-Z85功率传感器NRP-Z86罗德与施瓦茨

精确和简单的功率测量重要的特点是高测量精度和速度。紧凑、坚固的R&SNRX基本单元,带彩色触摸显示屏,支持多达四个R&SNRP功率传感器和所有传感器相关测量功能。测量值以数字或图形方式显示,具体取决于测量功能。高分辨率图形用户界面…

【必会面试题】JVM内存分区?垃圾回收(GC)算法?如何处理OOM?

目录 JVM分区模型GC(垃圾回收)算法:处理OOM(Out Of Memory): JVM分区模型 JVM(Java虚拟机)内存划分为多个区域,以支持其运行时环境和对象的生命周期管理。以下是主要的内…

变压器绕线完成之后要做的事

1 调整感量:测主绕组电感量,通过磨气隙或垫气隙,测得感量没错以后,用胶带封装磁芯 2 测验同名端是否正确:两绕组首尾相连,测试连接后的总感量,是否比感量大的那个绕组还大。如果是,…

澳大利亚和德国媒体投放-国外新闻发稿-海外软文推广

德国媒体 Firmenpresse德国新闻 Firmenpresse德国新闻是一家备受欢迎的新闻发布平台,其好友搜索引擎在收录网站方面表现出色。如果您希望更好地将您的新闻传播给德国受众,Firmenpresse德国新闻将是一个理想的选择。 Frankfurt Stadtanzeiger法兰克福城…

电气灭火产品调查:全氟己酮自自动灭火贴多少钱一个?

根据国家消防救援局于透露,今年年初,河南南阳、江西新余、江苏南京接连发生重大火灾事故,截至日前,全国共接报火灾45万起,住宅、宾馆餐饮店、电动车火灾数量相比去年同期均有所上升。从引 发火灾的原因来看&#xff0c…

MySQL Doublewrite Buffer 有了解过吗?

引言:在数据库管理中,确保数据的完整性和一致性是至关重要的。然而,在持久化数据到磁盘的过程中,可能会遇到各种意外情况,如断电或系统崩溃,从而导致部分数据写入,而另一部分数据未能成功写入&a…

揭秘!如何从精益生产转向智能制造

企业在“工业4.0、智能制造、互联网”等概念满天飞的环境下迷失了方向,不知该如何下手,盲目跟风。 君不见,很多企业在“工业4.0、智能制造、互联网”等概念满天飞的环境下迷失了方向,不知该如何下手,盲目跟风&#xf…

2024下《系统集成项目管理工程师》50个高频考点汇总!值得收藏

宝子们!5月软考考完了,终于可以考系统集成了! 整理了50个高频考点,涵盖全书90%考点,先把这个存下!再慢慢看书,边看书边背这个 1、信息安全的基本要素有: (1&#xff09…

迈入智能新纪元:智慧机房运维系统引领行业变革

在数字化飞速发展的今天,机房作为信息时代的“心脏”,其稳定运行对于企业的业务连续性至关重要。然而,传统的机房运维模式面临着诸多挑战,如响应速度慢、故障定位难、资源浪费大等问题。智慧机房运维系统,它将以智能化…

重磅:吴恩达最新的机器学习书籍《Machine Learning Yearning》两年磨一剑

《Machine Learning Yearning》是吴恩达历时两年打磨而成的机器学习和深度学习实践宝典。这本书旨在为读者提供实战经验,以帮助他们在机器学习项目中取得成功。 吴恩达通过自身多年的实践经验,为读者提供了宝贵的指导,涵盖了从项目构建到调试…

ts类型声明文件、内置声明文件

1. ts类型声明文件 在ts中以d.ts为后缀的文件就是类型声明文件,主要作用是为js模块提供类型信息支持,从而获得类型提示 1.1 第三方包用ts编写的,会自动生成一个 .d.ts文件,进行类型声明 1.2 有些包不是用ts编写的,在…

LangChain真的好用吗?谈一下LangChain封装FAISS的一些坑

前言 最近在做一个知识库问答项目,就是现在大模型浪潮下比较火的 RAG 应用。LangChain 可以说是 RAG 最受欢迎的工具,因此我首选 LangChain 来快速构建我的应用。坦白来讲 LangChain 本身一套对于组件的定义已经让我感觉很复杂,为什么采用 f…

Java Web学习笔记6——盒子模型

视频标签&#xff1a;<video> src: 规定视频的URL controls&#xff1a;显示播放控件 width&#xff1a;播放器的宽度 height&#xff1a;播放器的高度 音频标签&#xff1a;<audio> src: 规定音频的URL controls: 显示播放控件 段落标签&#xff1a;<p&g…

Git版本控制:核心概念、操作与实践

Git是一种分布式版本控制系统&#xff0c;被广泛应用于软件开发过程中。本文将介绍Git的核心概念、常用操作以及最佳实践&#xff0c;帮助读者掌握Git的基本技巧&#xff0c;提高团队协作效率。 一、引言 在软件开发过程中&#xff0c;版本控制是至关重要的。它能帮助我们跟踪…

linux驱动学习(七)之混杂设备

需要板子一起学习的可以这里购买&#xff08;含资料&#xff09;&#xff1a;点击跳转 一、混杂设备 混杂设备也叫杂项设备&#xff0c;是对普通的字符设备(struct cdev)的一种封装,设计目的就是为了简化字符设备驱动设计的流程。具有以下特点&#xff1a; 1) 主设备号为10&a…