HBM(High Bandwidth Memory)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

选择正确的高带宽内存

构建高性能芯片的选择越来越多,但附加内存的选择却几乎没有变化。为了在汽车、消费和超大规模计算中实现最大性能,选择取决于一种或多种 DRAM,而最大的权衡是成本与速度。

尽管多年来人们一直在努力用更快、更便宜或更通用的内存来取代 DRAM,甚至将其嵌入到 SoC 中,但 DRAM 仍然是所有这些架构中的重要组成部分。但 DRAM 制造商并没有停滞不前,而是根据性能、功耗和成本提供了多种选择。这些仍然是基本的权衡,要进行这些权衡,需要深入了解如何使用内存、如何连接所有部件,以及芯片或使用芯片的系统的关键属性是什么。

Rambus产品管理高级总监 Frank Ferro 表示:“即使在宏观经济形势下,我们仍然看到对更多带宽内存的需求呈非常积极的趋势。 ” “有很多公司正在研究不同类型的内存架构。这包括解决带宽问题的各种方法,无论是具有大量片上内存的处理器还是其他方式。虽然这种方法是最便宜、最快的,但容量相当低,因此人工智能算法必须针对这种类型的架构进行定制。”

小芯片

这仍然没有减少对附加内存的需求。总体而言,向异构计算(尤其是小芯片)的发展只会加速对高带宽内存(无论是 HBM、GDDR6 还是 LPDDR6)的需求。

HBM 是三者中最快的。但到目前为止,HBM 一直基于 2.5D 架构,这限制了它的吸引力。“制作 2.5D 中介层仍然是相对昂贵的技术,”Ferro 说。“供应链问题并没有太大帮助。在过去的两年里,这种情况有所缓解,但它确实凸显了您在制作这些复杂的 2.5D 系统时的一些问题,因为您必须组合大量组件和基板。如果其中任何一件不可用,就会扰乱整个流程或导致较长的交货时间。”

一段时间以来,人们一直致力于将 HBM​​ 连接到其他一些封装方法,例如扇出,或使用不同类型的中介层或桥来堆叠芯片。随着更前沿的设计包括某种类型的先进封装以及可能在不同工艺节点开发的异构组件,这些将变得至关重要。

“许多 HBM 空间实际上更多的是制造问题,而不是 IP 问题,” Cadence IP 小组产品营销小组总监 Marc Greenberg 说。“当您拥有一个内部带有硅中介层的系统时,您需要弄清楚如何构建一个带有硅中介层的系统。首先,您将如何在那里制造硅中介层?它比普通硅芯片大得多。它必须被稀释。它必须粘合到其上的各种芯片上。它需要被包装。HBM 解决方案涉及大量专业制造。这最终超出了 IP 领域,更多地属于 ASIC 供应商和 OSAT 所做的领域。”
在这里插入图片描述

汽车中的高带宽内存

HBM 引起广泛关注的领域之一是汽车领域。但仍有一些障碍需要克服,而且目前还没有解决这些问题的时间表。

Synopsys产品营销总监 Brett Murdock 表示:“HBM3 具有高带宽、低功耗的特点,并且具有良好的密度。” “唯一的问题是它很贵。这是那段记忆的一个失败。HBM 的另一个缺点是它尚不符合汽车行业的要求,尽管它非常适合汽车行业。在汽车领域,正在发生的一件有趣的事情是所有电子设备都变得集中化。当这种集中化发生时,基本上现在你的后备箱里就有了一台服务器。发生的事情如此之多,因此不一定总是发生在单个 SoC 或单个 ASIC 上。因此,现在汽车公司开始研究小芯片以及如何在设计中使用小芯片以获得该集中式域中所需的所有计算能力。巧妙的是,小芯片的潜在用途之一是与中介层一起使用。如果他们现在使用中介层,他们就无法解决 HBM 的中介层问题。他们正在解决小芯片的中介层问题,也许 HBM 也能参与其中。然后,如果他们已经在为车辆进行小芯片设计,也许它就不再那么昂贵了。”

HBM 非常适合该领域,因为车辆中需要快速移动的数据量很大。“如果你考虑一下汽车中摄像头的数量,所有这些摄像头的数据速率以及处理所有信息的速度都是天文数字。HBM 是所有汽车行业人士都想去的地方。”Murdock 说道。“对于他们来说,成本可能并没有那么高,因为它只是解决技术、解决汽车内插器以及解决 HBM 设备的汽车温度问题。

不过,这可能需要一段时间。与此同时,GDDR 似乎是后起之秀。虽然它的吞吐量比 HBM 更有限,但它仍然足以满足许多应用的需求,并且已经符合汽车标准。

Rambus 的 Ferro 表示:“HBM 绝对会进入汽车应用领域,在汽车领域,汽车可以与不动的物体进行对话。” “但在车辆方面,GDDR 做得很好。LPDDR 已经出现在汽车中,您可以用 GDDR 替换大量 LPDDR,获得更小的占用空间和更高的带宽。然后,随着人工智能处理能力的提高,LPDDR5 和 LPDDR6 开始达到相当可观的速度(现在分别接近 8Gbps 和 10Gbps),它们也将成为汽车中非常可行的解决方案。仍然会有少量 DDR,但 LPDDR 和 GDDR 将成为汽车领域最受欢迎的技术。”

Cadence 的 Greenberg 表示,这种方法可能会在相当长的一段时间内发挥作用。“仅使用标准 PCB 和标准制造技术的解决方案似乎比尝试在方程中引入硅中介层并验证其温度、振动或 10 年寿命更明智。寿命。试图验证车辆中的 HBM 解决方案似乎比 GDDR-6 面临更大的挑战,GDDR-6 可以将内存放置在 PCB 上。如果我在一家汽车公司负责一些汽车项目,我只会选择HBM作为最后的选择。”

边缘 AI/ML 内存需要

GDDR 和 LPDDR5,甚至可能是 LPDDR6,在某些边缘加速卡上也开始看起来像是可行的解决方案。

“对于进行边缘 AI 推理的 PCIe 卡,多年来我们已经在 NVIDIA 等公司的加速卡中看到了 GDDR,”Ferro 说。“现在我们看到越来越多的公司愿意考虑替代方案。例如,Achronix 在其加速卡中使用 GDDR6,并开始研究如何使用 LPDDR,尽管速度仍约为 GDDR 的一半。它正在缓慢上升,并且密度增加了一些。这是另一个解决方案。这些给出了一个很好的权衡。它们提供了性能和成本优势,因为它们仍然使用传统的 PCB。您将它们焊接在芯片上。如果您过去使用过 DDR,则可以丢弃大量 DDR,并用一个 GDPR 或两个 LPDDR 替换它们。这就是我们现在看到的很多情况,因为开发人员试图找出如何在成本、功耗和价格之间达到适当的平衡。这始终是一个边缘挑战。”

一如既往,权衡是许多因素的平衡。

格林伯格指出,在当前人工智能革命的早期阶段,第一批 HBM 存储器正在被使用。“人们采用了一种不考虑成本/不考虑带宽的方法。HBM 非常自然地融入其中,有人希望有一个典型的例子来说明他们可以从系统中获得多少带宽。他们将构建基于 HBM 的芯片,根据该芯片的性能指标获得风险投资资金,而且没有人真正太担心这一切的成本是多少。现在我们看到的是,也许您需要一些好的指标,也许是使用 HBM 可以实现的 75%,但您希望它的成本只有一半。我们该怎么做呢?我们所看到的 GDDR 的吸引力在于它可以实现成本更低的解决方案,但带宽绝对接近 HBM 空间。”

Murdock 也看到了做出正确内存选择的困难。“由于带宽要求较高,他们通常会做出成本权衡决定。我是否应该选择 HBM?如果不是考虑到成本因素,HBM 通常非常适合该应用程序?有客户向我们询问 HBM,试图在 HBM 和 LPDDR 之间做出选择。这确实是他们做出的选择,因为他们需要带宽。他们可以在这两个地方之一得到它。我们已经看到工程团队在 SoC 周围放置了多达 16 个 LPDDR 接口实例,以满足他们的带宽需求。当你开始谈论这么多实例时,他们会说,“哦,哇,HBM 真的非常适合这个要求。” 但这仍然归结为成本,因为许多公司只是不想支付 HBM3 带来的溢价。”

HBM 还存在架构方面的注意事项。“HBM 一开始就是一种多通道接口,因此使用 HBM,一个 HBM 堆栈上就有 32 个伪通道,”Murdock 说。“有 16 个通道,所以实际上有 32 个伪通道。伪通道是您在每个伪通道的基础上执行实际工作负载的地方。因此,如果您有 16 个伪通道,而不是在 SoC 上放置许多不同的 LPDDR 实例,那么在这两种情况下,您都必须弄清楚流量将如何瞄准整个通道中的整体地址空间定义。在这两种情况下,你都有很多渠道,所以也许并没有太大的不同。”

对于 AI/机器学习开发人员来说,LPDDR 通常采用 bi-32 封装,然后具有 2-16 位通道。

“你需要在你的架构中做出一个基本的选择,”他解释道。“从系统的角度来看,我是否将内存上的这两个 16 位通道视为真正独立的通道?或者我是否将它们集中在一起并使其看起来像一个 32 位通道?他们总是选择 16 位通道,因为这为他们提供了更高的性能接口。在内存中,我有两个通道。我的打开页面数量是我可能点击的两倍,并通过页面点击减少了整体系统延迟。拥有更多更小的通道可以使系统性能更好,这就是我们在 HBM 中看到的情况。从 HBM2e 到 HBM3,我们专门放弃了通道和伪通道大小,以应对此类市场。我们甚至在 DDR4 的 DDR5 中看到了这一点。我们从 DDR4 中的 64 位通道改为 DDR5 中的一对 32 位通道,每个人都喜欢较小的通道尺寸,以帮助提高整体系统性能。”

对于边缘人工智能推理,Greenberg 一直在观察这些应用走到最前沿,并发现 GDDR-6 是一项伟大的技术。“有很多芯片都希望拥有这种功能。这使得人工智能推理接近边缘,因此您可以接收多个摄像头输入或多个其他传感器输入。然后,在边缘使用人工智能,您可以深入了解正在处理的数据,而不是将所有数据发送回服务器来执行该功能。”

格林伯格预计很快就会出现大量芯片,这些芯片将具有各种有趣的功能,而无需将大量数据发送回服务器。他预计 GDDR6 将在那里发挥重要作用。

“前几代 GDDR 主要针对显卡,”他说。“GDDR6 具有很多功能,使其更适合作为通用内存。事实上,虽然我们确实有用户将其用于显卡,但大多数实际上是将其用于人工智能边缘应用程序,”格林伯格说。“如果您需要尽可能多的带宽,并且不关心它的成本是多少,那么 HBM 是很好的解决方案。但如果您不需要那么多带宽,或者成本是一个问题,那么 GDDR6 在该领域会发挥有利作用。GDDR6的优点是可以在标准FR4 PCB上完成。制造过程中不需要特殊材料。没有特殊的工艺,甚至PCB本身也不需要进行背钻。它不需要隐藏的通孔或类似的东西。”

最后,GDDR 领域的最后一个趋势是努力使 GDDR 对消费者更加友好。“它仍然有一些非常受图形引擎青睐的规范部分,但作为一项技术,GDDR 正在向消费者方向发展,”他说。“随着 GDDR 类型技术的更广泛部署,它将继续朝这个方向发展。”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/716372.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux:kubernetes(k8s)搭建mater节点(kubeadm,kubectl,kubelet)(2)

安装k8有多种方式如: minikube kubeadm 二进制安装 命令行工具 我这里就使用kubeadm进行安装 环境 3台centos7 master ip :192.168.113.120 2G运存 2内核 node1 ip :192.168.113.121 2G运存 2内核 node2 ip :192.168.1…

重构与设计模型的完美融合:构建稳定可扩展系统的关键步骤

在软件开发的漫长旅程中,系统的稳定性和可扩展性一直是开发者们追求的目标。为了实现这一目标,重构和设计模型成为了不可或缺的两个关键元素。本文将探讨如何通过重构,使系统更稳定、更具可扩展性,并深入研究如何将重构与设计模型…

JavaEE:多线程(3):案例代码

目录 案例一:单例模式 饿汉模式 懒汉模式 思考:懒汉模式是否线程安全? 案例二:阻塞队列 可以实现生产者消费者模型 削峰填谷 接下来我们自己实现一个阻塞队列 1.先实现一个循环队列 2. 引入锁,实现线程安全 …

运用qsort函数进行快排并使用C语言模拟qsort

qsort 函数的使用 首先qsort函数是使用快速排序算法来进行排序的,下面我们打开官网来查看qsort是如何使用的。 这里有四个参数,首先base 是至待排序的数组的首元素的地址,num 是值这个数组的元素个数,size 是指每个元素的大小&am…

Python猜数字小游戏

下面这段代码是一个简单的数字猜测游戏,其中计算机已经提前计算出了414 // 23的结果并存储在变量num中。然后,程序会提示用户来猜测这个结果。 以下是代码的主要步骤和功能: 初始化: num 414 // 23:计算414除以23的整…

Linux:各目录含义

简介 学习Linux各目录含义之前,我们首先要了解一下Filesystem Hierarchy Standard(文件系统层次结构标准)。 FHS FHS,即文件系统层次结构标准(Filesystem Hierarchy Standard),是Linux和类Un…

深入了解Redis:配置文件、动态修改和安全设置

Redis 是一个开源的内存中数据结构存储系统,它可以用作数据库、缓存和消息中间件。在使用 Redis 时,了解其配置选项是至关重要的。本文将详细介绍 Redis 的配置文件和常用配置项,并提供一些示例来说明如何设置和修改这些配置。 Redis 配置文…

基于stm32F103的座面声控台灯

1.基本内容: 设计一个放置在桌面使用的台灯,使用220v交流电供电。具备显示屏能够实时显示日期(年、月、日和星期),时间(小时、分钟、秒)和温度(摄氏度);能够通…

Python爬取天气数据及可视化分析!(含源码)

天气预报我们每天都会关注,我们可以根据未来的天气增减衣物、安排出行,每天的气温、风速风向、相对湿度、空气质量等成为关注的焦点。本次使用python中requests和BeautifulSoup库对中国天气网当天和未来14天的数据进行爬取,保存为csv文件&…

帆软下载PDF报错java.lang.OutOfMemoryError: Java heap space

需求:前端选择多条数据,点击下载按钮,下载帆软报表的pdf格式。 (目前用的是帆软PDF下载接口,然后java转成文件流,前端接到后端接口的文件流,使用axios下载blob,再创建下载链接,通过link标签实现…

ArduinoTFTLCD应用

ArduinoTFTLCD应用 ArduinoTFTLCD应用硬件连接软件导入库显示数字、字符显示汉字方案1方案2 显示图片 总结 ArduinoTFTLCD应用 对于手工喜欢DIY的人来说,Arduino驱动的TFTLCD被很多人使用,此处就总结一下,使用的是VScode的PlatformIO插件驱动…

C# API异步方法和返回类型:提升应用程序性能和灵活性

摘要: 异步编程是现代应用程序开发中不可或缺的一部分。在C#中,异步方法允许我们在等待操作完成时继续执行其他任务,从而提高应用程序的性能和响应性。本文将介绍C# API异步方法的基本概念、原理和实际应用,并详细讨论异步方法的返…

【机器学习】实验5,AAAI 会议论文聚类分析

本次实验以AAAI 2014会议论文数据为基础,要求实现或调用无监督聚类算法,了解聚类方法。 任务介绍 每年国际上召开的大大小小学术会议不计其数,发表了非常多的论文。在计算机领域的一些大型学术会议上,一次就可以发表涉及各个方向…

RNA-Seq 笔记 [4]

***********************该笔记为初学者笔记,仅供个人参考谨慎搬运代码****************************** samtools 排序压缩和 featureCounts 生成基因计数表 SAM文件和BAM文件 1.SAM格式:是一种通用的比对格式,用来存储reads到参考序列的比…

2024最新算法:鳑鲏鱼优化算法(Bitterling Fish Optimization,BFO)求解23个基准函数(提供MATLAB代码)

一、鳑鲏鱼优化算法 鳑鲏鱼优化算法(Bitterling Fish Optimization,BFO)由Lida Zareian 等人于2024年提出。鳑鲏鱼在交配中,雄性和雌性物种相互接近,然后将精子和卵子释放到水中,但这种方法有一个很大的缺…

BUUCTF---[极客大挑战 2019]Upload1

1.题目描述 2.点开链接&#xff0c;需要上传文件&#xff0c;要求是image&#xff0c;上传文件后缀为jpg的一句话木马&#xff0c;发现被检测到了 3.换另一个木马试试 GIF89a? <script language"php">eval($_REQUEST[1])</script> 发现可以上传成功 4…

ctf_show笔记篇(web入门---文件包含)

目录 文件包含 78-79&#xff1a;最基础的文件包含&#xff0c;使用伪协议&#xff0c;大小写绕过或者通配符绕过&#xff0c;再或者使用其他方法 ​编辑80-81&#xff1a;可采用日志文件绕过或者大小写绕过&#xff08;81只能日志文件绕过&#xff09; ####80-86&#xff1…

『周年纪念』- 降生CSDN三周年的碎碎念

『周年纪念』- 降生CSDN三周年的碎碎念 缘起机缘迷茫厚积薄发 一转眼又过来一年&#xff0c;自己也已经 大四即将毕业。 感觉这一年像是开了加速键&#xff0c;仿佛一瞬就又过去了。统计了一下发现自己在过去的这一年就发布了 2篇文章&#xff0c;2022年发布了 117篇&#x…

PDF 解析问题调研

说点真实的感受 &#xff1a;网上看啥组件都好&#xff0c;实际测&#xff0c;啥组件都不行。效果好的不开源收费&#xff0c;开源的效果不好。测试下来&#xff0c;发现把组件融合起来&#xff0c;还是能不花钱解决问题的&#xff0c;都是麻烦折腾一些。 这里分享了目前网上能…

Python中的反射

在Python中&#xff0c;反射&#xff08;Reflection&#xff09;是一种动态地访问对象和调用其方法的能力&#xff0c;而不需要在编写代码时显式地知道对象的类或属性。这种机制使得代码具有更高的灵活性和可扩展性。Python通过几种内置函数提供了反射的功能&#xff0c;主要包…