下一代分层存储方案:CXL SSD

近日,在Memcon 2024大会上,三星推出了一款名为CXL Memory Module-Hybrid for Tiered Memory(CMM-H TM),这款扩展卡配备了高速DRAM和NAND闪存,允许CPU和加速器远程访问额外的RAM和闪存资源。

图片

那么,这个CMM-H TM到底是什么产品呢?本文我们进行简单解读分析,供各位存储粉丝参考哈!开始阅读本文内容前,建议先了解CXL相关背景,可以阅览:

扩展阅读:

  • CXL崛起:2024启航,2025年开启新时代

  • 浅析CXL P2P DMA加速数据传输的原理

  • 是谁?阻止CXL在AI场景大展身手~


三星在2021年5月推出了行业内首款CXL DRAM产品——CMM-D(CXL Memory Module DRAM),这款产品支持CXL 2.0标准,配备128GB CXL DRAM,利用PCIe 5.0接口,实现了高达35GB每秒的显著带宽。一年后,也就是2022年5月,三星又发布了下一代产品CMM-D 2.0,率先推出512GB的内存模块,且具备更高的带宽和更低的延迟。

图片

随着AI领域尤其是像GPT这样的大型语言模型的快速发展,对内存容量的需求急剧扩大。然而,简单增加内存容量并不能有效解决问题,因为内存性能并不随容量线性提升。现有的内存模块难以匹配处理器和加速器不断提升的速度,导致频繁的数据迁移,消耗大量电能并增加总拥有成本(TCO)。这个问题的核心在于现代数据中心传统的以处理器为中心的架构配置无法兼顾低系统性能、高TCO以及带宽、延迟、容量和高功耗等方面的挑战。

通过CXL技术缩短了存储与计算资源的距离,实现了更紧密的耦合,使存储资源仿佛就在CPU旁边一样,几乎消除了内存层级之间的延迟。这一特性为降低固态硬盘(SSDs)的成本创造了机会,因为在“近内存”架构下,可以采用成本较低的存储介质,同时依然保证较高的性能水平,通过更好的资源搭配和层级设计,达到性价比最优的存储解决方案。

图片

在资源过载的服务器环境中,由于物理空间或成本限制,往往无法轻易增加DDR5内存。CMM-H TM的主要目的是提供一种经济高效的途径,以增强服务器的内存容量,而无需依赖本地安装的DDR5内存。CMM-H作为一种面向分层内存系统的下一代内存解决方案,集成了DRAM与NAND闪存,并通过基于PCIe Gen 5.0接口的CXL接口提供经济有效的内存扩展。

图片

CMM-H TM是CMM-H CXL内存解决方案的一个分支。三星声称这是世界上首款基于FPGA的分层CXL内存解决方案,旨在解决内存管理难题,减少停机时间,优化分层内存调度,最大化性能,同时大幅度降低总体拥有成本(TCO)。

图片

另外补充下,其实这个CMM-H就是之前三星Memory-Semantic SSD产品修改命名后的产品,也就是跟之前推出的MS SSD是一个东西!

图片

新款CMM-H虽然不如DRAM那样快速,但它通过闪存增加了大量的容量,并通过扩展卡内置的智能内存缓存功能隐藏了大部分延迟。热门数据会被自动移动到卡片上的DRAM芯片中以加快访问速度,而较少使用的数据则存储在NAND存储中。对于缓存数据会引入一定延迟,这对于依赖严格性能延迟的应用场景并非理想选择,特别是那些大型语言模型等高度依赖内存资源的应用。

CMM-H关键要素是其内置的DRAM缓存,旨在缓解与NAND闪存相关的长延迟问题。如同现代数据处理系统中每个处理器都有自己的缓存来存储常用数据以提高速度一样,CMM-H内置的DRAM缓存能够高效缓存常用数据,实现与主机DRAM相似的性能,在100%缓存命中率下提供高速响应。CMM-H通过采用64字节的缓存粒度访问方式,利用革命性的CXL.mem协议进一步凸显优势,这对于AI应用程序来说是一项重大革新。

图片

不同于传统的NVMe设备需要进行数据交换,将数据在SSD与主机DRAM之间来回移动,CMM-H能够直接访问数据,提高数据处理效率,通过提供更高效的I/O栈降低了延迟,并通过更小的数据访问粒度增加了有效带宽。这得益于CXL技术(CXL.mem)提供的缓存一致性(这个需要支持CXL 3.0)。过去,缓存一致性仅限于主内存或处理器主内存缓存之间,而现在CXL设备也支持缓存一致性,确保所有共享同一内存空间的处理器都能看到最新版本的数据。

图片

另外,CMM-H的多功能性值得一提。它不仅可作为满足分层内存系统需求的内存扩展设备,还可作为持久性内存(PMem)设备服务于持久性存储需求。通过将数据转储至NAND闪存实现持久性特性,并且CMM-H支持CXL 2.0 GPF(全局故障保护)下的故障时刷新功能。

图片

CXL协议允许服务器系统跨越多个设备进行内存池化和内存扩展,从而实现更大范围内的内存资源统一管理和高效利用。CMM-H TM插卡通过整合DRAM和NAND闪存,不仅扩展了内存总量,而且利用了不同类型的存储介质的优势。DRAM提供快速、低延迟的随机访问,而NAND闪存则提供大容量、非易失性存储,适合用于长期存储或热数据缓存。

图片

CXL规范支持三种类型的设备:Type 1设备是没有本地内存的加速器,Type 2设备是有自己内存的加速器(如GPU、FPGA和带有DDR或HBM内存的ASIC),而Type 3设备则由内存设备组成。三星的这款设备属于Type 3类别。

图片

此外,之前有一家做SCM(存储级内存)ASIC控制器的厂商Wolly提出过一种NVMe over CXL (NVMe-oC)的架构,核心概念是利用CXL(Compute Express Link)接口优化主机与设备之间的数据移动。这个跟三星的CMM-H TM类似。

图片

在NVMe-oC中,设备使用CXL.io来访问NVMe SSD,并使用CXL.mem来访问主机数据内存(HDM)。CXL HDM的主要优势在于它可以实现高速、可缓存的数据读写,这是在传统的Controller Memory Buffer (CMB)中无法达到的。

扩展阅读:

  • NVMe over CXL技术如何加速Host与SSD数据传输?

除了CMM-H,三星还介绍了诸如内存内处理(PIM)和临近内存处理(PNM)等技术,并开发出HBM-PIM和CXL-PNM作为概念验证,将数据传输和处理更紧密地靠近内存,以避免在处理大型AI模型时DRAM成为瓶颈。

此外,三星还在开发多款CXL方案,比如CXL DRAM (CMM-D)、CXL-PNM (CMM-DC)、内存语义SSD (CMM-H) 以及Smart SSD + CXL接口(I/F)计算(CMM-HC)均为CXL内存扩展和计算解决方案,这些都是三星内存实验室预测的产品。

从2019年的CXL 1.0,CXL协议目前已经发展了CXL 3.0。

图片

根据Yole机构分析数据显示,CXL在2024年开始爬坡,在2025年将会大规模上量,也就是代表着CXL的时代从2025年开始正式到来,2026年迎来大爆发!

图片

服务器目前正面临着内存性能挑战,而CXL部署提供了短期和长期的解决方案。从CXL 1.1开始,AI云服务器可以从内存扩展中受益,而CXL 3.0有可能为GPU、DPU、FPGA和ASIC等加速器提供直接访问内存池的权限。预计云服务提供商和超大规模企业将对由CXL 2.0发起的内存池和可组合服务器表现出浓厚的兴趣。同时,数据库服务器将利用运行更大的内存数据库以加快分析速度的能力。

图片

如果您看完有所受益,欢迎点击文章底部左下角“关注”并点击“分享”、“在看”,非常感谢!

精彩推荐:

  • PCIe 7.0|不要太卷,劝你先躺平

  • 3D DRAM虽困难重重,最快明年到来

  • 字节跳动入局存储内存SCM

  • 解读“CFMS中国闪存市场峰会”存储技术看点

  • 首个业内DNA存储技术规范发布

  • 如何突破SSD容量提升的瓶颈?

  • 固态存储是未来|浅析SSD架构的演进与创新技术

  • 论文解读:NAND闪存中读电压和LDPC纠错码的高效设计

  • 华为新发布磁电存储“王炸”,到底是什么?

  • SSD LDPC软错误探测方案解读

  • 关于SSD LDPC纠错能力的基础探究

  • 存储系统如何规避数据静默错误?

  • PCIe P2P DMA全景解读

  • 深度解读NVMe计算存储协议

  • 对于超低延迟SSD,IO调度器已经过时了吗?

  • 浅析CXL P2P DMA加速数据传输的原理

  • NVMe over CXL技术如何加速Host与SSD数据传输?

  • 浅析LDPC软解码对SSD延迟的影响

  • 为什么QLC NAND才是ZNS SSD最大的赢家?

  • SSD在AI发展中的关键作用:从高速缓存到数据湖

  • 浅析不同NAND架构的差异与影响

  • SSD基础架构与NAND IO并发问题探讨

  • 字节跳动ZNS SSD应用案例解析

  • CXL崛起:2024启航,2025年开启新时代

  • NVMe SSD:ZNS与FDP对决,你选谁?

  • 浅析PCI配置空间

  • 浅析PCIe系统性能

  • 存储随笔《NVMe专题》大合集及PDF版正式发布!

图片

如果您也想针对存储行业分享自己的想法和经验,诚挚欢迎您的大作。
投稿邮箱:Memory_logger@163.com (投稿就有惊喜哦~)

《存储随笔》自媒体矩阵

图片

更多存储随笔科普视频讲解,请移步B站账号

图片

如您有任何的建议与指正,敬请在文章底部留言,感谢您不吝指教!如有相关合作意向,请后台私信,小编会尽快给您取得联系,谢谢!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/801127.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Kafka 线程模型痛点攻克: 提升分区写入 2 倍性能

01 引言 单分区写入在一些需要全局顺序消息的场景中具备重要应用价值。在一些严格保序场景下,需要将分区数设置为 1,并且只用单个生产者来发送数据,从而确保消费者可以按照原始顺序读取所有数据。此时,Kafka 的单分区写入性能将会…

Data Shapley Value 笔记

本文为 Data Shapley: Equitable Valuation of Data for Machine Learning 的阅读笔记,涉及论文中的 Data Shapley Value 计算公式、两种实现算法、实验应用部分的梳理。 为理解 Data Shapley Value,本文首先讨论 Shapley Value的相关内容,利…

Python基于Django的微博热搜、微博舆论可视化系统,附源码

博主介绍:✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇…

K8s学习九(配置与存储_存储)

存储管理 Volumes HostPath 将节点上的文件或目录挂载到 Pod 上,此时该目录会变成持久化存储目录,即使 Pod 被删除后重启,也可以重新加载到该目录,该目录下的文件不会丢失 效果就是容器里的数据和主机里的数据进行共享 配置文…

JS-25-浏览器和浏览器对象

一、浏览器 由于JavaScript的出现就是为了能在浏览器中运行,所以,浏览器自然是JavaScript开发者必须要关注的。 目前主流的浏览器分这么几种: IE 6~11:国内用得最多的IE浏览器,历来对W3C标准支持差。从IE10开始支持E…

无人售货奶柜:开启便捷生活的新篇章

无人售货奶柜:开启便捷生活的新篇章 在这个快节奏的现代生活中,科技的革新不仅为我们带来了前所未有的便利,更在不经意间改变着我们的日常。其中,无人售货技术的出现,尤其是无人售货奶柜,已经成为我们生活…

【C语言】函数相关选择题

前言 关于函数相关的选择题。 题目一: C语言规定,在一个源程序中,main函数的位置( ) A .必须在最开始 B .必须在库函数的后面 C .可以任意 D .必须在最后 题解:选择C。 main函数为C语言中整个工程的程序入…

牛顿:Archetype AI 的开创性模型,实时解读真实世界的新宠儿

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

英语学习笔记-音节划分和字母发音对照表

国际音标 音节划分 英语音节以元音为主体构成的发音单位,一般说来元音发音响亮,可以构成音节,辅音发音不响亮,不能单独构成音节 ((m] (n] [I] 例外)。 从单词拼写形式上看,有几个元字组就有几个音节 音节划分规则 长…

[通俗易懂]《动手学强化学习》学习笔记1-第1章 初探强化学习

文章目录 前言第1章 初探强化学习1.1 简介序贯决策(sequential decision making)任务:强化学习与有监督学习或无监督学习的**区别**:改变未来 1.2 什么是强化学习环境交互与有监督学习的区别1:改变环境 (说…

GPU环境安装与虚拟环境安装(适用于Windows下的李沐GPU)

之前我是用的都是VMware的虚拟机且安装的是cpu的pytorch版本,因为想要使用GPU,最终实现了在Windows上使用GPU,并且相关原理也在参考文章或视频内,可以通过原理自行挑选自己所需的配置并安装。 文章目录 1.GPU安装1.1 名词解释1.2 卸载旧版本的CUDA1.3 版本选择步骤(Nivida显卡…

ubuntu安装

一、安装虚拟机 https://www.vmware.com/products/workstation-pro/workstation-pro-evaluation.html 下载后运行安装向导,一直Next即可 许可证: https://zhuanlan.zhihu.com/p/685829787#:~:textpro,17%E5%AF%86%E9%92%A5%EF%BC%9AMC60H-DWHD5-H80U9-6…

【SpringCloud】Nacos 配置管理

目 录 一.统一配置管理1. 在 nacos 中添加配置文件2. 从微服务拉取配置 二.配置热更新1. 方式一2. 方式二 三.配置共享1. 添加一个环境共享配置2. 在 user-service 中读取共享配置3. 运行两个 UserApplication,使用不同的 profile4. 配置共享的优先级5. 多服务共享配…

如何使用vscode启动Flask并实现无公网IP远程访问内网服务

文章目录 1. 安装部署Flask2. 安装Cpolar内网穿透3. 配置Flask的web界面公网访问地址4. 公网远程访问Flask的web界面 本篇文章主要讲解如何在本地安装Flask,以及如何将其web界面发布到公网进行远程访问。 Flask是目前十分流行的web框架,采用Python编程语…

LeetCode初级算法书Java题解日常更新

LeetCode初级算法高效题解(含思路注释) 文章目录 LeetCode初级算法高效题解(含思路注释)前言一、数组1.删除排序数组中的重复项2.买卖股票的最佳时机 II3.旋转数组4.存在重复元素 总结 前言 决定用四个月过一下算法 一、数组 1.…

【绩效管理】帮助零售企业建立分层分类绩效考核体系项目纪实

购物中心张经理评价:“员工的绩效管理一直是困扰我公司的难题,我们只懂得怎么经营,至于怎么做人力资源管理,真是一点都不懂。这次华恒智信为我们提供的服务对我们的帮助很大。基于企业实际调研情况,华恒智信专家明确指…

Linux-等待子进程

参考资料:《Linux环境编程:从应用到内核》 僵尸进程 进程退出时会进行内核清理,基本就是释放进程所有的资源,这些资源包括内存资源、文件资源、信号量资源、共享内存资源,或者引用计数减一,或者彻底释放。…

PANet网络

PANet(Path Aggregation Network)是一种用于语义分割任务的神经网络结构,旨在解决多尺度特征融合的问题。该网络结构由中国科学院计算技术研究所提出,在2018年的论文中首次提出。 PANet的主要目标是解决语义分割任务中多尺度信息…

电脑开机启动项设置

电脑开机启动项设置 一、Windows 系统: 1、Windows 系统,可以通过【系统配置实用程序】来设置开机启动项: 1)、按【WinR】组合键,打开【运行】对话框。 2)、输入【msconfig】,点击【确定】或…

Transformer 模型及其典型应用研究

摘要: Transformer 模型是一种基于自注意力机制的深度学习架构,在自然语言处理等领域取得了巨大成功。本文介绍了 Transformer 模型的原理和结构,并探讨了其在语言翻译、文本生成、对话系统、语言模型、图像处理和推荐系统等典型应用领域的研…