MinIO 的 S3 over RDMA 计划: 为高速人工智能数据基础设施设定对象存储新标准

随着 AI 和机器学习的需求不断加速,数据中心网络正在迅速发展以跟上步伐。对于许多企业来说,400GbE 甚至 800GbE 正在成为标准选择,因为数据密集型和时间敏感型 AI 工作负载需要高速、低延迟的数据传输。用于大型语言处理、实时分析和计算机视觉等任务的 AI 模型需要处理大量数据,并几乎立即在存储和计算节点之间移动。传统的网络速度根本不足以处理这些工作负载所需的数据吞吐量。这种向 400GbE/800GbE 的转变是支持依赖大量分布式数据集的 AI 应用程序的自然演变,这些数据集通常跨 GPU 集群或专用加速器进行处理。然而,随着网络速度的提高,TCP/IP 等传统协议难以保持效率,由于 CPU 开销和延迟高而造成瓶颈。通过将其 S3 功能与 RDMA 保持一致,MinIO 正在开拓新的方法来满足现代 AI 工作负载的性能和可扩展性要求,同时也使客户能够无缝过渡到更高速的网络标准。这种对 S3 over RDMA 的前瞻性支持扩展了 MinIO 在构建针对未来优化的 AI 就绪数据基础设施的企业中的领导地位。S3 over RDMA 功能在新的 AIStor 中可用。

什么是 RDMA?

远程直接内存访问 (RDMA) 允许绕过 CPU、操作系统和 TCP/IP 堆栈,直接在两个系统的内存之间移动数据。这种直接内存访问减少了与 CPU 和操作系统处理数据相关的开销和延迟,使 RDMA 对于低延迟、高吞吐量网络特别有价值。

为什么随着我们向 800GbE 迈进,以及 AI 基础设施的联网范围,RDMA 变得更加重要

随着对更快数据访问的需求不断增加,400GbE/800GbE 网络将成为 AI 数据基础设施的支柱。虽然 TCP/IP 多年来一直支持以太网的发展,但它却难以满足超高速网络的要求,原因如下:

  • CPU 瓶颈:TCP/IP 严重依赖 CPU 来处理数据包处理、重组和流控制等任务。在 800GbE 时,数据包的庞大数量和速度可能会使 CPU 不堪重负,从而造成性能瓶颈。

  • 延迟和抖动:TCP/IP 通过多个层(应用程序、传输、网络、链接)处理数据,从而增加延迟。缓冲、重传和数据包重组会进一步增加延迟和抖动,而这些延迟和抖动会随着速度的提高而被放大。

  • 内存带宽限制:TCP/IP 在用户和内核空间之间传输数据,添加多个内存副本。在 800GbE 时,这会使内存带宽紧张,从而进一步降低性能。

RDMA 已成为处理海量数据流并在这些速度下最大限度地减少 CPU 开销的关键技术。RDMA 通过以下方式解决了 TCP/IP 在高速网络中的限制:

  • 直接内存访问:RDMA 绕过内核和 CPU,通过允许内存到内存的数据传输来减少延迟。

  • 零拷贝数据传输:数据直接从一个应用程序的内存移动到另一个应用程序的内存,无需中间缓冲,从而提高效率。

  • CPU 卸载:RDMA 将网络处理卸载到 NIC,从而释放 CPU 资源。

  • 高效的流量控制:RDMA 基于 NIC 的流量控制比 TCP 的拥塞控制更快,使用的 CPU 周期更少,从而实现更稳定的高速性能。

以太网势在必行,RDMA 的优势传统上仅限于使用 InfiniBand 的高性能计算 (HPC) 环境,长期以来一直受到低延迟、高吞吐量应用程序的青睐。然而,以太网已成为 AI 和其他数据密集型工作负载的首选,原因如下:

  • 成本和无处不在:以太网具有成本效益且广泛兼容,而 InfiniBand 需要专门的硬件和专业知识。以太网的跨平台通用兼容性使其更易于实施,尤其是在集成 RoCE 的情况下。

  • RoCE 标准化:基于融合以太网的 RDMA (RoCE) 为以太网带来了 RDMA 的优势,在熟悉的可扩展基础设施上支持低延迟、高吞吐量的数据传输。

  • 多功能性:与通常用于专用环境的 InfiniBand 不同,以太网支持单个网络基础设施上的一系列工作负载。对于 AI 和数据分析环境,以太网提供了灵活性,而无需单独的网络架构。

对于希望其 AI 数据基础设施面向未来的公司来说,以太网(尤其是支持 RDMA 的 RoCE)是平衡性能与成本效益的合理选择。

S3 over RDMA:面向未来的 AI 部署,满足未来的网络标准

随着 AI 网络基础设施的发展,MinIO 通过 RDMA 集成 S3 为需要快速、可靠数据访问的 AI 工作负载提供了必要的超低延迟和高吞吐量,尤其是在模型训练和推理期间。这有助于:

  • 减少延迟:借助 RDMA 的内存到内存数据传输,S3 GET 和 PUT 请求的处理延迟最小,从而在 AI 训练和分析工作流中实现更快的数据检索。

  • 提高吞吐量:RDMA 允许 MinIO 在没有 CPU 瓶颈的情况下处理更多的并行数据传输,这在 GPU 密集型 AI 环境中至关重要。

  • 效率提升:通过将数据处理卸载到支持 RDMA 的 NIC,MinIO 降低了 CPU 使用率,使组织能够将更多资源集中在 AI 模型训练和分析上。

  • 与未来以太网标准的兼容性:RDMA 提供了实现 TB 级以太网速度的途径,使 MinIO 的 S3 解决方案可以随着网络技术的进步而扩展。

  • 成本效益:通过减少对 CPU 的依赖,RDMA 降低了能源和运营成本,这在组织扩展其数据基础设施时尤为有价值。

借助 S3 over RDMA,MinIO 提供了一个强大的、面向未来的对象存储平台,符合数据中心网络的最高标准。

结论

MinIO 支持 S3 over RDMA 的举措是对现代高速网络环境需求的前瞻性响应。通过在熟悉的 S3 框架中利用 RDMA 的低延迟、高吞吐量功能,MinIO 使客户能够充分利用其 400GbE 和 800GbE 以太网投资,提供快速、可扩展且高效的存储解决方案。对于希望面向未来的 AI 和数据密集型工作负载的企业,MinIO 的 S3 over RDMA 可确保其基础设施能够满足未来的需求,从而将 MinIO 定位为下一代网络时代高性能对象存储的明确选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/59642.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

git config是做什么的?

git config是做什么的? git config作用配置级别三种配置级别的介绍及使用,配置文件说明 使用说明git confi查看参数 默认/不使用这个参数 情况下 Git 使用哪个配置等级? 一些常见的行为查看配置信息设置配置信息删除配置信息 一些常用的配置信…

使用 npm 安装 Yarn

PS E:\WeChat Files\wxid_fipwhzebc1yh22\FileStorage\File\2024-11\spid-admin\spid-admin> yarn install yarn : 无法将“yarn”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写,如果包括路径,请确保路径正确,然后…

常用在汽车PKE无钥匙进入系统的高度集成SOC芯片:CSM2433

CSM2433是一款集成2.4GHz频段发射器、125KHz接收器和8位RISC(精简指令集)MCU的SOC芯片,用在汽车PKE无钥匙进入系统里。 什么是汽车PKE无钥匙进入系统? 无钥匙进入系统具有无钥匙进入并且启动的功能,英文名称是PKE&…

机器学习基础05

目录 1.随机森林 1.1随机森林的介绍 1.2算法原理 1.3API 2.线性回归 2.1回归的含义 2.2线性回归 2.3损失函数 2.4多参数回归 2.5最小二乘法MSE 2.6API 1.随机森林 集成学习的基本思想就是将多个分类器组合,从而实现一个预测效果更好的集成分类器。 集成…

数据库范式、MySQL 架构、算法与树的深入解析

一、数据库范式 在数据库设计中,范式是一系列规则,用于确保数据的组织和存储具有良好的结构、完整性以及最小化的数据冗余。如果不遵循范式设计,数据可能会以平铺式罗列,仅使用冒号、分号等简单分隔。这种方式存在诸多弊端&#…

SQL面试题——奔驰SQL面试题 车辆在不同驾驶模式下的时间

SQL面试题——奔驰SQL面试题 我们的表大致如下 CREATE TABLE signal_log( vin STRING COMMENTvehicle frame id, signal_name STRING COMMENTfunction name, signal_value STRING COMMENT signal value , ts BIGINT COMMENTevent timestamp, dt STRING COMMENTformat yyyy-mm…

Hadoop生态圈框架部署(六)- HBase完全分布式部署

文章目录 前言一、Hbase完全分布式部署(手动部署)1. 下载Hbase2. 上传安装包3. 解压HBase安装包4. 配置HBase配置文件4.1 修改hbase-env.sh配置文件4.2 修改hbase-site.xml配置文件4.3 修改regionservers配置文件4.4 删除hbase中slf4j-reload4j-1.7.33.j…

YOLOv11改进,YOLOv11添加GnConv递归门控卷积,二次创新C3k2结构

摘要 视觉 Transformer 在多种任务中取得了显著的成功,这得益于基于点积自注意力的新空间建模机制。视觉 Transformer 中的关键因素——即输入自适应、长距离和高阶空间交互——也可以通过卷积框架高效实现。作者提出了递归门控卷积(Recursive Gated Convolution,简称 gnCo…

Queuing 表(buffer表)的优化实践 | OceanBase 性能优化实践

案例问题描述 该案例来自一个金融行业客户的问题:他们发现某个应用对一个数据量相对较小的表(仅包含数千条记录)访问时,频繁遇到性能下降的情况。为解决此问题,客户向我们求助进行分析。我们发现这张表有频繁的批量插…

CentOS 8 安装 chronyd 服务

操作场景 目前原生 CentOS 8 不支持安装 ntp 服务,因此会发生时间不准的问题,需使用 chronyd 来调整时间服务。CentOS 8以及 TencentOS 3.1及以上版本的实例都使用 chronyd 服务实现时钟同步。本文介绍了如何在 CentOS 8 操作系统的腾讯云服务器上安装并…

AI大模型(二):AI编程实践

一、软件安装 1. 安装 Visual Studio Code VSCode官方下载:Visual Studio Code - Code Editing. Redefined 根据自己的电脑系统选择相应的版本下载 安装完成! 2. 安装Tongyi Lingma 打开VSCode,点击左侧菜单栏【extensions】,…

Win10/11 安装使用 Neo4j Community Edition

如果你下载的是 Neo4j Community Edition 的压缩包,意味着你需要手动解压并配置 Neo4j。以下是详细的使用步骤: 0. 下载压缩包 访问Neo4j官网,找到 Community Edition 版本并选择 4.x 或者 5.x 下载:https://neo4j.com/deployme…

使用json配置动态区间及动态执行公式

背景 有时候可能线上一直需要调整公式或者区间以及参数等等,如果使用代码方式,将会变得比较麻烦,可以在redis或者数据库配置一份动态配置,让代码进行解析并执行,可以对公式以及参数等进行动态调节 需求 x 是估值&…

腾讯地图GL JS点标识监听:无dragend事件的经纬度获取方案

引入腾讯地图SDK <!--腾讯地图 API--><script charset"utf-8" src"https://map.qq.com/api/gljs?librariestools&v1.exp&key***"></script>构建地图容器 <div class"layui-card"><div class"layui-car…

Tiktok对接和内容发布申请流程

这段时间在搞AI生成视频&#xff0c;希望用户能一键发布到Tiktok&#xff0c;因此研究了一下Tiktok的开发者申请流程&#xff0c;发现好复杂&#xff0c;同时也发现Tiktok的开发也跟我一样&#xff0c;挺草台班子的 0、流程简述 废话不多说&#xff0c;Tiktok的开发者申请和…

企业生产环境-麒麟V10(ARM架构)操作系统部署kafka高可用集群

前言&#xff1a;Apache Kafka是一个分布式流处理平台&#xff0c;由LinkedIn开发并捐赠给Apache软件基金会。它主要用于构建实时数据流管道和流应用。Kafka具有高吞吐量、可扩展性和容错性的特点&#xff0c;适用于处理大量数据。 以下是Kafka的一些核心概念和特性&#xff1…

xcode-select: error: tool ‘xcodebuild‘ requires Xcode, but active developer

打开 .sh 文件所在的终端窗口&#xff0c;执行终端命令&#xff1a;sh 文件名.sh&#xff0c;出现如下错误&#xff1a; 解决办法&#xff1a;

CC6学习记录

&#x1f338; cc6 cc6和cc1的国外链其实后半条链子是一样的&#xff0c;但是cc6的不局限于jdk的版本和commons-collections的版本。 回忆一下cc1的后半条链子&#xff1a; LazyMap.get()->InvokerTransformer.transform() 这里我们就结合了URLDNS链的思路&#xff0c;在…

嵌入式硬件实战基础篇(一)-STM32+DAC0832 可调信号发生器-产生方波-三角波-正弦波

引言&#xff1a;本内容主要用作于学习巩固嵌入式硬件内容知识&#xff0c;用于想提升下述能力&#xff0c;针对学习STM32与DAC0832产生波形以及波形转换&#xff0c;对于硬件的降压和对于前面硬件篇的实际运用&#xff0c;针对仿真的使用&#xff0c;具体如下&#xff1a; 设…

网络安全练习之 ctfshow_web

文章目录 VIP题目限免&#xff08;即&#xff1a;信息泄露题&#xff09;源码泄露前台JS绕过协议头信息泄露robots后台泄露phps源码泄露源码压缩包泄露版本控制泄露源码(git)版本控制泄露源码2(svn)vim临时文件泄露cookie泄露域名txt记录泄露敏感信息公布内部技术文档泄露编辑器…