随着 AI 和机器学习的需求不断加速,数据中心网络正在迅速发展以跟上步伐。对于许多企业来说,400GbE 甚至 800GbE 正在成为标准选择,因为数据密集型和时间敏感型 AI 工作负载需要高速、低延迟的数据传输。用于大型语言处理、实时分析和计算机视觉等任务的 AI 模型需要处理大量数据,并几乎立即在存储和计算节点之间移动。传统的网络速度根本不足以处理这些工作负载所需的数据吞吐量。这种向 400GbE/800GbE 的转变是支持依赖大量分布式数据集的 AI 应用程序的自然演变,这些数据集通常跨 GPU 集群或专用加速器进行处理。然而,随着网络速度的提高,TCP/IP 等传统协议难以保持效率,由于 CPU 开销和延迟高而造成瓶颈。通过将其 S3 功能与 RDMA 保持一致,MinIO 正在开拓新的方法来满足现代 AI 工作负载的性能和可扩展性要求,同时也使客户能够无缝过渡到更高速的网络标准。这种对 S3 over RDMA 的前瞻性支持扩展了 MinIO 在构建针对未来优化的 AI 就绪数据基础设施的企业中的领导地位。S3 over RDMA 功能在新的 AIStor 中可用。
什么是 RDMA?
远程直接内存访问 (RDMA) 允许绕过 CPU、操作系统和 TCP/IP 堆栈,直接在两个系统的内存之间移动数据。这种直接内存访问减少了与 CPU 和操作系统处理数据相关的开销和延迟,使 RDMA 对于低延迟、高吞吐量网络特别有价值。
为什么随着我们向 800GbE 迈进,以及 AI 基础设施的联网范围,RDMA 变得更加重要
随着对更快数据访问的需求不断增加,400GbE/800GbE 网络将成为 AI 数据基础设施的支柱。虽然 TCP/IP 多年来一直支持以太网的发展,但它却难以满足超高速网络的要求,原因如下:
-
CPU 瓶颈:TCP/IP 严重依赖 CPU 来处理数据包处理、重组和流控制等任务。在 800GbE 时,数据包的庞大数量和速度可能会使 CPU 不堪重负,从而造成性能瓶颈。
-
延迟和抖动:TCP/IP 通过多个层(应用程序、传输、网络、链接)处理数据,从而增加延迟。缓冲、重传和数据包重组会进一步增加延迟和抖动,而这些延迟和抖动会随着速度的提高而被放大。
-
内存带宽限制:TCP/IP 在用户和内核空间之间传输数据,添加多个内存副本。在 800GbE 时,这会使内存带宽紧张,从而进一步降低性能。
RDMA 已成为处理海量数据流并在这些速度下最大限度地减少 CPU 开销的关键技术。RDMA 通过以下方式解决了 TCP/IP 在高速网络中的限制:
-
直接内存访问:RDMA 绕过内核和 CPU,通过允许内存到内存的数据传输来减少延迟。
-
零拷贝数据传输:数据直接从一个应用程序的内存移动到另一个应用程序的内存,无需中间缓冲,从而提高效率。
-
CPU 卸载:RDMA 将网络处理卸载到 NIC,从而释放 CPU 资源。
-
高效的流量控制:RDMA 基于 NIC 的流量控制比 TCP 的拥塞控制更快,使用的 CPU 周期更少,从而实现更稳定的高速性能。
以太网势在必行,RDMA 的优势传统上仅限于使用 InfiniBand 的高性能计算 (HPC) 环境,长期以来一直受到低延迟、高吞吐量应用程序的青睐。然而,以太网已成为 AI 和其他数据密集型工作负载的首选,原因如下:
-
成本和无处不在:以太网具有成本效益且广泛兼容,而 InfiniBand 需要专门的硬件和专业知识。以太网的跨平台通用兼容性使其更易于实施,尤其是在集成 RoCE 的情况下。
-
RoCE 标准化:基于融合以太网的 RDMA (RoCE) 为以太网带来了 RDMA 的优势,在熟悉的可扩展基础设施上支持低延迟、高吞吐量的数据传输。
-
多功能性:与通常用于专用环境的 InfiniBand 不同,以太网支持单个网络基础设施上的一系列工作负载。对于 AI 和数据分析环境,以太网提供了灵活性,而无需单独的网络架构。
对于希望其 AI 数据基础设施面向未来的公司来说,以太网(尤其是支持 RDMA 的 RoCE)是平衡性能与成本效益的合理选择。
S3 over RDMA:面向未来的 AI 部署,满足未来的网络标准
随着 AI 网络基础设施的发展,MinIO 通过 RDMA 集成 S3 为需要快速、可靠数据访问的 AI 工作负载提供了必要的超低延迟和高吞吐量,尤其是在模型训练和推理期间。这有助于:
-
减少延迟:借助 RDMA 的内存到内存数据传输,S3 GET 和 PUT 请求的处理延迟最小,从而在 AI 训练和分析工作流中实现更快的数据检索。
-
提高吞吐量:RDMA 允许 MinIO 在没有 CPU 瓶颈的情况下处理更多的并行数据传输,这在 GPU 密集型 AI 环境中至关重要。
-
效率提升:通过将数据处理卸载到支持 RDMA 的 NIC,MinIO 降低了 CPU 使用率,使组织能够将更多资源集中在 AI 模型训练和分析上。
-
与未来以太网标准的兼容性:RDMA 提供了实现 TB 级以太网速度的途径,使 MinIO 的 S3 解决方案可以随着网络技术的进步而扩展。
-
成本效益:通过减少对 CPU 的依赖,RDMA 降低了能源和运营成本,这在组织扩展其数据基础设施时尤为有价值。
借助 S3 over RDMA,MinIO 提供了一个强大的、面向未来的对象存储平台,符合数据中心网络的最高标准。
结论
MinIO 支持 S3 over RDMA 的举措是对现代高速网络环境需求的前瞻性响应。通过在熟悉的 S3 框架中利用 RDMA 的低延迟、高吞吐量功能,MinIO 使客户能够充分利用其 400GbE 和 800GbE 以太网投资,提供快速、可扩展且高效的存储解决方案。对于希望面向未来的 AI 和数据密集型工作负载的企业,MinIO 的 S3 over RDMA 可确保其基础设施能够满足未来的需求,从而将 MinIO 定位为下一代网络时代高性能对象存储的明确选择。