SuperNIC：用于人工智能的网络加速器

随着人工智能的复杂性和规模不断增长，传统的网络解决方案往往无法满足这些先进系统的数据密集型需求。为了解决人工智能工作负载所面临的问题，SuperNIC应运而生。在本文中，我们将探讨SuperNIC的变革能力，探索它如何革新网络性能，打开人工智能驱动创新的新领域。

什么是SuperNIC？

SuperNIC代表了一类新兴的网络加速器，旨在增强以以太网为基础的云环境中超大规模人工智能工作负载的性能。它提供了为GPU到GPU通信量身定制的强大网络连接，通过使用基于收敛以太网的远程直接内存访问（RDMA）技术，可达到高达400Gb/s的速率。

SuperNIC保证了人工智能工作负载的高效快速执行，使其成为推动人工智能计算未来的基础要素。这种强大性能来源于SuperNIC的独特优势：

利用实时遥测数据和网络感知算法，实现先进的拥塞控制，有效管理和预防人工智能网络中的拥塞。
高速数据包重排保证了数据包按照原始传输顺序接收和处理，保持了数据流的顺序完整性。
SuperNIC采用高效节能、紧凑尺寸设计，能够在有限的功耗预算内支持人工智能工作负载。
可编程计算的输入/输出（I/O）路径能力，可定制和扩展人工智能云数据中心的网络基础设施。
全面的人工智能优化，涵盖计算、网络、存储、系统软件、通信库和应用框架等整个技术栈。

人工智能推动SuperNIC的发展

人工智能的成功与GPU加速计算密不可分，GPU加速计算对于处理大规模数据集、训练庞大的人工智能模型和实时推理至关重要。虽然这种增强的计算能力带来了新的可能性，但同时也给传统网络带来了挑战。

传统网络是互联网基础设施的基础技术，最初设计用于支持广泛的应用兼容性和松散耦合的连接。然而，它并没有预测到当代人工智能工作负载所带来的严苛计算需求，这些工作负载需要紧密耦合的并行处理、快速数据传输和独特的通信模式。传统的网卡（NIC）是为通用计算、通用数据传输和互操作性而设计的，缺乏高效数据传输、低延迟和对于人工智能任务至关重要的确定性性能所需的特性和功能。为了满足当前人工智能工作负载的需求，SuperNIC随即出现。

SuperNIC比DPU更适用于人工智能计算环境

数据处理单元（DPU）提供了许多先进功能，包括高吞吐量、低延迟的网络连接等。自2020年引入以来，DPU在云计算中变得越来越受欢迎，主要是因为它们能够卸载、加速和隔离数据中心基础设施的处理。尽管DPUs和SuperNIC都具备共享功能，但SuperNIC专门设计用于加速AI网络。以下是几个主要优势：

在系统中，1:1比例的GPU与SuperNIC可以显著提高AI工作负载的效率，从而提高企业的生产力和业务效果。
SuperNIC为每个GPU提供了高达400Gb/s的网络容量，优于DPUs在分布式AI训练和推理通信流中的表现。
为了加速AI云计算的网络，SuperNIC使用的计算资源比DPUs少，后者需要大量计算资源来卸载主机CPU上的应用程序。
降低的计算需求也导致更低的功耗，这对于多个SuperNIC系统非常有用。
SuperNIC具有专用的AI网络功能，包括自适应路由、无序数据包处理和优化的拥塞控制，这些功能都能加速以太网的AI云环境。

	BlueField-3 DPU	BlueField-3 SuperNIC
任务	• 云基础设施处理器 • 卸载、加速和隔离数据中心基础设施 • 针对GPU级别系统的N-S优化	• 用于人工智能计算的网络加速 • RoCE网络 • 针对GPU级别系统的E-W优化
共享能力	• VPC网络加速 • 网络加密加速 • 可编程网络流水线 • 精确计时 • 平台安全
特点	• 强大的计算能力 • 安全的、零信任的管理 • 数据存储加速 • 弹性基础设施供应 • 每个系统使用1-2个DPU	• 强大的网络功能 • 人工智能网络特性集 • 全栈的英伟达（NVIDIA）人工智能优化 • 高效节能、低配置设计 • 每个系统最多可使用8个SuperNIC

BlueField-3 DPU

BlueField-3 SuperNIC

任务

• 云基础设施处理器

• 卸载、加速和隔离数据中心基础设施

• 针对GPU级别系统的N-S优化

• 用于人工智能计算的网络加速

• RoCE网络

• 针对GPU级别系统的E-W优化

共享能力

• VPC网络加速

• 网络加密加速