NVIDIA Blackwell Architecture

在这里插入图片描述

本文翻译自：NVIDIA Blackwell Architecture
https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/

文章目录

- 了解技术突破
- - 1、新型人工智能超级芯片
  - 2、第二代 Transformer 引擎
  - 3、Secure AI
  - 4、NVLink 和 NVLink 交换机
  - 5、解压缩引擎
  - 6、可靠性、可用性和可服务性 (RAS) 引擎
- GB200 NVL72

其他资料

NVIDIA Blackwell Architecture
Technical Brief
https://resources.nvidia.com/en-us-blackwell-architecture

16分钟带你看完英伟达GTC2024，Blackwell大芯片，机器人芯片等等
https://www.bilibili.com/video/BV171421Q7da/
NVIDIA BlackWell 架构动画演示
https://www.bilibili.com/video/BV1d1421D7Wx/

Blackwell 以几代NVIDIA 技术为基础，以无与伦比的性能、效率和规模开创了生成式 AI 的新篇章。

了解技术突破

NVIDIA Blackwell 架构集成 2080 亿个晶体管

1、新型人工智能超级芯片

Blackwell 架构 GPU 集成了 2080 亿个晶体管，采用定制的 TSMC 4NP 工艺制造。

所有 Blackwell 产品都采用两个光罩限制芯片，通过每秒 10 兆兆字节 (TB/s) 的芯片间互连连接，形成一个统一的 GPU。

2、第二代 Transformer 引擎

第二代 Transformer Engine 采用定制的Blackwell Tensor Core技术结合 NVIDIA® TensorRT™-LLM 和 NeMo™ Framework 创新，加速大型语言模型 (LLM) 和混合专家 (MoE) 模型的推理和训练。

为了增强 MoE 模型的推理能力，Blackwell Tensor Cores增加了新的精度，包括新的社区定义的微缩放格式，从而提供高精度，并易于替换更高的精度。

Blackwell Transformer Engine 利用称为微张量缩放的细粒度缩放技术来优化性能和精度，从而实现 4 位浮点 (FP4) AI。这使内存可以支持的下一代模型的性能和大小翻了一番，同时保持了高精度。

NVIDIA 生成式 AI 引擎

3、Secure AI

Blackwell 包含 NVIDIA Confidential Computing，它通过强大的硬件安全性保护敏感数据和 AI 模型免遭未经授权的访问。

Blackwell 是业内首款支持 TEE-I/O 的 GPU，同时通过支持 TEE-I/O 的主机和通过 NVIDIA® NVLink® 提供的内联保护提供性能最高的机密计算解决方案。

与未加密模式相比，Blackwell 机密计算可提供几乎相同的吞吐量性能。企业现在可以以高性能的方式保护最大的模型，此外还可以保护 AI 知识产权 (IP) 并安全地实现机密 AI 训练、推理和联合学习。

了解有关 NVIDIA 机密计算：https://www.nvidia.com/en-us/data-center/solutions/confidential-computing/

NVIDIA Confidential Computing

4、NVLink 和 NVLink 交换机

充分发挥百亿亿次计算和万亿参数 AI 模型的潜力取决于服务器集群中每个 GPU 之间快速、无缝的通信需求。

第五代 NVIDIA® NVLink® 互连可扩展至 576 个 GPU，为万亿和数万亿参数 AI 模型释放加速性能。

NVIDIA NVLink 交换芯片在一个 72-GPU NVLink 域 (NVL72) 中实现 130TB/s 的 GPU 带宽，并通过 NVIDIA 可扩展分层聚合和缩减协议 (SHARP)™ FP8 支持提供 4 倍带宽效率。

NVIDIA NVLink 交换芯片以同样惊人的 1.8TB/s 互连速度支持超过单台服务器的集群。

具有 NVLink 的多服务器集群可以平衡 GPU 通信与增加的计算，因此 NVL72 可以支持比单个八 GPU 系统高 9 倍的 GPU 吞吐量。

了解有关 NVIDIA NVLink 和 NVLink Switch 的更多信息

NVLink 和 NVLink 交换机

5、解压缩引擎

数据分析和数据库工作流传统上依赖 CPU 进行计算。加速数据科学可以显著提高端到端分析的性能，加快价值生成速度并降低成本。

数据库（包括 Apache Spark）在处理、处理和分析大量数据分析数据方面发挥着关键作用。

Blackwell 的解压缩引擎以及通过高速链路（900 千兆字节每秒 (GB/s) 的双向带宽）访问NVIDIA Grace™ CPU中海量内存的能力，加速了整个数据库查询流程，以实现数据分析和数据科学的最高性能，同时支持最新的压缩格式，例如 LZ4、Snappy 和 Deflate。

NVIDIA 解压缩引擎

6、可靠性、可用性和可服务性 (RAS) 引擎

Blackwell 通过专用的可靠性、可用性和可服务性 (RAS) 引擎增加了智能弹性，可及早识别可能发生的潜在故障，从而最大限度地减少停机时间。

NVIDIA 的 AI 驱动预测管理功能可持续监控硬件和软件中的数千个数据点，以了解整体健康状况，从而预测和拦截停机和低效率的根源。这建立了智能弹性，从而节省了时间、能源和计算成本。

NVIDIA 的 RAS 引擎提供深入的诊断信息，可识别问题区域并制定维护计划。

RAS 引擎通过快速定位问题源来缩短周转时间，并通过促进有效的补救措施来最大限度地减少停机时间。

NVIDIA RAS 引擎

GB200 NVL72

使用 NVIDIA GB200 NVL72 解锁实时万亿参数模型

格雷斯·布莱克韦尔 NVL72

NVIDIA GB200 NVL72 采用机架级设计，连接 36 个 GB200 Grace Blackwell 超级芯片、36 个 Grace CPU 和 72 个 Blackwell GPU。

GB200 NVL72 是一种液冷解决方案，具有 72 个 GPU NVLink 域，可充当单个大型 GPU，为万亿参数大型语言模型提供 30 倍更快的实时推理速度。

了解有关 NVIDIA GB200 NVL72 的更多信息：https://www.nvidia.com/en-us/data-center/gb200-nvl72/

2024-05-27（一）

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/web/19498.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！