本文翻译自:NVIDIA Blackwell Architecture
https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/
文章目录
- 了解技术突破
- 1、新型人工智能超级芯片
- 2、第二代 Transformer 引擎
- 3、Secure AI
- 4、NVLink 和 NVLink 交换机
- 5、解压缩引擎
- 6、可靠性、可用性和可服务性 (RAS) 引擎
- GB200 NVL72
其他 资料
- NVIDIA Blackwell Architecture
Technical Brief
https://resources.nvidia.com/en-us-blackwell-architecture
- 16分钟带你看完英伟达GTC2024,Blackwell大芯片,机器人芯片等等
https://www.bilibili.com/video/BV171421Q7da/ - NVIDIA BlackWell 架构动画演示
https://www.bilibili.com/video/BV1d1421D7Wx/
Blackwell 以几代NVIDIA 技术为基础,以无与伦比的性能、效率和规模开创了生成式 AI 的新篇章。
了解技术突破
1、新型人工智能超级芯片
Blackwell 架构 GPU 集成了 2080 亿个晶体管,采用定制的 TSMC 4NP 工艺制造。
所有 Blackwell 产品都采用两个光罩限制芯片,通过每秒 10 兆兆字节 (TB/s) 的芯片间互连连接,形成一个统一的 GPU。
2、第二代 Transformer 引擎
第二代 Transformer Engine 采用定制的Blackwell Tensor Core技术结合 NVIDIA® TensorRT™-LLM 和 NeMo™ Framework 创新,加速大型语言模型 (LLM) 和混合专家 (MoE) 模型的推理和训练。
为了增强 MoE 模型的推理能力,Blackwell Tensor Cores增加了新的精度,包括新的社区定义的微缩放格式,从而提供高精度,并易于替换更高的精度。
Blackwell Transformer Engine 利用称为微张量缩放的 细粒度缩放技术 来优化性能和精度,从而实现 4 位浮点 (FP4) AI。这使内存可以支持的下一代模型的性能和大小翻了一番,同时保持了高精度。
3、Secure AI
Blackwell 包含 NVIDIA Confidential Computing,它通过强大的硬件安全性 保护敏感数据和 AI 模型 免遭未经授权的访问。
Blackwell 是业内首款支持 TEE-I/O 的 GPU,同时通过支持 TEE-I/O 的主机 和 通过 NVIDIA® NVLink® 提供的内联保护 提供性能最高的机密计算解决方案。
与未加密模式相比,Blackwell 机密计算可提供几乎相同的吞吐量性能。企业现在可以以高性能的方式保护最大的模型,此外还可以保护 AI 知识产权 (IP) 并安全地实现机密 AI 训练、推理和联合学习。
了解有关 NVIDIA 机密计算:https://www.nvidia.com/en-us/data-center/solutions/confidential-computing/
4、NVLink 和 NVLink 交换机
充分发挥百亿亿次计算和万亿参数 AI 模型的潜力 取决于服务器集群中每个 GPU 之间快速、无缝的通信需求。
第五代 NVIDIA® NVLink® 互连可扩展至 576 个 GPU,为万亿和数万亿参数 AI 模型释放加速性能。
NVIDIA NVLink 交换芯片在一个 72-GPU NVLink 域 (NVL72) 中实现 130TB/s 的 GPU 带宽,并通过 NVIDIA 可扩展分层聚合和缩减协议 (SHARP)™ FP8 支持提供 4 倍带宽效率。
NVIDIA NVLink 交换芯片以同样惊人的 1.8TB/s 互连速度支持超过单台服务器的集群。
具有 NVLink 的多服务器集群可以平衡 GPU 通信与增加的计算,因此 NVL72 可以支持比单个八 GPU 系统高 9 倍的 GPU 吞吐量。
了解有关 NVIDIA NVLink 和 NVLink Switch 的更多信息
5、解压缩引擎
数据分析和数据库工作流传统上依赖 CPU 进行计算。加速数据科学可以显著提高端到端分析的性能,加快价值生成速度并降低成本。
数据库(包括 Apache Spark)在处理、处理和分析大量数据分析数据方面发挥着关键作用。
Blackwell 的解压缩引擎以及通过高速链路(900 千兆字节每秒 (GB/s) 的双向带宽)访问NVIDIA Grace™ CPU中海量内存的能力,加速了整个数据库查询流程,以实现数据分析和数据科学的最高性能,同时支持最新的压缩格式,例如 LZ4、Snappy 和 Deflate。
6、可靠性、可用性和可服务性 (RAS) 引擎
Blackwell 通过专用的可靠性、可用性和可服务性 (RAS) 引擎增加了智能弹性,可及早识别可能发生的潜在故障,从而最大限度地减少停机时间。
NVIDIA 的 AI 驱动预测管理功能可持续监控硬件和软件中的数千个数据点,以了解整体健康状况,从而预测和拦截停机和低效率的根源。这建立了智能弹性,从而节省了时间、能源和计算成本。
NVIDIA 的 RAS 引擎提供深入的诊断信息,可识别问题区域并制定维护计划。
RAS 引擎通过快速定位问题源来缩短周转时间,并通过促进有效的补救措施来最大限度地减少停机时间。
GB200 NVL72
使用 NVIDIA GB200 NVL72 解锁实时万亿参数模型
NVIDIA GB200 NVL72 采用机架级设计,连接 36 个 GB200 Grace Blackwell 超级芯片、36 个 Grace CPU 和 72 个 Blackwell GPU。
GB200 NVL72 是一种液冷解决方案,具有 72 个 GPU NVLink 域,可充当单个大型 GPU,为万亿参数大型语言模型提供 30 倍更快的实时推理速度。
了解有关 NVIDIA GB200 NVL72 的更多信息:https://www.nvidia.com/en-us/data-center/gb200-nvl72/
2024-05-27(一)