NVIDIA最新 Blackwell架构简介

NVIDIA Blackwell架构简介

在这里插入图片描述

在AI和大型语言模型(LLMs)迅速发展的领域中,追求实时性能和可扩展性至关重要。从医疗保健到汽车行业,组织正深入探索生成性AI和加速计算解决方案的领域。对生成性AI解决方案的需求激增,促使企业需要适应不断增长的模型规模和复杂性。

请进入NVIDIA Blackwell GPU架构,这是世界上最大GPU,专为处理数据中心规模的生成性AI工作流程而设计,其能效是前一代NVIDIA Hopper GPU的25倍。

本技术简报详细介绍了NVIDIA Blackwell的优势,包括下一代超级芯片Grace Blackwell GB200,以及下一代高性能HGX系统,NVIDIA HGX B200和HGX B100。

NVIDIA Blackwell GPU和超级芯片概览

大型语言模型(LLMs)需要巨大的计算能力才能实现实时性能。LLMs的计算需求也意味着更高的能源消耗,因为需要越来越多的内存、加速器和服务器来适应、训练和从这些模型中推断。旨在实时推理的组织必须应对这些挑战。

NVIDIA Blackwell架构和产品系列旨在满足不断增长的AI模型规模和参数的需求,提供了一长串新创新,包括新的第二代Transformer引擎。

NVIDIA Blackwell架构以David H. Blackwell的名字命名,他是一位了不起且鼓舞人心的美国数学家和统计学家,以Rao-Blackwell定理而闻名,并在概率论、博弈论、统计学和动态规划方面做出了许多贡献和进步。

有了NVIDIA Blackwell产品,每个企业都可以使用和部署最先进的LLMs,具有可负担的经济性,通过生成性AI的优势优化他们的业务。同时,NVIDIA Blackwell产品也使得生成性AI模型的下一个时代成为可能,支持具有实时性能的多万亿参数模型,这在没有Blackwell创新的情况下是无法实现的。
在这里插入图片描述

NVIDIA Blackwell架构创新

Blackwell架构为生成性AI和加速计算引入了突破性的进展。新的第二代Transformer引擎,以及更快更宽的NVIDIA NVLink互连,将数据中心推向了一个新的时代,与上一代架构相比,性能提高了数个数量级。

NVIDIA Confidential Computing技术的进一步进步提高了大规模实时生成性AI推理的安全性,而不会影响性能。NVIDIA Blackwell的新型压缩引擎结合Spark RAPIDS™库提供了无与伦比的数据库性能,推动数据分析应用。NVIDIA Blackwell的多项进步建立在加速计算技术的几代基础上,定义了生成性AI的下一个篇章,具有无与伦比的性能、效率和规模。

新型AI超级芯片

Blackwell架构使用了2080亿个晶体管,比NVIDIA Hopper GPU多2.5倍以上,并使用了专为NVIDIA定制的TSMC 4NP工艺,Blackwell是迄今为止建造的最大的GPU。NVIDIA Blackwell在单个芯片上实现了最高的计算能力,达到了20 petaFLOPS。

第二代Transformer引擎

Blackwell引入了新的第二代Transformer引擎。第二代Transformer引擎使用定制的Blackwell Tensor Core技术,结合TensorRT-LLM和Nemo Framework的创新,加速了LLMs和Mixture-of-Experts(MoE)模型的推理和训练。

高性能的保密计算和安全AI

生成性AI为企业带来了巨大的潜力。优化收入、提供商业洞察和帮助生成内容只是其中的一些好处。但是,对于需要在私人数据上训练它们、可能受到隐私法规约束或包含专有信息的企业来说,采用生成性AI可能会很困难。

NVIDIA Confidential Computing能力将可信执行环境(TEE)从CPU扩展到GPU。NVIDIA Blackwell上的保密计算旨在为LLMs和其他敏感数据提供最快、最安全、可验证(基于证据)的保护。

第五代NVLink和NVLink交换机

解锁E级计算和万亿参数AI模型的全部潜力取决于服务器集群中每个GPU之间迅速、无缝的通信需求。

压缩引擎

数据分析和数据库工作流程传统上依赖于CPU进行计算,速度慢且繁琐。加速的数据科学可以显著提高端到端分析的性能,加快价值生成和洞察力的生成时间,同时降低成本。数据库,包括Apache Spark,在处理、处理和分析大量数据以进行数据分析中发挥着关键作用。Blackwell的新型专用压缩引擎可以以高达800GB/s的速率解压缩数据,结合GB200中使用的一个GPU的8TB/s的HBM3e(高带宽内存)以及Grace CPU的高速NVLink-C2C(芯片到芯片)互连,加速了数据库查询的完整流程,为数据分析和数据科学提供了最高性能。支持最新的压缩格式,如Lz4、Snappy和Deflate,NVIDIA Blackwell的性能比CPU快18倍,比NVIDIA H100 Tensor Core GPU快6倍。

RAS引擎

Blackwell架构通过专用的可靠性、可用性和可维护性(RAs)引擎增加了智能弹性,以识别可能早期发生的故障,以最小化停机时间。NVIDIA的AI驱动的预测管理能力不断监控硬件和软件中的数千个数据点,以预测和拦截停机和效率低下的来源。这建立了智能弹性,节省了时间、能源和计算成本。

NVIDIA GB200超级芯片和GB200 NVL72

NVIDIA GB200 Grace Blackwell超级芯片通过NVIDIA NVLink@-C2C互连连接两个高性能的NVIDIA Blackwell Tensor Core GPU和一个NVIDIA Grace CPU,该互连为两个GPU提供了900 GB/s的双向带宽。

NVIDIA GB200 NVL72

NVIDIA GB200 NVL72集群在机架规模设计中连接了36个GB200超级芯片(36个Grace CPU和72个Blackwell GPU)。GB200 NVL72是一个液冷的、机架规模的72-GPU NVLink域,可以作为一个巨大的GPU来提供比前一代快30倍的实时万亿参数LLM推理。

下一代大型语言模型的实时推理

GB200 NVL72引入了尖端能力和第二代Transformer引擎,显著加速了LLM推理工作负载,使得资源密集型应用(如多万亿参数语言模型)的实时性能成为可能。GB200 NVL72与H100相比提供了30倍的速度提升,Tc0降低了25倍,能源使用量也降低了25倍,对于像GPT-MoE-1.8T这样的大型模型,使用相同数量的GPU(见图5)。这一进步是通过新一代Tensor Core实现的,它们引入了包括FP4在内的新精度。此外,GB200利用NVLink和液冷创建了一个单一的巨大的72-GPU机架,可以克服通信瓶颈。

AI训练性能的新水平

GB200包括一个更快的Transformer引擎,具有FP8精度,并与NVIDIA Hopper GPU相比,为像GPT-MoE-1.8T这样的大型语言模型提供了4倍更快的训练性能。这一性能提升提供了9倍的机架空间减少和3.5倍的Tc0和能源使用量减少。这一突破得到了第五代NVLink(它实现了1.8 TB/s的GPU到GPU互连和更大的72-GPU NVLink域)、InfiniBand网络和NVIDIA Magnum I/O软件的补充。这些共同确保了企业和广泛的GPU计算集群的有效可扩展性。

加速数据处理和基于物理的模拟

GB200以其紧密耦合的CPU和GPU,在数据处理和工程设计模拟的加速计算中带来了新的机会。

可持续计算

计算密度和计算能力正在推动从空气冷却向液冷的转变。在数据中心内外使用液体而不是空气有许多积极影响,包括每个机架更高的性能、减少冷却的水消耗,以及允许数据中心在更高的环境空气温度下运行,这进一步降低了能源消耗。

加速网络平台用于生成性AI

GB200 NVL72作为一个单一的、极其强大的计算单元,需要强大的网络来实现最佳应用性能。与NVIDIA Quantum-X800 InfiniBand、Spectrum-X800以太网和BlueField-3 DPU配合使用,GB200在大规模AI数据中心提供了前所未有的性能、效率和安全性。

NVIDIA Blackwell HGX

NVIDIA Blackwell HGX B200和HGX B100包括用于生成性AI、数据分析和高性能计算的同样突破性的进展,并扩展了HGX以包括Blackwell GPU。

Blackwell架构相比Hopper架构在多个方面实现了显著的技术提升,以下是一些关键的改进点:

  1. 晶体管数量和计算能力:Blackwell架构使用了2080亿个晶体管,这是Hopper GPU晶体管数量的2.5倍以上。Blackwell架构在单个芯片上实现了20 petaFLOPS的计算能力,这是迄今为止最高的。

  2. 第二代Transformer引擎:Blackwell引入了新的第二代Transformer引擎,使用定制的Blackwell Tensor Core技术和TensorRT-LLM以及Nemo Framework的创新,以加速大型语言模型(LLMs)和专家混合模型(MoE)的推理和训练。

  3. 新的精度格式:Blackwell Tensor Cores引入了新的精度格式,包括社区定义的微缩放格式,提供了高准确性和更大的吞吐量。Blackwell Transformer引擎利用先进的动态范围管理算法和称为微张量缩放的细粒度缩放技术,优化性能和准确性,并启用了FP4 AI。

  4. 压缩引擎:Blackwell架构包括一个专用的压缩引擎,可以以高达800GB/s的速率解压缩数据,与GB200中的8TB/s的HBM3e内存和Grace CPU的高速NVLink-C2C互连相结合,显著加速数据库查询。

  5. 第五代NVLink和NVLink交换机:Blackwell架构的NVLink性能是Hopper架构中第四代NVLink的两倍,每个方向的有效带宽达到50 GB/s。NVLink交换机ASIC和基于它的交换机使得可以扩展到576个GPU,以加速万亿参数和多万亿参数AI模型的性能。

  6. RAS引擎:Blackwell架构增加了一个专用的可靠性、可用性和可维护性(RAs)引擎,用于识别可能早期发生的故障,以最小化停机时间。NVIDIA的AI驱动的预测管理能力持续监控硬件和软件中的数千个数据点,预测并拦截停机和效率低下的来源。

  7. 能效:Blackwell架构在保持高性能的同时,提供了比Hopper架构更高的能效,为数据中心规模的生成性AI工作流程提供了高达25倍的能效提升。

  8. 保密计算:Blackwell架构引入了首个支持TEE-I/O的GPU,提供了最高性能的保密计算解决方案,同时保护AI知识产权,并安全地启用保密AI训练、推理和联邦学习。

这些技术提升使得Blackwell架构能够更好地处理和支持日益增长的AI模型规模和复杂性,特别是在实时性能和可扩展性方面,满足了当前和未来AI应用的需求。

Blackwell架构的第二代Transformer引擎通过以下方式提高了AI模型训练效率:

  1. 定制的Tensor Core技术:Blackwell架构的Tensor Core使用了专为大型语言模型(LLMs)和Mixture-of-Experts(MoE)模型设计的第二代技术。这些Tensor Core结合了TensorRT-LLM和Nemo Framework的创新,优化了模型的推理和训练过程。

  2. 新的精度格式:Blackwell的Tensor Core引入了新的精度格式,包括社区定义的微缩放格式,这些新精度提供了高准确性和更大的吞吐量。这种精度的引入使得模型可以在保持性能的同时,使用更少的计算资源进行训练。

  3. 微张量缩放技术:Blackwell Transformer引擎利用了先进的动态范围管理算法和微张量缩放技术,这是一种细粒度的性能和准确性优化方法。这种技术使得FP4 AI的性能翻倍,同时将参数带宽翻倍至HBM内存,并使得每个GPU能够处理的下一代模型大小翻倍。

  4. 专家并行技术:第二代Transformer引擎与Nemo Framework和Megatron-Core结合,使用了新的专家并行技术。这些技术与其他并行技术相结合,并利用第五代NVLink,为前所未有的模型性能提供了支持。降低精度格式为大规模训练打开了进一步加速的可能性。

  5. 量化和自定义内核:TensorRT-LLM中的创新,包括量化到4位精度,以及具有专家并行映射的自定义内核,使得当今的MoE模型能够实现实时推理,使用更少的硬件和能源,同时降低了成本。

通过这些技术的提升,Blackwell架构的第二代Transformer引擎使得企业能够使用和部署最先进的MoE模型,优化他们的业务,并利用生成性AI的好处。同时,它也为训练和实时推理超过10万亿参数的模型提供了支持,这在没有Blackwell架构的创新之前是无法实现的。

结论

生成性AI已经将计算提升到了一个新的时代,这个时代的特点是拥有10万亿或更多参数的AI模型的惊人能力。当AlexNet在2012年开启了AI热潮时,它使用了6000万个参数。短短十多年后,今天的复杂性已经超过了160,000倍。

这些新模型现在可以找到治疗癌症的方法,预测极端天气事件,自动化机器人进行工业检查,并在每个行业中解锁新的经济机会。然而,充分发挥它们全部潜力的旅程面临着挑战,尤其是模型训练所需的大量计算资源和时间。

新的极大规模LLMs结合实时推理的需求揭示了规模、部署和运营方面的更多挑战和复杂性。

NVIDIA Blackwell是一个千载难逢的平台,拥有有效训练和推断这些模型所需的力量和能效,并将成为生成性AI时代的基础。Blackwell架构将被部署到万亿美元市场中,并将实时使用这些新的巨型模型民主化。训练这些模型需要NVIDIA Blackwell的exaFLOPs计算能力。部署它们需要数十个Blackwell GPU作为一个单一的统一GPU工作。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/767075.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【前端寻宝之路】学习和使用表单标签和表单控件

🌈个人主页: Aileen_0v0 🔥热门专栏: 华为鸿蒙系统学习|计算机网络|数据结构与算法|MySQL| ​💫个人格言:“没有罗马,那就自己创造罗马~” #mermaid-svg-cR8zvB8CkpxTk485 {font-family:"trebuchet ms",verdana,arial,sans-serif;f…

Linux——生产者消费者模型

为何要使用生产者消费者模型 生产者消费者模式就是通过一个容器来解决生产者和消费者的强耦合问题。生产者和消费者彼此之间不直接通讯,而通过阻塞队列来进行通讯,所以生产者生产完数据之后不用等待消费者处理,直接扔给阻塞队列,…

MUNIK第二届功能安全及自动驾驶研讨会将在沪召开

2024年4月26日,由上海秒尼科技术服务有限公司(以下简称“Munik”)联合Parosoft主办的“第二届功能安全及自动驾驶研讨会”将在上海虹桥隆重开幕。 据了解,本次功能与自动驾驶安全研讨会,将聚焦在ISO 26262标准体系下,自动驾驶新形势下各个零部件供应商如何满足功能安全等相关重…

论文解读:Relational Embedding for Few-Shot Classification

文章汇总 问题 最近的方法通过元学习一个深度嵌入函数来解决小样本问题,使得嵌入空间上图像之间的距离符合它们的语义距离。然而,学习到的嵌入函数经常会过度拟合到不相关的特征[4,9,14],从而无法迁移到训练中尚未观察到的新类。 动机 与…

web自动化--元素定位之xpath和css

元素定位 xpath绝对路径相对路径案例xpath策略(路径)案例xpath策略(层级、扩展)属性层级与属性层级与属性拓展层级与属性综合 csscss选择器(id、类、标签、属性)id选择器类选择器标签选择器属性选择器案例-…

重看Spring聚焦BeanFactory分析

目录 一、理解BeanFactory (一)功能性理解 (二)BeanFactory和它的子接口 (三)BeanFactory的实现类 二、BeanFactory根接口 (一)源码展示和理解 (二)基…

增强现实(AR)在广告中的力量

The Power of AR in Advertising 写在前面 增强现实(AR -Augmented Reality)是指借助软件、应用程序和智能手机、平板电脑或耳机等设备,为日常生活添加视觉和音频元素的技术。如今,品牌和广告商可以在营销活动中使用AR&#xff0…

IT运维服务规范标准与实施细则

一、 总则 本部分规定了 IT 运维服务支撑系统的应用需求,包括 IT 运维服务模型与模式、 IT 运维服务管理体系、以及 IT 运维服务和管理能力评估与提升途径。 二、 参考标准 下列文件中的条款通过本部分的引用而成为本部分的条款。凡是注日期的引用文件&#xff0c…

Python通过Ctypes调用C++类,实测有效

文章目录 前言创建vs dll工程添加外部库编辑代码编译测试参考 前言 在软件开发中,有时候需要Python与C相结合,以充分发挥两者的优势 。Python作为一种高级编程语言,具有简洁易读的特点,适用于快速开发和原型设计。而C则是一种性能…

【运维笔记】VM 记录一次centos虚拟机和宿主机之间ping不通的问题

问题描述 环境:centos7,静态ipVM版本:VMware Workstation 16 pro,网络为nat映射模式问题: 一开始,虚拟机可以ping通宿主机,也可以ping通,也可以ping通外网(如 ping www.…

38 mars3d 对接地图图层 绘制点线面员

前言 这里主要是展示一下 mars3d 的一个基础的使用 主要是设计 接入地图服务器的 卫星地图, 普通的二维地图, 增加地区标记 基础绘制 点线面园 等等 测试用例 <template><div style"width: 1920px; height:1080px;"><div class"mars3dClas…

②零基础MySQL数据库-MySQL约束

作用 表在设计的时候加入约束的目的就是为了保证表中的记录完整性和有效性&#xff0c;比如用户表有些列的值&#xff08;手机号&#xff09;不能为空&#xff0c;有些列的值&#xff08;身份证号&#xff09;不能重复 分类 主键约束(primary key) PK 自增长约束(auto_increme…

string类的详细模拟实现

string类的模拟实现 文章目录 string类的模拟实现前言1. 类的框架设计2. 构造函数与析构函数3. 拷贝构造与重载赋值运算符函数4. 运算符重载5. 成员函数6. 迭代器的实现7. 非成员函数8. 单元测试总结 前言 ​ 在现代编程中&#xff0c;字符串处理是每个程序员都会遇到的基本任…

家用路由器和企业路由器的区别?

一、家用路由器 家用路由器路由器交换机 它只有一个WAN口和一个LAN口&#xff0c;WAN口接公网一个地址&#xff0c;LAN口接你电脑一个IP地址&#xff0c;完全符合路由器的设计&#xff0c;而因为家里如果用了&#xff0c;说明要接多个电脑&#xff0c;那么如果还需要对每个接口…

pandas的综合练习

事先说明&#xff1a; 由于每次都要导入库和处理中文乱码问题&#xff0c;我都是在最前面先写好&#xff0c;后面的代码就不在写了。要是copy到自己本地的话&#xff0c;就要把下面的代码也copy下。 # 准备工作import pandas as pd import numpy as np from matplotlib impor…

卷积篇 | YOLOv8改进之主干网络中引入可变形卷积DConv

前言:Hello大家好,我是小哥谈。可变形卷积模块是一种改进的卷积操作,它可以更好地适应物体的形状和尺寸,提高模型的鲁棒性。可变形卷积模块的实现方式是在标准卷积操作中增加一个偏移量offset,使卷积核能够在训练过程中扩展到更大的范围,从而实现对尺度、长宽比和旋转等各…

Linux系统下——PS1、PS2、PS3、PS4变量详解

目录 前言 一、PS1变量 1.PS1变量详解 2.PS1变量可用参数 3.彩色提示符 二、PS2变量 三、PS3变量 1.不使用PS3变量 2.使用PS3变量 四、PS4变量 前言 在Linux系统中&#xff0c;PS1、PS2、PS3和PS4是特定的环境变量&#xff0c;它们各自在控制提示符和菜单提示信息…

OceanMind海睿思入选中国信通院《2023高质量数字化转型技术解决方案集》

近日&#xff0c;由中国信息通信研究院“铸基计划”编制的《2023高质量数字化转型技术解决方案集&#xff08;第一版&#xff09;》正式发布。 中新赛克海睿思 凭借卓越的产品力以及广泛的行业实践&#xff0c;成功入选该方案集的数据分析行业技术解决方案。 为促进数字化转型…

RIPGeo代码理解(六)main.py(运行模型进行训练和测试)

​代码链接:RIPGeo代码实现 ├── preprocess.py # 预处理数据集并为模型运行执行IP聚类 ├── main.py # 运行模型进行训练和测试 ├── test.py #加载检查点,然后测试 一、导入各种模块和数据库 import torch.nnfrom lib.utils import * import argparse i…

前端制作计算器

用htmlcssjs完成计算器的基本功能&#xff0c;代码如下&#xff1a; HTML代码 <div id"four"> <div class"evaluator"><div class"input"><input type"text"></div><table><tr><td>…