NVIDIA Blackwell Architecture

在这里插入图片描述

本文翻译自:NVIDIA Blackwell Architecture
https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/


文章目录

    • 了解技术突破
      • 1、新型人工智能超级芯片
      • 2、第二代 Transformer 引擎
      • 3、Secure AI
      • 4、NVLink 和 NVLink 交换机
      • 5、解压缩引擎
      • 6、可靠性、可用性和可服务性 (RAS) 引擎
    • GB200 NVL72


其他 资料

  • NVIDIA Blackwell Architecture
    Technical Brief
    https://resources.nvidia.com/en-us-blackwell-architecture

  • 16分钟带你看完英伟达GTC2024,Blackwell大芯片,机器人芯片等等
    https://www.bilibili.com/video/BV171421Q7da/
  • NVIDIA BlackWell 架构动画演示
    https://www.bilibili.com/video/BV1d1421D7Wx/

Blackwell 以几代NVIDIA 技术为基础,以无与伦比的性能、效率和规模开创了生成式 AI 的新篇章。


了解技术突破

NVIDIA Blackwell 架构集成 2080 亿个晶体管


1、新型人工智能超级芯片

Blackwell 架构 GPU 集成了 2080 亿个晶体管,采用定制的 TSMC 4NP 工艺制造。

所有 Blackwell 产品都采用两个光罩限制芯片,通过每秒 10 兆兆字节 (TB/s) 的芯片间互连连接,形成一个统一的 GPU。


2、第二代 Transformer 引擎

第二代 Transformer Engine 采用定制的Blackwell Tensor Core技术结合 NVIDIA® TensorRT™-LLM 和 NeMo™ Framework 创新,加速大型语言模型 (LLM) 和混合专家 (MoE) 模型的推理和训练。

为了增强 MoE 模型的推理能力,Blackwell Tensor Cores增加了新的精度,包括新的社区定义的微缩放格式,从而提供高精度,并易于替换更高的精度。

Blackwell Transformer Engine 利用称为微张量缩放的 细粒度缩放技术 来优化性能和精度,从而实现 4 位浮点 (FP4) AI。这使内存可以支持的下一代模型的性能和大小翻了一番,同时保持了高精度。

NVIDIA 生成式 AI 引擎


3、Secure AI

Blackwell 包含 NVIDIA Confidential Computing,它通过强大的硬件安全性 保护敏感数据和 AI 模型 免遭未经授权的访问。

Blackwell 是业内首款支持 TEE-I/O 的 GPU,同时通过支持 TEE-I/O 的主机 和 通过 NVIDIA® NVLink® 提供的内联保护 提供性能最高的机密计算解决方案。

与未加密模式相比,Blackwell 机密计算可提供几乎相同的吞吐量性能。企业现在可以以高性能的方式保护最大的模型,此外还可以保护 AI 知识产权 (IP) 并安全地实现机密 AI 训练、推理和联合学习。

了解有关 NVIDIA 机密计算:https://www.nvidia.com/en-us/data-center/solutions/confidential-computing/

 NVIDIA Confidential Computing


4、NVLink 和 NVLink 交换机

充分发挥百亿亿次计算和万亿参数 AI 模型的潜力 取决于服务器集群中每个 GPU 之间快速、无缝的通信需求。

第五代 NVIDIA® NVLink® 互连可扩展至 576 个 GPU,为万亿和数万亿参数 AI 模型释放加速性能。

NVIDIA NVLink 交换芯片在一个 72-GPU NVLink 域 (NVL72) 中实现 130TB/s 的 GPU 带宽,并通过 NVIDIA 可扩展分层聚合和缩减协议 (SHARP)™ FP8 支持提供 4 倍带宽效率。

NVIDIA NVLink 交换芯片以同样惊人的 1.8TB/s 互连速度支持超过单台服务器的集群。

具有 NVLink 的多服务器集群可以平衡 GPU 通信与增加的计算,因此 NVL72 可以支持比单个八 GPU 系统高 9 倍的 GPU 吞吐量。

了解有关 NVIDIA NVLink 和 NVLink Switch 的更多信息

NVLink 和 NVLink 交换机


5、解压缩引擎

数据分析和数据库工作流传统上依赖 CPU 进行计算。加速数据科学可以显著提高端到端分析的性能,加快价值生成速度并降低成本。

数据库(包括 Apache Spark)在处理、处理和分析大量数据分析数据方面发挥着关键作用。

Blackwell 的解压缩引擎以及通过高速链路(900 千兆字节每秒 (GB/s) 的双向带宽)访问NVIDIA Grace™ CPU中海量内存的能力,加速了整个数据库查询流程,以实现数据分析和数据科学的最高性能,同时支持最新的压缩格式,例如 LZ4、Snappy 和 Deflate。

NVIDIA 解压缩引擎


6、可靠性、可用性和可服务性 (RAS) 引擎

Blackwell 通过专用的可靠性、可用性和可服务性 (RAS) 引擎增加了智能弹性,可及早识别可能发生的潜在故障,从而最大限度地减少停机时间。

NVIDIA 的 AI 驱动预测管理功能可持续监控硬件和软件中的数千个数据点,以了解整体健康状况,从而预测和拦截停机和低效率的根源。这建立了智能弹性,从而节省了时间、能源和计算成本。

NVIDIA 的 RAS 引擎提供深入的诊断信息,可识别问题区域并制定维护计划。

RAS 引擎通过快速定位问题源来缩短周转时间,并通过促进有效的补救措施来最大限度地减少停机时间。

NVIDIA RAS 引擎


GB200 NVL72

使用 NVIDIA GB200 NVL72 解锁实时万亿参数模型

格雷斯·布莱克韦尔 NVL72

NVIDIA GB200 NVL72 采用机架级设计,连接 36 个 GB200 Grace Blackwell 超级芯片、36 个 Grace CPU 和 72 个 Blackwell GPU。

GB200 NVL72 是一种液冷解决方案,具有 72 个 GPU NVLink 域,可充当单个大型 GPU,为万亿参数大型语言模型提供 30 倍更快的实时推理速度。

了解有关 NVIDIA GB200 NVL72 的更多信息:https://www.nvidia.com/en-us/data-center/gb200-nvl72/


2024-05-27(一)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/19498.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

VNC server ubuntu20 配置

介绍 最近想使用实验室的4卡服务器跑一些深度学习实验,因为跑的是三维建图实验,需要配上可视化界面,本来自带的IPMI可以可视化,但分辨率固定在640*480,看起来很别扭,就捣鼓服务器远程可视化访问了两天&…

python项目开发——个人任务管理系统

项目名称:个人任务管理系统 (Personal Task Management System) 项目简介 开发一个个人任务管理系统,帮助用户记录和管理日常任务。该系统应具备添加任务、查看任务、更新任务状态和删除任务等基本功能,并将数据存储在文件中。通过完成该项目…

vue2转vue3初步下载pnpm遇到的问题 pnpm : 无法加载文件 D:\nodejs\pnpm.ps1

安装pnpm npm install -g pnpm pnpm -v 提示: 解决:nvm install 18.18.0 下载最稳定版本的nodejs nvm use 18.18.0 然后注意重新下载删除pnpm npm uninstall -g pnpm npm install -g pnpmlatest 在vscode使用pnpm报错 解决:管理员运行Windo…

web项目规范配置(husky、eslint、lint-staged、commit)

背景: 团队开发为了保证提交代码格式统一,通常在进行代码提交的时候对暂存区代码进行校验,如没有通过eslint(本例使用eslint)校验,则不能提交到远端。 安装依赖 husky 、eslint 、prettier 、lint-staged npm install husky e…

Satellite Stereo Pipeline学习

1.在Anaconda某个环境中安装s2p pip install s2p 2.在Ubuntu系统中安装s2p源代码 git clone https://github.com/centreborelli/s2p.git --recursive cd s2p pip install -e ".[test]" 3.在s2p中进行make all处理 中间会有很多情况,基本上哪个包出问题…

基于网关的ip频繁访问web限制

一、前言 外部ip对某一个web进行频繁访问,有可能是对web进行攻击,现在提供一种基于网关的ip频繁访问web限制策略,犹如带刀侍卫,审查异常身份人员。如发现异常或者暴力闯关者,即可进行识别管制。 二、基于网关的ip频繁访…

【Python】 倒序遍历列表:Python中的简单技巧

基本原理 在Python中,列表是一种非常灵活的数据结构,它允许我们存储一系列的元素。有时,我们需要按照与元素添加顺序相反的顺序来遍历列表。这通常被称为“倒序遍历”。Python提供了几种不同的方法来实现这一功能。 代码示例 示例1&#x…

国内常用的编程博客网址:技术资源与学习平台

一、国内常用的编程博客网址:技术资源与学习平台 大家初入编程,肯定会遇到各种各样的问题。我们除了找 AI 工具以外,我们还能怎么迅速解决问题呢? 大家可以通过谷歌,百度,必应,github&#xf…

****三次握手和四次挥手

一、三次握手 1.简要描述TCP三次握手的过程 第一次握手,客户端发送SYN包到服务器; 第二次握手,服务器收到SYN包,回复一个SYNACK包; 第三次握手,客户端收到服务器的SYNACK包后,回复一个ACK包…

C++ 使用 nlohmann/json 库

C常用 json 库有: Jsoncpp boost ison Qt Json (不推荐使用) nlohman::json (推荐使用) 其中Qt中json解析的相关类只在qt中有用,为了避免以后不用qt无法解析json,建议使用nlohmann/json,适用于任何C框架。 1. 简介 nlohmann是一…

【vueCms】vueCms后台管理系统安装问题集合

开源项目地址: https://www.vuecms.cn/ 开源代码地址: https://gitee.com/derekgo/vue-cms_xg 问题一 如果出现提示少了个index.html。如下图 解决办法: 重新安装前端(vue3_vite)项目依赖 问题二 npm版本高无法解析依赖树导致依赖下载失败 解决方案: npm install --legacy…

Vue.use的实现原理

一、Vue.use 是做什么的? use 概念 如果你希望编写一个 Vue.js 插件来扩展应用的功能,需要提供一个 install 方法。如果插件是一个对象,那么这个对象必须包含 install 方法;如果插件是一个函数,那么这个函数将被作为 …

【Flask-app.py运行】已解决Cannot run program “D:\APP\python\python.exe”

文章目录 一、问题描述二、解决方法 一、问题描述 Cannot run program “D:\APP\python\python.exe” (in directory “F:\Codes\竞赛\大计赛\group\code\web\web”): CreateProcess error2, 系统找不到指定的文件。 这段报错源于运行 flask 项目的 app.py 时报错找不到程序&…

C++ | Leetcode C++题解之第119题杨辉三角II

题目&#xff1a; 题解&#xff1a; class Solution { public:vector<int> getRow(int rowIndex) {vector<int> row(rowIndex 1);row[0] 1;for (int i 1; i < rowIndex; i) {row[i] 1LL * row[i - 1] * (rowIndex - i 1) / i;}return row;} };

SNCScan:针对SAP安全网络通信(SNC)的安全分析与评估工具

关于SNCScan SNCScan是一款针对SAP安全网络通信&#xff08;SNC&#xff09;的安全分析与评估工具&#xff0c;该工具旨在帮助广大研究人员分析SAP安全网络通信&#xff08;SNC&#xff09;&#xff0c;并分析和检测SNC配置与SAP组件中的潜在问题。 SNC系统参数 SNC基础 SAP协…

flutter sdk升级之空安全启用

公司项目flutter sdk需要从2.5升级到3.7。由于项目不支持空安全&#xff0c;所以升级sdk之前要做的第一件事就是启用空安全。以下为空安全适配过程记录。 启用空安全 将dart sdk设置成sdk: ">2.12.0 <3.0.0"&#xff0c;即可启用。代码如下&#xff1a; envi…

面向Java程序员的Go工程开发入门流程

对于一个像我这样没有go背景的java程序员来说&#xff0c;使用go开发一个可用的程序的速度是肉眼可见的缓慢。 其难点不在于go语言本身&#xff0c;而是搭建整个工程链路的过程&#xff0c;即所谓的“配环境”。 本文主要讲述如何配出一个适合go开发的环境&#xff0c;以免有同…

未来工厂新篇章:大型工厂3D可视化技术引领工业新潮流

在科技日新月异的今天&#xff0c;大型工厂不再是我们印象中机器轰鸣、尘土飞扬的钢铁丛林&#xff0c;而是变成了智慧与效率并存的现代化生产中心。这一切的改变&#xff0c;都离不开一项革命性的技术——3D可视化。 一、何为大型工厂3D可视化&#xff1f; 大型工厂3D可视化&…

MATLAB函数模块光显示zeros/poles怎么办?

出现下面这种图了怎么办&#xff1f;是做错了吗&#xff1f; 这种图就是它显示不完整了&#xff0c;把它拉大点就可以完全显示了。

K8s Ingress 详解

文章目录 K8s Ingress 详解Ingress 资源清单Ingress 基于URL 实现路由Ingress 基于名称虚拟主机Ingress 实现HTTPS创建TLS 证书创建Secrets配置ingress Ingress RewriteIngress 灰度发布Ingress 配置认证 K8s Ingress 详解 Ingress 资源清单 apiVersion: networking.k8s.io/v…