NVIDIA Blackwell Architecture

在这里插入图片描述

本文翻译自:NVIDIA Blackwell Architecture
https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/


文章目录

    • 了解技术突破
      • 1、新型人工智能超级芯片
      • 2、第二代 Transformer 引擎
      • 3、Secure AI
      • 4、NVLink 和 NVLink 交换机
      • 5、解压缩引擎
      • 6、可靠性、可用性和可服务性 (RAS) 引擎
    • GB200 NVL72


其他 资料

  • NVIDIA Blackwell Architecture
    Technical Brief
    https://resources.nvidia.com/en-us-blackwell-architecture

  • 16分钟带你看完英伟达GTC2024,Blackwell大芯片,机器人芯片等等
    https://www.bilibili.com/video/BV171421Q7da/
  • NVIDIA BlackWell 架构动画演示
    https://www.bilibili.com/video/BV1d1421D7Wx/

Blackwell 以几代NVIDIA 技术为基础,以无与伦比的性能、效率和规模开创了生成式 AI 的新篇章。


了解技术突破

NVIDIA Blackwell 架构集成 2080 亿个晶体管


1、新型人工智能超级芯片

Blackwell 架构 GPU 集成了 2080 亿个晶体管,采用定制的 TSMC 4NP 工艺制造。

所有 Blackwell 产品都采用两个光罩限制芯片,通过每秒 10 兆兆字节 (TB/s) 的芯片间互连连接,形成一个统一的 GPU。


2、第二代 Transformer 引擎

第二代 Transformer Engine 采用定制的Blackwell Tensor Core技术结合 NVIDIA® TensorRT™-LLM 和 NeMo™ Framework 创新,加速大型语言模型 (LLM) 和混合专家 (MoE) 模型的推理和训练。

为了增强 MoE 模型的推理能力,Blackwell Tensor Cores增加了新的精度,包括新的社区定义的微缩放格式,从而提供高精度,并易于替换更高的精度。

Blackwell Transformer Engine 利用称为微张量缩放的 细粒度缩放技术 来优化性能和精度,从而实现 4 位浮点 (FP4) AI。这使内存可以支持的下一代模型的性能和大小翻了一番,同时保持了高精度。

NVIDIA 生成式 AI 引擎


3、Secure AI

Blackwell 包含 NVIDIA Confidential Computing,它通过强大的硬件安全性 保护敏感数据和 AI 模型 免遭未经授权的访问。

Blackwell 是业内首款支持 TEE-I/O 的 GPU,同时通过支持 TEE-I/O 的主机 和 通过 NVIDIA® NVLink® 提供的内联保护 提供性能最高的机密计算解决方案。

与未加密模式相比,Blackwell 机密计算可提供几乎相同的吞吐量性能。企业现在可以以高性能的方式保护最大的模型,此外还可以保护 AI 知识产权 (IP) 并安全地实现机密 AI 训练、推理和联合学习。

了解有关 NVIDIA 机密计算:https://www.nvidia.com/en-us/data-center/solutions/confidential-computing/

 NVIDIA Confidential Computing


4、NVLink 和 NVLink 交换机

充分发挥百亿亿次计算和万亿参数 AI 模型的潜力 取决于服务器集群中每个 GPU 之间快速、无缝的通信需求。

第五代 NVIDIA® NVLink® 互连可扩展至 576 个 GPU,为万亿和数万亿参数 AI 模型释放加速性能。

NVIDIA NVLink 交换芯片在一个 72-GPU NVLink 域 (NVL72) 中实现 130TB/s 的 GPU 带宽,并通过 NVIDIA 可扩展分层聚合和缩减协议 (SHARP)™ FP8 支持提供 4 倍带宽效率。

NVIDIA NVLink 交换芯片以同样惊人的 1.8TB/s 互连速度支持超过单台服务器的集群。

具有 NVLink 的多服务器集群可以平衡 GPU 通信与增加的计算,因此 NVL72 可以支持比单个八 GPU 系统高 9 倍的 GPU 吞吐量。

了解有关 NVIDIA NVLink 和 NVLink Switch 的更多信息

NVLink 和 NVLink 交换机


5、解压缩引擎

数据分析和数据库工作流传统上依赖 CPU 进行计算。加速数据科学可以显著提高端到端分析的性能,加快价值生成速度并降低成本。

数据库(包括 Apache Spark)在处理、处理和分析大量数据分析数据方面发挥着关键作用。

Blackwell 的解压缩引擎以及通过高速链路(900 千兆字节每秒 (GB/s) 的双向带宽)访问NVIDIA Grace™ CPU中海量内存的能力,加速了整个数据库查询流程,以实现数据分析和数据科学的最高性能,同时支持最新的压缩格式,例如 LZ4、Snappy 和 Deflate。

NVIDIA 解压缩引擎


6、可靠性、可用性和可服务性 (RAS) 引擎

Blackwell 通过专用的可靠性、可用性和可服务性 (RAS) 引擎增加了智能弹性,可及早识别可能发生的潜在故障,从而最大限度地减少停机时间。

NVIDIA 的 AI 驱动预测管理功能可持续监控硬件和软件中的数千个数据点,以了解整体健康状况,从而预测和拦截停机和低效率的根源。这建立了智能弹性,从而节省了时间、能源和计算成本。

NVIDIA 的 RAS 引擎提供深入的诊断信息,可识别问题区域并制定维护计划。

RAS 引擎通过快速定位问题源来缩短周转时间,并通过促进有效的补救措施来最大限度地减少停机时间。

NVIDIA RAS 引擎


GB200 NVL72

使用 NVIDIA GB200 NVL72 解锁实时万亿参数模型

格雷斯·布莱克韦尔 NVL72

NVIDIA GB200 NVL72 采用机架级设计,连接 36 个 GB200 Grace Blackwell 超级芯片、36 个 Grace CPU 和 72 个 Blackwell GPU。

GB200 NVL72 是一种液冷解决方案,具有 72 个 GPU NVLink 域,可充当单个大型 GPU,为万亿参数大型语言模型提供 30 倍更快的实时推理速度。

了解有关 NVIDIA GB200 NVL72 的更多信息:https://www.nvidia.com/en-us/data-center/gb200-nvl72/


2024-05-27(一)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/19498.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

VNC server ubuntu20 配置

介绍 最近想使用实验室的4卡服务器跑一些深度学习实验,因为跑的是三维建图实验,需要配上可视化界面,本来自带的IPMI可以可视化,但分辨率固定在640*480,看起来很别扭,就捣鼓服务器远程可视化访问了两天&…

vue2转vue3初步下载pnpm遇到的问题 pnpm : 无法加载文件 D:\nodejs\pnpm.ps1

安装pnpm npm install -g pnpm pnpm -v 提示: 解决:nvm install 18.18.0 下载最稳定版本的nodejs nvm use 18.18.0 然后注意重新下载删除pnpm npm uninstall -g pnpm npm install -g pnpmlatest 在vscode使用pnpm报错 解决:管理员运行Windo…

web项目规范配置(husky、eslint、lint-staged、commit)

背景: 团队开发为了保证提交代码格式统一,通常在进行代码提交的时候对暂存区代码进行校验,如没有通过eslint(本例使用eslint)校验,则不能提交到远端。 安装依赖 husky 、eslint 、prettier 、lint-staged npm install husky e…

Satellite Stereo Pipeline学习

1.在Anaconda某个环境中安装s2p pip install s2p 2.在Ubuntu系统中安装s2p源代码 git clone https://github.com/centreborelli/s2p.git --recursive cd s2p pip install -e ".[test]" 3.在s2p中进行make all处理 中间会有很多情况,基本上哪个包出问题…

基于网关的ip频繁访问web限制

一、前言 外部ip对某一个web进行频繁访问,有可能是对web进行攻击,现在提供一种基于网关的ip频繁访问web限制策略,犹如带刀侍卫,审查异常身份人员。如发现异常或者暴力闯关者,即可进行识别管制。 二、基于网关的ip频繁访…

【Python】 倒序遍历列表:Python中的简单技巧

基本原理 在Python中,列表是一种非常灵活的数据结构,它允许我们存储一系列的元素。有时,我们需要按照与元素添加顺序相反的顺序来遍历列表。这通常被称为“倒序遍历”。Python提供了几种不同的方法来实现这一功能。 代码示例 示例1&#x…

【vueCms】vueCms后台管理系统安装问题集合

开源项目地址: https://www.vuecms.cn/ 开源代码地址: https://gitee.com/derekgo/vue-cms_xg 问题一 如果出现提示少了个index.html。如下图 解决办法: 重新安装前端(vue3_vite)项目依赖 问题二 npm版本高无法解析依赖树导致依赖下载失败 解决方案: npm install --legacy…

【Flask-app.py运行】已解决Cannot run program “D:\APP\python\python.exe”

文章目录 一、问题描述二、解决方法 一、问题描述 Cannot run program “D:\APP\python\python.exe” (in directory “F:\Codes\竞赛\大计赛\group\code\web\web”): CreateProcess error2, 系统找不到指定的文件。 这段报错源于运行 flask 项目的 app.py 时报错找不到程序&…

C++ | Leetcode C++题解之第119题杨辉三角II

题目&#xff1a; 题解&#xff1a; class Solution { public:vector<int> getRow(int rowIndex) {vector<int> row(rowIndex 1);row[0] 1;for (int i 1; i < rowIndex; i) {row[i] 1LL * row[i - 1] * (rowIndex - i 1) / i;}return row;} };

SNCScan:针对SAP安全网络通信(SNC)的安全分析与评估工具

关于SNCScan SNCScan是一款针对SAP安全网络通信&#xff08;SNC&#xff09;的安全分析与评估工具&#xff0c;该工具旨在帮助广大研究人员分析SAP安全网络通信&#xff08;SNC&#xff09;&#xff0c;并分析和检测SNC配置与SAP组件中的潜在问题。 SNC系统参数 SNC基础 SAP协…

面向Java程序员的Go工程开发入门流程

对于一个像我这样没有go背景的java程序员来说&#xff0c;使用go开发一个可用的程序的速度是肉眼可见的缓慢。 其难点不在于go语言本身&#xff0c;而是搭建整个工程链路的过程&#xff0c;即所谓的“配环境”。 本文主要讲述如何配出一个适合go开发的环境&#xff0c;以免有同…

未来工厂新篇章:大型工厂3D可视化技术引领工业新潮流

在科技日新月异的今天&#xff0c;大型工厂不再是我们印象中机器轰鸣、尘土飞扬的钢铁丛林&#xff0c;而是变成了智慧与效率并存的现代化生产中心。这一切的改变&#xff0c;都离不开一项革命性的技术——3D可视化。 一、何为大型工厂3D可视化&#xff1f; 大型工厂3D可视化&…

MATLAB函数模块光显示zeros/poles怎么办?

出现下面这种图了怎么办&#xff1f;是做错了吗&#xff1f; 这种图就是它显示不完整了&#xff0c;把它拉大点就可以完全显示了。

K8s Ingress 详解

文章目录 K8s Ingress 详解Ingress 资源清单Ingress 基于URL 实现路由Ingress 基于名称虚拟主机Ingress 实现HTTPS创建TLS 证书创建Secrets配置ingress Ingress RewriteIngress 灰度发布Ingress 配置认证 K8s Ingress 详解 Ingress 资源清单 apiVersion: networking.k8s.io/v…

2024年人文发展与社会科学国际会议(ICHDSS 2024)

2024年人文发展与社会科学国际会议 2024 International Conference on Humanities Development and Social Sciences 【1】会议简介 2024年人文发展与社会科学国际会议是一个汇集全球人文科学和社会科学领域专家学者的盛会。本次会议旨在深入探讨人文发展的多元性、复杂性以及社…

如何查看本地sql server数据库的ip地址

程序连线SQL数据库&#xff0c;需要SQL Server实例的名称或网络地址。 1.查询语句 DECLARE ipAddress VARCHAR(100) SELECT ipAddress local_net_address FROM sys.dm_exec_connections WHERE SESSION_ID SPID SELECT ipAddress As [IP Address]SELECT CONNECTIONPROPERTY(…

SOLIDWORKS参数化开发 慧德敏学

传统的设计模式下大规模定制型产品结构设计周期长&#xff0c;问题多&#xff0c;以及大量重复性工作让工程师疲于应对&#xff0c;这些严重阻碍了公司订单承接能力和技术创新能力&#xff0c;难以响应市场需求。 什么是参数化设计&#xff1f; 1、它是一种设计的方式&#x…

华为设备RIP基础路由实验

华为设备RIP基础路由实验 实验拓扑&#xff1a; RIP&#xff1a;距离矢量的动态路由&#xff0c;路由通信有方向&#xff0c;度量值metric取值范围&#xff08;1-16&#xff09;16表示目标主机不可达。 路由的版本分为&#xff1a;RIPV1&#xff08;广播通信目标地址是255.255…

Mac下载docker

先安装homebrew Mac下载Homebrew-CSDN博客 然后输入以下命令安装docker brew install --cask --appdir/Applications docker 期间需要输入密码。输入完等待即可

刷机 iPhone 进入恢复模式

文章目录 第 1 步&#xff1a;确保你有一台电脑&#xff08;Mac 或 PC&#xff09;第 2 步&#xff1a;将 iPhone 关机第 3 步&#xff1a;将 iPhone 置于恢复模式第 4 步&#xff1a;使用 Mac 或 PC 恢复 iPhone需要更多协助&#xff1f; 本文转载自&#xff1a;如果你忘记了 …