Nvidia Blackwell架构深度剖析:深入了解RTX 50系列GPU的升级

在CES 2025上,英伟达推出了基于Blackwell架构的GeForce RTX 50系列显卡,包括RTX 5090、RTX 5080、RTX 5070 Ti和RTX 5070。一段时间以来,我们已经知晓了该架构的各种细节,其中许多此前还只是传闻。不过,英伟达近日在2025年国际消费电子展(CES)期间的媒体编辑日活动上,披露了更多关于核心功能的信息与细节。本文主要聚焦于Blackwell RTX 50系列GPU的架构变革。
在这里插入图片描述
英伟达并未对新架构的某些方面提供大量细节,但从宏观层面来看,与RTX 40系列Ada Lovelace架构相比,很多方面似乎变化不大。大多数升级和改进主要围绕AI和各种神经渲染技术——我们会在另一篇文章中对这些内容进行更深入的探讨。

下面这张PPT展示了Blackwell架构的目标:针对新的神经计算工作负载进行优化、减少内存占用、新增服务质量功能以及提升能源效率。这些听起来都很不错。不过,除了RTX 5090拥有显著更大的GPU核心(面积达744平方毫米,而RTX 4090为608平方毫米)之外,很多升级更像是渐进式的。
在这里插入图片描述
这并非意味着毫无变化。第四代光线追踪(RT)核心的光线与三角形相交速率是Ada架构的两倍,也是为Mega Geometry构建的。这有助于未来基于虚幻引擎5开发的游戏运行得更流畅。GPU着色器也针对神经着色器进行了增强,此外还有一些其他新特性。

Blackwell架构使英伟达GPU首次全面支持DisplayPort 2.1 UHBR20(80Gbps),突破DisplayPort 1.4a的限制。它们还将支持PCIe 5.0,成为首批实现这一转变的消费级GPU,不过我们还需观察这一支持是否覆盖所有Blackwell GPU,还是仅适用于RTX 5090。视频编码和解码功能也得到了增强,现在支持4:2:2视频流。

性能数据方面,若以“最高可达4000 AI TOPS(每秒数万亿次运算)”来计算,RTX 5090的实际运算能力为3400 TOPS(准确来说是3352)。进一步探究会发现,性能提升的很大一部分得益于原生FP4支持。因此,在同等条件下对比,RTX 5090的FP8运算能力为1676 TFLOPS,而RTX 4090为1321 TFLOPS FP8。这仅有27%的提升——增幅可观,但算不上巨大飞跃。
在这里插入图片描述
类似的性能提升比例在其他方面也有体现,比如FP32着色器计算。RTX 5090的FP32运算能力最高可达104.8 TFLOPS,而RTX 4090为82.6 TFLOPS。同样,这也是27%的性能提升。而RTX 4090相较于RTX 3090,GPU TFLOPS提升了惊人的132%。那才是令人兴奋的升级!

毫无疑问,RTX 5090会比RTX 4090更快、更出色,但它并不会完全超越上一代产品——至少在不考虑多帧生成(Multi Frame Generation)技术的情况下是这样。另外,RTX 5090的核心面积也大了22%,晶体管数量多了21%,它们都基于台积电4N工艺节点。

在架构方面,还有其他一些值得关注的变化。随着人工智能应用的增多以及此类工作负载对整数运算的需求,英伟达让Blackwell架构中的所有着色器核心都完全兼容FP32/INT32运算。在安培(Ampere,RTX 30系列)架构中,英伟达将FP32 CUDA核心数量翻倍,但其中一半仅支持FP32运算,另一半则可同时进行FP32和INT32运算——INT32常用于内存指针计算。Ada架构延续了这一设计,而现在Blackwell架构再次让所有CUDA核心保持一致,数量是图灵(Turing)架构的两倍。
在这里插入图片描述
英伟达还对着色器渲染管线进行了一些调整,以便更好地混合着色器和张量核心运算。英伟达将其归类为神经着色器,虽然其他RTX系列似乎仍能运行这些工作负载,但与Blackwell架构的GPU相比,速度会相对较慢。这部分得益于着色器执行重排序(SER,Shader Execution Reordering)技术的改进,在Blackwell架构上的运行速度是Ada架构的两倍。

Blackwell架构还带来了内存升级,从Ada架构的GDDR6和GDDR6X全面转向GDDR7。我们尚不清楚这是否适用于所有RTX 50系列GPU,但考虑到RTX 5070笔记本电脑GPU都配备了8GB GDDR7,我们推测这可能是全系列的配置。这是自2018年RTX 20系列首次引入GDDR6(时钟频率仅为14Gbps)以来,我们首次看到的图形内存全面升级。
在这里插入图片描述
大多数基于Blackwell架构的RTX 50系列GPU的GDDR7运行频率为28Gbps,是最初GDDR6芯片速度的两倍,但相比许多高端RTX 40系列GPU使用的21Gbps GDDR6X芯片,速度仅提升了33%。RTX 5080的GDDR7频率提升至30Gbps,几乎是RTX 2080 Super 15.5Gbps内存速度的两倍。

除了RTX 5090,其他型号的显存位宽没有变化。RTX 5090配备了512位的超大显存位宽和32GB GDDR7内存。未来的3GB GDDR6芯片为产品周期后期可能推出的48GB版本,或面向专业/数据中心、采用翻盖式设计且容量高达96GB的GPU留下了可能性,但英伟达短期内不会对此进行官方评论或发布相关消息。

RTX 5080仍然保持256位显存位宽和16GB显存容量,因此,尽管其带宽比RTX 4080 Super提升了30%,但显存容量保持不变。RTX 5070 Ti(与RTX 5070 Ti Super相比)和RTX 5070(与RTX 4070相比)也是如此,只是它们的带宽提升了33%——从21Gbps提升至28Gbps。

Blackwell架构的另一个新特性是AI管理处理器。(顺便提一下,英伟达完全没有提及光流加速器,即OFA,这是Ada架构引入的新特性,但现在可能已被停用,取而代之的是更强大的张量运算。)
在这里插入图片描述
随着人工智能工作负载日益复杂,以及更多人工智能模型可能同时运行的情况——想象一下,一款游戏同时进行图像放大、神经纹理处理、帧生成和AI非玩家角色运算——英伟达希望能更好地调度资源。AI管理处理器旨在实现这一目标,并且据说可以根据正在运行的工作负载类型以及需要优先完成的任务来进行调度。例如,为了先完成多帧生成(MFG,Multi Frame Generation),文本生成的大语言模型(LLM)运算可以稍微延迟。

Blackwell架构还改进了电源门控和能源管理,能够比前几代产品更快地进入和退出深度睡眠模式。

综上所述,英伟达的Blackwell架构虽没有带来翻天覆地的变革,但在诸多关键领域实现了稳步升级与创新。从硬件性能提升到功能特性优化,再到内存和架构设计的改进,Blackwell架构的RTX 50系列GPU为未来的图形处理和人工智能应用描绘了一幅充满潜力的蓝图。
在这里插入图片描述
值得关注的是,英伟达 RTX 5090 Founders Edition和 RTX 5080 Founders Edition将于 2025 年 1 月 30 日一同亮相,RTX 5070 Founders Edition以及 RTX 5070 Ti 也将于 2 月闪亮登场。各位小伙伴们,是不是已经迫不及待准备好钱包,坐等 RTX 50 系列显卡到手,开启全新的极致体验了呢?

想了解更多有关RTX 50系产品以及RTX 5090整机相关的信息,不管是技术问题还是应用规划,欢迎随时联系我们,期待能为您提供有价值的见解与支持。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/66206.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机网络 (45)动态主机配置协议DHCP

前言 计算机网络中的动态主机配置协议(DHCP,Dynamic Host Configuration Protocol)是一种网络管理协议,主要用于自动分配IP地址和其他网络配置参数给连接到网络的设备。 一、基本概念 定义:DHCP是一种网络协议&#xf…

RV1126+FFMPEG推流项目(7)AI音频模块编码流程

一、AI 模块和外设麦克风的关系 AI 模块是 RV1126 芯片的一个重要组成部分。它的主要功能是将外部接入的麦克风采集到的模拟信号通过内置的驱动程序转换为数字信号。这意味着麦克风作为外设,提供音频输入信号,AI 模块通过其硬件和软件的结合&#xff0c…

第十二章:算法与程序设计

文章目录: 一:基本概念 1.算法与程序 1.1 算法 1.2 程序 2.编译预处理 3.面向对象技术 4.程序设计方法 5.SOP标志作业流程 6.工具 6.1 自然语言 6.2 流程图 6.3 N/S图 6.4 伪代码 6.5 计算机语言 二:程序设计 基础 1.常数 …

【k8s面试题2025】2、练气初期

在练气初期,灵气还比较稀薄,只能勉强在体内运转几个周天。 文章目录 简述k8s静态pod为 Kubernetes 集群移除新节点:为 K8s 集群添加新节点Kubernetes 中 Pod 的调度流程 简述k8s静态pod 定义 静态Pod是一种特殊类型的Pod,它是由ku…

初学stm32 --- CAN

目录 CAN介绍 CAN总线拓扑图 CAN总线特点 CAN应用场景 CAN物理层 CAN收发器芯片介绍 CAN协议层 数据帧介绍 CAN位时序介绍 数据同步过程 硬件同步 再同步 CAN总线仲裁 STM32 CAN控制器介绍 CAN控制器模式 CAN控制器模式 CAN控制器框图 发送处理 接收处理 接收过…

运输层安全协议SSL

安全套接字层 SSL (Secure Socket Layer) SSL 作用在端系统应用层的 HTTP 和运输层之间,在 TCP 之上建立起一个安全通道,为通过 TCP 传输的应用层数据提供安全保障。 应用层使用 SSL 最多的就是 HTTP,但 SSL 并非仅用于 HTTP,而是…

【Sql递归查询】Mysql、Oracle、SQL Server、PostgreSQL 实现递归查询的区别与案例(详解)

文章目录 Mysql 5.7 递归查询Mysql 8 实现递归查询Oracle递归示例SQL Server 递归查询示例PostgreSQL 递归查询示例 更多相关内容可查看 Mysql 5.7 递归查询 MySQL 5.7 本身不直接支持标准 SQL 中的递归查询语法(如 WITH RECURSIVE 这种常见的递归查询方式&#xf…

【Rust自学】13.2. 闭包 Pt.2:闭包的类型推断和标注

13.2.0. 写在正文之前 Rust语言在设计过程中收到了很多语言的启发,而函数式编程对Rust产生了非常显著的影响。函数式编程通常包括通过将函数作为值传递给参数、从其他函数返回它们、将它们分配给变量以供以后执行等等。 在本章中,我们会讨论 Rust 的一…

【JavaScript】比较运算符的运用、定义函数、if(){}...esle{} 语句

比较运算符 !><> < 自定义函数&#xff1a; function 函数名&#xff08;&#xff09;{ } 判断语句&#xff1a; if(判断){ }else if(判断){ 。。。。。。 }else{ } 代码示例&#xff1a; <!DOCTYPE html> <html> <head><meta charset&quo…

WOA-Transformer鲸鱼算法优化编码器时间序列预测(Matlab实现)

WOA-Transformer鲸鱼算法优化编码器时间序列预测&#xff08;Matlab实现&#xff09; 目录 WOA-Transformer鲸鱼算法优化编码器时间序列预测&#xff08;Matlab实现&#xff09;预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.Matlab实现WOA-Transformer鲸鱼算法优化编…

25/1/15 嵌入式笔记 初学STM32F108

GPIO初始化函数 GPIO_Ini&#xff1a;初始化GPIO引脚的模式&#xff0c;速度和引脚号 GPIO_Init(GPIOA, &GPIO_InitStruct); // 初始化GPIOA的引脚0 GPIO输出控制函数 GPIO_SetBits&#xff1a;将指定的GPIO引脚设置为高电平 GPIO_SetBits(GPIOA, GPIO_Pin_0); // 将GPIO…

mac m4 安装 node

brew install node // 安装 node //安装的路径在&#xff1a; /opt/homebrew/bin/node brew install node14 // brew install node22 // 安装指定版本 如果需要设置环境变量&#xff1a;通过&#xff1a; which node 查找路径 export PATH"/usr/local/opt/…

haproxy+nginx网站架构,实现负载均衡实验笔记

前提准备&#xff1a; 两台nginx&#xff0c;一台haproxynginx1&#xff1a;192.168.180.120nginx2&#xff1a;192.168.180.130&#xff0c;NFShaproxy&#xff1a;192.168.180.110 nginx&#xff08;两台nginx的操作是一样的&#xff09;&#xff1a; 1. 安装nginx #先安…

【C++篇】红黑树的实现

目录 前言&#xff1a; 一&#xff0c;红黑树的概念 1.1&#xff0c;红黑树的规则 1.2&#xff0c;红黑树的最长路径 1.3&#xff0c;红黑树的效率分析 二&#xff0c;红黑树的实现 2.1&#xff0c;红黑树的结构 2.2&#xff0c;红黑树的插入 2.2.1&#xff0c;大致过程…

如何在谷歌浏览器中设置自定义安全警告

随着网络环境的日益复杂&#xff0c;浏览器的安全问题也愈发引人关注。谷歌浏览器作为一款广泛使用的浏览器&#xff0c;其自定义安全警告功能为用户提供了更加个性化和安全的浏览体验。本文将详细介绍如何在谷歌浏览器中设置自定义安全警告&#xff0c;帮助用户更好地保护自己…

Spring 6 第1章——概述

一.Spring是什么 Spring是一款主流的Java EE轻量级&#xff08;体积小、不需要依赖其它组件&#xff09;开源框架Spring的目的是用于简化Java企业级应用的开发难度和开发周期Spring的用途不仅限于服务端的开发&#xff0c;从简单性、可测试性和松耦合的角度而言&#xff0c;任…

C语言预处理艺术:编译前的魔法之旅

大家好&#xff0c;这里是小编的博客频道 小编的博客&#xff1a;就爱学编程 很高兴在CSDN这个大家庭与大家相识&#xff0c;希望能在这里与大家共同进步&#xff0c;共同收获更好的自己&#xff01;&#xff01;&#xff01; 本文目录 引言正文一、预处理的作用与流程&#xf…

基于Springboot + vue实现的旅游网站

&#x1f942;(❁◡❁)您的点赞&#x1f44d;➕评论&#x1f4dd;➕收藏⭐是作者创作的最大动力&#x1f91e; &#x1f496;&#x1f4d5;&#x1f389;&#x1f525; 支持我&#xff1a;点赞&#x1f44d;收藏⭐️留言&#x1f4dd;欢迎留言讨论 &#x1f525;&#x1f525;&…

docker-compose和docker仓库

一、docker-compose 1.概述 docker-compose是一个自动编排工具&#xff0c;可以根据dockerfile自动化部署docker容器。 主要功能 配置定义 使用YAML文件&#xff08;通常命名为docker - compose.yml&#xff09;来描述应用程序的服务、网络和卷等配置。 容器编排 可以同时…

MAC AndroidStudio模拟器无网络

先确认PC端是正常访问网络的&#xff1b; 模拟器端修改Wifi设置&#xff1a;设置 - 网络和互联网 - WALN设置 按照上图修改&#xff1b; IP设置&#xff1a;从DHCP修改为静态&#xff0c;IP地址&#xff1a;10.0.2.16 &#xff0c;网关&#xff1a;10.0.2.2 &#xff0c; DNS…