英伟达TX2烧录系统_英伟达的DPU,是想在数据中心奇袭英特尔?

65d67f42-e417-eb11-8da9-e4434bdf6706.gif

热点追踪 / 深度探讨 / 实地探访 / 商务合作

最近几年,经常关注科技圈的朋友们总会发现,每次遇到厂商有重大发布,就总能看到“颠覆”、“极致”、“革命性”等概念出现在发布会上。

上周,iPhone12的发布现场,蒂姆库克就用上了“新纪元”的字眼,准确地说应该是iPhone正式地步入了5G时代新纪元。但国内消费者对5G已经是见怪不怪了。苹果自嗨的划时代产品因为没有达到市场的预期,当日股价就跌去3800亿个小目标,后面就要靠销量来证明苹果自己有没有跨入“新纪元”了。

相比较于关注度高的消费电子领域,本文要把重点放在大多数人不太熟悉的数据中心产业,及其更上游的数据中心计算芯片上面。因为我们看到随着云计算的大规模普及和AI计算的指数级增长,数据中心被提到前所未有的重要位置。

最近在参加一个有关数字通信产业的论坛上,听到一位中国信通院的专家的观点是:数据中心,将成为和5G技术并肩,下一个数字技术的制高点。类似的观点,我们也在英伟达线上2020年GPU技术大会,从黄仁勋那里听到:数据中心已成为全新的计算单元。

6cd67f42-e417-eb11-8da9-e4434bdf6706.png

黄仁勋之所以有这样的底气,就在于这次发布会上推出了一款全新处理器DPU,以及围绕该处理器的软件生态架构DOCA。据英伟达的介绍,DPU可以和CPU、GPU相结合,构成完全可编程的单一AI计算单元,实现前所未有的安全性和算力支持。

那么,DPU能否真正承担起与CPU、GPU一样的计算重要性,实现数据中心的一次巨大革新?其创新点到底在哪里?这些仍然是我们要去回顾和考察的问题。

英伟达DPU的过“芯”之处

从英伟达在GTC的介绍上来说,DPU(Data Processing Unit)处理器,其实是一种SoC芯片,其中集成了ARM处理器核、VLIW矢量计算引擎和智能网卡的功能,主要应用在分布式存储、网络计算和网络安全领域。

DPU的主要作用就在于替代了数据中心原本用来处理分布式存储和网络通信的CPU处理器资源。在DPU之前,智能网卡(SmartNIC)正在网络安全和网络互连协议方面逐渐取代CPU。而现在DPU的出现,相当于是智能网卡的升级替代版本,一方面增强了智能网卡对网络安全和网络协议的处理能力,一方面又整合和加强了分布式存储的处理能力,从而在这两个领域更好地替代CPU,从而释放CPU的算力给到其他更多应用。

72d67f42-e417-eb11-8da9-e4434bdf6706.png

英伟达在DPU上的技术突破,来自于去年收购以色列芯片制造公司Mellanox之后,在这家公司的硬件基础上开发出BlueFeild系列的两款DPU——英伟达BlueField-2 DPU与BlueField-2X DPU。

据介绍,BlueField-2 DPU具有英伟达Mellanox Connext-6 SmartNIC的所有特点,与8个64位的A72ARM处理器内核一起,实现可完全编程,并能提供每秒200千兆比特的数据传输速率,从而加速关键数据中心的安全、网络和存储任务。

最核心的一点是单个BlueField-2 DPU可以提供相当于消耗125个CPU内核所提供的数据中心服务,从而有效释放CPU内核的算力资源。

73d67f42-e417-eb11-8da9-e4434bdf6706.png

而BlueField-2X DPU则拥有包括BlueField-2 DPU的所有关键特性,其特性能够通过英伟达安培GPU的AI功能得以增强。而在英伟达的路线图里,未来的Bluefield-4 将会引入CUDA 和 NVIDIA AI,极大加快网络中计算机视觉应用处理的速度。

76d67f42-e417-eb11-8da9-e4434bdf6706.png

另外一个值得注意的是英伟达提出配合DPU处理器的软件开发工具包——DOCA(Data-Center-Infrastructure-On-A-Chip Architecture)。英伟达的专家将DOCA类比为数据中心服务器领域的CUDA,其意图在于帮助开发人员在DPU加速的数据中心基础设施上构建相应的应用程序,从而丰富DPU的应用开发生态。

从以上介绍我们看出英伟达的两个野心,一个是DPU试图再一次复制“GPU替代显示加速卡成为通用显示芯片的路径”,在一个是DOCA试图再一次复制“CUDA在GPU通用化过程中所起到的开创生态之功”。

如果和不久前英伟达收购ARM的消息结合起来,我们看到英伟达的一个重要考量,就是以ARM架构的CPU为核心,从服务器的应用加速扩展到服务器的全部应用场景,从而实现在数据中心服务器领域的更大突破,目标自然是剑指英特尔CPU为代表的X86服务器生态。

而在考察DPU挑战CPU霸主地位的可能性之前,我们可以简单来了解下英伟达在数据中心的布局。

英伟达的数据中心“野心”

在经历过游戏显卡业务的增速放缓,以及加密货币退潮后带来的显著业绩下滑的影响之后,几经波折的英伟达终于坚定地将未来押注在了AI计算和数据中心的产业布局上面。

2017年,英伟达的数据中心业务季度营收首次超过了5亿美元,同比增长了109%,这使得黄仁勋在一次大会上大力肯定了数据中心业务的价值。

英伟达早在2008年,最初就是通过最早的Tesla GPU加速器和初级的CUDA编程环境来为数据中心进行GPU计算,试图将更多的并行计算从CPU卸载到GPU上。这成为英伟达GPU之后进化之路的一条长期策略。

此后随着AI计算需求在数据中心当中的爆发式增长,AI硬件正成为越来越多数据中心扩容建设的关键所在。当超强AI算力成为数据中心的刚需,英伟达GPU凭借强大的并行计算和浮点能力,突破了深度学习的算力瓶颈,成为AI硬件的首选。这一契机才使得英伟达能够在数据中心的硬件版图上站稳脚跟,当然,英伟达的野心远不止于此。

英伟达最主要的布局就在于2019年3月,花费69亿美元收购了以色列芯片公司Mellanox,而这家公司所擅长的正是为服务器、存储和超融合基础设施提供包括以太网交换机、芯片和InfiniBand智能互连解决方案在内的大量的数据中心产品。而英伟达的GPU与Mellanox的互连技术结合,可以使得数据中心工作负载将在整个计算、网络和存储堆栈中得以优化,并能实现更高的性能、更高的利用率和更低的运营成本。

当时,黄仁勋把Mellanox的技术看作是公司的“X因素”,也就是把数据中心改造成一个可以解决高性能计算要求的大型处理器架构。而如今我们看到DPU的出现,已经是具有这一架构雏形的一种尝试了。

79d67f42-e417-eb11-8da9-e4434bdf6706.png

今年,英伟达花费400亿美金的天价从软银手中收购半导体设计公司ARM,其意图之一就是要把ARM架构的CPU设计应用到英伟达所要搭建的未来计算模式中,主要布局的领域就有超算、自动驾驶和边缘计算模式。其中,基于英伟达GPU的AI运算平台与ARM的生态系统结合,将不仅能够强化英伟达高性能运算(HPC)技术能力,又可以带动英伟达数据中心业务营收持续创高。

可以说,英伟达在数据中心领域的成功与否,都与能否实现数据中心的规模化运算有关,从发展自研的DGX系列服务器到整合Mellanox的技术,再到借助ARM生态发展全新的数据中心计算架构,都是为转型数据中心业务所作的准备。

当然,想要实现这一目标,还要看下英特尔是否答应了。

英伟达挑战英特尔,距离还有多远

目前来说,数据中心当中,95%左右的GPU仍然还是连接到x86 的CPU之上,英伟达如果单纯只是做GPU的增量,仍然无法撼动英特尔在数据中心服务器的霸主地位。现在,英伟达显然已经不满足于抓住增量市场,而是更希望能切入数据中心的存量市场,即设法用自己的芯片产品去取代英特尔(以及AMD)主导的X86 CPU。

自从英伟达开始收购ARM,外界能够看到英伟达已经多次显示出其试图利用ARM处理器进一步占领数据中心服务器市场的决心,而集成了ARM核心的DPU将成为其打入数据中心存量市场取代X86 CPU的第一个切入点。

英伟达推出DPU来切入这个市场,而非直接用ARM核心CPU来与X86 CPU直接竞争,其实是一种比较讨巧的做法,相当于用集成了网络、存储、安全等任务的下一代CPU产品来达到逐渐替换CPU的目的,即使其中所内涵的ARM CPU性能无法对标同一代的X86 CPU,但是整体机由于在DPU SoC上集成了专用的处理加速模块,因此总体性能一定是超过X86 CPU的。这种有点“田忌赛马”味道的策略,很可能成为英伟达开始替代低端X86 CPU的开始。

7fd67f42-e417-eb11-8da9-e4434bdf6706.png

但是英伟达想要在中高端处理器市场来挑战英特尔,还要面临一系列的困难。

首先,正是英伟达的GPU与X86 CPU已经形成一种非常稳定的强互补关系。英伟达想要采用基于ARM架构的处理器做高端服务器,还需要ARM处理器性能出现大幅的提升,而现在,这一进程并不明朗。

再一个是英特尔早已为应对英伟达的种种挑战进行了相应的回应和布局。早在2017年,英特尔就宣布要开发全栈的GPU产品组合,而预计明年英特尔的首批GPU将在使用GPU的各个市场上发布。

为阻击英伟达在AI计算和自动驾驶领域的扩张,英特尔也先后收购了收购了Nervana和Movidius作为边缘AI计算的布局,收购了Mobileye作为自动驾驶的布局。并且,英特尔还在2018年宣布,将开发一个用于异构计算的全栈开放软件生态系统OpenAPI计划,来应对CUDA生态的扩张。也就是说,英特尔不仅在英伟达的后院搞事情,同时也在建立自身的X86服务器的生态系统。

数据中心业务对于英特尔来说,也正在成为其最核心的业务组成。2019年Q4英特尔的数据中心业务超越PC业务,成为其收入的主要来源;而在今年,英特尔对其技术组织和执行团队的重组,也被外界视为全面转型数据中心业务的开始。

可以想见在未来的数据中心处理器业务上,英伟达将迎来英特尔最为强劲的保卫战和反击战,而广大的服务器集成商或将成为这场角力赛的受益方。

82d67f42-e417-eb11-8da9-e4434bdf6706.png

螳螂捕蝉黄雀在后,英伟达还要面对ADM这一新对手的追赶。不久前ADM曝出要花费300亿美金收购赛灵思,就被砍作是叫板英特尔,阻击英伟达的双战略。

除此之外,英伟达还要在数据中心处理器业务中面临来自客户自研芯片的挑战。云服务商本身也不愿意完全将自身的计算核心完全交给英伟达,无论是AWS、还是谷歌、阿里巴巴、华为,都已经在布局自己的云端处理器。

不管怎么说,数据中心已经成为英特尔、英伟达、AMD这些老牌芯片巨头未来争夺的主战场,而英伟达如何能够在X86的如日中天和云计算客户的自研路线中,找到一个切入到中高端服务器处理器的关键点,刚刚发布的DPU也只能算作一个初步的尝试。

未来数据中心的博弈,将围绕AI、超算等所有领域全面展开,英伟达在前有强敌,后有追兵,盟友拥兵自立的境遇下,其数据中心的征程仍然任重而道远。


推荐阅读84d67f42-e417-eb11-8da9-e4434bdf6706.jpeg拒绝司机们变成员工,Uber们花1.84亿捍卫“零工经济”外媒曝出TikTok收购案背后利益往来,甲骨文CEO曾向共和党捐了25万美元“硅谷模式”开创者:罗伯特•诺伊斯如何用芯片征服世界?IBM第四次拆分业务转型,押注混合云和AI能成功吗?苹果发布四款iPhone12,正式进入5G时代!87d67f42-e417-eb11-8da9-e4434bdf6706.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/339257.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C vector详解

【导读】:vector是一个封装了动态大小数组的顺序容器(Sequence Container)。跟任意其它类型容器一样,它能够存放各种类型的对象。可以简单的认为,vector是一个能够存放任意类型的动态数组。接下来,请跟随小…

arcgis 出图背景_ArcGIS空间制图分析视频教程(二狮兄出品)含ArcMap

这套教程是二狮兄出的一套ArcGIS地理空间制图数据分析视频教程,含ArcMap/ArcCatalog部分。教程分为上中下三部,已全部录制完毕,全部课程120节。适用人群ArcGIS目前的应用范围非常广泛,包括但不限于从事地理景观、生态环境、规划设…

C 之父:C 的成功属于意料之外,C 11是转折点

C 的起源可以追溯到 40 年前,但它仍然是当今使用最广泛的编程语言之一。到 2020 年 9 月为止,C 是仅次于 C 语言、Java 和 Python,位于全球第四的编程语言。根据最新的 TIOBE 索引,C 也是增长最快的语言。近日,C 之父 …

aix磁盘挂载到linux,AIX下文件系统挂载点相互调换方案

由于业务发展的需要,企业在异地实现了数据块级的灾备,由于原来的备份目录lv所在VG恰好在远程灾备VG内(该方案实现的是vg级别的数据同步),为了节省带宽所以又从存储上新划分出一块磁盘新建了一个vg作为备份空间使用。但是由于当时厂商在创建vg…

苹果几最好用_深度解析安卓手机和苹果手机到底有哪些区别,哪种手机最好用...

"安卓阵营手机和苹果手机一直是手机界多年的竞争对手。由于安卓系统是开源的系统,任何厂家都能使用它。而导致安卓系统全球碎片化的主要原因是大部分国产品牌手机都没有安装谷歌服务,对于外国人的来说安装了谷歌服务的安卓手机才是完整的。然而中国…

linux设置基础软件仓库时,安装centos系统时设置基础软件仓库出错

安装centos系统时设置基础软件仓库出错,公钥,命令,视频教程,器上,提示安装centos系统时设置基础软件仓库出错易采站长站,站长之家为您整理了安装centos系统时设置基础软件仓库出错的相关内容。1、首先登录CentOS服务器,连接上服务器之后我们使用yum remo…

C 11实现的100行线程池

【导读】:C 线程池一直都是各位程序员们造轮子的首选项目之一。今天,小编带大家一起来看看这个轻量的线程池,本线程池是header-only的,并且整个文件只有100行,其中C 的高级用法有很多,很值得我们学习&#…

tensorflow2 目标检测_基于光流的视频目标检测系列文章解读

作者:平凡的外卖小哥全文5747字,预计阅读时间15分钟1 简介目前针对于图片的目标检测的方法大致分为两类:faster R-CNN/R-FCN一类:此类方法在进行bbox回归和分类之前,必须通过region proposal network(RPN)得到RoI&…

sts集成jboss_如何为JBoss Developer Studio 8设置集成和SOA工具

sts集成jboss最新的JBoss Developer Studio(JBDS)的发布带来了有关如何开始使用尚未安装的各种JBoss Integration和BPM产品工具集的问题。 在本系列文章中,我们将为您概述如何安装每套工具并说明它们支持哪些产品。 这将有助于您在着手进行…

C 多线程的互斥锁应用RAII机制

什么是RAII机制RAII是Resource Acquisition Is Initialization(翻译成 “资源获取即初始化”)的简称,是C 语言的一种管理资源、避免资源泄漏的惯用法,该方法依赖构造函数资和析构函数的执行机制。RAII的做法是使用一个类对象&…

c iostream.源码_通达信《K线上画趋势线预警》精选指标(附源码)

通达信《K线上画趋势线预警》精选指标K线上画趋势线预警源码:N:5;MA5:EMA(C,5)COLORWHITE;MA13:EMA(C,13)COLORCYAN;MA21:EMA(C,21)COLORMAGENTA;MA34:EMA(C,34)COLORYELLOW;MA55:EMA(C,55)COLORRED;{画线}A1:REF(H,N)HHV(H,2*N1);B1:FILTER(A1,N);C1:BACKSET(B1,N1…

linux module原理,NodeJS的模块原理

最近一直在使用Node JS,在网上看到了一段代码我觉得完美的诠释了Node JS模块加载的原理,其实深究下去,它还诠释了许多东西:Js模块化编程、闭包的真正强大之处等等。闲话不说,先看看这段代码:// - hello.jsv…

C 20 协程初探

【导读】:C 20 终于引入了协程特性,给库作者提供了一个实现协程的机制,让用户方便使用协程来编写异步逻辑,降低了异步并发编程的难度。结合我最近协程的学习,在这里记录一下相关内容。以下是正文使用场景协程和普通函数…

如何写一个简单的node.js C 扩展

node 是由 c 编写的,核心的 node 模块也都是由 c 代码来实现,所以同样 node 也开放了让使用者编写 c 扩展来实现一些操作的窗口。如果大家对于 require 函数的描述还有印象的话,就会记得如果不写文件后缀,它是有一个特定的匹配规则…

在线画 有穷状态自动机 的软件_怎么画思维导图?不用下载软件,在线就能操作...

怎么画思维导图?在工作中,除了流程图,脑图也是很重要的一个存在:流程图帮助我们快速完成任务,而脑图告诉我们任务本质。画思维导图是一个积累的过程,急不来,对于新手来说还是有一定难度的。由于…

Spring Boot Actuator:在其顶部具有MVC层的自定义端点

Spring Boot Actuator端点允许您监视应用程序并与之交互。 Spring Boot包含许多内置端点,您也可以添加自己的端点。 添加自定义端点就像创建一个从org.springframework.boot.actuate.endpoint.AbstractEndpoint扩展的类一样容易。 但是Spring Boot Actuator也提供了…

422器件与lvds接收器的区别_SPI、I2C、UART三种串行总线的原理、区别

SPI、I2C、串口、我相信如果你是从事的是嵌入式开发,一定会用到这三种通信协议,串口的话因为和波特率有关,所以一般的CPU或者MCU只会配有两个或者三个串口,而数据的传输,的话SPI和I2C用得会比较多区别:1、U…

C 的 6 种内存顺序,你都知道吗?

原子操作的内存顺序有六个内存顺序选项可应用于对原子类型的操作:1. memory_order_relaxed2. memory_order_consume3. memory_order_acquire4. memory_order_release5. memory_order_acq_rel6. memory_order_seq_cst。除非你为特定的操作指定一个顺序选项&#xff0…

易语言 网页用什么编码_通常提到的编码器是干什么用的

编码器(encoder)是将信号(如比特流)或数据进行编制、转换为可用以通讯、传输和存储的信号形式的设备。编码器把角位移或直线位移转换成电信号,前者成为码盘,后者称码尺.按照读出方式编码器可以分…

如何优雅地实现 C 编译期静态反射

部门请来了软件专家袁英杰咨询师指导我们软件开发,从中我也学到了很多姿势,在此记录下来宝贵的经验。苹果的 mbp 品控真是差劲,写这个东西把 LShift 键 按坏了,真是难受。反射能做什么最近和大师聊软件设计,其中一个点…