撑起百万亿参数模型想象力!英伟达发布新一代SuperPOD超算,AI算力新巅峰!

周一,黄教主又很淡定的在自家厨房里开完了GTC发布会。

众所周知,NLP领域的模型一个比一个大,自从百亿参数的Google T5出来后,大部分AI研究者只能望着手里的蹩脚算力兴叹。如今动辄就是千亿、万亿参数模型,目前比较流行的V100主机显然已经无法满足需求。而本周刚落幕的GTC发布会,则为如今的万亿模型想象力的时代提供了一份极其重要的保障,不仅使得造万亿模型都成为了可能,甚至打开了通往十万亿乃至更大想象力算力密集型AI模型之路的潘多拉魔盒。 这其中的关键,就是在本届GTC大会上全新升级的 DGX SuperPOD 。

为AI而生的超算

首先用一张图来类比DGX SuperPOD、DGX A100以及A100计算卡之间的关系:

DGX SuperPOD是专门为AI量身定制的大规模、安全、可扩展的超级计算机,不仅在整个企业范围内保护和扩展AI算力,并且还提供相关的配套软件来完成集群操作,帮助企业开发者更好的调度和管理算力。

如今人工智能已经几乎渗透到现代商业的方方面面,相应的,模型训练对算力的渴求也以持续呈指数级增长,并且远远未到边界。尤其是在自然语言处理、推荐系统和生物计算等AI核心业务应用上,动辄千亿、甚至万亿级别参数量的模型已经成为了当下的热门研究方向。

另一方面,随着AI对全领域的渗透,互联网公司也在谋求一种更加安全、便捷、大规模、可扩展、数据可隔离的集群式解决方案,从而为全公司的诸多业务和研究团队提供服务,以支持不断变化的项目需求和算力需求。

而DGX SuperPOD恰到好处的满足了这份想象力。

2019年,英伟达基于多台DGX系统构建了第一代SuperPOD 系统,该超算以远低于一般超算的成本和能耗跻身性能世界前20之列。

2020年,NVIDIA揭开了第二代SuperPOD的帷幕。该产品不但具有创纪录的性能,而且能够在短短三周内完成部署。它的出现使得构建世界一流AI超级计算集群所需的时间不再需要花费漫长的数个月。第二代SuperPOD基于DGX A100系统和Mellanox网络架构构建,其证明了可以凭借单个平台将全球最复杂语言理解模型的处理时间从数周缩短至一个小时之内。

而在本届GTC大会上,我们看到DGX SuperPOD又迎来了一波全面的升级。此外,新一代SuperPOD极大的解放了部署效率,大幅降低了AI算力集群的购置成本,并且具备算力线性扩展能力和完备的技术支持,使得这份AI巅峰算力具备切实的企业内落地能力。

算力巅峰,成本可期,撑起百万亿参数模型

相比上一代SuperPOD系统,本次新发布的SuperPOD配备了目前最先进的80GB显存的加强版A100,为SuperPOD带来最高可达 90TB 的HBM2显存,以及高达2.2EB/s的总带宽

这是什么概念呢?

以上图NLP发展轨迹为例,自2018年ELMo诞生之日起,NLP预训练语言模型的参数量就迎来了持续的指数爆炸级增长,如今语言模型参数量已经从三年前的不足1亿,爆炸式增长至1750亿。可以预见的是,按照这份增长速度,到2023年时,语言模型达到 100万亿 的参数量规模都是值得想象的。而SuperPOD高达90TB的HBM2显存容量,甚至可以撑起这份百万亿模型参数的想象力!

而在带宽方面,要知道,在传统的高性能计算解决方案中,若实现2.2EB/s的总带宽,需要多达11,000台CPU服务器,大约相当于有250个机柜的数据中心,比SuperPOD整整多了15倍!这意味着我们的数据中心仅需要很少的物理空间,就能装得下这份顶级算力。

这个代表如今AI算力巅峰的超算在价格上却离我们并不遥远,DGX SuperPOD的报价自 700万美元 起,并且6000万美元即可扩展至完整版的系统,实现高达 700 PetaFLOPs 的恐怖算力。

BlueField-2 DPU

值得注意的是,借助NVIDIA BlueField-2,新发布的SuperPOD成为了世界上首台云原生超级计算机,支持多租户共享,具备完全的数据隔离和裸机性能

云原生超级计算(Cloud-Native Supercomputing)是下一代超级计算的重要组成部分。云原生超级计算机将高性能计算与云计算服务的安全性和易用性相结合,换句话说,云原生超级计算为HPC云提供了一个与TOP500超级计算机一样强大的系统,多个用户可以安全地共享该系统,而不会牺牲其应用程序的性能。

NVIDIA以其最新的DGX SuperPOD形式向全球用户提供云原生超级计算机,其中就包括现已投入生产的NVIDIA BlueField-2数据处理单元DPU(Data Processing Unit)。

越来越多的企业需要将高性能AI计算推进到实操模式,在这种模式下,许多开发人员可以确保他们的工作像在云中一样安全且隔离。

NVIDIA BlueField-2 DPU 是针对企业级部署和支撑200 Gbps网络连接进行研发优化的计算模块。不仅企业获得了加速的,完全可编程的网络,同时该网络实现了零信任安全性以防止数据泄露,完美地隔离用户和数据,拥有和裸机同样的性能表现。

现在,每个DGX SuperPOD都具有此功能,在其中的每个DGX A100节点中集成了两个NVIDIA BlueField-2 DPU。IT管理员可以使用NVIDIA BlueField DPU的卸载,加速和隔离功能为共享的AI基础架构实施安全的多租户,而不会影响DGX SuperPOD的AI性能。

Base Command

Base Command Manager是为DGX SuperPOD配备的专用管理软件,负责协调 DGX SuperPOD 基础架构上的 AI 模型训练和相关操作,让世界各地的开发团队能够顺利开展工作。值得一提的是,Base Command也是英伟达内部使用的DGX管理和操作工具,其可以让多个用户和 IT 团队安全地访问、共享和操作 DGX SuperPOD 基础架构。

目前,英伟达正在使用Base Command为数千名工程师和200多个团队提供支持,每周使用超过100万个GPU小时。

Base Command Manager由用于大规模、多用户和多团队AI开发工作流的NVIDIA基本命令平台和用于集群管理的NVIDIA基本命令管理器组成。其中,基本命令平台提供了一个图形用户界面,其中包括一系列常用的工具,如Jupyter Notebook,以及完整的命令行API。团队leader也可以通过它设置项目优先级,评估、预测算力需求。

用户通过命令平台可以非常方便的管理自己的训练任务、计算环境、数据集和工作空间等,以及配置任务需要的计算量(GPU节点数)等。如下图所示,图形化界面非常直观友好。

此外,在基本命令平台上,我们可以非常清晰的看到所提交任务的运行时长、GPU利用率甚至更深层次的Tensor Core活跃度、显存活跃度、通信负载等实时参数变化,帮助我们深入的监控、监测和调试模型训练。如下图所示。

小时级超算部署效率

在传统的搭建流程中,一项关键性的工作就是要预先规划好你需要将你的基础设施扩展到多大的规模,然后开始构建网络架构,直至达到最终目标。虽然这种方法能够实现增长,但会产生大量前期成本。搭建一个传统的数据中心,不仅需要一个大型的专业技术团队,而且往往要耗费数个月才能完成,时间、空间和金钱成本高昂。

而新一代DGX SuperPOD不仅有着恐怖的计算性能,而且部署效率方面也有了极大的提升。实际证明,4名由英伟达专业调配的操作人员仅需不到1个小时,就能组装起一套由20台系统组成的DGX A100集群,并且凭借Mellanox的交换功能可以轻松地将多个系统互连在一起,以至最终达到SuperPOD的规模。此外,如前文所述,同等带宽下,新一代SuperPOD相比传统CPU集群更是可以节约高达15倍的数据中心物理空间。

凭借这种新的拓展方式,不仅超算的部署效率和成本控制有了极大的改善和保障,企业机构还可以实现近乎线性的算力扩展,而且每次增加这一个这种由20台DGX系统构成的SuperPOD模块时所产生的支出也将变得更少。

最后,贴一张GTC大会后的英伟达股价走势图

寻求报道、约稿、文案投放:
添加微信xixiaoyao-1,备注“商务合作”

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478696.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

每日优鲜小程序基础组件介绍

每日优鲜小程序基础组件介绍1.基础组件介绍2.基础组件的结构与作用3.基础组件的接入方法初次引入初始化更新与维护基础组件接入1.基础组件介绍 小程序基础组件基于每日优鲜主商城小程序业务实践演变而来。 基础组件的名称为:mini_app_base_module。 基础组件的项…

Redis 高负载下的中断优化

背景 2017年年初以来,随着Redis产品的用户量越来越大,接入服务越来越多,再加上美团点评Memcache和Redis两套缓存融合,Redis服务端的总体请求量从年初最开始日访问量百亿次级别上涨到高峰时段的万亿次级别,给运维和架构…

LeetCode 394. 字符串解码(栈)

1. 题目 给定一个经过编码的字符串,返回它解码后的字符串。 编码规则为: k[encoded_string],表示其中方括号内部的 encoded_string 正好重复 k 次。注意 k 保证为正整数。 你可以认为输入字符串总是有效的;输入字符串中没有额外的空格&…

90TB显存!英伟达发布新一代SuperPod超算,AI算力新巅峰!

周一,黄教主又很淡定的在自家厨房里开完了GTC发布会众所周知,NLP领域的模型一个比一个大,自从百亿参数的Google T5出来后,大部分AI研究者只能望着手里的蹩脚算力兴叹。如今动辄就是千亿、万亿参数模型,目前比较流行的V…

VS Code HtmlFindClass 插件介绍

这款插件诞生于工作中,在写大量的前端代码之后,发现有的工作比较重复,浪费时间,于是想能不能通过工具来解决。起初是拿Java写的,但是它不利于推广,因为很多前端同学不掌握Java。以至于是一直我自己在使用。…

论文浅尝 - ACL2020 | 一种用于关系三元组提取的级联二进制标记框架

论文笔记整理:窦春柳,天津大学硕士。链接:https://arxiv.org/pdf/1909.03227.pdf动机首先作者提出了问题,传统的关系抽取是不能很好的解决三元组重叠,如下图。从图中可以发现,传统的关系抽取针对Normal 类型…

LeetCode 733. 图像渲染(DFS/BFS)

文章目录1. 题目2. 解题2.1 DFS2.2 BFS1. 题目 有一幅以二维整数数组表示的图画,每一个整数表示该图画的像素值大小,数值在 0 到 65535 之间。 给你一个坐标 (sr, sc) 表示图像渲染开始的像素值(行 ,列)和一个新的颜…

美团外卖Android平台化架构演进实践

美团外卖自2013年创建以来,业务一直高速发展。目前美团外卖日完成订单量已突破1800万,成为美团点评最重要的业务之一。美团外卖的用户端入口,从单一的外卖独立App,拓展为外卖、美团、点评等多个App入口。美团外卖所承载的业务&…

Vue源码探究笔记

对于源代码分析有一个基本原则:要找到它的最早期的版本,比如1.0版本。1.0版本奠定了一款框架的基础结构,之后的版本迭代都是基于这套结构进行更新的。所以掌握了基础结构,那也就掌握了这个框架。这个原则适用于世界上绝大多数事务…

Jarvis:一个值得关注的多模态端到端人机对话框架,针对所有行业适配

说到应用级的人机对话框架,很多人可能首先想到的是RASA开源项目。不过,今天跟大家简要分享一个功能更为丰富、性能更为强劲的多模对话框架——Jarvis,非常值得对话系统从业者关注一下。Jarvis是英伟达于2019年发布的人机对话服务,…

技术动态 | 知识图谱构建的研究已走入下半场,但大规模落地应用仍需时间

本文转载自公众号:AI前线。作者 | 李冬梅 采访嘉宾 | 唐杰知识图谱是近年来人工智能技术蓬勃发展的核心驱动力之一,已广泛应用在金融、电商、医疗、政务等众多领域,经过短短几年的发展,热度依旧不减,未来,知…

LeetCode 542. 01 矩阵(BFS DP)

文章目录1. 题目2. 解题2.1 BFS2.2 DP动态规划1. 题目 给定一个由 0 和 1 组成的矩阵,找出每个元素到最近的 0 的距离。 两个相邻元素间的距离为 1 。 示例 1: 输入: 0 0 0 0 1 0 0 0 0 输出: 0 0 0 0 1 0 0 0 0示例 2: 输入: 0 0 0 0 1 0 1 1 1 输出: 0 0 0 0…

美团旅行销售绩效系统研发实践

背景 O2O是目前互联网竞争最激烈的领域之一,其重要的业务特征是有大规模的线下业务团队,他们分布在五湖四海,直接服务着数以百万的商家,责任很重,管理的难度巨大。能否通过技术手段,打造高效的线下团队&…

深入解析Node.js setTimeout方法的执行过程

深入了解setTimeout源码之前,本有两个选择。一是通过chromium源码分析,二是通过Node.js源码分析。后来发现第一种方案的源码获取成本太大,于是从Node官网获取了几十兆的代码用来了解。 当前的Node版本为:v10.16.0 setTimeout方法定…

别只关注GPT3!细如发丝的模型更具现实杀伤力!

这个世界上有两种极具难度的工程:第一种是把很平常的东西做到最大,例如把语言模型扩大成能够写诗写文写代码的GPT-3;而另一种恰恰相反,是把很平常的东西做到最小。 ----王苏语录GPT3自从诞生以来,便受到…

论文浅尝 - EMNLP2020 | 基于分组式对比学习的神经对话生成

论文笔记整理:叶宏彬,浙江大学计算机博士生。论文地址:https://arxiv.org/abs/2009.07543摘要:近年来,神经对话问答的产生已广受欢迎。现有对话模型学习中广泛采用了最大似然估计目标(MLE)。但是…

LeetCode 841. 钥匙和房间(DFS/BFS)

文章目录1. 题目2. 解题2.1 DFS2.2 BFS1. 题目 有 N 个房间,开始时你位于 0 号房间。每个房间有不同的号码:0,1,2,…,N-1,并且房间里可能有一些钥匙能使你进入下一个房间。 在形式上&#xff…

容器中用uwsgi协议部署注意的问题以及用flask部署

1 表示当前容器名 一般通过 docker exec -it 容器名 /bin/bash , 进入容器内部进行操作,比如安装环境,传输文件 2 4888 容器内部访问端口地址,如果对外开放api,需要对其进行映射,比如映射成11022,11022是对外访问的端…

美团点评金融平台Web前端技术体系

背景 随着美团点评金融业务的高速发展,前端研发数量从 2015 年的 1 个人,扩张到了现在横跨北上两地 8 个事业部的将近 150 人。业务新,团队新,前端领域框架技术又层出不穷,各个业务的研发团队在技术选择上没有明确的指…

参会邀请 - CCKS2020 | 2020全国知识图谱与语义计算大会(CCKS2020)明日开幕

本文转载自公众号: 中国中文信息学会。第十四届全国知识图谱与语义计算大会将于2020年11月12日-15日在南昌召开。会议由中国中文信息学会语言与知识计算专业委员会主办,由江西师范大学承办,智源社区提供社区支持。本次会议讲习班采用线上举行…