6分钟完成ImageNet训练,NVIDIA创下六项AI性能新记录!

640?wx_fmt=png

来源:智东西


自AlphaGo引爆人工智能大潮以来,其中的大热门——机器学习,不仅在计算机视觉、语音处理等领域不断突破技术的瓶颈,而且开始快速普及到安防、金融、医疗等多个传统行业。从刷脸支付到个性化推荐,机器学习已经影响了人们生活的方方面面。


众所周知,统一规范的行业标准有助于推动良性竞争,从而催化底层技术升级和行业发展。然而,机器学习领域长期缺乏统一标准。


直到去年,硅谷AI芯片的一半大佬与以图灵奖得主为代表的学术大咖联手解决了这一问题——共同发布了全球首个用于测量和提高机器学习软硬件性能的国际基准测试MLPerf。MLPerf提供了神经网络常执行的7项任务,在谷歌、英特尔、NVIDIA均参与的首批测试结果中,NVIDIA在6项测试中拔得头筹。


以下为整理呈现的干货:


640?wx_fmt=png

AI基准测试大丰收!NVIDIA摘得六项桂冠


得益于算力的提升,机器学习在近几年突飞猛进地发展。训练和推理作为机器学习的两个重要环节,对算力提出了不同的需求。在训练领域,有GPU一家独大,在推理领域,则百花齐放各显神通。


为了解及其学习的对比评测问题,谷歌、百度、英特尔、NVIDIA、斯坦福等数十家产学界巨擘联合打造了一个全新高端基准测试套件——MLPerf基准测试,这也是世界上是第一个客观的机器学习性能评测标准,覆盖了物体识别、语言翻译等7类最常见的机器学习任务。


该基准测试针对不同任务设置了不同基准,并沿用了哈佛大学Fathom和斯坦福大学DAWNBench的一些评测思路,最终取达到目标质量的平均训练时间作为最终评估标准,同时保证足够的代表性和公正性。


640?wx_fmt=png


首轮主流机器学习硬件平台的竞赛结果已经公布在MLPerf官网上。其中表现最为亮眼的当属NVIDIA,它不仅是唯一一家参与多达6项基准测试的公司,而且在6项测试结果中,均以遥遥领先的成绩拿下第一名。


NVIDIA硬件产品不仅在上图测试榜单中性能表现突出,而且相较其自身前几代产品也进步飞速。例如在图像分类项目中,NVIDIA主打的Tesla K80需要用25天完成任务,短短三年间,DGX集群把时间缩短到了6.3分钟,性能大幅提升。


640?wx_fmt=png


640?wx_fmt=png

专为深度学习设计:DGX-1的两大创新黑科技


在MLPerf大规模测试的物体检测和非递归翻译测试分项中,NVIDIA分别用时72.1分钟和2.7分钟,这些抢眼表现均归功于NVIDIA DGX-1集群。而DGX-1之所以在机器学习方面有着位居市场前列的性能,则源自NVIDIA专为深度学习设计的两大创新技术。


1、深度学习专用核心:Tensor核心


Tensor核心是一种新兴张量处理核心,是NVIDIA专为深度学习应用而设计的专用ASIC单元,能在一个时钟周期内实现两个4×4矩阵的乘法和一个4×4矩阵的加法。它与Volta的其他微架构整合在一起,已支持Caffe、TensorFlow等越来越多的深度学习框架。


Tensor核心的矩阵乘累加计算是一种混合精度运算,NVIDIA提供两种方式来用Tensor核心实现矩阵乘法加速。一个是在CUDA编程里实现Tensor核心的调用,另一个是利用cuDNN 7.0、TensorRT3.0等现成库函数来调用Tensor核心。


640?wx_fmt=png

640?wx_fmt=png


得益于Tensor核心的超强加速能力,Volta产品实现3倍于上一代产品的性能突破。Tensor核心在训练方面可提供高达12倍的TFLOPS峰值,在推理方面可提供6倍的TFLOPS峰值。


正是有这一超强核心的加持,NVIDIA陆续推出堪称深度学习核弹的NVIDIA Tesla V100加速器,以及性能媲美250台CPU服务器的超级计算机DGX-1。


2、超快数据交换:NVLink


单节点本地内存不足的问题一直是阻碍大规模并行计算的一大难题,为了实现高效的数据传输,不仅需要有超强的GPU,还对GPU与GPU、CPU以及节点内其他设备间的数据交换通道带宽有着更高的要求。


在NVLink问世之前,GPU并行计算通过PCle总线来实现。彼时GPU通信双向带宽可达到32GB/s,而NVLink的出现彻底碾压了PCle。NVLink具有25GB/s的单向带宽、50GB/s的双向带宽。整合6条NVLink总线后,GPU的总带宽可以提速至300GB/s,比PCle 3.0足足快了将近10倍。


640?wx_fmt=png


NVLink是NVIDIA打造的世界上第一个灵活可扩展的高速GPU互连方案,采用NVIDIA全新高速信号互联技术(NVHS),通过差分对传输数据,速率高达25Gb/s,单个链路支持端点间高达50GB/s的双向带宽,多个链路整合在一起,就能实现处理器间更高的带宽。


以拥有6个NVLink链路的Tesla V100为例,采用NVLink总线的V100相比采用PCle总线,能将相同配置服务器的总体性能提高约30%。


640?wx_fmt=png

从V100 GPU到DGX-1深度学习超级计算机


Tensor 核心在被誉为“宇宙最快GPU”的Tesla V100 GPU加速器中体现,集合Tensor核心和NVLink两大创新技术于一体的正是超强算力的集大成者DGX-1深度学习超级计算机的核心组件。


1、V100 GPU加速器


640?wx_fmt=png


Tesla V100 GPU加速器是NVIDIA性能强大的通用GPU,可同时实现AI训练、AI推理、HPC的加速。一个Tesla V100芯片采用12nm工艺设计,面积为815平方毫米,包含210亿颗晶体管,共有5120个CUDA核心和640个Tensor核心,并支持300GB/s双向带宽的NVLink2.0高速互联总线协议。单个V100 GPU 可提供高达100个CPU的性能。


640?wx_fmt=png


看中V100所能提供的业界顶级算力,美国橡树岭国家实验室的Summit超级计算机搭建了超过3400台Tesla V100 GPU服务器,其浮点计算性能较上一代超级计算机Titan提升约10倍。此外,日本国家先进工业科学和计算研究所(AIST)也在其数据中心部署4352颗V100 GPU,能实现37 petaFLOPS的双精度浮点计算性能。


Tesla V100已经如此能打,集成了8颗V100的DGX-1超级计算机更是成为加速深度学习应用开发的基础。


2、DGX-1深度学习超级计算机


最后,我们来看看NVIDIA拿下6项MLPerf基准测试第一名的头号功臣DGX-1。它是一个高性能、全栈式深度学习超级计算机,内置8颗Tesla V100 GPU,混合精度算力可达1 petaFLOPS。


640?wx_fmt=png


DGX-1不仅拥有超强的硬件配置,还提供全集成的NVIDIA DGX软件堆栈,能够提供比普通GPU服务器环境更强大的性能,实现深度学习研发环境快速部署。


如今,DGX-1已列入许多国内外科研机构的入手清单。以北京大学数字媒体所为例,他们利用DGX-1来加速深度学习系统模型训练的效率,尤其在视频行为识别和视频编解码等方面提升明显。


从制造业、癌症研究到自动驾驶,DGX-1在产业界的应用更加广泛。例如网易感知与智能中心就采用DGX-1,为网易全产业链的AI落地提供算力支撑;在金融行业,当下有几个主要的银行和保险公司也开始使用DGX-1快速处理数据,从而增加评估损失的准确率。


通过MLPerf基准测试公布的首轮结果,我们直观地看到了英特尔、谷歌、NVIDIA不同架构的硬件产品在多个机器学习领域的正面较量。其中,NVIDIA DGX-1深度学习超级计算机横扫六项AI性能第一,展现超强技术实力,强力推动AI研究的发展。


回溯到过去两年,NVIDIA GPU在一系列创新技术的加持下,实现了加速性能大爆发,以强大的浮点计算能力、更低成本和完整生态体系的优势,帮助越来越多的企业实现智能化升级。


尽管MLPerf基准测试还在完善中,它已经开始在机器学习领域为产学界提供高公信力的数据参考,从长远来看,将推动机器学习硬件良性竞争,催化技术的创新与突破。


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。


  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”


640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/492598.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在POM 4中,dependency中还引入了scope可以使用5个值

在POM 4中&#xff0c;<dependency>中还引入了<scope>&#xff0c;它主要管理依赖的部署。目前<scope>可以使用5个值&#xff1a; * compile&#xff0c;缺省值&#xff0c;适用于所有阶段&#xff0c;会随着项目一起发布。 * provided&#xff0c;类似compi…

一文看尽2019 MWC十大新机

来源&#xff1a;网易智能、网易手机一年一度的世界移动通信大会&#xff08;MWC 2019&#xff09;在巴塞罗那正式拉开了帷幕&#xff0c;今年的MWC因为有了折叠屏的加入&#xff0c;看点更足&#xff0c;同时随着5G技术与5G设备的推进&#xff0c;整场大会逛下来&#xff0c;相…

git add 命令的一个习惯用法:逐个挑选改动

普通的git命令入门级的介绍中一般都用“git add .” 或者“git add -a”, 而在实际工作中这种用法稍不注意会给你带来麻烦&#xff0c;经常提交你不希望的改动&#xff1a;一些自动编译成成的文件或者一些debug目的写入的log输出代码等等。 随着经验值的提高&#xff0c;某一天…

程序猿接私活经验总结,来自csdn论坛语录

下面为网上摘录&#xff0c;以做笔记&#xff1a; 但是到网上看看&#xff0c;似乎接私活也有非常多不easy&#xff0c;技术问题本身是个因素&#xff0c;还有非常多有技术的人接私活时被骗&#xff0c;或者是合作到最后以失败告终&#xff0c;所以想请有经验的大侠们出来指点一…

《世界因你而不同-李开复自传》读书笔记(1/3)

《世界因你而不同-李开复自传》读书笔记&#xff08;1/3&#xff09;在中国&#xff0c;父母对孩子特别关爱&#xff0c;生怕孩子受一点伤害&#xff0c;不愿让孩子冒险尝试与众不同的东西。其实&#xff0c;孩子从小就需要独立性、责任心、选择力和判断力。 如果我们将学过的东…

Unity(一)Unity脚本程序开发

最近实验室有AR的项目&#xff0c;需要用Unity进行开发&#xff0c;一边学习一边把知识总结下来。在开始项目之前讨论过项目的技术方案&#xff0c;用Unity开发还是用Unreal开发&#xff0c;本人在两种游戏引擎上都有过初步的接触&#xff0c;认为Unreal作为后起之秀确实在某种…

新型人造DNA结构信息密度加倍

来源&#xff1a;中国科学报脱氧核糖核酸&#xff08;DNA&#xff09;中存储着遗传代码。它由4种核苷酸组成&#xff0c;以4个不同字母表示。美国研究人员最新合成一种由8个字母组成的新型DNA结构。其信息存储密度加倍&#xff0c;未来有望应用于合成生物等领域。DNA是存储及传…

android studio升级时提示 Connection failed. Please check your network connection and try again

原文地址 http://www.eyeapk.com/android-studio-update.html Mac OSX中修改文件路径为 bin/idea.vmoptions &#xff0c;添加如下内容&#xff0c;如果无效修改http为https试试看 -Djava.net.preferIPv4Stacktrue -Didea.updates.urlhttp://dl.google.com/android/studio/patc…

未来的农业没有农民

来源 &#xff1a; science robotics作者 &#xff1a;Senthold Asseng、Frank Asche编译&#xff1a;机器之能 微胖摘要&#xff1a;本文取自最新一期Science Robotics 的Future farms without farmers 一文。文章认为&#xff0c;未来农场的所有组成部分已经存在。随着时间的…

模式识别与机器学习笔记(一)

本系列博文是对研一课程《模式识别与机器学习》的随堂笔记&#xff0c;希望将老师所讲的与自己的见解记录下来&#xff0c;方便加深自己的理解以及以后复习查看&#xff0c;笔记完全按照老师所讲顺序&#xff0c;欢迎交流。 一、模式识别与机器学习的基本问题 机器学习主要解…

MYSQL 定时任务

设置定时任务时&#xff0c;首先将event_scheduler设置为1&#xff0c;以开启事件计划功能。 1.开启功能----------------------------------------执行命令 set global event_scheduler1; select event_scheduler;----------------------------------------OR ---------------…

重磅推荐:中国人工智能趋势报告(完整版)

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能&#xff0c;互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括&#xff1a;建立AI智能系统智商评测体系&#xff0c;开展世界人工智能智商评测&#xff1b;开展互联网&#xff08;城市&#xff09;云…

模式识别与机器学习笔记(二)机器学习的基础理论

机器学习是一门对数学有很高要求的学科&#xff0c;在正式开始学习之前&#xff0c;我们需要掌握一定的数学理论&#xff0c;主要包括概率论、决策论、信息论。 一、极大似然估计&#xff08;Maximam Likelihood Estimation&#xff0c;MLE &#xff09; 在了解极大似然估计之…

POJ 3660 Cow Contest【传递闭包】

解题思路&#xff1a;给出n头牛&#xff0c;和这n头牛之间的m场比赛结果&#xff0c;问最后能知道多少头牛的排名。 首先考虑排名怎么想&#xff0c;如果知道一头牛打败了a头牛&#xff0c;以及b头牛打赢了这头牛&#xff0c;那么当且仅当ab1n时可以知道排名&#xff0c;即为此…

Cell Stem Cell:研究人员开发出大脑类器官用于研究认知障碍!

图片来源&#xff1a;Cell Stem Cell来源&#xff1a;细胞摘要&#xff1a;来自耶鲁大学的研究人员近日在实验室培养皿中模拟了两种大脑结构以及它们之间的相互作用&#xff0c;为揭示神经精神疾病的起因带来了曙光。耶鲁大学遗传学副教授In-Hyun Park及其团队创造了大脑中丘脑…

图像处理与图像识别笔记(一)

本系列是研一课程《图像处理与图像识别》的随堂笔记&#xff0c;主要内容是数字图像处理方面&#xff0c;根据老师的讲课内容与自己的理解所书写&#xff0c;还会有一些具体实现的代码&#xff0c;基于Python&#xff0c;欢迎交流。本篇主要介绍图像处理与图像识别的基础知识。…

java日期处理总结

1.java.sql.Date 从数据库中取出的日期格式(rs.getDate())是java.sql.Date&#xff0c;这是java.util.Date的子类。查询API后发现可用的方法很少。包含构造只有4个&#xff1a; Date(long date) 使用给定毫秒时间值构造一个 Date 对象。voidsetTime(long date) …

神经网络的黎明

来源&#xff1a;中信出版社摘要&#xff1a;任何人工智能的难题都可以被解决。唯一能证明这一论断成立的是这样一个事实&#xff1a;自然界通过进化已经解决了这些难题。但在20 世纪50年代就已经存在各种暗示&#xff0c;如果AI 研究者能够选择完全不同于符号处理的方式&#…

计算机视觉(一)概述

一、什么是计算机视觉 计算机视觉(Computer Vision)是一门如何使计算机“看”的学问&#xff0c;让摄像头和电脑代替人眼对目标进行识别、跟踪、测量等机器视觉。计算机视觉能够模拟人类视觉的优越的能力&#xff0c;如识别物体、估计立体空间与距离、躲避障碍、理解图像、想象…

Php通过gsoap调用c++ websevice

&#xfeff;&#xfeff;Php通过gsoap调用c websevice 由于工作的关系&#xff0c;需要通过php调用c使用gsoap编写的websevice&#xff0c;其中遇到了很多困难&#xff0c;特此进行总结如下&#xff0c;也方便大家以后的使用和提高。 其中服务端采用c编写而成&#xff0c;客户…