6分钟完成ImageNet训练,NVIDIA创下六项AI性能新记录!

640?wx_fmt=png

来源:智东西


自AlphaGo引爆人工智能大潮以来,其中的大热门——机器学习,不仅在计算机视觉、语音处理等领域不断突破技术的瓶颈,而且开始快速普及到安防、金融、医疗等多个传统行业。从刷脸支付到个性化推荐,机器学习已经影响了人们生活的方方面面。


众所周知,统一规范的行业标准有助于推动良性竞争,从而催化底层技术升级和行业发展。然而,机器学习领域长期缺乏统一标准。


直到去年,硅谷AI芯片的一半大佬与以图灵奖得主为代表的学术大咖联手解决了这一问题——共同发布了全球首个用于测量和提高机器学习软硬件性能的国际基准测试MLPerf。MLPerf提供了神经网络常执行的7项任务,在谷歌、英特尔、NVIDIA均参与的首批测试结果中,NVIDIA在6项测试中拔得头筹。


以下为整理呈现的干货:


640?wx_fmt=png

AI基准测试大丰收!NVIDIA摘得六项桂冠


得益于算力的提升,机器学习在近几年突飞猛进地发展。训练和推理作为机器学习的两个重要环节,对算力提出了不同的需求。在训练领域,有GPU一家独大,在推理领域,则百花齐放各显神通。


为了解及其学习的对比评测问题,谷歌、百度、英特尔、NVIDIA、斯坦福等数十家产学界巨擘联合打造了一个全新高端基准测试套件——MLPerf基准测试,这也是世界上是第一个客观的机器学习性能评测标准,覆盖了物体识别、语言翻译等7类最常见的机器学习任务。


该基准测试针对不同任务设置了不同基准,并沿用了哈佛大学Fathom和斯坦福大学DAWNBench的一些评测思路,最终取达到目标质量的平均训练时间作为最终评估标准,同时保证足够的代表性和公正性。


640?wx_fmt=png


首轮主流机器学习硬件平台的竞赛结果已经公布在MLPerf官网上。其中表现最为亮眼的当属NVIDIA,它不仅是唯一一家参与多达6项基准测试的公司,而且在6项测试结果中,均以遥遥领先的成绩拿下第一名。


NVIDIA硬件产品不仅在上图测试榜单中性能表现突出,而且相较其自身前几代产品也进步飞速。例如在图像分类项目中,NVIDIA主打的Tesla K80需要用25天完成任务,短短三年间,DGX集群把时间缩短到了6.3分钟,性能大幅提升。


640?wx_fmt=png


640?wx_fmt=png

专为深度学习设计:DGX-1的两大创新黑科技


在MLPerf大规模测试的物体检测和非递归翻译测试分项中,NVIDIA分别用时72.1分钟和2.7分钟,这些抢眼表现均归功于NVIDIA DGX-1集群。而DGX-1之所以在机器学习方面有着位居市场前列的性能,则源自NVIDIA专为深度学习设计的两大创新技术。


1、深度学习专用核心:Tensor核心


Tensor核心是一种新兴张量处理核心,是NVIDIA专为深度学习应用而设计的专用ASIC单元,能在一个时钟周期内实现两个4×4矩阵的乘法和一个4×4矩阵的加法。它与Volta的其他微架构整合在一起,已支持Caffe、TensorFlow等越来越多的深度学习框架。


Tensor核心的矩阵乘累加计算是一种混合精度运算,NVIDIA提供两种方式来用Tensor核心实现矩阵乘法加速。一个是在CUDA编程里实现Tensor核心的调用,另一个是利用cuDNN 7.0、TensorRT3.0等现成库函数来调用Tensor核心。


640?wx_fmt=png

640?wx_fmt=png


得益于Tensor核心的超强加速能力,Volta产品实现3倍于上一代产品的性能突破。Tensor核心在训练方面可提供高达12倍的TFLOPS峰值,在推理方面可提供6倍的TFLOPS峰值。


正是有这一超强核心的加持,NVIDIA陆续推出堪称深度学习核弹的NVIDIA Tesla V100加速器,以及性能媲美250台CPU服务器的超级计算机DGX-1。


2、超快数据交换:NVLink


单节点本地内存不足的问题一直是阻碍大规模并行计算的一大难题,为了实现高效的数据传输,不仅需要有超强的GPU,还对GPU与GPU、CPU以及节点内其他设备间的数据交换通道带宽有着更高的要求。


在NVLink问世之前,GPU并行计算通过PCle总线来实现。彼时GPU通信双向带宽可达到32GB/s,而NVLink的出现彻底碾压了PCle。NVLink具有25GB/s的单向带宽、50GB/s的双向带宽。整合6条NVLink总线后,GPU的总带宽可以提速至300GB/s,比PCle 3.0足足快了将近10倍。


640?wx_fmt=png


NVLink是NVIDIA打造的世界上第一个灵活可扩展的高速GPU互连方案,采用NVIDIA全新高速信号互联技术(NVHS),通过差分对传输数据,速率高达25Gb/s,单个链路支持端点间高达50GB/s的双向带宽,多个链路整合在一起,就能实现处理器间更高的带宽。


以拥有6个NVLink链路的Tesla V100为例,采用NVLink总线的V100相比采用PCle总线,能将相同配置服务器的总体性能提高约30%。


640?wx_fmt=png

从V100 GPU到DGX-1深度学习超级计算机


Tensor 核心在被誉为“宇宙最快GPU”的Tesla V100 GPU加速器中体现,集合Tensor核心和NVLink两大创新技术于一体的正是超强算力的集大成者DGX-1深度学习超级计算机的核心组件。


1、V100 GPU加速器


640?wx_fmt=png


Tesla V100 GPU加速器是NVIDIA性能强大的通用GPU,可同时实现AI训练、AI推理、HPC的加速。一个Tesla V100芯片采用12nm工艺设计,面积为815平方毫米,包含210亿颗晶体管,共有5120个CUDA核心和640个Tensor核心,并支持300GB/s双向带宽的NVLink2.0高速互联总线协议。单个V100 GPU 可提供高达100个CPU的性能。


640?wx_fmt=png


看中V100所能提供的业界顶级算力,美国橡树岭国家实验室的Summit超级计算机搭建了超过3400台Tesla V100 GPU服务器,其浮点计算性能较上一代超级计算机Titan提升约10倍。此外,日本国家先进工业科学和计算研究所(AIST)也在其数据中心部署4352颗V100 GPU,能实现37 petaFLOPS的双精度浮点计算性能。


Tesla V100已经如此能打,集成了8颗V100的DGX-1超级计算机更是成为加速深度学习应用开发的基础。


2、DGX-1深度学习超级计算机


最后,我们来看看NVIDIA拿下6项MLPerf基准测试第一名的头号功臣DGX-1。它是一个高性能、全栈式深度学习超级计算机,内置8颗Tesla V100 GPU,混合精度算力可达1 petaFLOPS。


640?wx_fmt=png


DGX-1不仅拥有超强的硬件配置,还提供全集成的NVIDIA DGX软件堆栈,能够提供比普通GPU服务器环境更强大的性能,实现深度学习研发环境快速部署。


如今,DGX-1已列入许多国内外科研机构的入手清单。以北京大学数字媒体所为例,他们利用DGX-1来加速深度学习系统模型训练的效率,尤其在视频行为识别和视频编解码等方面提升明显。


从制造业、癌症研究到自动驾驶,DGX-1在产业界的应用更加广泛。例如网易感知与智能中心就采用DGX-1,为网易全产业链的AI落地提供算力支撑;在金融行业,当下有几个主要的银行和保险公司也开始使用DGX-1快速处理数据,从而增加评估损失的准确率。


通过MLPerf基准测试公布的首轮结果,我们直观地看到了英特尔、谷歌、NVIDIA不同架构的硬件产品在多个机器学习领域的正面较量。其中,NVIDIA DGX-1深度学习超级计算机横扫六项AI性能第一,展现超强技术实力,强力推动AI研究的发展。


回溯到过去两年,NVIDIA GPU在一系列创新技术的加持下,实现了加速性能大爆发,以强大的浮点计算能力、更低成本和完整生态体系的优势,帮助越来越多的企业实现智能化升级。


尽管MLPerf基准测试还在完善中,它已经开始在机器学习领域为产学界提供高公信力的数据参考,从长远来看,将推动机器学习硬件良性竞争,催化技术的创新与突破。


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。


  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”


640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/492598.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一文看尽2019 MWC十大新机

来源:网易智能、网易手机一年一度的世界移动通信大会(MWC 2019)在巴塞罗那正式拉开了帷幕,今年的MWC因为有了折叠屏的加入,看点更足,同时随着5G技术与5G设备的推进,整场大会逛下来,相…

新型人造DNA结构信息密度加倍

来源:中国科学报脱氧核糖核酸(DNA)中存储着遗传代码。它由4种核苷酸组成,以4个不同字母表示。美国研究人员最新合成一种由8个字母组成的新型DNA结构。其信息存储密度加倍,未来有望应用于合成生物等领域。DNA是存储及传…

未来的农业没有农民

来源 : science robotics作者 :Senthold Asseng、Frank Asche编译:机器之能 微胖摘要:本文取自最新一期Science Robotics 的Future farms without farmers 一文。文章认为,未来农场的所有组成部分已经存在。随着时间的…

模式识别与机器学习笔记(一)

本系列博文是对研一课程《模式识别与机器学习》的随堂笔记,希望将老师所讲的与自己的见解记录下来,方便加深自己的理解以及以后复习查看,笔记完全按照老师所讲顺序,欢迎交流。 一、模式识别与机器学习的基本问题 机器学习主要解…

重磅推荐:中国人工智能趋势报告(完整版)

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云…

模式识别与机器学习笔记(二)机器学习的基础理论

机器学习是一门对数学有很高要求的学科,在正式开始学习之前,我们需要掌握一定的数学理论,主要包括概率论、决策论、信息论。 一、极大似然估计(Maximam Likelihood Estimation,MLE ) 在了解极大似然估计之…

Cell Stem Cell:研究人员开发出大脑类器官用于研究认知障碍!

图片来源:Cell Stem Cell来源:细胞摘要:来自耶鲁大学的研究人员近日在实验室培养皿中模拟了两种大脑结构以及它们之间的相互作用,为揭示神经精神疾病的起因带来了曙光。耶鲁大学遗传学副教授In-Hyun Park及其团队创造了大脑中丘脑…

图像处理与图像识别笔记(一)

本系列是研一课程《图像处理与图像识别》的随堂笔记,主要内容是数字图像处理方面,根据老师的讲课内容与自己的理解所书写,还会有一些具体实现的代码,基于Python,欢迎交流。本篇主要介绍图像处理与图像识别的基础知识。…

java日期处理总结

1.java.sql.Date 从数据库中取出的日期格式(rs.getDate())是java.sql.Date,这是java.util.Date的子类。查询API后发现可用的方法很少。包含构造只有4个: Date(long date) 使用给定毫秒时间值构造一个 Date 对象。voidsetTime(long date) …

神经网络的黎明

来源:中信出版社摘要:任何人工智能的难题都可以被解决。唯一能证明这一论断成立的是这样一个事实:自然界通过进化已经解决了这些难题。但在20 世纪50年代就已经存在各种暗示,如果AI 研究者能够选择完全不同于符号处理的方式&#…

计算机视觉(一)概述

一、什么是计算机视觉 计算机视觉(Computer Vision)是一门如何使计算机“看”的学问,让摄像头和电脑代替人眼对目标进行识别、跟踪、测量等机器视觉。计算机视觉能够模拟人类视觉的优越的能力,如识别物体、估计立体空间与距离、躲避障碍、理解图像、想象…

图像处理与图像识别笔记(二)图像变换

在本章节中,将介绍几种常用的图像变换的方法,即利用数学公式将图像变换成另一种具有特定物理意义的图像,通过新的图像,我们可以观察出原图像的某些特性,且可以对原图像进行滤波、压缩等图像处理的操作,包括…

图解|2018年度中国科学十大进展

来源:锐科技 2019年2月27日,科技部基础研究管理中心召开“2018年度中国科学十大进展专家解读会”,发布了2018年度中国科学十大进展。以下10项重大科学进展入选:01 基于体细胞核移植技术成功克隆出猕猴02 创建出首例人造单染色体真…

《麻省理工学院技术评论》评出最新十大突破性技术

来源:新华网摘要:全球知名科技评论期刊《麻省理工学院技术评论》27日发布2019年“全球十大突破性技术”,灵巧机器人、核能新浪潮、定制癌症疫苗、人造肉汉堡等入选。这份期刊的中文版官网当天发布公报说,今年是该杂志创刊120周年&…

图像处理与图像识别笔记(三)图像增强1

图像增强的目的是为了改善图像的视觉效果,为了更便于人或机器的分析和处理,在不考虑图像降质(前提)的情况下,提高图像的可观性。灰度变换是一种典型的图像增强方法,我们通常把图像处理按照处理方法分成空域…

图像处理与图像识别笔记(五)图像增强2

上一节中我们讲解了灰度变换的原理以及实现方法,本节我们讲解空域滤波增强,与灰度变换相同,空域滤波增强是一种空域处理的方法,不过空域滤波不是一种对点做处理的方法,而是利用相邻像素间的关系进行增强。空域滤波可以…

欧洲两个研究团队开发出了让截肢者能感觉到并准确抓住物体的仿生手

来源:IEEE电气电子工程师学会摘要:在过去十年中,研究人员在开发能给用户提供触觉和压力感的触觉传感器方面取得了很大进展。如在你旁边正好有一个咖啡杯,那么拿起这个杯子,并注意下在不真正看着它的情况下做这件事有多…

【转】eclipse中egit插件使用

原文网址:http://my.oschina.net/songxinqiang/blog/192567 eclipse和git这个两个工具的使用人数都是相当多的,在eclipse里面也有egit插件来支持eclipse中使用git,但是网上的相关说明都是简单使用,或者没有说明白一些具体的问题&a…

全球AI芯片投资版图公开!机会都在这五大场景

来源:智东西摘要:过去一年,随着人工智能在各个行业的逐步落地,AI芯片的发展路径逐渐明朗。在行业走过野蛮生长,开始加速落地、加速整合的过程中,也有更多的AI芯片公司也开始走出属于自己的差异化路线。我们…

图像处理与图像识别笔记(六)图像增强3

上一章节中我们讲解了空域滤波的图像增强方法,包括图像的平滑和锐化,本文中,我们首先带来频域滤波的图像增强方法,指在频域中对图像进行变换,需要的基础知识是前述过的图像傅里叶变换,请查看学习。 一、频…