牵手大企,关于图形计算、HPC与AI,NVIDIA言有尽而意无穷!

戳蓝字“CSDN云计算”关注我们哦!

作者 | 晶少

出品 | CSDN云计算(ID:CSDNcloud)

在黄仁勋看来,随着摩尔定律消亡,GPU加速才是撬动未来高性能计算发展的有力杠杆。有数据显示,目前NVIDIA已经销售了超过15亿块GPU,而这些GPU由于采用了同一架构,均能兼容CUDA。

不仅仅如此,身着经典皮衣的黄教主更认为硬件的“登峰造极”不仅仅局限于芯片,只有软件得到相应性能的完整优化,未来的多GPU才能彰显最出色的处理能力。基于此,NVIDIA在CUDA平台上配置了相当丰富的软件库,并且选择在去年一整年推出了超过500个相应的SDK以及库来不断改进NVIDIA的软件栈。有数据显示,通过这些专门的SKU,NVIDIA的产品在过去三年的深度学习性能提升了4倍,而深度学习推理性能也相应提升了2倍。列举如此多样的软件升级,要说目前实在硬核的NVIDIA软件创新,当属最新一代推理软件开发套件NVIDIA TensorRT 7编译器的推出。

晶少了解到,TensorRT作为一种计算图优化编译器能够优化推理实现实时AI会话,将TensorFlow的输出结果进行优化,简单理解位可以高效寻找计算途中可以融合的节点,从而减少计算和内容的访问来进行CUDA码的优化,值得提及的是可以运行在任何GPU上。

“去年我们在中国发布了TensorRT 5,可以处理CNN,而且是在图形的同一层将边缘与节点融合;此外还支持自动检测以及自动低精度推理,将FP32模型转换成FP16或INT8模型,准确率保障的同时降低能耗。”对比TensorRT 5,如今TensorRT 7能够支持1000多种不同计算变换和变化,借助于该软件,全球各地的开发者都可以实现会话式AI应用,大幅减少推理延迟。而此前不容忽视的一点,巨大的推理延迟一直都是实现真正交互式互动的很大阻碍。

具体来说,TensorRT 7内置新型深度学习编译器,能够自动优化和加速递归神经网络与基于转换器的神经网络,而这些日益复杂的神经网络是AI语音应用所必需的。与在CPU上运行时相比,会话式AI组件速度提高了10倍以上,从而将延迟降低到实时交互所需的300毫秒阈值以下。除了支持CNN,TensorRT 7也支持RNN、Transformer等自动实现。对于所有RNN定制的内核甚至可以进行多个时间场景融合,在整个处理的工作流中,在不同的时间点来进行所需要的内存,以及处理工作量。

除了技术上的“高屋建瓴”之外,TensorRT 7.0还能轻松“搞定”会话式AI。黄仁勋对此表示:“我们已经进入了一个机器可以实时理解人类语言的AI新时代。TensorRT 7使这成为可能,为世界各地的开发者提供工具,使他们能够构建和部署更快、更智能的会话式AI服务,从而实现更自然的AI人机交互。”

关于此NVIDIA 负责TensorRT产品市场的Siddarth Sharma总结道:“实际上,NVIDIA着手会话式AI的技术加速工作已经有好几个月的时间了。最初的版本只涵盖了会话式AI中的一部分,也就是语言理解部分。通常这个攻克的过程需要三个部分:将识别的语音转化成文字,理解的基础上再转化为语音播出。随着我们不断发布新版本,TensorRT 7基本上可以完成整个三流程的计算,即从语音识别到语义理解再到语音输出。”

据晶少了解,其实会话式AI是技术难度很高的领域,想要完全攻克并为之所用就需做到要在300毫秒内将三个部分智能并完整达成,在这个过程中有很多的复杂模型被计算,所以Tensor RT也在不断完善以保证覆盖整个流程。

据悉,目前全球很多体量较大并极具创新的企业都已经使用了NVIDIA的会话式AI加速功能。在首批使用NVIDIA会话式AI加速能力的企业中,我们发现了阿里巴巴、百度、滴滴出行、美团、快手、平安、搜狗、腾讯和字节跳动等企业。搜狗首席技术官杨洪涛表示:“搜狗每天通过输入法、AI硬件、搜索等产品为数亿用户提供语音、图像、翻译、对话以及问答等优质的AI服务,我们使用NVIDIA TensorRT推理平台实现线上实时快速的服务响应,领先的AI能力显著提升了我们的用户体验。”

此外在深度推荐系统应用方面,百度AIBox推荐系统以及阿里巴巴推荐系统均借助NVIDIA 的AI平台实现计算加速。值得一提,在今年“双11”期间,英伟达GPU为阿里巴巴推荐模型提供加速,实现了每秒处理780个查询,远高于CPU的3个。“在阿里巴巴的服务器上,一个‘双十一’活动,每秒需要处理数十亿次的推荐,使用GPU驱动的推荐系统,吞吐量(通量)可以比CPU提升上百倍。”同样在云方向,滴滴还将基于NVIDIA 技术建设人工智能基础架构,并适时推出不同型态的vGP云U服务器,其中包括计算型、渲染型和游戏型等。

“其实计算是一个非常重要的方式,而且可见情况下增长势头非常迅猛。目前我们的计算平台与全球很多云服务提供商都进行了合作,例如AWS、Azure、谷歌云等,其中还包括国内的百度、滴滴、阿里云平台等,所以我们在开发下一代产品时在开发者领域以及企业级方向,都很重视自身产品的技术质量。”NVIDIA 加速计算产品管理总监Paresh Kharya说。

可以肯定的一点,如今通过TensorRT的新型深度学习编译器,全球各地的开发者能够将这些网络(例如定制的自动语音识别网络以及用于文本-语音转换的WaveRNN和Tacotron 2)实现自动化,并实现最佳的性能和最低的延迟。很重要的一点,TensorRT 7可以快速优化、验证并部署经过训练的神经网络,还为超大型数据中心、嵌入式或汽车GPU平台提供推理能力,目前TensorRT 7.0现在已经可被使用。

就在一月之前的丹佛2019全球超级计算大会(SC19)上,NVIDIA刚刚发布了一款参考设计平台,使企业能够快速构建GPU加速的ARM服务器。在本次GTC大会上,相关问题再次被提及,黄仁勋提出:“此举是为了让GPU能够像支持x86平台一样支持ARM平台。”

众所周知,ARM是世界上最为普及的CPU,世界上约95%的定制SOC都是基于ARM,也被称之为最可编配置的CPU。据了解在全球范围内,共有1500亿台设备基于ARM架构,之所以如此成功,归根结底是开放性使然,例如各种各样的功能,包括互联、内存、CPU内核、计算能力,包括多元化在内的支持,都使ARM成为现如今世界上非常重要的架构之一,给予用户更多选择。对此晶少观察到,其实很多行业企业都在打造基于ARM的服务,原因或许在于传统HPC高性能计算确实需要高效能的产出,另一方面确实整个世界都在拥抱云,而ARM确实与超大规模应用堪为“天生一对”。

“我们通过将CUDA平台和ARM架构进行兼容,在整个加速计算领域,无论是AI、高性能计算等,都可以给到客户更多选择。之所以有这么大的性能提升,不仅是在架构上进行了设计,更重要的是我们通过软件的方式使得性能进一步提升。有数据显示,仅仅通过软件就使得AI计算性能在两年之间提升了4倍,所以软件对加速计算的性能提升非常重要,未来我们会继续在医疗领域Clara平台,应用在自动驾驶领域的Drive以及机器人方向的Isaac等各个平台上对软件进行完善以提升性能。”

具体来说,通过PCI Express为ARM提供与X86平台同等的支持,轻松针对ARM进行CUDA编译;而且CUDA本身拥有一个诸多开发人员构成的庞大生态系统,当支持ARM时候,这些开发人员也开始支持ARM。不容忽视的一点,基于对ARM平台的支持,超级计算中心、超大型云运营商和企业能够将其加速计算平台的优势与最新的ARM服务器平台相结合,高效满足高性能计算(HPC)社区对于类型更加多样化的CPU架构日益增长的需求。

另外在今年的GTC的大会上,NVIDIA按照惯例爆出了未来计算机图形的技术,即实时光线追踪NVIDIA GeForce RTX的最新进展。

RTX可以用更为自然的方式模拟光线、反射等,让现代计算机图形技术变得更加有魅力,而NVIDIA在最新的图灵架构中正是搭载了这项技术,实现对于现实光照的完美还原并带来逼真的游戏环境。会上,NVIDIA演示了拥有3亿多玩家的《我的世界》的光追版本,开启RTX之后《我的世界》营造了一个真实的游戏世界;还官宣包括《边境》、《铃兰计划》、《暗影火炬》、Project X、《无限法则》以及《轩辕剑柒》等六款游戏将会支持光线追踪。

“NVIDIA处在图形、HPC和AI的交汇领域。”这或许是对本次GTC黑科技的最简洁直观的诠释。

福利扫描添加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!
推荐阅读:
  • 你每天都在使用的HTTP协议,到底是什么鬼?

  • 龙芯新款处理器发布;Citrix 产品曝“惊天漏洞”,影响全球 8 万家公司; AMD发布年度5大里程碑 ……

  • Hinton、吴恩达们也“吹牛”炒作?媒体和研究人员共谋,AI圈误导信息泛滥

  • 你的 App 在 iOS 13 上被卡死了吗?

  • 2019 最烂密码排行榜大曝光!网友:已中招!

  • 不用失去控制权和所有权,也能在区块链中通过数据共享获得奖励?

真香,朕在看了!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/519781.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何合理的规划jvm性能调优

JVM性能调优涉及到方方面面的取舍,往往是牵一发而动全身,需要全盘考虑各方面的影响。但也有一些基础的理论和原则,理解这些理论并遵循这些原则会让你的性能调优任务将会更加轻松。为了更好的理解本篇所介绍的内容。你需要已经了解和遵循以下内…

如何衡量研发效能?阿里资深技术专家提出了5组指标

阿里妹导读:新的一年,相信很多产品技术团队把研发效能提升列为重要的目标,甚至还有团队为此专门成立了项目组。然而,到底什么是好的研发效能,却很少有人能够表达清楚。标准不清晰,又何谈提升? …

官宣!2020年,这5类程序员要过苦日子!网友:明年咋活?!

2020年就要来了,有人说:经历了2019年的“市场变革”后,未来这一年将会至关重要,是决定各自命运的定型年。那么对于程序员来说,明年的风向标是如何?哪些编程语言会持续大热,哪些要做好被“淘汰”…

Perseus-BERT——业内性能极致优化的BERT训练方案【阿里云弹性人工智能】

一,背景——横空出世的BERT全面超越人类 2018年在自然语言处理(NLP)领域最具爆炸性的一朵“蘑菇云”莫过于Google Research提出的BERT(Bidirectional Encoder Representations from Transformers)模型。作为一种新型的…

Kubernetes的共享GPU集群调度

问题背景 全球主要的容器集群服务厂商的Kubernetes服务都提供了Nvidia GPU容器调度能力,但是通常都是将一个GPU卡分配给一个容器。这可以实现比较好的隔离性,确保使用GPU的应用不会被其他应用影响;对于深度学习模型训练的场景非常适合&#…

华为云WeLink正式发布,这是更懂企业的智能工作平台一枚!

今日,华为云在京发布智能工作平台WeLink。 对此,华为云副总裁、联接与协同业务总裁薛浩表示:“华为云WeLink源自华为数字化转型实践,是更懂企业的智能工作平台,具备智能高效、安全可靠、开放共赢三大核心优势&#xff…

一致性协议浅析:从逻辑时钟到Raft

前言 春节在家闲着没事看了几篇论文,把一致性协议的几篇论文都过了一遍。在看这些论文之前,我一直有一些疑惑,比如同样是有Leader和两阶段提交,Zookeeper的ZAB协议和Raft有什么不同,Paxos协议到底要怎样才能用在实际工…

PMP 随堂笔记

CPi挣值管理 临界比值 不属于挣值管理 临界比值 1为分界点 党校与1时,差 大于1时为好 成本激励由有3种场景: 第一种场景:超出目标费用 目标10w 利润1w 分摊比例70/30 实际成本12w 也就是多花了(12w-10w(目标费用)2w 甲方罚乙方利润费用&…

Objective-C中的associated object释放时机问题

如果对象A持有对象B,B作为A的associated object,并且表面上B没有其他被强引用的地方,那么对象A被释放时,对象B一定会同时释放吗?大部分情况下是,但真有不是的时候。最近实现代码的时候不小心就碰到了这样的…

开放共赢,华为云WeLink生态联盟正式成立!

今日,华为在京发布了“更懂企业”的智能工作平台华为云WeLink,并携手合作伙伴成立华为云WeLink生态联盟。其中首批加入华为云WeLink生态联盟的伙伴主要包括(排名不分先后):金山办公、中软国际、致远互联、罗技、华为商…

指明方向与趋势!2019开发者技能报告出炉!!!

近日国外开发者平台 HankerRank 发布了 2019 年开发者技能调查报告,该报告根据对71,281开发者的调查得出。 2018 年最受欢迎的开发语言  经过调查,2018年的所有开发语言中,JavaScript是最受欢迎的语言,2017年最受欢…

阿里研究院入选中国企业智库系统影响力榜

2019年2月1日,上海社会科学院智库研究中心发布《2018年中国智库影响力评价与排名》。阿里研究院入围三项排名榜单,位居企业智库系统影响力榜单第2位,中国智库社会影响力榜单第13位,中国智库综合影响力排名榜单第42位。 阿里研究院…

如何给女朋友解释什么是3PC?

戳蓝字“CSDN云计算”关注我们哦!一顿愉快的小火锅之后,悠哉悠哉的回家了,于是只能开始新一轮的家庭科普了。分布式一致性幸好在《漫话:如何给女朋友解释什么是2PC(二阶段提交)?》中介绍过关于2…

Tensorflow源码解析1 -- 内核架构和源码结构

1 主流深度学习框架对比 当今的软件开发基本都是分层化和模块化的,应用层开发会基于框架层。比如开发Linux Driver会基于Linux kernel,开发Android app会基于Android Framework。深度学习也不例外,框架层为上层模型开发提供了强大的多语言接…

基于 Kubernetes 实践弹性的 CI/CD 系统

大家好,我是来自阿里云容器服务团队的华相。首先简单解释一下何为 Kubernetes 来帮助大家理解。Kuberentes 是一个生产可用的容器编排系统。Kuberentes 一方面在集群中把所有 Node 资源做一个资源池,然后它调度的单元是 Pod,当然 Pod 里面可以有多个容器…

35岁真的是一个坎吗?听完35岁码农的话,我放心了!

戳蓝字“CSDN云计算”关注我们哦!之前看过一个有关程序员从刚入职到中年状态的一个视频,刚入职的程序员激情澎湃,一心想做自己想做的事情,并且想创业,就想拉拢身边的程序员同事一起创业,可是身边的同事就一…

开年巨制!千人千面回放技术让你“看到”Flutter用户侧问题

导语 发布app后,开发者最头疼的问题就是如何解决交付后的用户侧问题的还原和定位,是业界缺乏一整套系统的解决方案的空白领域,闲鱼技术团队结合自己业务痛点在flutter上提出一套全新的技术思路解决这个问题。 我们透过系统底层来捕获ui事件流…

苹果或推出Windows版Safari浏览器;微软正“取下”Chromium版Edge浏览器的Beta标签;亚马逊申请新专利……...

关注并标星星CSDN云计算 速递、最新、绝对有料。这里有企业新动、这里有业界要闻,打起十二分精神,紧跟fashion你可以的!每周两次,打卡即read更快、更全了解泛云圈精彩newsgo go goSK海力士将于CES推出新款SSD:128层4D …