npu算力如何计算_异构计算神器来了,它能带来性能革命吗

1fe85d94aa5d82b7c87cf07613f44975.png

前言:优化差有多要命?3A大作告诉您

说到最近游戏圈子里的热门话题,刚刚在全平台上线的某“国产3A大作”显然绝对值得一提。一方面来说,靠着“抽卡化单机游戏”的设计,以及投入几十万元都难以实现全角色满状态的高氪金程度,使得其成功证明了自己的确没有抄袭隔壁任天堂的良心大作,在“原创程度”上值得肯定。

f3755c6e6db10f71f1402dd6c255c3fa.png

但另一方面来说,作为一款官方号称花了一亿美元开发的大作,这款话题游戏又有着甚至连低成本页游都足以在其面前自傲的贴图质量(比如某知名的水果摊),以及无论手机配置多高、价格多贵、散热效果多好,都只能达到30帧的流畅度体验(安卓版本)。

说实在的,我们三易生活并不是专业的游戏媒体,因此也不想去追究一款本应备受期待的国产大作,到底为什么会搞成现在这个样子。但从我们自身所进行的简单测试结果来看,“它”在顶级旗舰手机上帧率不足的原因,似乎并不能简单的归结为游戏体积过大,或者含有主机移植内容这么简单。

9e5aeebfb1403f731d492be8431cab02.png

这是我们手头的某台绝对够旗舰的安卓机皇,自带的性能监测结果

因为哪怕是在并不复杂的场景中,我们三易生活手头这台旗舰机型自带的性能监视器也明明白白的显示,GPU已然不堪重负,但CPU却几乎没有被占用多少算力。换句话说,整个手机SoC的综合性能,其实并没有被充分和均衡的发挥出来。

那么这就不禁使我们脑洞大开了,是否存在这样一种方法,可以拯救诸如此类优化不佳的程序,让它们能够更充分的利用当今主流芯片不同处理部件的算力,从而给消费者带来更流畅也更正常的体验呢?

有的,这就是异构计算“终极方案”oneAPI

2019年6月17日,一年一度的国际超级计算大会在德国拉开帷幕。在这一场主要旨在讨论超级计算机、区块链、量子技术的活动中,知名行业巨头的Intel也预告他们最新研制出的一个“小玩意”。

8f561d0b74864dad665a5ecd1d9ac49f.png

而这,就是今天刚刚发布1.0正式版的oneAPI。虽然乍看之下只是一个面向大众的、开源的编程工具,但是oneAPI给整个行业带来的震撼,却远远地超过了目前可能任何一台超级计算机、顶级显卡、新款游戏主机,或是旗舰智能手机。因为它即是整个计算机编程领域有史以来第一个能够同时兼容CPU、GPU、NPU、以及FPGA四种基本架构,完全不同的处理器硬件的“终极解决办法”。

f299bb960482599abac72d406969a1a6.png

这是什么概念呢?简单来说,在如今PC或者手机的一颗“处理器”芯片里,实际上往往集成了多种用途的处理单元。比如说擅长标量处理的CPU、擅长矢量运算的GPU(图形处理器)、擅长矩阵计算的NPU(神经网络处理器),有的甚至还会集成有擅长空间运算的FPGA(可编程逻辑门阵列)。

但问题在于,各种用途的处理单元它们架构迥异,所需的编程工具各不相同。过去,假设一位程序员想要在Ta开发的游戏里,把原本由GPU运行的物理计算过程改为由CPU执行,把原本由CPU负责的战斗AI判断过程交给NPU去运算,那么就将不得不同时使用三种完全不同的编程工具,并且深刻理解三种不同架构硬件之间在算法、原理,以及计算方式上的差异才行。

8fe6ddb9a55e38a4dce58e7bf8ff83ec.png

说实话,这的确不是一般人能搞定的事情,至少在oneAPI出现之前是这样。但在有了oneAPI后,程序员只需要学会一种统一的代码(DPC++),然后在写完代码后,选择这段代码是交给CPU,还是交给GPU,亦或是NPU去运行,oneAPI就能自动完成代码的转换和优化工作。如此一来,“仅用一种语言,编写出自动适配多种不同计算架构的程序,并让程序在运行时更充分的利用现代数码设备的异构计算能力”,就突然间变得轻而易举了。

7a38cba4d5e1bc1451cc7f872667e47e.png

不仅如此,由于oneAPI是一个旨在最大程度上简化异构编程的开源项目,因此它的兼容性甚至还远不止于Intel自家的产品。比如它可以支持NVIDIA的显卡,可以支持AMD的CPU,甚至对IBM Power架构和ARM架构的兼容工作正在进行中。这也就意味着,如果未来某个大型游戏使用oneAPI编写,那么它将不仅仅能够自动将电脑中的CPU和GPU算力利用到极致,同时还可能会非常方便移植到游戏主机和智能手机上,并依然保持极高的执行效率。

虽然新技术很强大,但异构计算可不是新概念

不难看出,至少在目前的技术条件下,Intel的oneAPI的确可能是当今技术最先进,使用最方便,最有可能实现应用程序“异构计算”优化,从而带来执行效能飞跃的编程方案。它的出现,意味着未来的超级计算机将可能变得比现在更快更省电,也意味着未来的操作系统、大型游戏将有望迎来流畅度的大幅改善。除此之外,由于本身具备兼容移动平台的潜力,oneAPI甚至不排除可以造福移动设备,让手游变得更省电、帧率更高,同时也让真正意义上从PC或者主机移植游戏到手机,变得更加容易。

但如果你急着山呼万岁,那倒也大可不必。毕竟只要是稍有关注近年来PC与智能手机技术动向的朋友可能会记得,所谓让CPU、GPU,以及其他芯片内计算组件共同承担运算任务的“异构计算”,其实并不是一个新玩意。

02da4561e55867cfe84b41f404e2e4a7.png

比如说早在2011年,刚刚将ATI收归麾下的AMD,就打着“Fusion(融合)”的旗号推出了初代的APU产品线。当时为了彰显“融合处理器”的优势,AMD也曾推出过一些官方的异构计算功能套件,比如利用GPU的算力进行视频插帧、利用CPU和GPU的融合算力通过PC摄像头识别手势操控等等。虽然在锐龙时代之前,AMD的APU一直都没能掀起太大风浪,但不可否认的是,他们可能才是PC异构计算的开创者。

97deff75376e5d678ce386f5f0031048.png

又比如说早在2013年,诺基亚就发布了自己的第二款4100万像素Pureview拍照手机Lumia 1020。当时受于Windows系统的限制,只能选用高通骁龙S4 MSM8960 SoC作为计算核心,但其所集成的ISP(图像信号处理器)实际上并不具备处理如此高像素照片的能力。因此为了让Lumia 1020的拍照体验正常,诺基亚与高通的工程师们共同努力,使用Adreno 225 GPU“承担”了一部分ISP的计算工作,而这也就成为了智能手机异构计算最早的成功案例。

或许正是受到此次事件启发,高通在同年发布的新旗舰芯片骁龙800上,首次在硬件架构和驱动底层两方面都为异构计算做好了准备。骁龙800的Krait400 CPU和Adreno320 GPU均具备运行OpenCL通用加速代码的能力,这使得它成为了可能是最早为异构计算设计的智能手机SoC。

720129e896b79588ae2d401561197a0c.png

但当时间来到现在我们会发现,AMD最新的锐龙4000系列APU尽管性能饱受赞誉,但却完全取消了对异构计算的支持。而高通最新的骁龙865+、骁龙768G等平台虽然具备分布式的AI计算设计,但从AIDA64的系统信息中也不难看到,它们的CPU部分取消了对OpenCL的支持,反而不能运行除了AI计算之外的异构并行程序了。

性能神器本质上是商业行为 ,但它依然值得欢呼

那么问题就来了,为什么早早在异构计算方面有所投入的AMD与高通等厂商,如今却纷纷放弃了这条道路。反而是此前一直在异构计算方面名不见经传的Intel,突然放出了可能足以改变业态的“大招”呢?

bae43674dd961110002412433a36e43c.png

说白了,其实一切都只是商业需求与产品策略而已。毕竟异构计算的本质,是为了解决一套系统中CPU、GPU、或其他什么计算组件性能“拖后腿”,或是负载过于不均匀的问题。比如曾经APU本来是打算拿GPU弥补CPU算力的不足,比如高通最早搞异构计算,是想让手机发挥出更高的常规能效比(无奈程序员不买账),而现在则主要用于增强对于不同AI模型的兼容性和提高处理效率。

至于Intel,一方面来说,他们如今自己就拥有CPU、GPU、AI处理器,以及FPGA的四条产品线,研发统一的编程API,能够简化自家未来各种融合处理器及定制超算芯片的程序开发。另一方面来说,虽然现在很多媒体都在讲“AMD Yes”,但接触过编程(特别是高性能编程)的朋友就知道,Intel的编程工具可是自奔腾4时代就一直被公认为具备更好的性能表现(嗯,没错,它诞生的初衷,也是为了让架构糟糕的奔腾4用起来更快一点),而这,也正是现在他们能够为异构计算搞出“oneAPI”的底气所在。

d83e2d8c3f6b45ae9abd6394af3da255.png

当然,我们并不是说,因为oneAPI包含了intel宣传和优化自家产品的商业意图,就不值得大家欢呼了。毕竟,与此前放弃了的AMD以及高通相比,无论Intel出于怎样的目的,他们确实将“异构计算编程”的这扇大门给真正打开了,而且还以开源的形式,让理论上所有的程序员,以及未来所有的计算设备都可以从中受益。而仅凭这一条,显然oneAPI就值得我们为之喝彩了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/502014.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

画股票图csdn_这个股票今天是要弄啥?

点击上方蓝色字体,关注我们作者 | 四叶草编辑 | 易小投大盘点评今天市场上午走势相对弱势,盘中只有杀出一点点急跌的恐慌盘,有一些盘中的做T机会,但是确定性不是特别高,毕竟盘中的急跌相对幅度有限。下午指数随着一些概…

淮阴工学院计算机学院机房,实验室开放

计算机工程实验中心坚持每天14小时开放(7:30-21:30),在完成基础和专业等实验教学任务外,还承担了各级各类培训及考试、计算机技能实训、工程设计与开发等任务,同事开展了多种形式的社会服务,以及对周边学校的服务。本中心每天坚持…

照片识别出错_云投诉丨四川德阳市民文明手册咋满篇乱码?回应:电脑识别问题,已全部收回...

封面新闻记者 王攀 王祥龙“这是密码吗?”9月23日,有四川德阳市民反映,该市发放的《德阳市民文明手册》看不懂。从市民提供的照片上看,手册内页上全是乱码。当前,德阳市正争创全国文明城市,有市民表示&…

好身材大姐姐学计算机惊喜用英语,英语作文:一个大大的惊喜A Big Surprise

英语作文:一个大大的惊喜A Big Surprise在日常学习、工作或生活中,大家一定都接触过作文吧,作文一定要做到主题集中,围绕同一主题作深入阐述,切忌东拉西扯,主题涣散甚至无主题。那么,怎么去写作文呢&#x…

2篇word文档比较重复率_本科论文写作重复率高的原因,毕业论文降重技巧总结!...

论文重复率的问题,是大学高等院校都比较关心的一点,大学生在论文写完以后,都要经过知网论文检测,在查看重复报告的时候,无法直视,因为论文重复率提高啦。经过几次论文降重修改还是没法降低论文重复率。那么…

如何做电脑桌面应用_CAD批量转PDF?一分钟教会你CAD如何转PDF,两种方法任你选择!...

作为从事CAD设计的我,已经深深的了解到了CAD设计行业的辛苦。dwg格式的文件作为CAD文件格式常见的专业格式,它能够很好的帮助我们保存好绘制好的CAD图纸。现在几乎在很多领域都可以见到,有的时候会根据需要对CAD图纸进行格式转换。很多的网友…

添加列属性_css多列属性

多列属性多列布局类似报纸或杂志中的排版方式,主要用以控制大篇幅文本。1、column-count : 分隔列数说明:属性规定元素应该被分隔的列数用于:除table外的非替换块级元素, table cells, inline-block元素2、column-gap : 设置列与列…

pyautogui typewrite_解放双手:Pyautogui帮你work

今天介绍一个很有用的python库——Pyautogui,它可以通过屏幕的xy坐标系统来确定目标位置,进而控制鼠标和键盘发送虚拟的点击和输入任务。这对于你要完成机械重复枯燥的电脑操作来说非常地方便。安装Pyautogui库很简单,命令窗口输入&#xff1…

win7 右键计算机 服务 设备管理器,win7系统计算机右键菜单添加设备管理器的操作方法...

今天和大家分享一下关于对win7系统计算机右键菜单添加设备管理器设置的方法,在使用win7系统的过程中经常不知道如何去对win7系统计算机右键菜单添加设备管理器进行设置,有什么好的办法去设置win7系统计算机右键菜单添加设备管理器呢?在这里小…

年月跨度_不畏困难,砥砺前行 ——国内最大跨度管桁架工程成功首滑

8月3日下午,由陕建机施(江苏)第二总部第一工程公司承建的330米大跨度管桁架工程——芜湖新兴铸管综合料场封闭工程顺利实现首跨滑移,创下国内最大跨度管桁架工程滑移记录。该工程包含一个管桁架主体大棚结构,两个东西毗屋网架附属结构以及一个…

python 定时器_python定时器apscheduler及一个django的小tips

类似于windows系统里的计划任务,需要按特定的时间周期,去调度执行一项任务。python里有apscheduler组件。分有阻塞式与非阻塞式,如下是阻塞式,就是不需要自己去写循环。from apscheduler.schedulers.background import BlockingSc…

八年级计算机教学论文,初二数学教学论文范文

初二数学教学论文范文在人类历史发展和社会生活中,数学发挥着不可替代的作用,也是学习和研究现代科学技术必不可少的基本工具。下面是小编为你带来的 初二数学教学论文范文,欢迎阅读。摘要:随着我国新课标教育改革的不断深化&…

网站能拿到其他网站的cookie_在网站推广中企业网站能发挥哪些作用?(一)

相信大家都知道,在如今这个互联网环境下的市场中,企业必须借助互联网的便利才能寻求更加长远的发展。而要做到这些,首先就要求企业建立自己的企业网站。企业网站如此重要,接下来易推网将为大家分析在网站推广中企业网站能发挥的作…

猎户座计划软件测试,四核配置跑分:猎户座4412性能强劲_平板电脑评测-中关村在线...

四核配置跑分:猎户座4412性能强劲硬件配置方面,纽曼Q10采用三星Exynos 4412猎户座处理器,搭载1GB DDR3内存,16GB存储空间(可通过TF存储卡扩展至32GB),预装Android 4.0操作系统,内置蓝牙4.0模块,…

蛋糕是叫胚子还是坯子_教你做巧克力淋面蛋糕,掌握这个配比,好看又好吃,10分钟做一个...

淋面蛋糕不知道从什么时候开始非常流行,它唯美的流淌线条,以及简洁的造型受到很多人的喜爱,这对于没有任何裱花基础的小伙伴来说真是福音,过生日不用再去蛋糕店订蛋糕,而是亲手为家人制作更有意义的蛋糕,虽…

mysql begin end 用法_MySQL ------ 游标(CURSOR)(二十六)

MySQL执行检索操作会返回一组称为结果集的行,这组返回的行都是与SQL 语句相匹配的行(零行或多行),但是,使用简单的select 语句,没有办法得到第一行、下一行、或前十行,也不存在一行地处理所有行…

treeview控件怎么折叠_拍摄的视频闪烁怎么办?一招就能搞定,电脑手机都适用...

视频拍摄/视频剪辑教程/新媒体大家好我是学拍视频剪辑的黑米老师很多剪辑师在剪辑时,总会收到一些视频画面闪烁的素材,这是因为机器观察到的色彩和人肉眼观察到的色彩不一样,当曝光变化比较明显时,机器会捕捉到一些肉眼观察不到的…

rocketmq 消息指定_进大厂必备的RocketMQ你会吗?

点击关注"故里学Java"右上角"设为星标"好文章不错过关于消息队列,相信大家都不陌生,现在的中大型项目中或多或少都有使用到消息队列,对于消息队列大家可能都有一定的了解,使用消息队列可以解决什么样的问题&a…

秦丝软件的服务器稳定吗,强烈推荐 | 最好的五款服装进销存软件排名

随着企业的发展和市场的需要,传统的手工记录法复杂而繁琐,且错误较多费时费力,尤其是服装行业,涉及的品牌众多,需要管理的货品数量多,质量参差不齐,经营管理越来越困难。在此,小编为…

c语言putchar_C语言实现变色的心!连机器都会变心,呵,男人!

各位,今天我们用C语言来秀一把,给大家带来一个会自动变色的心:怎么样,效果还可以吧!其实这个实现的原理还是比较简单的,为了让窗口别跟控制台那样难看,我调用了system函数对窗口的大小、颜色和标…