AI处理器热潮正在消退

来源:technews(台)  

作者:痴汉水球

俗语说得好:海水退潮之后,才知道谁没穿裤子。但历史的教训往往证明残酷的事实:结果站在浪里的所有人,全部都没有穿裤子。

处理器业界的年度盛事第32届IEEE HotChips,刚刚在今年8月以全部线上活动型式结束了,连挤4年牙膏的IBM与英特尔总算换了一管全新牙膏,真是可喜可贺。

但另一方面,分别在云端服务和终端硬件执人工智能牛耳的Google与nVidia,却也学到了”挤牙膏”的精髓,前者让2018年就问世的第三代TPU,从2018年Google I/O讲到2020 HotChips,后者在HotChips发表的内容,完全承袭GTC 2000的简报,唯一差别只有把华为Ascend 910人工智能处理器和英特尔支援BF16格式的”新型Xeon”Cooper Lake-P拖出来狠狠打一顿。

总之,我们来瞧瞧HotChips 32 的Google 第三代TPU 与nVidiaA100。

讲了三年总算勉强讲完的Google TPU v3

Google 这家公司最令人称许之处,在于恐怖的“前瞻执行力”,每当众人还在清谈“技术趋势”之际,就突然石破天惊的昭示天下:你们还在嘴炮的东西,我们早就应用到实际产品。诸多丰功伟业的最知名案例,莫过于2013 年底,Google 爆炸性公开”规划部署已达3 年”的B4 数据中心广域网络,开大规模商业化软件定义网络(SDN)之先河。

早在2015年就投入内部应用的Google TPU,更是近年来的经典案例,接着Google也很迅速推陈出新,2017年推出深度学习第二代TPU,第三代TPU更早在2018 Google I/O就亮相了。

但Google 也随即“挤牙膏之神”上身,2019 年HotChips 31 教程仅提到部分资讯,到2020 年才公开细节全貌。

我们都有充分的理由相信,第四甚至第五代TPU,不是早就上线服役也该早在路上了。

2019 年比较对手是nVidia V100,结果2020 年看不到第四代TPU 较量V100,让人感觉有点奇怪。

TPU v3 概观可视为TPU v2 的双倍放大版,散热系统从气冷改为液冷,也是主机板最显眼的特色。

TPU v3 仍旧着重持续提升存储器带宽(+30%)与容量(加倍),拜液冷之赐,时钟频率也有成长(+30%)。

TPU v3 的指令集架构是332 位元长的超长指令集(VLIW),VLIW 指令包内总计有2 个纯量指令、4 个向量指令(其中2 个是存储器载入/回存)、 2 个矩阵(Matrix)指令、6 个立即值(Immediate)与一个杂项(Misc)应用。

强化多芯片互连总线,打造更大规模的“人工智能超级电脑”,更是TPU v3 的重头戏,也就是上图那个“4x Nodes”。

同样一片系统主机板装4 颗TPU,TPU v3 组成的“人工智能超级电脑”,拥有前代8 倍以上效能、8 倍存储器容量、4 倍芯片数量与4 倍的最大装置设定数,可切割成256 个独立运算平台分租给客户。

顺便一提,现今已知关于Google TPU 的专利多达50 份,亦不乏详细描述第三代TPU 的内部架构细节,也是众多有志进军人工智能芯片的冒险者,抽丝剥茧的研究对象。

但这对使用Google Cloud AI 的用户,甚至大多数Google 部门来说,其实并不重要,他们只要用得爽快、不需要”为了喝牛奶自己盖一座牧场”就够了。

靠GPU 基本盘稳扎稳打的nVidia A100

nVidia以通用GPU为基础,站稳高效能运算市场,并将触角逐渐延伸到人工智能和自驾车辆等新兴应用领域,使2020年夏天市值连续超越英特尔和三星,证实外界多么看好“皮衣教主”昭示天下的“美好未来”。无论个人电脑与高效能运算领域,从”电竞笔电非有Max-Q不可”现象到超级电脑Top500清单满满的nVidia GPU,优势地位看似牢不可破。

nVidia 旗舰GPU 也随着制程演进而持续“恐龙化”,Ampere 世代之首A100 是一颗台积电7 纳米制程、540 亿晶体管的巨兽,像更多执行单元、更大存储器子系统带宽、一直更新的DGX 超级电脑等,是各位也都耳熟能详,甚至早就令人哈欠连连的“标准剧情”了。

关于人工智能应用,nVidia A100 最重要的特色,莫过于自行定义的TF32(Tensor Float 32)浮点数格式。讲白了就是“取长补短”,既然Google BF16 牺牲掉FP32 的精度,维持动态范围不变,那就让精度和FP16 一样吧,神奇的19 位元长度TF32就这样诞生了,兼具FP32的动态范围和FP16 的精度。nVidia 之所以这样大费周章创造新格式,根本目的不外乎要降低存储器带宽和容量需求,和Google发明BF16 如出一辙。

理所当然的,TF32 在A100 一定跑得很快,因所需带宽仅为前代V100 一半或三分之一,更能喂饱嗷嗷待哺的庞大Tensor Core。


但这件事的背后,隐隐约约透露nVidia长期领先AMD(ATI)的根本原因与基本思维:存储器带宽,这件事早从2004年NV40(GeForce 6系列)存储器控制器内建压缩传输机能,相关技术持续演进并陆续申请专利,就已埋下了种子。过去十几年来,AMD或ATI的GPU,需要更多存储器带宽,才能实现同等级的效能水准,绝对不是偶然。

大概整批带枪投靠英特尔的前AMD 团队过去吃了不少闷亏,这次替英特尔重新打造Xe 绘图架构时,也很刻意提到“End-To-End Compression”,只是不知道会不会不小心踩到nVidia 的专利地雷。

当GPU 踏入高效能运算和人工智能,“每笔运算可平均分配到的存储器带宽,持续稳定的下滑中”,更让提高运算效能这件事,绝非区区增加几个特化指令与扩张执行单元,即可迎刃而解,更需搞定带宽这件事,一旦带宽不足,就发挥不出完整的运算效能。

听说nVidia 下一代GPU“Hopper”将改弦易辙,改走多芯片Chiplet”包水饺”路线,也许nVidia 在多芯片连结架构部分,将带来让人感到惊奇的技术突破也说不定,让人对明年HotChips 33 多抱持一分期待。

人工智能热潮的消退:先讲求不要饿死再求发展

话说回来,我们就不得不探究一个大哉问:为何越来越多芯片厂商开始”挤牙膏”?要么不是受摩尔第二定律诅咒,产品技术难以短期内飞跃性提升,要么就是讲再多对我也没任何实质好处,还不如少讲一点闷声发大财。

不过这几年,难道人工智能芯片不是很火的话题吗?2017年HotChips 29,不就是从主题演讲到议程,从泛用处理器、GPU、ASIC到FGPA,统统”人工智能满天下“?如此沉默,对公司的未来妥当吗?

很遗憾的,人工智能芯片从2018 年起,以中国相关领域新创公司为首,热潮急速退烧,像中国DEEPHi(深鉴科技)被FPGA 巨头赛灵思收购,已经算是最好的退场。

即使美国企业亦不可免俗,就算公司不会倒,也不保证产品线不会收掉。像这些年来痴迷自驾车和人工智能,耗费数百亿美元”生气乱买公司”的英特尔,2018年宣布中止XeonPhi产品线,决定整个砍掉重练,由2017年底来自AMD的Raja Koduri重建货真价实的GPU。2019年底以20亿美元购并以色列HabanaLabs并在隔年2月停止NNP-T1000(代号Spring Crest,还宣称跟百度合作),也意味着2016年用3.5亿美元买下的Nervana形同弃儿,英特尔人工智能平台事业群负责人、Nervana联合创办人Naveen Rao随即离职,一点都不让人意外。

英特尔连续公开栽了两次(实际上应该更多),事后诸葛的后见之明与背后补刀的内幕爆料,均朝向”做出来的东西根本不能用,也无法符合软件开发者和潜在客户的需求”。

所以这也是当人工智能渐渐在HotChips 退烧后,为何Google 和nVidia 可站在台上活好好的主因:Google 很清楚自身需要,快速演进三代(应该更多)的TPU 就是为了自家Google Cloud AI 和其他服务量身订做(苹果塞在自己芯片内的NPU 也是一样状况)。nVidia 则是拥有庞大GPU 市占率、累积十多年的CUDA 与高效能运算的”基本盘”足以先养活自己,日后再慢慢发展。

反观之前那票一窝蜂狂冲”人工智能新大陆”的勇者,又有几家有本钱和能耐,先不求饿死,再讲求和客户携手并进的共同胜利?讲更白一点,你会相信中国那些开发数字货币挖矿芯片的厂商,被迫转型做出来的人工智能芯片,可以迅速得到指标性客户的青睐?

天下任何一家求生存的企业,无不企求有所谓的”现金母牛”和忠实客户,才为稳定营运的基础。我们可以猜猜看,明年HotChips 33 还剩下哪些幸存者?

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/487047.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

gtj2018如何生成工程量报表_土建软件GTJ2018中的十个问题及解决方法

问题1柱汇总计算报错提示:直筋长度的计算结果小于0?方法一:调整为【纵筋销固】就可以计算出来钢筋量。但是设置插筋和纵筋锚固计算出来是有量差的,可以在编辑钢筋中把手算的长度手动添加下或者是在单构件输入界面去手动添加下。方…

重磅|我国科学家成功研制全球神经元规模最大的类脑计算机

来源:浙江大学9月1日,亿级神经元类脑计算机重大成果新闻发布会在杭州召开。浙江大学校长吴朝晖院士出席并讲话。他表示,人工智能浪潮正加快智能增强时代的到来,类脑计算机将成为未来计算的主要形态和重要平台,将在模拟…

java 毫秒转分钟和秒_PDF如何转换CAD文件?教你一分钟批量转上百文件方法,看完秒懂!...

如今科技这么发达,很多人在工作中都会遇到形形色色的各类文件。而同时也因为工作需求碰到文件格式转换难题,如:PDF如何快速转换成CAD文件?今天小编就教大家一个方法,让你轻松一秒完成百个PDF文件转CAD。具体操作方法&a…

数据库设计-规范化规则

SQL反模式一书在附录章节给出了设计关系数据库的规范化规则,一个简明的规范化规则清单。 关系是什么 在规范化之前,我们先要理解下关系。 数学中关系定义:两个不同数据域上的值的集合,通过一个条件得到的一个所有可能组合的子集。…

AI 如果 “智力爆炸” ,只有普通智力的人类是蝼蚁还是宠物?

编译|吴婷婷编审|王新凯出品|学术头条想象一下,当你推倒多米诺骨牌时,第一张牌倒下,而后每一块牌迅速产生反应,直至最后一块牌。实际上,这种连锁反应不局限于物理界,而是…

Java容器---Set: HashSet TreeSet LinkedHashSet

1.Set接口概述 Set 不保存重复的元素(如何判断元素相同呢?)。如果你试图将相同对象的多个实例添加到Set中,那么它就会阻止这种重复现象。 Set中最常被使用的是测试归属性,你可以很容易地询问某个对象是否在某个Set中。…

马斯克脑机接口遭质疑:不是新技术,没体现神经解码进展

来源:AI前线作者 | 李冬梅马斯克的脑机接口实验,一经发布,就引来了诸多关注,业内专家们对此实验的评价却褒贬不一。北京时间 8 月 29 日,Neuralink 公司发布的神秘技术终于揭开了它的面纱,在视频直播中&am…

坯子库和suapp哪个好用_「双全科技」进销存软件哪个简单好用,管家婆进销存软件教程...

进销存软件哪个简单好用,管家婆进销存软件教程随着国家信息化的发展越来越趋于成熟,越来越多的企业需要进销存软件来提高工作效率,企业家们不再采用传统的库存管理模式,进销存管理系统解决了企业日常经营中一系列库存问题&#xf…

吴恩达推荐笔记:22 张图总结深度学习全部知识

来源|Sophia知乎https://zhuanlan.zhihu.com/p/152362317编辑 | 公众号极市平台本文仅用于学术分享,如有侵权,联系后台作删文处理最近在做笔记查阅内容,觉得这个总结太美观了,真是棒!吴恩达在推特上展示了一…

使用nfs映射远程服务器磁盘目录

参考:http://www.centoscn.com/CentosSecurity/SoftSecurity/2015/0408/5118.htmlhttp://www.cnblogs.com/mchina/archive/2013/01/03/2840040.html说明: 本文是在MacOS上做客户端,因为MacOS内核是类Unix,所以本文也适用于Linux客…

ios笔试题算法_微软笔试题-Dijkstra算法

Dijkstra算法是典型的算法。Dijkstra算法是很有代表性的算法。Dijkstra一般的表述通常有两种方式,一种用永久和临时标号方式,一种是用OPEN, CLOSE表的方式,这里均采用永久和临时标号的方式。注意该算法要求图中不存在负权边。      用Dij…

自动驾驶车通过动作捕捉,学会阅读街上人们的肢体语言

来源:机器学习研究组订阅号 编译:lin想象一下,工人正在修复路面上一个大坑洞,因此拥有四条车道的马路缩小为两车道。一名工人左手松松地举着停车标志,用右手挥手示意汽车通过。如果是人来开车的话,自然不会…

AI解梦成为现实 未来还有无限可能

文章来源:学术头条编译:阳光排版:赵辰霞编审:王新凯古代巴比伦人认为梦境包含了预言,而古埃及人则将梦境视为神灵给予的信息来崇拜。在 19 世纪 90 年代,西格蒙德弗洛伊德(Sigmund Freud&#x…

fiddler工具条、状态栏、请求信息栏各按钮的作用

1.fiddler工具条 2.fiddler状态栏 3.请求信息栏 转载于:https://www.cnblogs.com/kakaln/p/8198299.html

超9成SCI论文发在国外!中文期刊到底差在哪?

来源 | 科学网撰文 | 卜叶编辑 | 宗华学术界不投中文期刊的原因是什么?这一老生常谈的问题,最近再次出现在某知识问答平台热榜。短短两周,便吸引了180个回答,浏览量超过34万。中文期刊到底差在哪?面对逐渐边缘化的态势…

pyqt5 点击开始执行_《快速掌握PyQt5》第一章 PyQt5的起点

1.1 开始安装PyQt5就跟安装其他库的方法一样,非常简单:Windows上安装:pip install pyqt5Linux上安装:sudo apt-get install pyqt5-dev-toolsMacOS上安装:pip3 install pyqt5验证是否安装成功,只需要导入下该…

不用math type解决word公式上浮问题

今天来解决一下文档整理时候令人头痛的公式上浮问题。 问题 就是这种,以前碰见了简直就是无解,今天不管怎样,解决它!! 准备 开始前要检查一下公式是否是office math格式,如果不是,需要先转化成…

前沿研究丨基于驾驶脑的智能驾驶车辆硬件平台架构

本文选自中国工程院院刊《Engineering》2018年第4期作者:李德毅,高洪波来源:A Hardware Platform Framework for an Intelligent Vehicle Based on a Driving Brain[J].Engineering,2018,4(4):464-470.编者按智能驾驶车辆试验平台是人工智能科…

cogs2840. 二叉查找树

二叉查找树 时间限制:1 s 内存限制:512 MB 【题目描述】 二叉查找树是一种特殊的二叉树(每个节点最多只有两个儿子的树)。树的每个节点上存有一个唯一的值,并且满足:这个节点的左子树内所有点的值都比这个…

苹果挂端口方法_调音台变身直播声卡的方法

现在干直播的多了,搞音响的也可以利用自己手头的专业设备,把调音台变身为直播声卡,然后进行多通道的高品质混音直播。需要的条件:数字调音台或带有USB音频功能的模拟调音台苹果手机(本人没有安卓手机,就以苹果手机为例…