​CPU将进入新时代:押注计算芯片的极限协同设计

来源:内容由半导体行业观察(icbank)编译自「nextplatform」,作者:Timothy Prickett Morgan,谢谢。

我们现在进入了一个时代,那就是IT行业的计算引擎将需要比以往任何时候都更需要更低的价格,更好的性能以及更好的散热特性。这将需要一种在更大范围的工作负载和设备上进行协同设计系统(co-designing systems )的进化方法。

让我们从显而易见的地方开始。越来越清楚的是,尽管世界上所有软件工程师都可能使您相信,但通用计算的美好时代是一个简单的X86指令集和操作系统内核是他们唯一需要的画布。绘制他们的代码。

X86计算生态系统的兴起使我们在分布式计算和各种运行时中实现了出色的寒武纪爆炸式增长,以执行可跨X86变体以及Arm和Power等其他体系结构移植的高级代码。数据存储、数据库,应用程序框架,虚拟机和运行时的数量惊人,多样化且美观。如果确实发生了寒武纪大爆炸,那就是分布式计算模型和计算硬件的多样性(过去十年中一直在增长)确实是通用X86引擎的功能,后者可以完成所有工作,或者有时很多,虽然他们不是支持各种工作负载的最佳方法。

当工作负载,框架和硬件都对齐时,这是一件很美的事情。2012年就是这种情况,大约在HPC开始过渡到将代码的并行组件卸载到GPU加速器的五年之后,机器学习算法最终找到了足够的数据并具有足够的并行处理能力以采用数学上早在1980年代就听起来不错的算法,并将它们用于图像识别,语音识别,语音到文本翻译,视频识别和其他工作负载的测试。而且,lo和hehold,他们工作了。

现在AI的机器学习版本已经彻底改变了我们思考软件编写以及管理业务和个人生活许多方面的方式。HPC和AI统一对供应商和用户而言都非常方便,因为可以执行一组工作负载的相同系统也可以完成另一组工作,在某些情况下,它们可以串行或并行地交织以创建AI增强的HPC。但是,正如我们之前指出的那样,HPC和AI之间这种谐波收敛(harmonic convergence)的便利并不一定要保持,而只有在软件和经济朝着相同的方向推动时才如此。

在2020年的这一点上,很难说它是否会成立,但是很明显的是,橡树岭国家实验室的1.5 exaflops的“Frontier” 系统将于2021年到期,劳伦斯·利弗莫尔国家实验室的2 exaflops的“ El Capitan”系统定于2022年问世。相关资料显示,这个系统混合了CPU-GPU,两者之间具有紧密耦合的计算和一致的内存。他们指出,将AMD Epyc CPU和Radeon Instinct GPU加速器混合使用是正确的选择,这对新贵X86和GPU芯片制造商来说是福音。话虽如此,劳伦斯·利弗莫尔(Lawrence Livermore)绝对清楚,El Capitan主要是一台HPC机器,具有一些相对较小的AI职责。

现代的单片CPU或使用单个插槽中的小芯片(chiplets)之间的互连创建虚拟CPU的插槽,确实是一个奇迹。当我们看这些芯片中的一种时,我们正在看的是仅仅几十年前的超级计算机,它们将需要如此多的单个芯片来构建,以至于让人难以置信。让我们花点时间看一下这些艺术品,从英特尔的28核“ Skylake” Xeon SP 裸片开始:

甚至西摩·克雷(Seymour Cray)都会拿出放大镜,花几个小时观察这种美丽。克雷(Cray)将花费我们预期的等量时间,研究IBM的24核“ Nimbus” Power9处理器:

我们还没有Ampere的“ Quicksilver” Altra或Marvell的“ Triton” ThunderX3 这些Arm服务器CPU的裸片图,但是就组件数量而言,毫无疑问,它们将同样复杂。我们也没有构成AMD“罗马” Epyc 7002系列的九中芯片的集合,但是我们稍后将在此查看一些Rome原理图。

如果您细心看,你会发现现代服务器CPU就像二十年前的大型iron NUMA的外观,只是所有组件都缩减为一个裸片,他不仅包含CPU(今天称为内核),还包括L3缓存,PCI- Express和以太网控制器以及用于加密、数据压缩、内存压缩、矢量数学和十进制数学的各种加速器(IBM Power和System z都有)。如果您已经像我们一样从事了很长时间的行业,那么从大型NUMA服务器缩减到单个插槽的缩影确实是一个了不起的旅程。

AMD Rome会是你的目标吗?

有几件事很清楚。一方面,AMD在Rome方面的成功提供了一种设计良好的小芯片体系结构,即使从单片芯片迁移到小芯片设计时,即使对延迟产生影响,也可以提供性能和性价比方面的优势。在罗马走一走,看看:

Rome使用的Zen2内核的所有功能都优于Naples首次推出的Zen1内核,并且通过创建围绕单个I / O和内存控制器中枢的专用内核模块,大大改善了小芯片的互连体系结构。AMD这样做的所有意图和目的都是在单个14纳米管芯上混合了I / O和存储器控制器的NUMA控制器,该管芯由Globalfoundries制造,具有83.4亿个晶体管。

据了解,核心小芯片在单个裸片上具有两个四核核心复合体,其中八个裸片(骰子?)构成了总共64个核心,这些I / O核心都包裹在其中。每个核心小芯片都有39亿个晶体管,这些晶体管是由台积电在其7纳米工艺中蚀刻的,总共有322亿个晶体管用于计算。

全部加进去 Rome Epyc 7002小芯片工厂总共拥有395.4亿个晶体管,这肯定会超出任何代工厂的标线限制,而且要获得如此大芯片的良率也将变得更加疯狂。封装小芯片的麻烦,成本和风险不如制造标线片破坏单片服务器芯片的麻烦成本和风险大,至少对于拥有附属PC芯片业务的AMD而言,无论如何它都需要制造更小的芯片。

所有服务器CPU制造商迟早都将使用小芯片,但我们希望更加激进。我们希望将CPU分解为核心串行,整数处理要点,并撕裂所有已放置在芯片上的矢量引擎和加速器(这些整数引擎现在或在其旁边或在环形或网状互连中)。它们位于其他芯片中,它们属于一个世界,该世界将具有一致的系统间(CXL)和系统内(Gen-Z)一致协议集,以将计算元素捆绑在一起,以便它们可以以非对称方式共享内存或存储或symmetric fashion。

如果GPU加速器可以在64位或32位浮点处理上提供最佳的每瓦性能和每美元性能,那就可以了。将向量单元从CPU中取出,然后有两种选择:使芯片更小,更便宜,添加更多内核或提高时钟频率以创建性能更高或成本更低的串行整数计算引擎。

如果客户需要混合精度或更高精度的数据流引擎以及仅少量串行数据,主机计算,则可以将精简的CPU与FPGA紧密连接。并且假设至少要进行一些服务器虚拟化,尤其是在云和企业中,则应尽可能从服务器CPU上卸载这项工作。这意味着我们绝对假设每台服务器中都将有一个SmartNIC,可以像基板管理控制器(尚未发生的融合),服务器虚拟化或容器平台主机,以及可以运行虚拟网络和虚拟存储的地方一样工作,就像Amazon Web Services和Microsoft Azure一样。加密,解密,数据压缩和其他功能也可以从主机CPU中提取出来,并放入SmartNIC中,它们可以归为SmartNIC,并且可以用更少的钱完成。

最终,我们要优化专用芯片上的所有芯片性能,使其具有各种尺寸和容量,并具有互连功能,从而允许系统设计师以比超规模化者和云构建者所拥有的以太网更细粒度,更低的层次来混合它们。

试图做到这一点。这可能意味着socket的协议标准化,这可能将引致一些芯片制造商的抵制。但是有了这样的标准,系统架构师和芯片(实际上是socket)制造商可以拥有更广泛的计算选项板,用它们来绘制他们的许多工作负载,无论是在socket还是跨系统,或是它们的某种混合。

诚然,仍然会有那些想要通用服务器CPU的人,瑞士军刀可以完成所有工作。但是,我们谈论的是拥有一把剑,一把非常好的剪刀和一把无用的手锯,而是一系列微型版本的集合,这些版本最终并没有看上去有用。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/488223.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

rk3288 android编译环境搭建,RK3288系统编译及环境搭建

准备工作编译 Android 对机器的配置要求较高:64 位 CPU16GB 物理内存交换内存30GB 空闲的磁盘空间用于构建,源码树另外占用大约 8GB官方推荐 Ubuntu 12.04 操作系统,实际上也可以采用更新的操作系统版本,只需要满足 http://source…

50 days before NOI2017

2017.5.31 今天开了这个博客,打算每天来写点东西,嗯。。。毕竟要NOI了嘛。。。 第一天跑到常州里集训,打开题目一看湖南集训题。。。 T1刷一下写完,然后交了然后发现错了。。。赶紧改过来,大概1h吧。。。 T2刷一下发现…

2020城市大脑与超级智能建设规范研究报告(附下载)

报告下载地址: https://pan.baidu.com/s/1x85xZrAG6df4BcVkJqtcqw提取码: 6ytv21世纪以来,21世纪以来,眼花缭乱的前沿科技新概念喷薄而出,从Web2.0、社交网络、物联网、移动互联网、大数据、工业4.0、工业互联网到云机器人、深度学习、边缘计…

android按钮点击无响应时间,AndroidStudio下的点击事件不响应

本来是测试自定义Toast,发现implements View.OnClickListener的Onclick事件怎么都不响应,开始以为是自定义的问题。结果当然不是;需要clean项目就好了,AndroidStudio的问题还是很多~Overridepublic void onBackPressed() {ToastUt…

同步带周长计算公式_同步带的长度计算和常见问题

同步带的长度计算公式如下:lb ((df dm) 1.5708 ) (2 lfm)其中lb是同步带的长度,df是大同步带轮的直径,dm是小同步带轮的直径,lfm是大同步带轮的中心和小同步带轮中心的距离。从上述同步带长度的计算公式可以看出同步带轮的直径对…

nodejs中处理回调函数的异常

假设是使用nodejsexpress3这个经典的组合。那么有一种非常方面的处理回调函数异常的方法: 1. 安装模块:express-domain-middleware 2. 增加例如以下的代码: app.use(require(express-domain-middleware)); app.use(function errorHandler(err…

5G新标准将延迟3个月发布,但5G“新战场”已经明确

来源:雷锋网2019年,5G开启商用元年。2020年开年,5G智能手机的发布就迎来了一个发布高峰,2月份至今,国内就有10多款5G手机发布。5G手机的数量和销量也迅速增长,根据工信部副部长辛国斌给出的数据&#xff0c…

python copy deepcopy_python-copy-deepcopy

1.结论:—–我们寻常意义的复制就是深复制,即将被复制对象完全再复制一遍作为独立的新个体单独存在。所以改变原有被复制对象不会对已经复制出来的新对象产生影响。—–而浅复制并不会产生一个独立的对象单独存在,他只是将原有的数据块打上一…

android 2个界面抽屉,Android使用DrawerLayout创建左右两个抽屉菜单

在Android support.v4 中有一个抽屉视图控件DrawerLayout。使用这个控件,可以生成通过在屏幕上水平滑动打开或者关闭菜单,能给用户一个不错的体验效果。最近在项目中,设计中有用到这个效果,但是是左右两边都能划出这样的一个菜单效…

报告:100家AI初创公司榜单 这五大趋势不得不看!

来源: 网易智能用新药治疗一系列慢性疾病;抵御各种网络攻击;让城市更加智能;更精准地预报天气和野火,从而提高安全性并降低风险。此外,还有深度伪造技术(deepfakes)的商业化。这些看…

android默认exported_AndroidManifest.xml文件中exported属性解析

4、目标Activity的属性Android:exported”true”如果组件包含有intent-filter则 exported默认值为true;没有intent-filter则exported默认值为false。当exported为 true时可以被外部其他App所调用当exported为 false时可以被外部其他App所调用5、目标Activity具有相应的IntentFi…

android外接键盘打汉字,Android在外接物理键盘时,如何强制调用系统软键盘

Android在外接物理键盘时,如何强制调用系统软键盘?第一次写,写的不好请见谅参考:物理键盘映射过程:手机/system/usr/keylayout/*.kl :内核将keyCode映射成有含义的字符串KeycodeLabels.h : framework 将字符…

20155204 2016-2017-2《Java程序设计》课程总结

20155204 2016-2017-2《Java程序设计》课程总结 目录 作业链接汇总作业总结实验报告链接汇总代码托管链接课堂项目实践学习经验问卷调查链接二维码(按顺序)每周作业链接汇总 预备作业1:我对师生关系的思考预备作业2:做中学感悟预备…

android网络测试上传速度慢,Android:如何获得互联网连接上传速度和延迟?

要获取当前网络连接类型:TelephonyManager telephonyManager (TelephonyManager) getSystemService(Context.TELEPHONY_SERVICE);int networkType telephonyManager.getNetworkType();并为延迟:String host "172.16.0.2";int timeOut 3000…

复杂性科学与还原论

来源:陶勇科学网博客1984年,两位诺贝尔物理学奖得主盖尔曼(Murray Gell-mann)、安德森(Philip Anderson)和诺贝尔经济学奖得主阿罗(Kenneth Arrow)聚集了一批从事物理、经济、生物、…

ios math 那个头文件_C++ 头文件系列(ios)

1 简介我们都知道,平时常用的那些标准流,诸如iostream、ofstream、ifstream等等,其实都是对应的basic_XXX模版的实例类。 而这些basic_XXX类模版又都是继承自同一个基类模版----basic_ios。2 basic_ios模版定义这个基类模版应该是出于可重用的…

Nim游戏(初谈博弈)

通常的Nim游戏的定义是这样的:有若干堆石子,每堆石子的数量都是有限的,合法的移动是“选择一堆石子并拿走若干颗(不能不拿)”, 如果轮到某个人时所有的石子堆都已经被拿空了,则判负(…

android 如何使用aar,Android Studio如何使用aar依赖包?

ps:2013-12-25 号更新,升级到0.4以后 这种方法已经完美使用!因为项目里面要用到actionbarsherlock,所以研究了一下如何导入到android studio中。arr(Android Archive):名字是谷歌到的,至于中文叫什么我也不知道。不过好像依赖都要…

第二百七十九节,MySQL数据库-pymysql模块操作数据库

MySQL数据库-pymysql模块操作数据库 pymysql模块是python操作数据库的一个模块 connect()创建数据库链接,参数是连接数据库需要的连接参数使用方式:   模块名称.connect()   参数:   host数据库ip   port数据库端口   user数据库用户名   pa…

宇航员能用GPS在月球上导航吗?美国宇航局的科学家给出了肯定答案

Illustration: NASA来源:IEEE电气电子工程师如果宇航员按照美国宇航局Artemis计划登录月球,他们的主要目标之一就是在月球南极附近的陨石坑中挖冰,这些冰层不仅对水有用,而且可以分解成氢和氧。但它们需要导航,才能精确…