多核之后,CPU 的发展方向是什么?中科院计算所包云岗详细解读

来源:知乎

作者:包云岗

包云岗,中国科学院计算技术研究所研究员、博士生导师、中国科学院大学教授,中国开放指令生态(RISC-V)联盟秘书长,从事计算机体系结构和开源芯片方向前沿研究,主持研制多款达到国际先进水平的原型系统,相关技术在华为、阿里等国内外企业应用。他曾获「CCF-Intel 青年学者」奖、阿里巴巴最佳合作项目奖、「CCF-IEEE CS」青年科学家奖等奖项。

2020 年底给某大厂做过一个报告,包含两部分内容:一部分是关于计算机体系结构,尤其是 CPU 结构的演变;另一部分关于处理器芯片设计方法。这里把第一部分内容贴出来回答一下这个知乎问题。

1. 首先回顾一下计算机体系结构领域三个定律:摩尔定律、牧村定律、贝尔定律。摩尔定律就不用多说了,但想表达一个观点是摩尔定律未死,只是不断放缓。

2. 摩尔定律让芯片上的晶体管数量不断增加,但一个问题是这些晶体管都被充分用起来了吗?最近 MIT 团队在《Science》上发表了一篇文章《There’s plenty of room at the Top: What will drive computer performance after Moore’s law?》,给出他们的答案:显然没有!

可以来看一下 MIT 团队开展的一个小实验(见下面 PPT):假设用 Python 实现一个矩阵乘法的性能是 1,那么用 C 语言重写后性能可以提高 50 倍,如果再充分挖掘体系结构特性(如循环并行化、访存优化、SIMD 等),那么性能甚至可以提高 63000 倍。然而,真正能如此深入理解体系结构、写出这种极致性能的程序员绝对是凤毛麟角。

问题是这么大的性能差异到底算好还是坏?从软件开发角度来看,这显然不是好事。这意味着大多数程序员无法充分发挥 CPU 的性能,无法充分利用好晶体管。这不能怪程序员,更主要还是因为 CPU 微结构太复杂了,导致软件难以发挥出硬件性能。

如何解决这个问题?领域专用架构 DSA(Domain-Specific Architecture)就是一个有效的方法。DSA 可以针对特定领域应用程序,定制微结构,从而实现数量级提高性能功耗比。这相当于是把顶尖程序员的知识直接实现到硬件上。

3. 第二个定律是牧村定律(也有称「牧村波动」)。1987 年, 原日立公司总工程师牧村次夫(Tsugio Makimoto) 提出,半导体产品发展历程总是在「标准化」与「定制化」之间交替摆动,大概每十年波动一次。牧村定律背后是性能功耗和开发效率之间的平衡。

对于处理器来说,就是专用结构和通用结构之间的平衡。最近这一波开始转向了追求性能功耗,于是专用结构开始更受关注。

4. 第三个定律是贝尔定律。这是 Gordon Bell 在 1972 年提出的一个观察,具体内容如下面的 PPT 所述。值得一提的是超级计算机应用最高奖 “戈登 · 贝尔奖” 就是以他的名字命名。

5. 贝尔定律指明了未来一个新的发展趋势,也就是 AIoT 时代的到来。这将会是一个处理器需求再度爆发的时代,但同时也会是一个需求碎片化的时代,不同的领域、不同行业对芯片需求会有所不同,比如集成不同的传感器、不同的加速器等等。如何应对碎片化需求?这又将会是一个挑战。

6. 这三个定律都驱动计算机体系结构向一个方向发展,那就是「DSA」。如何实现 DSA,这又涉及到两个方面:

为了追求性能功耗,有三条主要的设计原则(见下面 PPT);

为了应对碎片化需求,则需要发展出处理器敏捷设计新方法。(这个回答就不介绍敏捷设计方法了)

7. 在谈一些具体技术之前,我们可以先总体看一下过去几十年 CPU 性能是如何提升的。下面这页 PPT 列出了 1995-2015 这二十年 Intel 处理器的架构演进过程——这是一个不断迭代优化的过程,集成了上百个架构优化技术。

这些技术之间还存在很多耦合,带来很大的设计复杂度。比如 2011 年在 Sandy Bridge 上引入了大页面技术,要实现这个功能,会涉及到超标量、乱序执行、大内存、SSE 指令、多核、硬件虚拟化、uOP Fusion 等等一系列 CPU 模块和功能的修改,还涉及操作系统、编译器、函数库等软件层次修改,可谓是牵一发动全身。(经常看到有人说芯片设计很简单,也许是因为还没有接触过 CPU 芯片的设计,不知道 CPU 设计的复杂度)

8. 处理器内部有非常复杂的状态,其状态变化是由程序驱动的。也就是说,处理器状态取决于程序行为(见下面 PPT),而 CPU 体系结构层次的优化思路就是发现程序行为中的共性特征并进行加速。

如何发现程序行为中的共性特征,就是处理器优化的关键点,这需要对程序行为、操作系统、编程与编译、体系结构等多个层次都有很好的理解,这也是计算机体系结构博士的基本要求。这也是为什么很多国外的计算机体系结构方向属于 Computer Science 系。

题外话:这两天看到国内成立集成电路一级学科,这是一个好消息。不过要能培育 CPU 设计人才,在课程设计上不要忽视了操作系统、编程与编译这些传统计算机科学的课程。

9. 举两个发现热点应用和热点代码、并在体系结构层次上优化的例子。一个例子是发现在不少领域TCP/IP 协议栈五层协议(L5Ps)存在很多大量共性操作,比如加密解密等,于是直接在网卡上实现了一个针对 L5Ps 的加速器,大幅加速了网络包处理能力。另一个例子是这次疫情导致云计算数据中心大量算力都用来做视频转码,于是设计了一个硬件加速器专门来加速视频转码,大幅提升了数据中心效率。

10. 发现和识别这种热点应用和热点代码并不容易,需要由很强大的基础设施和分析设备。比如 Google 在其数据中心内部有一个 GWP 工具,能对整个数据中心应用在很低的开销下进行监测与统计,找到算力被那些热点程序 / 代码消耗,当前的 CPU 哪些部件是瓶颈。比如 GWP 显示在 Google 数据中心内部有 5% 的算力被用来做压缩

正是得益于这些基础工具,Google 很早就发现 AI 应用在数据中心中应用比例越来越高,于是开始专门设计 TPU 来加速 AI 应用。

11. 下面分别从三个方面来介绍体系结构层面的常见优化思路:减少数据移动、降低数据精度、提高处理并行度。

首先看一下如何减少数据移动。第一个切入点是指令集——指令集是程序语义的一种表达方式。同一个算法可以用不同粒度的指令集来表达,但执行效率会有很大的差别。一般而言,粒度越大,表达能力变弱,但是执行效率会变高。

12. 通用指令集为了能覆盖尽可能多的应用,所以往往需要支持上千条指令,导致流水线前端设计(取指、译码、分支预测等)变得很复杂,对性能与功耗都会产生负面影响。

13. 针对某一个领域设计专用指令集,则可以大大减少指令数量,并且可以增大操作粒度、融合访存优化,实现数量级提高性能功耗比。下面 PPT 的这组数据是斯坦福大学团队曾经做过的一项研究,从这个图可以看出,使用了「Magic Instruction」后,性能功耗比大幅提升几十倍。而这种 Magic Instruction 其实就是一个非常具体的表达式以及对应的电路实现(见 PPT 右下角)。

14. 第二个减少数据移动的常用方法就是充分发挥缓存的作用。访存部件其实是处理器最重要的部分了,涉及许多技术点(如下面 PPT)。很多人都关注处理器的流水线多宽多深,但其实大多数时候,访存才是对处理器性能影响最大的。

关于访存优化,也有一系列技术,包括替换、预取等等。这些技术到今天也依然是体系结构研究的重点,这里就不展开细讲了。

15. 不再展开介绍访存优化技术,就选最近比较热的内存压缩方向介绍一下。

IBM 在最新的 Z15 处理器中增加了一个内存压缩加速模块,比软件压缩效率提高 388 倍,效果非常突出。

16. 英伟达也在研究如何在 GPU 中通过内存压缩技术来提升片上存储的有效容量,从而提高应用性能。

17. Intel 在访存优化上很下功夫,可以通过对比两款 Intel CPU 来一窥究竟。Core 2 Due T9600 和 Pentium G850 两块 CPU,工艺差一代,但频率相近,分别是 2.8GHz 和 2.9GHz,但性能差了 77%——SPEC CPU 分值 G850 是 31.7 分,而 T9600 只有 17.9 分。

频率相当,为何性能会差这么多?事实上,G850 的 Cache 容量比 T9600 还要小——6MB L2 vs. 256KB L2 + 3MB L3。

如果再仔细对比下去,就会发现这两款处理器最大的区别在于 G850 适配的内存控制器中引入 FMA(Fast Memory Access)优化技术,大幅提高了访存性能。

18. 第二类体系结构优化技术是降低数据精度。这方面是这几年研究的热点,特别是在深度学习领域,很多研究发现不需要 64 位浮点,只需要 16 位甚至 8 位定点来运算,精度也没有什么损失,但性能却得到数倍提升。

很多 AI 处理器都在利用这个思路进行优化,包括前段时间日本研制的世界最快的超级计算机 “富岳” 中的 CPU 中就采用了不同的运算精度。因此其基于低精度的 AI 运算能力可以达到 1.4EOPS,比 64 位浮点运算性能(416PFLOPS)要高 3.4 倍

19. IEEE 754 浮点格式的一个弊端是不容易进行不同精度之间的转换。近年来学术界提出一种新的浮点格式——POSIT,更容易实现不同的精度,甚至有一些学者呼吁用 POSIT 替代 IEEE 754(Posit: A Potential Replacement for IEEE 754)。

RISC-V 社区一直在关注 POSIT,也有团队实现了基于 POSIT 的浮点运算部件 FPU,但是也还存在一些争论(David Patterson 和 POSIT 发明人 John L. Gustafson 之间还有一场精彩的辩论,另外找机会再介绍)。

20. 体系结构层次的第三个优化思路就是并行。这个题目中提到的 “多核”,就是这个思路中一个具体的技术。除了多核,还有其他不同层次的并行度,比如指令集并行、线程级并行、请求级别并行;除了指令级并行 ILP,还有访存级并行 MLP。总之,提高处理并行度是一种很有效的优化手段。

以上是关于计算机体系结构尤其是 CPU 结构优化思路的一个大致梳理,供大家参考。总结来说就是两点结论:

1. 领域专用体系结构 DSA 是未来一段时间体系结构发展趋势;

2. 体系结构层面 3 条优化路线——减少数据移动、降低数据精度、提高处理并行度。

原文链接:https://www.zhihu.com/question/20809971/answer/1678502542

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/485623.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

jsp--JavaBean

Java最好和jsp的代码分开写 但是jsp中会有很多内置对象,例如response 涉及到内置对象的代码在Java中自然是错误的,那么该怎么办? 可以将需要调用的Java方法设置几个参数,jsp将内置对象作为参数传过去 Javabean作用,…

weblogic作为linux服务器,weblogic在linux服务器上部署应用

SSH软件连接服务器:服务器地址:xxx.xxx.xxx.40用户名:xxxx密码:xxxx新建文件夹,用来放新代码版本,后面为代码版本号路径:/home/weblogic命令:mkdir wzgcyth_xxxx部署war包拖拽war到路…

几乎无解的最强加密方法,终于被证实真的存在

来源:数学中国图片来源:Kiel Mutschelknaus for Quanta Magazine2018年,加州大学洛杉矶分校的研究生Ayush Jain前往日本,就他和同事正在开发的强大加密算法进行交流。当他讲述团队正在尝试实现不可区分混淆(indistingu…

css3布局篇(双飞翼)

大家看到好多电商网站都见过经典三列布局,它也叫做圣杯布局 ,是Kevin Cornell在2006年提出的一个布局模型概念,这个在国内最早是由淘宝UED的工程师传播开来,在中国也有叫法是双飞翼布局,它的布局要求有以下的几点&…

Servlet介绍

Servlet: Java类必须符合一定的规范: 1.必须继承javax.servlet.http.HttpServlet 2.重写其中的doGet()或doPost()方法 doGet():接受并处理所有get提交方式的请求 doPost():接受并处理所有Post提交方式的请求 Servlet要想使用,必须配置 …

区块链2021狂想曲:迎接以技术为名的春天

来源: 脑极体另一方面,区块链也作为“核心技术自主创新的重要突破口”,进入了探寻自有价值、进入产业化赋能的全新阶段。站在2021年初始,我们不仅想知道在过去一整年里,区块链实际落地应用的情况究竟怎么样。更想尝试回…

RabbitMQ从初学到精通一

今天来学习一下RabbitMQ,从最起初的安装开始学习: 一、RabbitMQ 安装图1 rabbitMQ下载http://www.rabbitmq.com/download.html下载文件rabbitmq-server-mac-standalone-3.7.4.tar.xz注意,这里的文件是xz压缩文件,需要用xz -d rabbitmq-server…

关于自动驾驶, Mobileye 的 14 个最新观点

来源:新智驾作者 :苏珊珊为了在2025年实现消费级别的自动驾驶,Mobileye都做了什么?Mobileye近日在CES 2021展会上进一步分享了其在ADAS及全自动驾驶领域的战略规划,并详细介绍了Mobileye为实现消费级别的全自动驾驶和“…

linux ps进程管理命令,Linux 进程管理命令之ps

这个命令会显示某一时刻系统的进程状态。ps是通过/proc接口,让管理员查看内核进程状态信息。为了响应一切皆文件,进程参数模拟成文件系统类型(文件),参数路径模拟成目录/proc/# 每个进程都有一个进程ID号这个目录里存放的各种进程的状态信息启…

2020年中国智慧城市发展值得关注的技术

文章来源:Gartner图片来源:网络每年Gartner发布的技术成熟度曲线(The Hype Cycle)报告都备受市场瞩目,也成为政府及企业做出重大投资决策的风向标。其原因在于,它不仅能够让CIO了解到年度最备受瞩目和极具商…

腾讯研究院发布《2021数字科技前沿应用趋势》

来源 :腾讯研究院编辑: 陈近梅2021年1月9日,在腾讯研究院举办的“腾讯科技向善暨数字未来大会2021”上,《变量:2021数字科技前沿应用趋势》报告正式发布。该报告由腾讯研究院发起,先后访谈业界权威专家&…

linux导入pgsql日志目录,Centos下PostgreSQL安装及修改数据目录

记录下在Centos7.6 安装PostgreSQL数据库,版本10.12的过程,第一次装,遇到的坑太多了,网上教程坑也多,有的版本不一样方法不一样。花了半天时间…背景:内网服务器,搭了个sonarqube代码审计系统&a…

H3 BPM之流程包(流程Demo)导入导出

流程包是什么? 流程包指的是工作流从表单设计到流程设计产生的数据包,所有的表单逻辑和流程模型逻辑数据都包含在里面。由于各种厂商工作流软件运行机制不一样,流程包不支持在不同产品之间导入导出,只支持在同一款工作流软件里面导…

11大改革举措!国家自然科学基金2021年项目指南发布

来源:国家自然科学基金委员会网站编辑:宗华排版:李言1月15日,国家自然科学基金委员会网站更新了2021年度项目指南。点击链接进入:2021年项目指南未来智能实验室的主要工作包括:建立AI智能系统智商评测体系&…

Servlet API

Servlet API:由两个软件包组成:对应于HTTP协议的软件包,对应于除HTTP协议以外的软件包 即Servlet API 可以适用于任何通信协议 我们学习的Servlet,是位于javax.servlet.http包中的类和接口,是基础HTTP协议 Servlet继承关系&…

hibernate框架学习之使用SQLQuery查询数据

SQLQuery对象的获取  Hibernate支持使用原生SQL语句进行查询,通过session对象获得SQLQuery对象进行,需要传入SQL语句  SQLQuery createSQLQuery(String sqlStr)  SQLQuery query session.createSQLQuery(“select * from tbl_user");sqlStr是…

Linux下载cfg命令,Linux安装详解-配置ks.cfg实现自动安装过程

之前发过一篇关于通过PXE实现Linux批量无人值守自动安装的文章(可以参考http://www.linuxidc.com/Linux/2011-08/39949.htm),不过写的只是具体的配置和操作,对于原理部分没有说明,最近通过一段时间的学习,把linux的启动安装过程深…

人类如何接近“宇宙无限”?微积分的力量无处不在

来源:遇见数学距离2021年高考还有不到两百天,当无数高中生还在为千军万马过独木桥儿紧锣密鼓准备之时,有部分初中生却已经一只脚踏入了清华大学的校门。2020年的最后一天,清华大学发布官方通知,将启动“丘成桐数学科学…

三层架构

1.三层架构 与MVC设计模式的目标一致,都是为了 解耦合,提高代码复用 区别:二者对项目理解的角度不同 2.三层组成: 表示层(USL,User Show Layer;视图层) 业务逻辑层(BLL,Business Logic Layer;Service层) 数据访问层(DAL,Dat…

这10个著名的思想实验,竟然是物理学家完成的

来源 : 知更社区在物理学中,有一类特殊的实验:它们不需要购置昂贵的仪器,不需要大量的人力物力,需要的只是有逻辑的大脑;而这种实验却可以挑战前人的结论,建立新的理论,甚至引发人们…