暴雨讲堂:AI时代第五代英特尔CPU能做什么?

如果把科技圈比作娱乐圈,那么这两年的顶流一定是AI。2023年,世人见证了ChatGPT在全球范围内的大火,以生成式AI为代表的新一轮人工智能应用问世,改变了人工智能(AI)技术与应用的发展轨迹,并开始在各行各业中得到广泛应用。全球多个调研机构的调研结果都显示,有接近58%的企业都有意在未来几年将生成式AI导入到自身的业务当中,预计到2026年,全球将会有超过3000亿美金投入到生成式AI当中,包括硬件、软件和解决方案等,其中有多达50%以上的边缘应用也会采用AI技术。AI领域的发展离不开强劲的算力,在过去几年,人们普遍认为,包含大量高强度并行计算任务的AI计算理所应当应该让擅长图形处理的GPU来做,但众所周知,AI计算包括推理和训练两部分,虽然GPU在训练方面的优势很大,但在推理环节,GPU实际上也并非“唯一解”,负责执行各种程序指令,处理各种逻辑和算法的CPU,实际上也能在AI计算中发挥极大的作用。例如英特尔在去年年底推出的第五代至强可扩展处理器,就是一款具备强劲AI性能的CPU产品。通过更多的核心数(64核心)、更大的内存带宽(5600MT/s)、更大的三级缓存(320MB),以及软件生态方面的优化,与上一代相比,第五代至强可扩展处理器在相同功耗下的平均性能提升了21%,在AI推理和训练性能的提升则达到了42%和29%。

“无论是英特尔内部的实验结果还是来自客户的反馈都验证了第五代至强在AI计算上的能力,像一些通用的应用,如会议纪要提取、大纲总结、内容分析,以及一些内容创作,尤其是大家讨论的比较多的文生图、机器人聊天客服、代码撰写等生产力提升的应用中,基于第五代至强的服务器的结果还是比较有优势的,因此我们也非常有信心能够满足这一类生成式AI模型的工作负载需求。”英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰总结道。之所以能在AI计算能力有如此惊人的突破,主要还是源于第五代至强可扩展处理器在硬件架构方面的改进和软件生态方面的优化。其中在硬件架构方面,第五代至强可扩展处理器在制程、芯片布局、性能能效、三级缓存和内存IO方面都有不少改进。具体来说,在制程方面,第五代至强基于Intel7制程,同时采用Dual-poly-pitchSuperFin晶体管技术,与第四代至强相比,第五代至强在系统漏电流控制和动态电容等关键技术指标上做了改进,通过这些调整,第五代至强在同等功耗下的频率提升了3%。

芯片布局方面,随着算力需求的上升,单个芯片的核心数、IO也不可避免地需要增加,这些都在推动芯片面积的增加,因此也带来了两个问题,其一是芯片的良品率无法保证,其二是单片面积过大会超过光刻机的尺寸限制,所以现在主流的芯片设计都是将大的CPU芯片切分成多个子芯片,然后采用多芯片的方式封装到一个芯片上。例如第四代至强就将芯片切分为互相对称的四部分,而第五代至强在芯片设计上采用了2芯片封装的方法,不仅良率得到了提升,而且也可以更好地控制芯片面积。在关键性能指标方面,第五代至强的核心升级为Raptor Cove,核心数增加到了64,LLC增加到了5MB,DDR速度提升到了5600MT/s,UPI速度提升到了20GT/s,此外通过第五代至强内置的全集成供电模块以及增强的主动空闲模式,有效降低了CPU在非满载情况下的能耗,从而更好地提高数据中心的供电有效性。根据SPEC integer的结果,第五代至强的整数计算性能提升了21%,而针对AI负载的性能提升则达到了42%。由于第五代至强单个模块的LLC容量达到了5MB,因此整体的缓存大小达到了320MB,所以在数据集不大的情况下,大部分的数据都能放在LLC缓存中,从而减少对内存的访问,以带来更高的性能。不过更大的缓存也会带来可靠性的问题,为此第五代至强的LLC中新增了DEC和TED的编码方式,相较于单位纠错和两位纠错的纠错能力更强,因此使得系统的容错性更高。最后在内存IO方面,英特尔通过MIM内存优化、基板走线优化、片上低噪声供电优化等方式,将第五代至强的IO速度提升到了5600MT/s。除了在底层硬件架构上的改进之外,英特尔在软件解决方案方面的能力也有目共睹,为了能让第五代至强的硬件能力更好地转化为用户价值,英特尔也投入了诸多资源,例如加速数据库处理、数据安全保障以及虚拟化技术的优化等等。针对AI能力方面,英特尔的软件团队多年来一直在基于x86架构进行持续优化,除了对TensorFlow、PyTorch这类主流开源机器学习框架早早实现支持以外,随着第五代至强的发布,英特尔也向社区上传了300多个深度学习模型,支持50多个面向第五代至强优化过的模型,都可以供开发者调用。而Intel开发的深度学习工具库OpenVINO则能用于优化深度学习在各类芯片上的表现,对于大语言模型,英特尔则开发了很多高性能库,例如可以大幅提升单机性能的oneDNN和能够提供集群式运算能力的oneCLL,有了oneDNN和oneCCL的加持,第五代至强也随之具备了大模型推理的能力,此外英特尔也对虚拟化层、云原生层和OSKernel层给予了很多的资源,让最新的技术能适配最新的软件栈。从英特尔技术专家的介绍中得知,从横向延迟的角度来看,100ms是客户业务的阈值,大于100ms时业务体验会比较差,根据英特尔的测试数据,如果卡在100ms的标准上,一颗第四代或第五代英特尔至强可扩展处理器可以支持13B参数的模型。两颗可以做到30B参数的模型,如果想要更短的延迟,只要把模型缩小就可以,而对于6B或者是7B参数的模型,一颗第四代英特尔至强可扩展处理器可以做到60ms。如果企业选择部署具备高带宽内存的至强Max系列CPU,部署数量可以进一步减少,例如想要进行300亿参数的模型推理,同时控制延时在100ms以内的话,需要两台基于第四代或者第五代至强的两路服务器,但如果采用基于至强Max的方案,只需一台两路服务器即可。在实际落地中,英特尔就与百度使用四台基于第五代英特尔至强可扩展处理器的双路服务器,一共8颗第五代至强芯片,实现了对70B参数模型的支持,服务器之间的互连则采用oneCCL和RDMA网络,并将延迟控制在了100ms以内,充分证明了GPU并非大模型的唯一选择,CPU也有能力做同样的事。而为了让广大的AI开发者能够更好更快地在至强的服务器上部署自身的AI应用,英特尔也和百度千帆进行了深度合作,在选择了可以支持的大模型之后,如果想进行部署,系统会提示可以选择AI加速卡或者CPU,使开发人员可以尝试把大语言模型部署在至强处理器上,且不用担心操作问题。最后,在产品更新层面,随着不断变化的AI需求,英特尔也会针对不同的工作负载推出更加具有针对性的至强产品,例如预计将于今年推出的更高能效的Sierra Forest,以及针对计算密集型和AI工作负载进行优化的性能核产品Granite Rapids,从而为万物智能、万物互联的智能世界打好坚实的算力基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/769743.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Rancher(v2.6.3)——Rancher部署Nacos(单机版)

Rancher部署Nacos详细说明文档:https://gitee.com/WilliamWangmy/snail-knowledge/blob/master/Rancher/Rancher%E4%BD%BF%E7%94%A8%E6%96%87%E6%A1%A3.md#5rancher%E9%83%A8%E7%BD%B2nacos ps:如果觉得作者写的还行,能够满足您的需求&#x…

Android AIDL编译 程序包 .aidl 不存在

错误: 程序包 aidl 不存在 本文仅针对 AGP 8.0 android gradle plugin 以上 buildFeatures {aidl true } 在模块gradle android { }中增加. 详见: https://developer.android.com/build/releases/past-releases/agp-8-0-0-release-notes?hlzh-cn#default-changes

什么是进程

目录 一. 进程的概念二. 进程的组成三. 进程的特征四. 进程的状态与转换4.1 进程的状态4.2 进程状态的转换4.3 进程的组织方式 五. 进程控制5.1 进程控制5.2 进程创建 六. 进程之间的通信6.1 共享存储6.2 消息传递 \quad 一. 进程的概念 \quad 思考:操作系统是这些进程的管理者…

面试算法-110-课程表

题目 你这个学期必须选修 numCourses 门课程,记为 0 到 numCourses - 1 。 在选修某些课程之前需要一些先修课程。 先修课程按数组 prerequisites 给出,其中 prerequisites[i] [ai, bi] ,表示如果要学习课程 ai 则 必须 先学习课程 bi 。 …

【分布式websocket】表情怎么做?自制表情包和Unicode表情符号区别?表情编解码?【20期】

前言 表情包是聊天系统中一个比较常见的功能。常见的表情表分为两种是类型。 一种是Unicode表情,另外一种是图片表情。我们这篇文章两种都会涉及。 图片类表情包会涉及到编解码。不会将发送消息的图片的url地址也一并存入数据库中。 文章将会从表情分类。表情编解码…

添加网址到主页

基于localStorage的网址收藏夹-CSDN博客 为了通过安卓菜单添加网址到主页中,调试了几个小时,主要踩了几个坑。 1.localStorage 通过域名隔离,需要加载主页才能读写。 2.WebView 可以不显示,但是 JS 代码要放在 window.onload 中…

oracle19c单机版补丁19.3.0.0升级到19.22.0.0

oracle19c单机版补丁升级到19.22.0.0 一、获取补丁包 查看之前的版本 column product format A30 column version format A15 column version_full format A20 column status format A15 select * from product_component_version;二、备份opatch和数据库文件 su - oracle …

封装-练习

T2、以面向对象的思想,编写自定义类描述IT从业者。设定属性包括:姓名,年龄,技术方向,工作年限;方法包括:工作。 要求: 设置属性的私有访问权限,通过公有的get,set方法实现…

AD域的使用

一,部署共享网络驱动器 1/根目录下创建共享资料库-共享 2/用户-首选项-windows设置-网络驱动器-新建-映射驱动器 3/创建-共享路径-驱动器号(可固定/可随机) 4/更新策略:gpupdate /force 5/客户端查看 首先我们打开服务器此电脑 建立一个文件夹 右击文件夹点击属…

node整理学习(二)

模块化的概念 一、什么是模块化 模块化是指解决一个复杂问题时,自顶向下逐层把系统划分成若干模块的过程,模块是可组合、分解和更换的单元 二、模块化的好处 1、提高了代码的复用性 2、提高了代码的可维护性 3、可以实现按需加载 三、模块化规范 …

Avalonia(11.0.2)+.NET6 打包设置发布包的版本号

Avalonia11.0.2+.NET6 打包设置发布包的版本号 系统版本如何打包设置打包的版本号本文是对上一篇打包文章的补充,后台好多人私信我说打包的版本号如何设置,今天出个补充说明 Avalonia(11.0.2)+.NET6 打包运行到银河麒麟V10桌面系统 系统版本 如何打包 Avalonia(11.0.2)+.NET…

MVC与MVVM:两种前端架构模式对比

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…

pytest教程-19-pytest.ini配置文件

领取资料,咨询答疑,请➕wei: June__Go 上一小节我们学习了pytest内置fixture的使用方法,本小节我们讲解一下pytest.ini文件的配置方法。 pytest配置文件可以改变pytest的运行方式,它是一个固定的文件pytest.ini文件&#xff0c…

OpenGL学习笔记【4】——创建窗口,给窗口添加渲染颜色

一、前三章节的前情回顾 章节一:上下文(Context) OpenGL学习笔记【1】——简介-CSDN博客 章节一讲述了OpenGL在渲染的时候需要一个Context来记录了OpenGL渲染需要的所有信息和状态,可以把上下文理解成一个大的结构体,它里面记录了当前绘制使…

C#.NET 与 Python 交互

若你要用.NET和Python交互,那么你可以使用两种技术:IronPython 和 Python.NET 。 但两者的基础实现和目标场景都不同,因此如何使用它们也有所不同。 IrconPython简称 IPy , Python.NET 也叫 pythonnet 或 Python for .NET ,下面分…

基于Java校园跑腿管理系统设计与实现(源码+部署文档)

博主介绍: ✌至今服务客户已经1000、专注于Java技术领域、项目定制、技术答疑、开发工具、毕业项目实战 ✌ 🍅 文末获取源码联系 🍅 👇🏻 精彩专栏 推荐订阅 👇🏻 不然下次找不到 Java项目精品实…

《SQL必知必会第五版》第十五章(插入数据)挑战题

1. 使用 INSERT 和指定的列,将你自己添加到 Customers 表中。明确列出要添加哪几列,且仅需列出你需要的列。 INSERT INTO Customers(cust_id,cust_name,cust_address,cust_city,cust_state,cust_zip,cust_country,cust_contact,cust_email) VALUES(…

简单函数_加减乘除

任务描述 对输入的算式进行简单的运算,输出算式结果。运算符只会是加、减-、乘*、除/、求余%、阶乘!之一。 输出运算的结果,如果出现除数为零,则输出“error”,如果求余运算的第二个运算数为0,也输出“error”。 输入…

自定义collate_fn函数:应对报错RuntimeError: stack expects each tensor to be equal size

使用BERT或ResNet分别生成文本和图像特征时,由于文本自身长度和图像大小的限制,导致最后形成的特征数据在送入DataLoader时会因为维度不同而报错: RuntimeError: stack expects each tensor to be equal size此时就需要自定义collate_fn函数实现数据的自定义加载功能,下面…

UR5 机器人 URDF 代码阅读

系列文章目录 文章目录 系列文章目录前言一、UR5 URDF 代码二、base_link三、shoulder_pan_joint四、shoulder_pan_trans五、ROS base_link 坐标系到 UR 机器人 Base 坐标系的转换六、与全零TCP&#xff08;工具坐标系&#xff09;重合的工具链接 前言 一、UR5 URDF 代码 <…