暴雨讲堂:AI时代第五代英特尔CPU能做什么?

如果把科技圈比作娱乐圈,那么这两年的顶流一定是AI。2023年,世人见证了ChatGPT在全球范围内的大火,以生成式AI为代表的新一轮人工智能应用问世,改变了人工智能(AI)技术与应用的发展轨迹,并开始在各行各业中得到广泛应用。全球多个调研机构的调研结果都显示,有接近58%的企业都有意在未来几年将生成式AI导入到自身的业务当中,预计到2026年,全球将会有超过3000亿美金投入到生成式AI当中,包括硬件、软件和解决方案等,其中有多达50%以上的边缘应用也会采用AI技术。AI领域的发展离不开强劲的算力,在过去几年,人们普遍认为,包含大量高强度并行计算任务的AI计算理所应当应该让擅长图形处理的GPU来做,但众所周知,AI计算包括推理和训练两部分,虽然GPU在训练方面的优势很大,但在推理环节,GPU实际上也并非“唯一解”,负责执行各种程序指令,处理各种逻辑和算法的CPU,实际上也能在AI计算中发挥极大的作用。例如英特尔在去年年底推出的第五代至强可扩展处理器,就是一款具备强劲AI性能的CPU产品。通过更多的核心数(64核心)、更大的内存带宽(5600MT/s)、更大的三级缓存(320MB),以及软件生态方面的优化,与上一代相比,第五代至强可扩展处理器在相同功耗下的平均性能提升了21%,在AI推理和训练性能的提升则达到了42%和29%。

“无论是英特尔内部的实验结果还是来自客户的反馈都验证了第五代至强在AI计算上的能力,像一些通用的应用,如会议纪要提取、大纲总结、内容分析,以及一些内容创作,尤其是大家讨论的比较多的文生图、机器人聊天客服、代码撰写等生产力提升的应用中,基于第五代至强的服务器的结果还是比较有优势的,因此我们也非常有信心能够满足这一类生成式AI模型的工作负载需求。”英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰总结道。之所以能在AI计算能力有如此惊人的突破,主要还是源于第五代至强可扩展处理器在硬件架构方面的改进和软件生态方面的优化。其中在硬件架构方面,第五代至强可扩展处理器在制程、芯片布局、性能能效、三级缓存和内存IO方面都有不少改进。具体来说,在制程方面,第五代至强基于Intel7制程,同时采用Dual-poly-pitchSuperFin晶体管技术,与第四代至强相比,第五代至强在系统漏电流控制和动态电容等关键技术指标上做了改进,通过这些调整,第五代至强在同等功耗下的频率提升了3%。

芯片布局方面,随着算力需求的上升,单个芯片的核心数、IO也不可避免地需要增加,这些都在推动芯片面积的增加,因此也带来了两个问题,其一是芯片的良品率无法保证,其二是单片面积过大会超过光刻机的尺寸限制,所以现在主流的芯片设计都是将大的CPU芯片切分成多个子芯片,然后采用多芯片的方式封装到一个芯片上。例如第四代至强就将芯片切分为互相对称的四部分,而第五代至强在芯片设计上采用了2芯片封装的方法,不仅良率得到了提升,而且也可以更好地控制芯片面积。在关键性能指标方面,第五代至强的核心升级为Raptor Cove,核心数增加到了64,LLC增加到了5MB,DDR速度提升到了5600MT/s,UPI速度提升到了20GT/s,此外通过第五代至强内置的全集成供电模块以及增强的主动空闲模式,有效降低了CPU在非满载情况下的能耗,从而更好地提高数据中心的供电有效性。根据SPEC integer的结果,第五代至强的整数计算性能提升了21%,而针对AI负载的性能提升则达到了42%。由于第五代至强单个模块的LLC容量达到了5MB,因此整体的缓存大小达到了320MB,所以在数据集不大的情况下,大部分的数据都能放在LLC缓存中,从而减少对内存的访问,以带来更高的性能。不过更大的缓存也会带来可靠性的问题,为此第五代至强的LLC中新增了DEC和TED的编码方式,相较于单位纠错和两位纠错的纠错能力更强,因此使得系统的容错性更高。最后在内存IO方面,英特尔通过MIM内存优化、基板走线优化、片上低噪声供电优化等方式,将第五代至强的IO速度提升到了5600MT/s。除了在底层硬件架构上的改进之外,英特尔在软件解决方案方面的能力也有目共睹,为了能让第五代至强的硬件能力更好地转化为用户价值,英特尔也投入了诸多资源,例如加速数据库处理、数据安全保障以及虚拟化技术的优化等等。针对AI能力方面,英特尔的软件团队多年来一直在基于x86架构进行持续优化,除了对TensorFlow、PyTorch这类主流开源机器学习框架早早实现支持以外,随着第五代至强的发布,英特尔也向社区上传了300多个深度学习模型,支持50多个面向第五代至强优化过的模型,都可以供开发者调用。而Intel开发的深度学习工具库OpenVINO则能用于优化深度学习在各类芯片上的表现,对于大语言模型,英特尔则开发了很多高性能库,例如可以大幅提升单机性能的oneDNN和能够提供集群式运算能力的oneCLL,有了oneDNN和oneCCL的加持,第五代至强也随之具备了大模型推理的能力,此外英特尔也对虚拟化层、云原生层和OSKernel层给予了很多的资源,让最新的技术能适配最新的软件栈。从英特尔技术专家的介绍中得知,从横向延迟的角度来看,100ms是客户业务的阈值,大于100ms时业务体验会比较差,根据英特尔的测试数据,如果卡在100ms的标准上,一颗第四代或第五代英特尔至强可扩展处理器可以支持13B参数的模型。两颗可以做到30B参数的模型,如果想要更短的延迟,只要把模型缩小就可以,而对于6B或者是7B参数的模型,一颗第四代英特尔至强可扩展处理器可以做到60ms。如果企业选择部署具备高带宽内存的至强Max系列CPU,部署数量可以进一步减少,例如想要进行300亿参数的模型推理,同时控制延时在100ms以内的话,需要两台基于第四代或者第五代至强的两路服务器,但如果采用基于至强Max的方案,只需一台两路服务器即可。在实际落地中,英特尔就与百度使用四台基于第五代英特尔至强可扩展处理器的双路服务器,一共8颗第五代至强芯片,实现了对70B参数模型的支持,服务器之间的互连则采用oneCCL和RDMA网络,并将延迟控制在了100ms以内,充分证明了GPU并非大模型的唯一选择,CPU也有能力做同样的事。而为了让广大的AI开发者能够更好更快地在至强的服务器上部署自身的AI应用,英特尔也和百度千帆进行了深度合作,在选择了可以支持的大模型之后,如果想进行部署,系统会提示可以选择AI加速卡或者CPU,使开发人员可以尝试把大语言模型部署在至强处理器上,且不用担心操作问题。最后,在产品更新层面,随着不断变化的AI需求,英特尔也会针对不同的工作负载推出更加具有针对性的至强产品,例如预计将于今年推出的更高能效的Sierra Forest,以及针对计算密集型和AI工作负载进行优化的性能核产品Granite Rapids,从而为万物智能、万物互联的智能世界打好坚实的算力基础。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/769743.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

什么是进程

目录 一. 进程的概念二. 进程的组成三. 进程的特征四. 进程的状态与转换4.1 进程的状态4.2 进程状态的转换4.3 进程的组织方式 五. 进程控制5.1 进程控制5.2 进程创建 六. 进程之间的通信6.1 共享存储6.2 消息传递 \quad 一. 进程的概念 \quad 思考:操作系统是这些进程的管理者…

oracle19c单机版补丁19.3.0.0升级到19.22.0.0

oracle19c单机版补丁升级到19.22.0.0 一、获取补丁包 查看之前的版本 column product format A30 column version format A15 column version_full format A20 column status format A15 select * from product_component_version;二、备份opatch和数据库文件 su - oracle …

封装-练习

T2、以面向对象的思想,编写自定义类描述IT从业者。设定属性包括:姓名,年龄,技术方向,工作年限;方法包括:工作。 要求: 设置属性的私有访问权限,通过公有的get,set方法实现…

AD域的使用

一,部署共享网络驱动器 1/根目录下创建共享资料库-共享 2/用户-首选项-windows设置-网络驱动器-新建-映射驱动器 3/创建-共享路径-驱动器号(可固定/可随机) 4/更新策略:gpupdate /force 5/客户端查看 首先我们打开服务器此电脑 建立一个文件夹 右击文件夹点击属…

Avalonia(11.0.2)+.NET6 打包设置发布包的版本号

Avalonia11.0.2+.NET6 打包设置发布包的版本号 系统版本如何打包设置打包的版本号本文是对上一篇打包文章的补充,后台好多人私信我说打包的版本号如何设置,今天出个补充说明 Avalonia(11.0.2)+.NET6 打包运行到银河麒麟V10桌面系统 系统版本 如何打包 Avalonia(11.0.2)+.NET…

MVC与MVVM:两种前端架构模式对比

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 🍚 蓝桥云课签约作者、上架课程《Vue.js 和 E…

pytest教程-19-pytest.ini配置文件

领取资料,咨询答疑,请➕wei: June__Go 上一小节我们学习了pytest内置fixture的使用方法,本小节我们讲解一下pytest.ini文件的配置方法。 pytest配置文件可以改变pytest的运行方式,它是一个固定的文件pytest.ini文件&#xff0c…

OpenGL学习笔记【4】——创建窗口,给窗口添加渲染颜色

一、前三章节的前情回顾 章节一:上下文(Context) OpenGL学习笔记【1】——简介-CSDN博客 章节一讲述了OpenGL在渲染的时候需要一个Context来记录了OpenGL渲染需要的所有信息和状态,可以把上下文理解成一个大的结构体,它里面记录了当前绘制使…

基于Java校园跑腿管理系统设计与实现(源码+部署文档)

博主介绍: ✌至今服务客户已经1000、专注于Java技术领域、项目定制、技术答疑、开发工具、毕业项目实战 ✌ 🍅 文末获取源码联系 🍅 👇🏻 精彩专栏 推荐订阅 👇🏻 不然下次找不到 Java项目精品实…

自定义collate_fn函数:应对报错RuntimeError: stack expects each tensor to be equal size

使用BERT或ResNet分别生成文本和图像特征时,由于文本自身长度和图像大小的限制,导致最后形成的特征数据在送入DataLoader时会因为维度不同而报错: RuntimeError: stack expects each tensor to be equal size此时就需要自定义collate_fn函数实现数据的自定义加载功能,下面…

类型双关联合体(C++基础)

类型双关 类型双关就是在同样的一个内存中,存储的数据可以用做不同类型的表述。用在底层性能优化的时候,一般使用的时候要非常小心,因为不当的使用可能导致程序的不稳定和不可预测的行为。 int a 5;//double value (double)a;double value…

软考信息系统项目管理师2024上半年报名流程及注意事项

2024年5月软考信息系统项目管理师报名入口: 中国计算机技术职业资格网(http://www.ruankao.org.cn/) 2024年软考报名时间暂未公布,考试时间上半年为5月25日到28日,下半年考试时间为11月9日到12日。不想错过考试最新消…

Qt Design Studio 软件怎么用(详细+通俗+有趣)

建议:本文长期更新,建议点赞/收藏! 1. 啥是Qt Design Studio? Qt Design Studio 是一个用于设计和开发用户界面的工具,特别适合开发跨平台应用程序。它结合了UI设计和开发的工作流程,使得设计师和开发者可…

桌面显示器PD芯片:引领桌面显示技术的新篇章

随着科技的飞速发展,桌面显示器作为人们日常工作与生活中不可或缺的重要设备,其性能与品质也在不断提升。其中,PD芯片作为桌面显示器中的核心组件,发挥着至关重要的作用。本文将对桌面显示器PD芯片进行详细介绍,探讨其…

【Leetcode】top 100 二叉树

基础知识补充 完全二叉树:顺序存储(数组) 非根节点的父节点序号floor((i-1)/2) 序号i的左孩子节点序号2*i1 右孩子节点序号2*i2 一般二叉树:链式存储 结构:left指针指向左子节点,right指针指向右子节点&am…

ffmpeg拉流并解码

流程 注意事项 版本不同导致的api差异资源安全释放

激光焊接机在不锈钢三角阀制造中的应用与发展

不锈钢三角阀激光焊接机是一种专门用于焊接不锈钢三角阀的高效、精准设备。这种设备在不锈钢三角阀的制造过程中起到了至关重要的作用,其应用主要体现在以下几个方面: ​ 一、激光焊接机在不锈钢三角阀制造中的应用 激光焊接机以其独特的优势&#xff…

力扣450 删除二叉搜索树中的节点 Java版本

文章目录 题目描述思路代码 题目描述 给定一个二叉搜索树的根节点 root 和一个值 key,删除二叉搜索树中的 key 对应的节点,并保证二叉搜索树的性质不变。返回二叉搜索树(有可能被更新)的根节点的引用。 一般来说,删除…

【CKA模拟题】如何发布一个SVC资源

题干 For this question, please set this context (In exam, diff cluster name) kubectl config use-context kubernetes-adminkubernetesYou have an existing Nginx pod named nginx-pod . Perform the following steps: Expose the nginx-pod internally within the cl…