打破 AI 算力天花板,Meta超大规模AI基础设施架构解读

 Meta超大规模AI智算基础设施架构设计

80c7f0afcc2810a824c69b641f70dea0.jpeg

摘要

  1. 双重 GPU 集群,每群配备 2.4 万个 H100 芯片,分别采用 RoCE 和 InfiniBand 网络连接。
  2. LLaMA3 就是在这两个集群上训练出来的
  3. Meta AI 将部署庞大算力集群,拥有 35 万张 H100 GPU,相当于 60 万张 H100 的总算力,助力突破性人工智能研究。

Meta打造两个庞大AI集群,每个集群拥有2.4万张GPU。该设计专注于计算、网络和存储的无缝集成,旨在推动人工智能的未来发展。

1 第一代 GPU 集群:1.6w A100 (RSC)

Meta 自 2022 年起公开其强大的 AI 基础设施,率先推出 Research SuperCluster (RSC),该集群由 16,000 个 A100 GPU 组成。RSC 为 Meta 的 AI 研究和开发提供了无与伦比的计算能力。

RSC为Meta AI开发提供技术支持,助力其构建将生成式AI融入各类应用,如计算机视觉、NLP、语音识别、图像生成和编码。RSC的先进能力显著提升了Llama/llama2等AI模型的训练效率。

2 第二代 GPU 集群:2.4w H100

精确数字是每个集群 24,576 张 H100 GPU。

Meta新一代 AI 集群充分吸收了 RSC 的成功和经验教训,这包括,

  • 新集群能支持更大、更复杂的模型,为GenAI产品开发和AI研究的进步铺平了道路。

Meta 自研关键技术,搭建先进基础设施,每天高效执行万亿级 AI 任务。端到端优化确保数据中心高效运行,支撑着 Meta 的 AI 创新。

4899a4b170da592ede24dd9b4b1cd69b.jpeg

左侧:计算机柜,包括GPU服务器机框、fabric交换机等等;右侧:存储机柜。

2.1 计算:Grand Teton GPU 主机

双新集群采用 Grand Teton,这是 Meta 开发的一种开放的 GPU 硬件平台,已贡献给开放计算项目 (OCP)。

从2015年的Big Sur平台开始,Meta一直在开放设计GPU硬件平台。

Grand Teton 实物图如下,

5a82852ea756f0112e3b8c161e8bb002.jpeg


  • 提供了快速可扩展性和灵活性,设计简化,可以快速部署到数据中心,并易于维护和扩展。

创新的Open Rack电源和机架架构相结合,可迅速构建和定制Meta当前和未来的集群,满足不断增长的应用程序需求。

2.2 网络

两个集群使用了不同的网络方案,但都是 400Gbps 接入。

2.2.1 集群一:400Gbps RoCE + 自研交换机

基于 RoCE 网络,使用的交换机包括

  • 自研置顶交换机(TOR)Wedge400 / Arista 7800 ,
  • 自研模块化交换机 Minipack2。
    • Minipack/Minipack2 多用途交换机,可灵活部署为 Spine 交换机,满足不同组网需求。
    • Minipack 创新(2019 年),重塑 Facebook 数据中心网络,为下一代数据基础设施树立了新标杆。
    • 早期的数据中心网络:
      Facebook 的下一代数据中心网络:“数据中心 Fabric”(2014 年)

2.2.2 集群二:400Gbps InfiniBand

使用NVIDIA Quantum2 InfiniBand fabric。

2.2.3 小结

在评估大规模训练中的 RoCE/IB 适用性和可扩展性时,对比研究表明:
RoCE 和 IB 组网的集群均可处理大型生成式 AI 任务,例如 Llama 3 的训练,且未遇网络限制。
这些发现为构建更大规模集群提供指导,有助于解决大型生成式 AI 训练模型的网络挑战。

2.3 存储

存储在 AI 训练中扮演着重要角色,然而相关的讨论确非常少。

人工智能任务的多模态性推动了对高性能存储的需求。理想的解决方案应提供卓越性能,并在处理图像、视频和文本时保持低能耗。

2.3.1 数据和 checkpoints 存储:FUSE + Tectonic

AI 集群的数据和 checkpoint 的存储方案:

  • 上层是一个自研的 Linux 用户空间文件系统(FUSE)
  • Tectonic,Meta 的分布式存储解决方案,专为闪存优化,为数据密集型应用程序提供无与伦比的性能和效率。

这个解决方案使得

  • 同时还提供了 EB 级存储系统所需的灵活性和高吞吐。

2.3.2 交互式调试:Parallel NFS

与 Hammerspace 合作开发的并行 NFS 系统,可支持数千个 GPU 的交互式调试。代码改动能瞬间同步到环境中的所有节点,显著提升调试效率。

Tectonic 分布式存储与 Hammerspace 相结合,释放了企业数据快速迭代的潜能,同时打破了规模限制。

2.3.3 大容量 SSD + 定制每个机柜的服务器数量

Tectonic 和 Hammerspace 解决方案均采用 YV3 Sierra Point 服务器平台,集成了市场上最先进的高容量 E1.S SSD,提供卓越的性能和存储容量。

113d9f675c3b53b535f741ba281fa83e.jpeg

OCP 服务器如同乐高积木,赋予存储层灵活扩展性,满足未来 AI 集群的增长需求,且不影响日常维护和操作,为数据中心提供敏捷高效的基础架构。

3 性能

3.1 原则:性能和易用性缺一不可

构建 AI 集群的关键是兼顾性能与易用性,避免顾此失彼。这种均衡至关重要,因为它确保了训练出卓越的 AI 模型。

优化大型系统设计的最佳方法是通过迭代构建和测试。小集群和大型集群的性能比较可以帮助识别瓶颈。下图以消息大小为横轴,归一化带宽(0-100)为纵轴,展示了当大量 GPU 交互时 AllGather 性能随集群规模的变化。

4d19341488424dbfb11f6a3c3796f7d2.jpeg

优化前:小型集群性能优异(90%+),大型集群性能低下(10%-90%)。
优化后:通过系统化优化,大型集群性能飙升至理想的90%+,与小型集群齐头并进。

3.2 大集群优化

优化大型集群性能:
* 通过减少wait time提升性能85%。
* 优化hash slot分配方式提升性能15%。

  1. 改进 job scheduler,使其具备网络拓扑感知能力,这带来的好处:
    1. 延迟降低
    2. 转发到更上层网络(交换机)的流量减少。
  2. 结合 NVIDIA NCCL,优化了网络路由策略,以实现最优的网络利用率。

以上两项优化使大集群的性能已经接近小集群。


  1. 训练框架和模型团队密切合作,不断改进基础设施。例如,
    1. 并行技术优化,
    2. 存储优化,
  2. 可调试性是大型训练的主要障碍,在大规模情况下难以追踪拖慢训练进程的卡顿原因。
    为此,正在开发 desync 调试和分布式飞行记录等工具,用于跟踪分布式训练流程,快速识别问题。
  3. PyTorch 优化显着提升训练速度:
    通过优化进程组初始化,PyTorch 可支持数万至数十万 GPU 并行训练。优化前,启动时间可长达数小时,优化后缩减为几分钟。

4 对Open AI innovation的承诺

Meta 坚信开源技术的力量,旨在通过开放创新来解决行业难题:
- Meta 坚定地致力于开源硬件和软件。
- 相信开源社区可加速 AI 领域的进步。

  • 持续支持开放硬件创新,成为 OCP 创始成员,已将 Grand Teton 和 Open Rack 等设计贡献给社区,共创未来。
  • 作为PyTorch的最大和主要贡献者,继续推动这一AI软件框架的开发和普及。
  • 继续致力于 AI 研究社区的开放创新。
    • 汇聚 AI 先锋,探索负责任的 AI 发展。我们倡导在开发大模型和大语言模型等技术时,坚持道德准则和社会影响考量。
    • 联手 AI Alliance,一个领先 AI 组织组成的联盟,加速负责任的 AI 创新,开启开放社区的无限可能。

AI 工作建立在开放科学和协力合作的哲学之上。

5 未来展望

Meta为其未来 AI 愿景打造了两个强大的 AI 训练集群。到 2024 年底,Meta 将拥有 35 万张 H100 GPU,总算力相当于 60 万张 H100,为其 AI 创新奠定了基础。

持续优化基础设施,从硬件到业务层面,确保灵活可靠。评估和改进流程以满足不断演变的需求,支持创新模型和研究,打造未来准备就绪的系统。

 

-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/7261.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C语言】第一个C程序:hello world

printf简介 printf是C语言提供的库函数,可以在屏幕上打印格式化数据。这里不作展开,只需要知道,如果要打印hello world,就把双引号引起来的"hello world"作为参数传给printf就行了。如果想要在打印后换行,要…

数据分析之Tebleau可视化:树状图、日历图、气泡图

树状图(适合子分类比较多的) 1.基本树状图的绘制 同时选择产品子分类和销售金额----选择智能推荐----选择树状图 2.双层树状图的绘制 将第二个维度地区拖到产品分类的下面---大的划分区域是上面的维度(产品分类),看着…

牛客热题:单链表排序

📟作者主页:慢热的陕西人 🌴专栏链接:力扣刷题日记 📣欢迎各位大佬👍点赞🔥关注🚓收藏,🍉留言 文章目录 牛客热题:单链表排序题目链接方法一&…

如何压缩word文档的大小?6个方法教你方便的压缩word文档

如何压缩word文档的大小?6个方法教你方便的压缩word文档 以下是六个常用的软件和方法,可以帮助您方便地压缩Word文档大小: 使用Microsoft Word内置功能: 在Microsoft Word中,您可以使用内置的压缩功能来减小文档的大…

Celery(分布式任务队列)入门学习笔记

Celery 的简单介绍 用 Celery 官方的介绍:它是一个分布式任务队列; 简单,灵活,可靠的处理大量消息的分布式系统; 它专注于实时处理,并支持任务调度。 Celery 如果使用 RabbitMQ 作为消息系统的话,整个应用体系就是下…

25.哀家要长脑子了---哈希表

1.525. 连续数组 - 力扣(LeetCode) 在我对通义千问的一番折磨下,终于弄清楚一点点了。哈希表存储前缀和数组值 用一个counter来记录nums中0、1数量差值的变化。 哈希表map存储某个特定的counter值首次出现的位置。counter的计算:…

【深度学习】序列模型

深度学习(Deep Learning)是机器学习的一个分支领域:它是从数据中学习表示的一种新方法,强调从连续的层中进行学习,这些层对应于越来越有意义的表示。 1. 为什么选择序列模型? 循环神经网络(RNN…

(二)JSP教程——taglib指令

创建标签文件 首先创建一个Web项目,在webapp/WEB-INF目录下创建一个tags文件夹 在tags文件夹中创建一个oddNumberSum.tag文件,Tag文件时扩展名为.tag的文本文件,其结构和JSP文件非常相似,该文件的目录结构如图所示 创建Tag文件的…

Linux基础之makefile/make

目录 一、背景 二、makefile和make的讲解 2.1 使用方法 2.2 伪目标文件 2.3 文件的属性以及属性的更新 2.4 makefile的自动推导 一、背景 这里会提及为什么要使用makefile和make,以及他们是什么和作用。 会不会写makefile,从一个侧面说明了一个人是…

怎么口语外教一对一课程?这篇文章告诉你答案!

怎么口语外教一对一课程?在当今全球化的时代,英语口语能力已经成为许多人追求的重要技能。为了满足这一需求,市场上涌现出了许多提供一对一口语外教课程的软件。这些软件不仅提供了与母语为英语的外教进行实时交流的机会,还通过互…

遭遇.halo勒索病毒怎么办?如何识别和应对.halo勒索病毒

导言: 近年来,网络安全问题愈发严峻,其中勒索病毒成为了威胁企业和个人数据安全的重要隐患。在2023年初,一种新的勒索病毒——.halo勒索病毒开始在网络上肆虐,给广大用户带来了极大的困扰。本文91数据恢复将对.halo勒…

c3 笔记6 认识css样式表

<link>与import应该如何选择?事实上&#xff0c;使用link与import链接外部样式文件的效果看起来是一样的&#xff0c;区别在于<link>是HTML标记而import属于CSS语法。<link>标记有rel、type与href属性&#xff0c;可以指定CSS样式表的名称&#xff0c;这样就…

控制台调试 hover 后才出现的元素

调试 hover后才出现的元素 打开开发者工具&#xff0c;鼠标放在hover时才出现的元素上&#xff0c;然后点击右键&#xff1b; 不要选中任何选项&#xff0c;将鼠标移动到开发者工具的调试面板中&#xff1b; 按下N键&#xff0c;此时悬浮的元素不会消失&#xff0c;定位成功。…

知到java笔记(4.1--继承的用法以及this和super的用法)

格式&#xff1a; 例子&#xff1a; get set获取父类的私有变量 private属性 this和super区别&#xff1a; this用法 super用法 例子

计算机毕设

随着社会和国家的重视&#xff0c;大学对于大学生毕业设计越来越重视。 做软件设计设计方面&#xff0c;前后端分离是必不可少的&#xff0c;代码管理工具&#xff0c;前后端接口测试是项目中必须要用到的工具。做大数据设计方面&#xff0c;主要是要用到爬虫进行数据爬取&…

【数据分析面试】36.SAAS公司邮件营销策略分析(业务分析)

题目 假设你在一个B2B SAAS公司营销团队工作。本季度即将结束&#xff0c;但当前收入距离预期目标还差10%。营销团队的一个高管要求负责电子邮件营销的人向所有客户群发邮件&#xff0c;要求他们购买更多产品。这是个好主意吗&#xff1f;为什么&#xff1f; 提示1&#xff1…

[论文笔记]Longformer: The Long-Document Transformer

引言 今天带来论文Longformer: The Long-Document Transformer的笔记。 基于Transformer的模型由于其自注意力操作而无法处理长序列&#xff0c;该操作随着序列长度呈二次扩展。为了解决这一限制&#xff0c;本篇工作提出了Longformer&#xff0c;其注意力机制随着序列长度呈…

接口测试之Mock测试方法

&#x1f345; 视频学习&#xff1a;文末有免费的配套视频可观看 &#x1f345; 点击文末小卡片&#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 一、关于Mock测试 1、什么是Mock测试&#xff1f; Mock 测试就是在测试过程中&#xff0c;对于…

跟TED演讲学英文:How to govern AI — even if it‘s hard to predict by Helen Toner

How to govern AI — even if it’s hard to predict Link: https://www.ted.com/talks/helen_toner_how_to_govern_ai_even_if_it_s_hard_to_predict? Speaker: Helen Toner Date: April 2024 文章目录 How to govern AI — even if its hard to predictIntroductionVocabu…

美业SaaS系统多门店收银系统源码-【分润常见问题】讲解(一)

美业管理系统源码 博弈美业SaaS系统 连锁多门店美业收银系统源码 多门店管理 / 会员管理 / 预约管理 / 排班管理 / 商品管理 / 促销活动 PC管理后台、手机APP、iPad APP、微信小程序 ▶ 分润常见问题&#xff1a; 1、分润金额基数 所有分润计算的基数均为平台订单中各个商…