Facebook 竟然把服务 27 亿人的 AI 硬件系统开源了?!

全世界只有3.14 % 的人关注了

数据与算法之美


一直以来,社区对 Facebook 的硬件研究比较关注。在今日的开放计算项目全球峰会上,Facebook 技术策略主管 Vijay Rao 开源了全新的 AI 硬件:面向 AI 训练与推理的硬件系统 Zion 与 Kings Canyon,以及针对视频转码的 Mount Shasta。这篇博客内容对此进行了详细介绍。


Facebook 的基础设施现在每月为其整个应用和服务系统上超过 27 亿的人提供服务。他们的工程师设计并创建了高级、高效的系统来扩大这一基础设施,但是随着工作负载的增长,单靠通用处理器已经无法满足这些系统的需求。晶体管增长的速度已大大放缓,这就需要开发出专门的加速器和整体的系统级解决方案来提高性能、功率和效率。


为基础设施创建高效的解决方案需要共同设计优化了工作负载的硬件。为此,Facebook 一直与合作伙伴共同开发针对 AI 推理、AI 训练和视频转码的解决方案。这几个都是其发展最快的服务。今天,Facebook 发布了其用于 AI 训练的下一代硬件平台 Zion、针对 AI 推理的新定制芯片设计 Kings Canyon 以及用于视频转码的 Mount Shasta。


AI 硬件


AI 工作负载的使用贯穿 Facebook 的架构,使其服务相关性更强,并改善用户使用服务的体验。通过大规模部署 AI 模型,Facebook 每天可以提供 200 万亿次推测以及超过 60 亿次语言翻译。Facebook 使用 35 亿多公开图像来构建或训练其 AI 模型,使它们更好地识别和标记内容。AI 被应用于各种各样的服务中,帮助人们进行日常互动,并为其提供独特的个性化服务。


Facebook 上的大多数 AI 流程都是通过其 AI 平台 FBLeaner 进行管理的,该平台包含集中处理各部分问题的工具,如特征库、训练工作流程管理以及推理机。与设计并发布到 Open Compute Project(OCP)的硬件相结合,这将能够促使 Facebook 大规模、高效地部署模型。从一个稳定的基础开始,Facebook 专注于创建与供应商无关的整合硬件设计,并且为实现工作效率最大化,继续坚持分解设计原则。结果就是 Facebook 推出了用于工作负载训练和推理的下一代硬件。


AI 训练系统 Zion


Zion 是 Facebook 下一代大存储统一训练平台,设计上能够高效处理一系列神经网络,包括 CNN、LSTM 和 SparseNN。Zion 平台能够为其严重的工作负载提供高存储能力和带宽、灵活高速的相连、强大的计算能力。


Zion 采用了 Facebook 全新的、与供应商无关的 OCP 加速模块(OAM)。OAM 形状系数让 Facebook 的合作伙伴(包括 AMD、Haban、GraphCore 和 Nvidia)可以在 OCP 通用规范上开发自己的解决方案。通过单个机架使用 TOR 网络转换,Zion 架构让 Facebook 能够在每个平台上自由扩展到多个服务器。随着 Facebook AI 训练工作负载的规模和复杂性不断增长,Zion 平台也会随之扩展。


Zion 系统分为三个部分:


  • 8 插槽服务器

  • 8 加速器平台

  • OCP 加速器模块


640?wx_fmt=png

AI 训练解决方案基础模块


640?wx_fmt=png

Zion 连接模块图解


Zion 将系统的内存、计算和网络密集型组件分离,使每部分都可单独扩展。该系统为 8 个 NUMA CPU 插槽提供了一个大型 DDR 存储池,以满足工作负载存储容量密集型组件的需求,例如 SparseNN 的嵌入表。对 CNN 或者 SparseNN 密集部分这样的存储-带宽密集型和计算密集的工作负载,每个 CPU 插槽都连接了 OCP 加速模块。


系统有两个高速结构:连接所有 CPU 的相干结构和连接所有加速器的结构。因为加速器存储带宽高但存储容量低,因此通过以这样的方式对模型进行分区来有效利用可用的总存储容量,从而使访问频率较高的数据驻留在加速器上,访问频率较低的数据驻留在具有 CPU 的 DDR 内存上。所有 CPU 和加速器之间的计算和通信都是平衡的,并且通过高速和低速相连有效地进行。


通过 Kings Canyon 执行推理


一旦我们训练完模型,就需要将其部署到生产环境中,从而处理 AI 流程的数据,并响应用户的请求。这就是推理(inference)——模型对新数据执行预测的过程。推理的工作负载正急剧增加,这反映了训练工作的大量增加,目前标准 CPU 服务器已经无法满足需求了。Facebook 正与 Esperanto、Intel、Marvell 和 Qualcomm 等多个合作伙伴合作,开发可在基础设施上部署和扩展的推理 ASIC 芯片。这些芯片将为工作负载提供 INT8 半精度的运算,从而获得理想的性能,同时也支持 FP16 单精度的运算,从而获得更高的准确率。


整个推理服务器的解决方案分为四个不同的部分,它们会利用已发布到 OCP 的现有构建块。利用现有组件可以加快开发进度,并通过通用性降低开发风险。该设计的四个主要组成部分为:


  • Kings Canyon 推理 M.2 模块

  • Twin Lakes 单插槽(single-socket)服务器

  • Glacier Point v2 承载卡(carrier card)

  • Yosemite v2 机架


640?wx_fmt=png

AI 推理解决方案模块


640?wx_fmt=png

AI 推理解决方案连接模块图解


在系统级别,每个服务器都结合了 M.2 Kings Canyon 加速器和 Glacier Point v2 承载卡,后者主要连接到 Twin Lakes 服务器。一般可以将两组前面的组件安装到更新的 Yosemite v2 机架中,然后通过多主机 NIC 连接到 TOR 交换机。更新版的 Yosemite sled 是目前现存 Yosemite v2 sled 的迭代升级,它将 Twin Lakes 主机的其他 PCIe 通道连接到 NIC,以获得更高的网络带宽。每个 Kings Canyon 模块都包含 ASIC、相关内存和其它支持组件,其中 CPU 主机通过 PCIe 通道与加速器模块通信。Glacier Point v2 包括一个集成的 PCIe 交换机,允许服务器同时访问所有模块。


深度学习模型有很高的储存要求。例如,SparseNN 模型具有非常大的嵌入表征表,它会占用好几 GB 的存储空间,并且还可能会持续增长。这样的大模型可能不适合加载到单独设备的内存中,不论是 CPU 还是加速器都不行,所以这就要求在多个设备内存上进行模型分割(model partitioning)。当数据位于另一个设备的内存中时,分割将产生很多通信成本。因此,好的图分割(graph-partitioning)算法将尝试捕获局部的概念,从而降低通信成本。


通过合适的模型分割,我们可以运行非常大的深度学习模型。例如 SparseNN 模型,如果单节点的内存能力不足以支持给定的模型,我们可以考虑在两个节点中共享模型,并提升模型能访问的内存量。这两个节点可以通过多主机 NIC 连接,并支持高速信息处理。这将增加整体的通信成本,但我们可以利用跨多个嵌入表存在访问差异的事实,相应地对表进行排序而降低通信延迟。


神经网络硬件加速器编译器


ASIC 不运行通用代码,因为它们需要特定的编译器才能将图转化为在这些加速器上执行的指令。Glow 编译器的目标是将供应商的特定硬件从更高级的软件堆栈中抽象出来,使基础设施不受供应商限制。它接受来自框架(如 PyTorch 1.0)的计算图,并为这些机器学习加速器生成高度优化的代码。


640?wx_fmt=png

Glow 编译器


使用 Mount Shasta 进行视频转码


自 2016 年以来,Facebook Live 直播的平均数量每年翻一番。自 2018 年 8 月在全球推出以来,Facebook Watch 的月浏览量已经超过 4 亿,每天有 7500 万人使用。为了优化所有这些视频,使其能适应多种网络环境,Facebook 生成了多个输出质量和分辨率(或比特率),这个过程称为视频转码。完成这个转码过程所需要的计算是高度密集型的,通用 CPU 无法满足 Facebook 日益增长的视频需要。为了走在需求的前面,Facebook 与博通和芯原合作,设计为转码负载进行优化的定制 ASIC。


视频转码流程被分解为许多不同的步骤,下面将给出更详细的介绍。这些步骤都是在今天的软件中运行的,所以为了提高效率,Facebook 与供应商合作,为转码工作流程的每个阶段创建了包含专用芯片的定制 ASIC。使用定制化的硬件来完成这些工作负载使得这一过程的能源使用更加高效,并支持实时 4K 60fps 流媒体等新功能。单个视频编解码器是标准化的,而且不经常修改,因此在这种情况下,定制芯片内在缺乏灵活性并不是一个显著的缺点。


视频转码的第一个阶段称为解码,在解码过程中,上传的文件被解压,以获得由一系列图像表示的原始视频数据。然后,可以对这些未压缩的图像进行操作,以更改它们的分辨率(称为缩放),接下来再次使用优化设置进行编码,将它们重新压缩到视频流中。将输出视频与原始视频进行比较,计算质量指标,这些指标代表了相对于原始上传视频的质量变化。一般所有的视频都采取这种做法,以确保所用的编码设置可以产生高质量的输出。视频编码和解码使用的标准称为视频编码方式;H.264、VP9 和 AV1 是目前使用的主流编码协议。


在 ASIC 上,除了每个软件算法都被芯片内的专用部件所取代外,其他步骤都是相同的。平均而言,Facebook 希望这一视频加速器比其目前的服务器效率高很多倍。他们希望业界的目标编码在 10W 功耗内至少处理 2x 4K 分辨率和 60fps 的并行输入流。ASIC 还需要支持多种分辨率(从 480p 到 60fps 的 4K)和多种编码格式(从 H.264 到 AV1)。


视频转码 ASIC 通常有以下主要逻辑块:


  • 解码器:接收上传的视频;输出解压缩的原始视频流

  • 缩放器(Scaler):缩放解压缩的视频

  • 编码器:输出压缩(编码)视频

  • 质量度量:衡量编码步骤之后的视频质量损失

  • PHY:芯片与外界的接口;连接到服务器的 PCIe 和内存的 DDR

  • 控制器:运行固件并协调转码流程的通用块



640?wx_fmt=png

视频转码解决方案基础模块


与推理一样,Facebook 利用现有的 OCP 构件在数据中心部署这些转码 ASIC。ASIC 将安装在带有集成散热器的 M.2 模块上,因为这种常见的电气外形可以在不同硬件平台上重复利用。它们被安装在 Glacier Point v2 (GPv2) 载体卡中,该载体卡可以容纳多个 M.2 模块。这个 GPv2 载体卡具有和 Twin Lakes 服务器一样的物理外形,意味着它可以适配 Yosemite v2 机架,并在其中与 Twin Lakes 服务器配对。


因为转码 ASIC 功耗低、体积小,Facebook 希望通过将尽可能多的芯片与单个服务器相连接来节约成本。高密度的 GPv2 实现了这一点,同时还提供了足够的冷却能力来承受数据中心的运行温度。


一旦完成软件集成工作,Facebook 将平衡分布在不同数据中心位置上异质硬件 fleet 的视频转码工作负载。为了在与各种机器学习和视频空间供应商的合作过程中扩大规模,他们还努力确保软件以开放的形式开发,并推广和采用通用的界面和框架。


参考链接:https://code.fb.com/data-center-engineering/accelerating-infrastructure/

https://venturebeat.com/2019/03/14/facebook-open-sources-hardware-for-ai-model-training-and-inference/

转载请在公众号中,回复“转载”

版权归原作者所有,转载仅供学习使用,不用于任何商业用途

如有侵权请留言联系删除,感谢合作。

640?wx_fmt=png

超模君准备了几份 数学思维好物

《超模定制笔记本》《数学原来会说谎》

《数学的故事》《简单微积分》......

免费 送给大家,参与就有机会获得

640?wx_fmt=gif


640?wx_fmt=png

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=png


640?wx_fmt=gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/301301.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一秒创建高级查询服务

在业务开发中,一个常用的功能就是“高级查询”,就是客户可以根据自己的需要设置查询条件查找数据,类似下图: 通常,我们需要为每个“高级查询”定制Dto类,用于传输条件,并要根据条件组合成查询语…

首款产后抑郁药问世;京东推出城市操作系统;阿里将推出全新销售平台;香港政府砸5300亿填海;脸书再爆隐私丑闻;这就是今天的大新闻...

今天是3月22日农历二月十六今天星期五一周就这么过去了周末得好好耍下面是今天的大新闻首款产后抑郁药问世(红星新闻)据美国CNN新闻3月19日报道,当地时间本周二(19日),美国食品和药物管理局(FDA…

navicat如何连接腾讯mysql_使用Navicat连接腾讯云Mysql数据库

1、安装# 安装mysql服务sudo apt-get install mysql-server# 安装客户端sudo apt install mysql-client# 安装依赖sudo apt install libmysqlclient-dev# 检查状态sudo netstat -tap | grep mysql2、设置密码root> mysqlmysql> update mysql.user set authentication_str…

WPF实现环(圆)形进度条

WPF开发者QQ群: 340500857 | 微信群 -> 进入公众号主页 加入组织“ 前言,接着上一篇圆形菜单。”欢迎转发、分享、点赞、在看,谢谢~。 01—效果预览效果预览(更多效果请下载源码体验):02—代码如下一、…

JQuery上传插件Uploadify使用详解

Uploadify是JQuery的一个上传插件,实现的效果非常不错,带进度显示。不过官方提供的实例时php版本的,本文将详细介绍Uploadify在Aspnet中的使用,您也可以点击下面的链接进行演示或下载。官方下载官方文档官方演示首先按下面的步骤来…

每日一笑 | 不忘初心,最爱扫雷~

全世界只有3.14 % 的人关注了数据与算法之美(图源网络,侵权删)

在ASP.NET Core微服务架构下使用数据库切分和扩展

原文链接:https://itnext.io/how-to-use-database-sharding-and-scale-an-asp-net-core-microservice-architecture-22c24916590f微服务的一大优点是,它们可以独立扩展。本文展示了扩展一个微服务及其数据库的好处和挑战。您将创建一个示例应用程序并手动…

GridView实现数据编辑和删除(一)

2019独角兽企业重金招聘Python工程师标准>>> 前台的html代码&#xff1a; <asp:GridView ID"gv_Emplogin" runat"server" AutoGenerateColumns"False" onrowdeleting"gv_Emplogin_RowDeleting" onrowupdating"gv_…

8张图告诉你,在朋友圈发什么不会被嫌弃

爱发圈的你是否发现&#xff0c;打开朋友圈总有一些内容让你嫌弃&#xff1a;和本人真假难辨的美图自拍&#xff0c;每天十条以上的发帖&#xff0c;伪科普的转发…还有一些人你直接想删除&#xff1a;炫耀自己家的奢侈品&#xff0c;从不交摊位费的代购和微商和一日三餐都发圈…

iNeuOS工业互联网平台,在高校教学实训领域的应用

目 录1. 概述... 22. 实训柜... 23. 培训内容... 44. 二次开发培训... 51. 概述中国工业互联网从 0 向 1 演进从缺政策、缺技术、缺市场&#xff0c;逐渐转移到了缺人才&#xff0c;跨行业、跨领域的复合型人才&#xff1b;IT与OT融合型人才&#…

keepalived 原理,安装,配置

什么是Keepalived呢&#xff0c;keepalived观其名可知&#xff0c;保持存活&#xff0c;在网络里面就是保持在线了&#xff0c;也就是所谓的高可用或热备&#xff0c;用来防止单点故障(单点故障是指一旦某一点出现故障就会导致整个系统架构的不可用)的发生&#xff0c;那说到ke…

28合1智能积木,56种玩法,让孩子循序渐进“玩”出新知识

▲数据汪特别推荐点击上图进入玩酷屋小木作为一名资深积木达人&#xff0c;我可是大大小小的积木阅览无数&#xff0c;最近小木又发现一个超好玩的----28合1小卡百变积木&#xff01;小卡百变积木是小卡团队研发的一款全新概念的智能积木&#xff0c;由276颗高精度积木&#xf…

表3.5 文章管理测试用例表_本地管理表空间管理机制

表空间是一种为段&#xff08;表&#xff0c;索引等&#xff09;提供空间的逻辑结构&#xff0c;所以&#xff0c;当在表空间中增加&#xff0c;删除段的时候&#xff0c;数据库就必须跟踪这些空间的使用。如下例所示&#xff0c;假定一个新创建的表空间包含了五个表表一……表…

.NET | 多线程下的调用上下文 : CallContext

【.NET】| 总结/Edison Zhou最近在分析现在团队的项目代码&#xff08;基于.NET Framework 4.5&#xff09;&#xff0c;经常发现一个CallContext的调用&#xff0c;记得多年前的时候用到了它&#xff0c;但是印象已经不深刻了&#xff0c;于是现在来复习一下。1CallContext是个…

每日一笑 | 哪个男人到底是谁?!

全世界只有3.14 % 的人关注了数据与算法之美&#xff08;图源网络&#xff0c;侵权删&#xff09;

min里所有的参数都不存在_高中生物所有的考点难点,其实都在你不仔细看的课本里,必修1-3超强记忆手册!...

对很多理科生来说&#xff0c;高中生物就是一门不是文科胜似文科的学科。很多数学、物理成绩非常突出的学生却不能在这样一门“理科”课程当中取得优势。生物老师在这门学科的提高上反复强调“回归课本”却又让很多习惯刷题的理科生不知无从下手。进入高三后&#xff0c;生物、…

我看电商(作者近三十年从事零售及电子商务管理的总结和分享)

我看电商&#xff08;作者近三十年从事零售及电子商务管理的总结和分享&#xff09; 黄若 著 ISBN 978-7-121-20268-1 2013年6月出版 定价&#xff1a;39.00元 284页 16开 编辑推荐 近年来电商行业在中国迅猛发展&#xff0c;电子商务正在日益深入的影响着越来越多人的生活。…

每日一笑 | 坐牢吗?学编程那种~

全世界只有3.14 % 的人关注了数据与算法之美&#xff08;图源网络&#xff0c;侵权删&#xff09;

VMware vSphere 5.1 群集深入解析(二十六)- 数据存储维护模式汇总

VMware vSphere5.1Clustering DeepdiveHA.DRS.Storage DRS.Stretched ClustersDuncan Epping &Frank DennemanTranslate By Tim2009 / 翻译&#xff1a;Tim2009目录版权关于作者知识点前言第一部分 vSphere高可用性第一章 介绍vSphere高可用性第二章 高可用组件第三章 基本…

硕士论文研究「AI预测性取向」:化妆等因素并不影响判断

全世界只有3.14 % 的人关注了数据与算法之美2017 年&#xff0c;斯坦福大学的一篇《深度学习通过面部识别判断性取向超越人类》曾引发了极大争议&#xff0c;其通过 AI 算法仅需「看面相」即可判断一个人是不是同性恋的方法让众人感到一丝恐慌&#xff0c;也让技术研究者们对于…