阿里开源自研工业级稀疏模型高性能训练框架 PAI-HybridBackend

简介:近年来,随着稀疏模型对算力日益增长的需求, CPU集群必须不断扩大集群规模来满足训练的时效需求,这同时也带来了不断上升的资源成本以及实验的调试成本。为了解决这一问题,阿里云机器学习PAI平台开源了稀疏模型高性能同步训练框架HybridBackend,使得在同成本下GPU集群训练吞吐较CPU集群提升至5倍,大幅降低调试成本。那么HybridBackend背后的技术框架如何设计?未来有哪些规划?本文将和大家一起来深入了解。

作者 | 石浪、满神
来源 | 阿里开发者公众号

近年来,随着稀疏模型对算力日益增长的需求, CPU集群必须不断扩大集群规模来满足训练的时效需求,这同时也带来了不断上升的资源成本以及实验的调试成本。

为了解决这一问题,阿里云机器学习PAI平台开源了稀疏模型高性能同步训练框架HybridBackend,使得在同成本下GPU集群训练吞吐较CPU集群提升至5倍,大幅降低调试成本,同时 HybridBackend 相关论文 《PICASSO: Unleashing the Potential of GPU-centric Training for Wide-and-deep Recommender Systems》也被 ICDE 22' 所收录。HybridBackend背后的技术框架如何设计?未来有哪些规划?今天一起来深入了解。

一 HybridBackend是什么

HybridBackend是阿里云机器学习平台PAI自研的、面向稀疏模型训练的高性能同步训练框架,核心能力是大幅提升GPU集群单位成本下的训练吞吐性能。目前HybridBackend已经在阿里巴巴集团内部有多个业务落地,将阿里妈妈智能引擎训练引擎团队的定向广告业务年数据训练任务时间由1个月缩短至2天,同时HybridBackend在公有云多个头部互联网企业中也有成功应用。

二 项目背景

以搜索、推荐、广告业务为主要应用的稀疏模型训练系统一直是学界和业界研究的热点之一。相比于计算机视觉(CV)和自然语言处理(NLP)为代表的稠密模型训练,稀疏模型针对离散型特征(以 categorical ID 作为训练数据)使用Embedding特征表达有着百GB至数十TB级别的内存占用消耗(比普通的CV、NLP模型参数高出一到两个数量级),从而突破了单机的内存容量限制,需要基于分布式系统的训练方案。

早期的此类分布式任务由于模型结构相对简单并且更新迭代缓慢,往往采用定制化的参数服务器(Parameter Server,PS)系统在大规模的CPU集群上进行训练。随着TensorFlow为代表的通用机器学习编程框架的出现,以及深度神经网络(DNN)在推荐类模型上的流行(deep recommender systems),业界逐渐转向基于通用机器学习编程框架(TensorFlow、PyTorch等)进行模型的端到端训练和推理,但是此时依然以参数服务器(PS)和大规模CPU集群作为训练的范式和基础设施。

三 面临挑战

随着稀疏模型对算力日益增长的需求(比如Attention等结构的加入),CPU集群必须不断扩大集群规模来满足训练的时效需求,这同时也带来了不断上升的资源成本以及实验的调试成本。

以NVIDIA GPU为代表的加速器(accelerator)弥补了CPU设备单位成本算力低下的劣势,在CV、NLP等算力需求大的训练任务上的应用已经成为行业共识。然而实践证明,如只是简单地将PS训练范式中的worker从CPU设备替换为GPU设备,并不能有效地提升训练任务的吞吐,通过 profiling GPU 的使用率,发现大量的GPU算力资源被闲置浪费。这说明,相比于CV、NLP类任务,稀疏模型训练有着自身的模型结构和训练数据的特性,使得传统的PS训练范式不能有效地发挥出GPU设备的优势。以深度推荐系统经典的 Wide and Deep 模型结构和TensorFlow框架为例,我们分析并总结了在PS架构下使用GPU设备训练的两个问题。

1 变化的硬件资源瓶颈

从上图的 Wide and Deep 模型结构可以看出,稀疏训练主要由Embedding阶段、特征交叉(feature interation)阶段和多层感知器(MLP)阶段组成,Embedding阶段在PS范式的训练下占据了至少50%以上的训练时间。经过分析发现,Embedding阶段的算子主要以访存密集型(memory access intensive)和通信密集型的算子(communication intensive)为主,主要需要的硬件资源是内存和网络的带宽,而后两个阶段的算子则是计算密集型的算子占主导,需要的资源是算力。这意味着在PS的范式训练下,任何一个阶段都有可能存在某一种硬件资源成为瓶颈而其他硬件资源被浪费的现象。以GPU的算力资源为例,我们观察GPU使用率(SM Util)在不同的训练阶段之间呈现脉冲式变化(pulse)。

2 算子细碎化(fragmentation)

生产实际中的模型往往拥有上百路的Embedding特征查询,每一路的特征查询在TensorFlow内都会调用数十个算子操作(operations)。TensorFlow的引擎在调度上千级别的大量的算子操作需要额外的CPU线程开销;对于GPU设备来说,过多的 CUDA kernel 提交到流处理器上(TensorFlow下每个GPU设备只有一个stream抽象)带来了GPU Stream Multiprocessor (SM)的调度开销,同时每个算子处理数据的并发度又不高,从而很难打满GPU的计算单元。

类似的问题在CV、NLP等稠密模型的训练中也有涉及,一般采用基于编译技术的优化手段进行算子合并。在 Wide and Deep 模型这样的稀疏场景下,Embedding阶段的这些算子又往往具有 dynamic shape 的特点,在TensorFlow静态构图阶段无法获取准确的算子尺寸进行优化,导致类似TensorFlow-XLA等技术在此类场景下没有明显的收益。

这些问题说明,想要发挥出GPU等高性能硬件资源的极致性价比,提高单位成本下的训练吞吐,就必须设计新的训练框架。据我们了解,拥有大型搜索、广告、推荐业务的国内外企业以及硬件厂商都在着手进行新框架的研发,比如NVIDIA的Merlin-HugeCTR[1]等,然而阿里巴巴集团内云上集群普遍部署的是通用计算节点,且集群上需要执行多种异构的任务,换用专用硬件是很昂贵且不切实际的。

基于这种实际需求,我们推出了HybridBackend,能够同时适应集团内多元化且不断演进的稀疏模型技术。下文中我们将简要介绍HybridBackend的系统架构设计和技术亮点。

四 HybridBackend的系统架构

传统的参数服务器(PS)训练范式体现的是通过扩展硬件数量来适应模型训练规模的思路。我们的系统则是同时考虑到了硬件和软件(模型)两个层面的特点,并做到协同设计。高性能GPU集群的硬件特性决定了基本的训练范式,而稀疏模型本身的结构特点和数据分布带来的问题则通过更精细的系统优化手段来解决。

1 利用大 Batch Size 进行同步训练

因为GPU设备相对于CPU带来的巨大的算力提升,以往需要上百台CPU节点的集群可以用几十台机器的GPU集群来代替。要保持相同的总训练规模,同时提升单个GPU节点上的资源利用率,提升单个 GPU worker 上的 batch size 成为必然的选项。同时,因为集群规模的缩小,可以通过同步训练的方式有效避免过期梯度(staleness),从而提升模型训练的精度。

相对于CPU设备之间通过PCIe以及TCP进行网络通信,高性能的GPU集群在单个节点内的多个GPU设备之间往往配备了高速的网络互连(NVLink、NVSwitch),这些高速连接的带宽通常是TCP网络带宽的数百倍(第一代NVLINK标定达到300GB/s),而在多个机器节点之间也可以配备基于RDMA技术的高速网络设备,达到100-200Gbps的带宽。

选择同步训练的第二个好处是,可以使用高性能集合通信算子库(NVIDIA NCCL、阿里自研的ACCL等)来有效利用硬件机器的网络拓扑结构,从而提升通信的性能。上述通信库已经在CV、NLP之类的基于数据并行的同步训练任务上取得了很好的效果。

2 使用资源异构而角色同构的训练单元

PS训练范式在系统的逻辑层面会指定不同的训练角色,比如server、worker、evaluator等。server节点一般分配具有大内存的CPU机器,而worker节点则会被分配到高主频的计算型CPU硬件上。这样形成了训练单元-任务角色-同构资源的耦合,通过增加训练单元数量来水平扩展(scale out)训练的规模。

而在高性能的GPU集群上,一个物理的机器节点往往包括多种异构的硬件资源,如CPU、GPU处理器、GPU之间的高速互连、DRAM(动态随机存取内存)、Non-volatile Memory(非易失性内存)等。这样,除了水平扩展节点数量外,还可以通过垂直扩展利用多种异构硬件资源来达到扩大训练规模的目标。

针对这种硬件架构,我们的系统设计中只保留统一的训练执行单元(Executor),每个Executor通过内部的异构硬件资源来执行不同的训练任务角色。一方面,Executor内部任务执行时,可以有效地利用底层硬件资源之间的locality加速训练;另一方面,Executor内部的硬件资源可以同时满足不同的分布式训练范式所需要的硬件资源,以方便我们在模型结构的不同部分进行混合并行训练策略。

五 深入优化:HybridBackend的技术亮点

因为稀疏模型结构和训练数据本身的特性, 变化的硬件资源瓶颈和算子细碎化,上述的系统架构在实际任务中还是会存在一些影响GPU等硬件设备使用率的问题。

举例来说,同步训练范式下,所有Executor通过集合通信进行embedding的shuffle时,网络带宽资源成为瓶颈,而GPU的计算资源被闲置。一种解决思路是对硬件资源进行定制化,比如增加网络带宽资源来消除通信瓶颈,但是这样的做法会使得硬件的资源配置和特定的模型结构耦合,是专用推荐系统的老思路。

我们的目标还是希望系统可以架构在云服务上可得的,数量容易水平扩展的通用硬件配置之上(commodity hardware)。某些硬件厂商也尝试通过 Huge kernel 的形式(将Embedding层所有的计算手工融合到一个kernel内)来解决算子细碎化的问题,这样的做法也很难支持模型结构快速迭代的需求,背离了通用编程架构的设计初衷。

据此,我们从软硬协同的思路出发,设计了如下的几个系统优化手段:

1 基于数据和算子感知的合并

根据稀疏模型的结构特点,大部分细碎的算子来源于庞大的Embedding特征查询(lookup)数量,我们设计了D-Packing这一优化技术。

对于每一路查询,尽管输入的训练数据不同,但使用的算子组合是相同的。对于这种具有数据并行特点的模式,具有相同属性(维度、初始化器、标定特征组等)的Embedding表将被合并为一张新的Embedding表,而后续的访存查询算子也可以被合并为一个新的大算子。合并算子可以用多线程的方式有序查询Embedding,相对于乱序查询或分成若干小表查询,能有显著的性能提升。查询完毕后,再依原有代码需要进行反去重和归位,真正做到了对用户透明。

此外,通过分析特征查询阶段各个算子在分布式环境下的语义,我们将部分的kernel进行融合K-Packing,比如通过融合shuffle和stitch算子来消除冗余的数据拷贝。

通过数据和算子两个维度的基于语义的融合,我们既减少了总体的算子数量,降低fragmentation,同时又避免了所有算子融合在一起而丢失了通过算子间穿插遮掩来提升硬件利用率的优化机会。

2 基于硬件资源瓶颈感知的交错执行

为了消除同时执行相同硬件资源需求的算子而造成的瓶颈, 我们设计了两种算子穿插遮掩执行(interleaving)的优化手段。

其一,D-Interleaving是通过对训练数据batch的切分利用pipeline的机制来调度穿插不同资源类型的算子,这样可以在训练的任何阶段缓解某一种资源的瓶颈。比如在大batch size的训练场景下,稀疏模型的MLP阶段也会产生很高的feature map显存占用,通过D-Interleaving就可以有效降低单个GPU设备上的峰值显存占用,从而使得更大的batch size训练成为可能。

其二,K-Interleaving是在Embedding Layer内部不同的特征查询路数之间做算子的穿插和遮掩,比如将通信密集的Shuffle操作和内存访问密集的Gather进行遮掩,可以有效提升这两种资源的使用率。

3 基于数据频次感知的参数缓存

在解决Executor内部多个级别的存储(GPU显存、DRAM等)之间的带宽和延迟问题上,我们针对稀疏模型训练数据的分布特点,提出了一种感知数据访问频次分布的caching机制。通过统计训练数据的ID,将最热的访问数据缓存到GPU的显存中,而冷数据以及哈希表结构则存放在主内存中,主内存中的数据将根据ID的访问频率变化,定期将top-k的高频ID对应的embeddings刷新到GPU显存上的缓存中。这样的混合存储可以同时结合GPU显存的高带宽和DRAM的大容量,后续,这套混合存储的设计还可以扩展到使用 Intel Persistent Memory、Non-volatile Memory 等更多的硬件设备上。

六 应用场景

HybridBackend已经成功在阿里妈妈智能引擎训练引擎团队定向广告业务有了落地。在阿里妈妈CAN模型下HybridBackend相对于上一代的XDL训练框架具有明显的性能优势,在下表中可以看到其在训练时长等多个指标下获得的显著提升。

同时,我们还基于阿里妈妈定向广告一年累计的训练数据对模型规模增长下的HybridBackend性能表现做了测试,结果如下表所示。可以看到,在使用128张GPU进行千亿规模参数模型的训练时,同样是消费1年的数据量,高性能集群上的HybridBackend仅仅需要2天的时间就能完成训练任务,而普通集群上的XDL-PS模式则需要约1个月的时间。

七 Roadmap

后续我们计划定期发布Release版本。近期的Roadmap如下:

  • v0.6.0 (2022年5月):支持端到端分布式同步训练与评估。
  • v0.7.0 (2022年9月):优化 GPU 利用率与显存占用。
  • v0.8.0 (2023年1月):进一步优化云上训练性能。

此外,中长期,我们将在训练策略的演进,新硬件的优化,服务化能力的支持等几个探索性方向上持续投入精力,也欢迎各种维度的反馈和改进建议以及技术讨论,同时我们十分欢迎和期待对开源社区建设感兴趣的同行一起参与共建。

开源地址:GitHub - alibaba/HybridBackend: A high-performance framework for training wide-and-deep recommender systems on heterogeneous cluster

参考文献

[1] Oldridge, Even, Julio Perez, Ben Frederickson, Nicolas Koumchatzky, Minseok Lee, Zehuan Wang, Lei Wu et al. "Merlin: A GPU Accelerated Recommendation Framework." In Proceedings of IRS . 2020.

原文链接

本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/510915.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Serverless 遇到 FinOps,云成本问题有解了!

Key Takeaways:1. 尽管 Serverless 的迅猛发展吸引了广泛深入的关注,Serverless 函数总成本的事先估计仍缺乏有效的理论指导。本文基于 FunctionGraph 在 Serverless 领域的 FinOps 探索和实践,提出业界首个 Serverless 函数总成本估计模型。…

Apsara Stack 技术百科 | 联结良性生态,筑千行百业的数字基石

简介:作为现今IT领域最重要的课题:基础设施云化,离不开与伙伴的携手合作,如何让云上解决方案能充分释放价值的同时形成一个相互依存的自循环生态系统,混合云君来跟你聊聊~ 生态系统这个词在维基百科上的定义是&#xf…

用户留存建模实践

简介:在流量分析型产品的用户分析模块中,留存、互访、新老客构成等数据都是有效衡量用户粘性与促活召回的关键性指标;但是,我们发现在很多流量运营的业务场景中,留存分析建模都显著存在着设计和计算上的诸多问题。本文…

ACK One 构建应用系统的两地三中心容灾方案

简介:本文侧重介绍了通过 ACK One 的多集群应用分发功能,可以帮助企业管理多集群环境,通过多集群主控示例提供的统一的应用下发入口,实现应用的多集群分发,差异化配置,工作流管理等分发策略。结合 GTM 全局…

英特尔On技术创新峰会:助力开发者解决当前和未来的挑战

第二届英特尔On技术创新峰会于2022年9月27日在美国加利福尼亚州圣何塞市开幕。在本届峰会上,英特尔向齐聚一堂的软硬件开发者们分享了在构建以开放、选择和信任为原则的生态系统方面的最新进展——从推动开放标准以使“芯片系统”(systems of chips&…

你不知道的 HTTPS 压测

简介:随着互联网安全规范的普及,使用 HTTPS 技术进行通信加密,实现网站和 APP 的可信访问,已经成为公认的安全标准。本文将介绍针对 HTTPS 协议做压力测试的关注点,以及使用 PTS 做 HTTPS 压测的技术优势和最佳实践。 …

数据湖—Delta Lake

简介:Delta Lake 是 DataBricks 公司开源的、用于构建湖仓架构的存储框架。能够支持 Spark,Flink,Hive,PrestoDB,Trino 等查询/计算引擎。作为一个开放格式的存储层,它在提供了批流一体的同时,为…

2022杭州云栖大会定档11月3日至5日:技术产品发布+超4万平科技展

9月28日消息,记者从云栖大会组委会获悉,2022杭州云栖大会将于11月3日至5日在杭州云栖小镇举办。今年云栖大会以“计算进化未来”为主题,在3天内设置两场主论坛,70多场数字技术、产业和生态分论坛,以及4万平米智能科技全…

阿里云RemoteShuffleService 新功能:AQE 和流控

简介:阿里云EMR 自2020年推出 Remote Shuffle Service(RSS)以来,帮助了诸多客户解决 Spark 作业的性能、稳定性问题,并使得存算分离架构得以实施。为了更方便大家使用和扩展,RSS 在2022年初开源(https://github.com/alibaba/Remot…

如何使用Delta Lake构建批流一体数据仓库

简介:Delta Lake是一个开源存储层,它为数据湖带来了可靠性。Delta Lake提供了ACID事务、可扩展的元数据处理,并统一了流式处理和批处理数据处理。Delta-Lake运行在现有数据湖之上,并且与Apache Spark API完全兼容。希望本篇能让大…

中国峰会|下一代云基础架构,赋能企业云上发展

点击上方入口立即【自由构建 探索无限】一起共赴年度科技盛宴!马上点击“阅读原文”了解更多亚马逊云科技中国峰会让我们共同见证亚马逊的一小步云计算的一大步扫码【立即报名】直通大咖云集的亚马逊云科技中国峰会!

Delta Lake基础介绍(商业版)

简介:介绍 Lakehouse 搜索引擎的设计思想,探讨其如何使用缓存,辅助数据结构,存储格式,动态文件剪枝,以及 vectorized execution 达到优越的处理性能。 作者:李洁杏,Databrick资深软…

云原生数仓如何破解大规模集群的关联查询性能问题?

简介:AnalyticDB for PostgreSQL(以下简称ADB PG)是一款PB级的MPP架构云原生数据仓库。本文从ADB PG架构设计的角度出发,探讨Runtime Filter在ADB PG中的实现方案,并介绍了基于Bloom Filter的ADB PG Dynamic Join Filter功能技术细节。 作者 …

独家对话Python之父:人类大脑才是软件开发效率的天花板

【CSDN 编者按】十五年前,《程序员》杂志曾专访过 Python 之父 Guido van Rossum,一起探讨了 Python 3.0 的较为明显的新特性,即增加了对中文( Unicode )的支持。十五年过去,Python 的版本号只前进了一个数字,但是 Pyt…

淘系用户平台技术团队单元测试建设

简介:单元测试是工程交付前质量保障的第一环,也无疑是软件工程质量保障的重要基石,有效的单元测试能够提前发现90%以上的代码Bug问题,同时也能防止代码的腐化,在工程重构演进时起到至关重要的作用。 作者 | 问元 来源 …

阿里云弹性计算对视觉计算的思考与实践

简介:利用人类已有和将有的技术加之商业手段,实现对人类感官体验进行全方位升级。 4月21日,“2022英伟达数字孪生技术应用论坛”上,阿里云弹性计算产品专家张新涛为大家带来了题为《阿里云弹性计算在XR业务上的应用实践》的主题分…

游戏行业弹性计算最佳实践

简介:本篇主要介绍三大游戏场景:游戏服务、大数据运营、云游戏的架构特点,以及基于这些场景下的阿里云游戏行业计算基础设施选型与部署方案。 文丨寻野,阿里云弹性计算产品解决方案架构师 摘要:游戏一直以来是互联网…

三大特性,多个场景,Serverless 应用引擎 SAE 全面升级

简介:Serverless 应用引擎 SAE 凭借着天然技术优势,已经帮助成千上万家企业实现容器和微服务技术转型。近日,SAE不仅进一步提供了全套微服务能力,更为传统 Job 和 PHP 用户提供了全新的,更高效、更经济且可平滑迁移的解…

代码覆盖率在性能优化上的一种可行应用

简介:JavaScript 是前端应用主要语言,相较于其他平台编程语言,JS资源多数情况下要通过网络进行加载,那么代码的体积直接影响了页面加载执行时间。“无效的代码”的多寡直接影响到了我们的代码质量,所以度量代码的执行覆…

MaxCompute湖仓一体介绍

简介:本篇内容分享了MaxCompute湖仓一体介绍。 分享人:孟硕 阿里云 MaxCompute产品专家 视频链接:数据智能实战营-北京站 专题回顾 正文: 本篇内容将通过两个部分来介绍MaxCompute湖仓一体。 一、什么是 MaxCompute 湖仓一体…