作者:三羊、李宝珠、李玮栋、Yudi、xixi
编辑:李宝珠
在大模型时代的浪潮中,机器学习系统正经历着前所未有的变革。模型规模的急剧膨胀,让我们见证了 AI 能力的巨大提升,然而这种提升不仅为各个领域带来了新的机遇,也引出了一系列新的技术挑战和实践上的难题。
12 月 16 日,2023 Meet TVM · 年终聚会在上海创业者公共实训基地成功举办。本次 Meetup 中,Apache TVM PMC、上海交通大学博士冯思远担任主持人,与 4 位嘉宾围绕「大模型时代的机器学习系统」这一主题展开了全方位、多角度的交流和探讨。
本次圆桌对话的 4 位嘉宾分别是:
* OpenBayes贝式计算创始人兼 CEO 王臣汉
* 蔚来汽车自动驾驶 AI 引擎负责人吴钊
* OctoML 机器学习系统工程师金乐盛
* 字节跳动机器学习系统工程师朱虹宇
从左至右依次为:冯思远、王臣汉、吴钊、金乐盛、朱虹宇
我们在不违原意的前提下将本场对话汇总如下,快来一起听听各位嘉宾的精彩见解吧。
大模型时代的机器学习系统
阶段一:讨论式发言
现阶段大模型在各个领域都是绝对的热点问题,无论是云端、端侧或者是车载 (Tesla FSD V12),各位嘉宾在实际工作或讨论中都会遇到有关大模型在训练、部署上的系统优化问题,请大家轮流介绍一下目前遇到的主要挑战及解决方案。
王臣汉:OpenBayes贝式计算在今年 6 月份启动大模型相关的单一模态的训练,在 SuperCLUE 国内大模型创业公司榜单里排第五。从大模型的训练技术上考虑,目前大家遇到的核心问题还是网络延迟,基本上没有哪家芯片能在自己的集群上满负荷运行。
根据 OpenAI 官网的「scaling kubernetes to 2500 nodes」推算,其训练 GPT-3 时 GPU 峰值利用率应该是没有超过 18%,平均利用率约为 12- 15%,相当于如果花费 1 亿搞一个集群,这个集群里的投入只有 1200-1500 万起到了作用。从钱的角度上讲,如何最大化地把数据并行、流水运行、向量并行做好,其实是训练上面临的最大挑战。
部署/推理上的挑战在国内而言主要是工程问题比较复杂,如果显存带宽不是很好,PCIE 的优化其实就比较麻烦。OpenBayes贝式计算和很多上下游厂商都是采用 vLLM,借此省去很多工程化的工作,使推理上的工作量大幅下降。
金乐盛:我们遇到的挑战主要分为两点:
1. 因为 TVM、 MLC-LLM 在 7B 上面速度运行后,有时候一张卡上存不下更大的比如 70 B 的模型,我们上个季度尝试用 Tensor Parallelism 来解决这个问题,目前这个方案已经开源了,大家感兴趣可以试一下。
2. 还有个需求,我们现在是只支持 batch size = 1 的情况,更适合于单个人用,但是如果想起一个 Serving 会发现远远不如 vLLM,这个我们现在也正在开发。
冯思远:我也补充一点,推理这块的主要趋势尚不明朗,Transformer 虽然是目前大模型采用的主流的架构,但从整体上看,方法还有很多变动,在这种情况下 Transformer 到底能不能一统 large model 还是个问号。所以在上层和底层存在不确定性的场景下,可定制化、敏捷开发可能比传统 TVM 端到端编译更重要。在我看来,大模型在推理和训练上还有很大进步空间。
阶段二:针对性提问
随着美国禁令的加强,限制已经从原本禁运训练卡,进而影响到大模型推理卡的情况。短期来看,目前大模型云端推理最具性价比的方案是什么?(允许使用游戏卡、图形卡的情况下),国产 NPU、GPU 在推理领域填补空白还需要多少时间?
王臣汉:训练、推理模型的大小不同,使用场景、业务负载不同,很难得出统一的答案。
从边缘端的选型来看,国产芯片瑞芯微 3588 是个不错的选项,它性能、性价比都不错,技术栈相对通用,价格也比较便宜,容易获得。此外英伟达 Orin 相当于阉割版 Ampere GPU,如果按 q4f 16 预算规格,Orin 从显存到推理上运行 7B、14B 甚至 34B 的模型都没有太大压力。
云端的选型,英伟达随后披露了 H20、L20 和 L2 这三款片,英伟达官方给到的消息称,在大模型的实际推理层面大概是 L40 的70%-80%,A6000 虽然后来也被增补进了禁售清单,但由于库存量比较大。A6000 的好处就是显存大,48 GB,带 NVLink, 一对装起来就能得到一个 130% 的 A100。
以我们跟国产芯片厂商接触得知,大家确实都在针对 Attention 单一的 Backbone 做最大优化。
阶段二:针对性提问
在国产芯片领域,你认为在多长时间内,能够有一家企业在推理端实现真正地落地,并且能够瓜分英伟达的市场份额?
王臣汉:我觉得国产芯片企业大概能在 18 个月内吃掉英伟达 20% 以上的市场份额。这个判断的主要依据是我国利好政策以及美国持续制裁,推动了国产化率提升。而且,据我了解,目前已经有国内厂商对英伟达 CUDA 的指令、API 兼容可以达到 92% 以上。所以,我对于 18 个月的周期预判还是很有信心的。
阶段二:针对性提问
蔚来为何会选择 TVM?TVM 在自动驾驶领域又有哪些优势?
吴钊:首先肯定是因为我本人有 TVM 技术背景,所以在构建团队时,会优先关注 TVM。其次,在实际项目中,考量技术是否合理的重要标准就是看它的架构是否能满足业务需求。
自动驾驶是一个很复杂的应用场景,对架构的要求也更加严苛,在选择技术路线的时候,需要综合考虑项目需求与项目周期。对于蔚来的自动驾驶业务而言,第一款车型 ET7 计划在 2022 年 3 月开始交付,当时,我们的团队只有半年时间来应对自动驾驶的复杂模型,所以,我们肯定要选择一个 End to End 的方案,当时很多友商使用的都是 TensorRT。TensorRT 的问题就是模型会越来越复杂、要求也会越来越奇怪,从长远来看不太适合。
自动驾驶领域首先要考虑的问题就是如何在车端完全控制性能、精度等 metrics,因为自动驾驶需要解决很多特殊情况,算法团队大多在云端做模型训练,然后部署到车端。在这个过程中,如果使用 TensorRT 黑盒,实际上无法完全掌握其量化算法,而量化在我们看来是非常重要的。
此外,MLIR 非常适合传统编译器,但是前期需要投入比较多的时间,考虑到当时我们有一个相对严苛的时间限制,再加上要选择 End to End 的方案,所以经过评估后我们也放弃了 MLIR。
最后,对于自动驾驶而言,整体部署的稳定性以及 CPU 低占用率至关重要,因此我们需要选择一个能完全把控的方案,能降低 CPU 占用率,这是黑盒没办法实现的。
综合来看,全白盒 TVM 是当时最适合我们的选项。
阶段三:讨论式发言
目前无论是大模型还是自动驾驶模型,都呈现出模型与硬件相互绑定的情况,在这种情况下模型的算法、系统甚至芯片都会有共同的演化,各位老师可以就此分享一些自己的看法。
王臣汉:我认为 DSA 和 GPGPU 很可能互相依存,谁也离不开谁,未来芯片的体系结构也不会只有 Attention 这一种形式, 近来社区里诞生了非常多新技术、新产品,比如 Mistral 7B MoE、微软提出了 RetNet、多模态崛起等,大语言模型统一整个体系结构可能只是从今年 3 月份到 10 月份的一个短暂的幻觉,很可能 AI 未来的体系结构以及英伟达定义的这套范式还得延续一阵时间。但是英伟达不一定能一直在这件事上保持领先,毫无疑问 Attention 会缩短其他追赶者和英伟达之间的距离,比如 AMD MI300X 和其他不太方便公开提及名字的国产芯片。
从更多的趋势上来看,体系结构上的演化即以 GPGPU 为核心的仍然会是一个长期的趋势。
吴钊 :真实的项目经历中小改可以、大改很难,也就是说在基本满足业务需求的前提下,可以为了硬件做微调适配,但是如果为了达到很好的效果必须用 Transformer,但是某硬件对 Transformer 的支持非常差,从业务角度来看,我们不会部署到这款硬件上。这就是业界的现状。
谈到挑战,我觉得肯定是会有挑战的,包括前面提到的 RWKV 或 RNN,不再是 Attention 二次方的复杂度,而是线性的复杂度。这里也存在问题,要想挑战成功光靠这个是不够的,因为我们可以通过一些压缩或其他手段,在有限场景下满足对效果的要求,这种情况下 RWKV 的生态和效果都比不上 Transformer,用户就没有理由放弃 Transformer 转而采用 RWKV。
因此在我看来,算法才是最重要的驱动力,在算法效果能达到的情况下,考虑到性价比,我们可能会考虑其他系统芯片。
金乐盛:我的想法和吴老师很像,我之前做过一段 Machine Learning,也发过一些关于 AI 的 Paper, 我发现做 ML 的人很少关注 latency 或者 system 相关的指标,大家更关注 accuracy 的提升以及能否达到 SOTA。所以我觉得如果能出现一个性能完全超越 Transformer 的新模型,那它肯定会成为主流,所有硬件厂商及软件栈都会去做适配,因此我认为算法还是占主导地位的。
王臣汉:我们之前有估算过 RWKV,参数规模比较大时,它的训练成本可能会降到 1/3 左右。比如构建大规模机器学习模型时,大家凭的是通讯工具和通讯,从指数级降到线性级别后,它的通讯需求会降低。
尽管 Attention 机制在 2017 年开始被人们注意,但是通过爬取全球机器学习相关的论文并进行分析,我们发现仅 2022 年一年发布的论文,就超过了过去多年的总和。
毫无疑问 GPT-3 甚至 ChatGPT 就是这个 milestone,甚至 ViT 诞生前基本没人相信 Attention 能用在视觉任务上。我们认知一个模型结构总是需要一个事件证明其有效性,要么参数规模巨大有效,要么这个机制在某类任务上 SOTA。回过头来看 RWKV,RWKV 之所以到现在还没有展现出超越 Attention 的潜力,很可能就是因为投入预算上的巨大差距,RWKV 的潜力还远没有被证明出来。
我认为应该在现有的 Backbone 基础上预测 Attention 之后的 Backbone,目前看起来 RWKV 和微软的 RetNet 是有这个潜力的。
阶段三:讨论式发言
未来大模型部署是以端侧为主还是以云端为主?
吴钊 :我认为未来 3-5 年内会以端侧为主,首先大模型的产品形态绝对不会只以 Chat 为主,未来一定会出现非常多的垂类大模型。比如自动驾驶车、手机、微型机器人等都属于终端设备,而且这种 Infer 的需求与计算量都是巨大的,不太可能存在一个这样的云来支撑这么多的场景和设备。与此同时,如自动驾驶等高度延迟敏感性的应用,端到云的延迟也是必须考虑的一个因素
王臣汉:大模型在云端部署的时间可能比我们想象的要长。前面大家基本认为 1-2 年内是云端为主,5 年左右转移到端侧。我自己判断是 3-4 年内是云端, 5-8 年是端测。
以 GPT-3.5 (20B) 为例,它在 Q4 FP16 大概有 10 GB+,抛开费电不谈,手机上用 10 GB+ 来存一个模型,这在现在还不是所有人都能接受的事情。另外芯片制程发展的速度在放缓,芯片体系结构也不会再像过去 20 年这样狂飙突进,所以我并不认为云端模型能很快下放到端侧。
冯思远:关于 Transformer 发展的预期,我同意臣汉的观点,5 年内基本上不太可能完全脱离云端,但是如果有一个新模型出来,它可能解决一部分的算力问题。如果要在手机端部署大模型,其实并不缺算力,以安卓手机为例,它有一个 35 T 的矩阵单元,但这个矩阵单元是单 batch,因此在大模型推理的时候完全用不上。如果有一个模型能解决端测这种推理问题,大概率是在模型发布后半年内解决,至于这个模型什么时候发布,还不太好下定论。
模型尤其是端侧的模型,它的生产方式跟部署在云端的模型完全不一样,它必须以公司为主导,比如高通、苹果等厂商会设计一个模型,专门针对手机或端侧去部署。如果要让你的模型具备它的效果,那么不用超越 Transformer,只要接近 Transformer 即可,这个事情端侧更适合,它一定与模型的设计、训练以及任务的差异性相关。
吴钊:现在主流的做法是在云端推导大模型,然后蒸馏出来一个小模型。从实际角度来看,我们更多考虑如何支持业务研发一些垂直的应用,不需要部署像 LLaMA 这么大的模型,垂直场景情况下参数量可能 1-3B 就够了。
王臣汉:今天我们讨论体系结构、讨论 Backbone 但没考虑数据规模。基于香侬前辈的信息学原理,在一定矩阵的情况下,承载的数据量是有限的,更高效的压缩方式会一定带来损失。因此如果想要一定的性能——假设这个性能以 GPT-3.5 为基准,刚才我们提到了 10 GB+,那么就算有再高效的 Backbone 出现,我们都得相信它不会小于 7 GB。为了响应这个级别的模型,设备的存储虽然还能扩大,但它的计算量不会再小了。
前面我提到了制程的迭代速度正在放缓,可能再过 5-10 年,我们在单一尺寸芯片上能榨出的性能有可能还不及过去 3 年多,这是我们现在能看到的事实。
2024 Meet TVM · 未来可期
2023 年 Q1-Q4,我们在上海、北京、深圳成功举办了 4 场线下 meetup,很开心能够在不同的城市汇聚起关注 AI 编译器的工程师,为大家提供一个学习交流的平台。2024 年,我们将继续开拓 TVM 城市地图,诚挚邀请各位企业及社区伙伴们以各种形式参与共创,无论是推荐讲师还是提供场地、茶歇,我们都非常欢迎的。
让我们携手创造国内最活跃的 AI 编译器社区!
没有观看嘉宾精彩演讲的小伙伴,可以点击活动回顾 (上) | 2023 Meet TVM 系列活动完美收官查看完整录播~
关注微信公众号「HyperAI超神经」,后台回复关键字「TVM 年终聚会」,获取嘉宾完整 PPT。
大家也可以备注「TVM 年终聚会」,扫码加入活动群,获取最新的活动资讯哦~
主办方及合作伙伴
作为本次活动的主办方,MLC.AI 社区成立于 2022 年 6 月,并由 Apache TVM 主要发明者、机器学习领域著名的青年学者陈天奇,带领团队上线了 MLC 线上课程,系统介绍了机器学习编译的关键元素以及核心概念。
2022 年 11 月,在 MLC.AI 社区志愿者的共同努力下,首个完整的 TVM 中文文档上线,并成功托管至 HyperAI超神经官网,进一步为对机器学习编译感兴趣的国内开发者,提供了接触并学习一门新技术的基础设置——文档。
MLC 线上课程:https://mlc.ai/TVM 中文文档:https://tvm.hyper.ai/
HyperAI超神经国内领先的人工智能及高性能计算社区,致力于为广大国内开发者提供数据科学领域的优质公共资源,截至目前已为 1200+ 公开数据集提供国内下载节点,支持 300+ 人工智能及高性能计算相关的词条查询,现已收录数百个行业词条及案例,上线含大模型在内的数千个公共数据集和教程, 并托管了完整的 TVM 中文文档。
访问官网:https://hyper.ai/
OpenBayes贝式计算是国内领先的高性能计算服务提供商,通过为新一代异构芯片嫁接经典软件生态及机器学习模型,进而为工业企业及高校科研提供更加快速、易用的数据科学计算产品,其产品已被数十家大型工业场景或头部科研院所所采用。
访问官网:https://openbayes.com/
厘米空间(厦门)是招商局集团旗下的专业创新园区管理公司,在厦门运营「厘米空间 CM Space」专业孵化器。扎根于东南沿海,依托招商局集团的交通、城市与园区综合开发和金融三大主业优势,重点为人工智能领域创业企业提供发展初期最为急需的应用场景、模式验证、种子期客户等资源支持,协助人工智能公司高效孵化。
上海云基地(上海市云计算创新基地、上海市大数据创新基地)是国内起步较早的国家级专业孵化器,推动云计算产业从 0 到 1 起步发展。以基金+基地+平台的模式,以数字经济产业为核心,聚焦云计算、云原生、大数据与人工智能、数字医疗等细分领域,集聚和孵化了近千家海内外优秀企业。通过连接技术、用户、资本、服务四个生态,持续举办「场景创新实验室]和「数字经济上市预备营」,构建数字经济产业加速器。
归心谷——全球企业跨境一站式服务平台,致力于全方位打造集创业孵化基地、归心谷人才、归心谷企业服务、归心谷文化传播等为核心内容的市场化企业服务平台。联动北美、欧洲、亚洲等海外智库与市场资源,提供产业园区和孵化基地运营、创业培训、企业咨询服务、投融资、海外人才归国发展、全球创新创业活动等服务,同时帮助中国创业企业出海。归心谷以发现人才,培养人才,成就人才为目标,帮助优秀青年人才实现梦想,形成海归创业和人才培养的归心之地。