活动回顾 (下) | 机器学习系统趋势研判，大咖金句汇总

作者：三羊、李宝珠、李玮栋、Yudi、xixi
编辑：李宝珠
在大模型时代的浪潮中，机器学习系统正经历着前所未有的变革。模型规模的急剧膨胀，让我们见证了 AI 能力的巨大提升，然而这种提升不仅为各个领域带来了新的机遇，也引出了一系列新的技术挑战和实践上的难题。

12 月 16 日，2023 Meet TVM · 年终聚会在上海创业者公共实训基地成功举办。本次 Meetup 中，Apache TVM PMC、上海交通大学博士冯思远担任主持人，与 4 位嘉宾围绕「大模型时代的机器学习系统」这一主题展开了全方位、多角度的交流和探讨。

本次圆桌对话的 4 位嘉宾分别是：

* OpenBayes贝式计算创始人兼 CEO 王臣汉

* 蔚来汽车自动驾驶 AI 引擎负责人吴钊

* OctoML 机器学习系统工程师金乐盛

* 字节跳动机器学习系统工程师朱虹宇

从左至右依次为：冯思远、王臣汉、吴钊、金乐盛、朱虹宇

我们在不违原意的前提下将本场对话汇总如下，快来一起听听各位嘉宾的精彩见解吧。

大模型时代的机器学习系统

阶段一：讨论式发言

现阶段大模型在各个领域都是绝对的热点问题，无论是云端、端侧或者是车载 (Tesla FSD V12)，各位嘉宾在实际工作或讨论中都会遇到有关大模型在训练、部署上的系统优化问题，请大家轮流介绍一下目前遇到的主要挑战及解决方案。

王臣汉：OpenBayes贝式计算在今年 6 月份启动大模型相关的单一模态的训练，在 SuperCLUE 国内大模型创业公司榜单里排第五。从大模型的训练技术上考虑，目前大家遇到的核心问题还是网络延迟，基本上没有哪家芯片能在自己的集群上满负荷运行。

根据 OpenAI 官网的「scaling kubernetes to 2500 nodes」推算，其训练 GPT-3 时 GPU 峰值利用率应该是没有超过 18%，平均利用率约为 12- 15%，相当于如果花费 1 亿搞一个集群，这个集群里的投入只有 1200-1500 万起到了作用。从钱的角度上讲，如何最大化地把数据并行、流水运行、向量并行做好，其实是训练上面临的最大挑战。

部署/推理上的挑战在国内而言主要是工程问题比较复杂，如果显存带宽不是很好，PCIE 的优化其实就比较麻烦。OpenBayes贝式计算和很多上下游厂商都是采用 vLLM，借此省去很多工程化的工作，使推理上的工作量大幅下降。

金乐盛：我们遇到的挑战主要分为两点：

1. 因为 TVM、 MLC-LLM 在 7B 上面速度运行后，有时候一张卡上存不下更大的比如 70 B 的模型，我们上个季度尝试用 Tensor Parallelism 来解决这个问题，目前这个方案已经开源了，大家感兴趣可以试一下。

2. 还有个需求，我们现在是只支持 batch size = 1 的情况，更适合于单个人用，但是如果想起一个 Serving 会发现远远不如 vLLM，这个我们现在也正在开发。

冯思远：我也补充一点，推理这块的主要趋势尚不明朗，Transformer 虽然是目前大模型采用的主流的架构，但从整体上看，方法还有很多变动，在这种情况下 Transformer 到底能不能一统 large model 还是个问号。所以在上层和底层存在不确定性的场景下，可定制化、敏捷开发可能比传统 TVM 端到端编译更重要。在我看来，大模型在推理和训练上还有很大进步空间。

阶段二：针对性提问

随着美国禁令的加强，限制已经从原本禁运训练卡，进而影响到大模型推理卡的情况。短期来看，目前大模型云端推理最具性价比的方案是什么？（允许使用游戏卡、图形卡的情况下），国产 NPU、GPU 在推理领域填补空白还需要多少时间？

王臣汉：训练、推理模型的大小不同，使用场景、业务负载不同，很难得出统一的答案。

从边缘端的选型来看，国产芯片瑞芯微 3588 是个不错的选项，它性能、性价比都不错，技术栈相对通用，价格也比较便宜，容易获得。此外英伟达 Orin 相当于阉割版 Ampere GPU，如果按 q4f 16 预算规格，Orin 从显存到推理上运行 7B、14B 甚至 34B 的模型都没有太大压力。

云端的选型，英伟达随后披露了 H20、L20 和 L2 这三款片，英伟达官方给到的消息称，在大模型的实际推理层面大概是 L40 的70%-80%，A6000 虽然后来也被增补进了禁售清单，但由于库存量比较大。A6000 的好处就是显存大，48 GB，带 NVLink，一对装起来就能得到一个 130% 的 A100。

以我们跟国产芯片厂商接触得知，大家确实都在针对 Attention 单一的 Backbone 做最大优化。

阶段二：针对性提问

在国产芯片领域，你认为在多长时间内，能够有一家企业在推理端实现真正地落地，并且能够瓜分英伟达的市场份额？

王臣汉：我觉得国产芯片企业大概能在 18 个月内吃掉英伟达 20% 以上的市场份额。这个判断的主要依据是我国利好政策以及美国持续制裁，推动了国产化率提升。而且，据我了解，目前已经有国内厂商对英伟达 CUDA 的指令、API 兼容可以达到 92% 以上。所以，我对于 18 个月的周期预判还是很有信心的。

阶段二：针对性提问

蔚来为何会选择 TVM？TVM 在自动驾驶领域又有哪些优势？

吴钊：首先肯定是因为我本人有 TVM 技术背景，所以在构建团队时，会优先关注 TVM。其次，在实际项目中，考量技术是否合理的重要标准就是看它的架构是否能满足业务需求。

自动驾驶是一个很复杂的应用场景，对架构的要求也更加严苛，在选择技术路线的时候，需要综合考虑项目需求与项目周期。对于蔚来的自动驾驶业务而言，第一款车型 ET7 计划在 2022 年 3 月开始交付，当时，我们的团队只有半年时间来应对自动驾驶的复杂模型，所以，我们肯定要选择一个 End to End 的方案，当时很多友商使用的都是 TensorRT。TensorRT 的问题就是模型会越来越复杂、要求也会越来越奇怪，从长远来看不太适合。

自动驾驶领域首先要考虑的问题就是如何在车端完全控制性能、精度等 metrics，因为自动驾驶需要解决很多特殊情况，算法团队大多在云端做模型训练，然后部署到车端。在这个过程中，如果使用 TensorRT 黑盒，实际上无法完全掌握其量化算法，而量化在我们看来是非常重要的。

此外，MLIR 非常适合传统编译器，但是前期需要投入比较多的时间，考虑到当时我们有一个相对严苛的时间限制，再加上要选择 End to End 的方案，所以经过评估后我们也放弃了 MLIR。

最后，对于自动驾驶而言，整体部署的稳定性以及 CPU 低占用率至关重要，因此我们需要选择一个能完全把控的方案，能降低 CPU 占用率，这是黑盒没办法实现的。

综合来看，全白盒 TVM 是当时最适合我们的选项。

阶段三：讨论式发言

目前无论是大模型还是自动驾驶模型，都呈现出模型与硬件相互绑定的情况，在这种情况下模型的算法、系统甚至芯片都会有共同的演化，各位老师可以就此分享一些自己的看法。

王臣汉：我认为 DSA 和 GPGPU 很可能互相依存，谁也离不开谁，未来芯片的体系结构也不会只有 Attention 这一种形式， 近来社区里诞生了非常多新技术、新产品，比如 Mistral 7B MoE、微软提出了 RetNet、多模态崛起等，大语言模型统一整个体系结构可能只是从今年 3 月份到 10 月份的一个短暂的幻觉，很可能 AI 未来的体系结构以及英伟达定义的这套范式还得延续一阵时间。但是英伟达不一定能一直在这件事上保持领先，毫无疑问 Attention 会缩短其他追赶者和英伟达之间的距离，比如 AMD MI300X 和其他不太方便公开提及名字的国产芯片。

从更多的趋势上来看，体系结构上的演化即以 GPGPU 为核心的仍然会是一个长期的趋势。

吴钊：真实的项目经历中小改可以、大改很难，也就是说在基本满足业务需求的前提下，可以为了硬件做微调适配，但是如果为了达到很好的效果必须用 Transformer，但是某硬件对 Transformer 的支持非常差，从业务角度来看，我们不会部署到这款硬件上。这就是业界的现状。

谈到挑战，我觉得肯定是会有挑战的，包括前面提到的 RWKV 或 RNN，不再是 Attention 二次方的复杂度，而是线性的复杂度。这里也存在问题，要想挑战成功光靠这个是不够的，因为我们可以通过一些压缩或其他手段，在有限场景下满足对效果的要求，这种情况下 RWKV 的生态和效果都比不上 Transformer，用户就没有理由放弃 Transformer 转而采用 RWKV。

因此在我看来，算法才是最重要的驱动力，在算法效果能达到的情况下，考虑到性价比，我们可能会考虑其他系统芯片。

金乐盛：我的想法和吴老师很像，我之前做过一段 Machine Learning，也发过一些关于 AI 的 Paper，我发现做 ML 的人很少关注 latency 或者 system 相关的指标，大家更关注 accuracy 的提升以及能否达到 SOTA。所以我觉得如果能出现一个性能完全超越 Transformer 的新模型，那它肯定会成为主流，所有硬件厂商及软件栈都会去做适配，因此我认为算法还是占主导地位的。

王臣汉：我们之前有估算过 RWKV，参数规模比较大时，它的训练成本可能会降到 1/3 左右。比如构建大规模机器学习模型时，大家凭的是通讯工具和通讯，从指数级降到线性级别后，它的通讯需求会降低。

尽管 Attention 机制在 2017 年开始被人们注意，但是通过爬取全球机器学习相关的论文并进行分析，我们发现仅 2022 年一年发布的论文，就超过了过去多年的总和。

毫无疑问 GPT-3 甚至 ChatGPT 就是这个 milestone，甚至 ViT 诞生前基本没人相信 Attention 能用在视觉任务上。我们认知一个模型结构总是需要一个事件证明其有效性，要么参数规模巨大有效，要么这个机制在某类任务上 SOTA。回过头来看 RWKV，RWKV 之所以到现在还没有展现出超越 Attention 的潜力，很可能就是因为投入预算上的巨大差距，RWKV 的潜力还远没有被证明出来。

我认为应该在现有的 Backbone 基础上预测 Attention 之后的 Backbone，目前看起来 RWKV 和微软的 RetNet 是有这个潜力的。

阶段三：讨论式发言

未来大模型部署是以端侧为主还是以云端为主？

吴钊：我认为未来 3-5 年内会以端侧为主，首先大模型的产品形态绝对不会只以 Chat 为主，未来一定会出现非常多的垂类大模型。比如自动驾驶车、手机、微型机器人等都属于终端设备，而且这种 Infer 的需求与计算量都是巨大的，不太可能存在一个这样的云来支撑这么多的场景和设备。与此同时，如自动驾驶等高度延迟敏感性的应用，端到云的延迟也是必须考虑的一个因素

王臣汉：大模型在云端部署的时间可能比我们想象的要长。前面大家基本认为 1-2 年内是云端为主，5 年左右转移到端侧。我自己判断是 3-4 年内是云端， 5-8 年是端测。

以 GPT-3.5 (20B) 为例，它在 Q4 FP16 大概有 10 GB+，抛开费电不谈，手机上用 10 GB+ 来存一个模型，这在现在还不是所有人都能接受的事情。另外芯片制程发展的速度在放缓，芯片体系结构也不会再像过去 20 年这样狂飙突进，所以我并不认为云端模型能很快下放到端侧。

冯思远：关于 Transformer 发展的预期，我同意臣汉的观点，5 年内基本上不太可能完全脱离云端，但是如果有一个新模型出来，它可能解决一部分的算力问题。如果要在手机端部署大模型，其实并不缺算力，以安卓手机为例，它有一个 35 T 的矩阵单元，但这个矩阵单元是单 batch，因此在大模型推理的时候完全用不上。如果有一个模型能解决端测这种推理问题，大概率是在模型发布后半年内解决，至于这个模型什么时候发布，还不太好下定论。

模型尤其是端侧的模型，它的生产方式跟部署在云端的模型完全不一样，它必须以公司为主导，比如高通、苹果等厂商会设计一个模型，专门针对手机或端侧去部署。如果要让你的模型具备它的效果，那么不用超越 Transformer，只要接近 Transformer 即可，这个事情端侧更适合，它一定与模型的设计、训练以及任务的差异性相关。

吴钊：现在主流的做法是在云端推导大模型，然后蒸馏出来一个小模型。从实际角度来看，我们更多考虑如何支持业务研发一些垂直的应用，不需要部署像 LLaMA 这么大的模型，垂直场景情况下参数量可能 1-3B 就够了。

王臣汉：今天我们讨论体系结构、讨论 Backbone 但没考虑数据规模。基于香侬前辈的信息学原理，在一定矩阵的情况下，承载的数据量是有限的，更高效的压缩方式会一定带来损失。因此如果想要一定的性能——假设这个性能以 GPT-3.5 为基准，刚才我们提到了 10 GB+，那么就算有再高效的 Backbone 出现，我们都得相信它不会小于 7 GB。为了响应这个级别的模型，设备的存储虽然还能扩大，但它的计算量不会再小了。

前面我提到了制程的迭代速度正在放缓，可能再过 5-10 年，我们在单一尺寸芯片上能榨出的性能有可能还不及过去 3 年多，这是我们现在能看到的事实。

2024 Meet TVM · 未来可期

2023 年 Q1-Q4，我们在上海、北京、深圳成功举办了 4 场线下 meetup，很开心能够在不同的城市汇聚起关注 AI 编译器的工程师，为大家提供一个学习交流的平台。2024 年，我们将继续开拓 TVM 城市地图，诚挚邀请各位企业及社区伙伴们以各种形式参与共创，无论是推荐讲师还是提供场地、茶歇，我们都非常欢迎的。

让我们携手创造国内最活跃的 AI 编译器社区！

没有观看嘉宾精彩演讲的小伙伴，可以点击活动回顾 (上) | 2023 Meet TVM 系列活动完美收官查看完整录播~
关注微信公众号「HyperAI超神经」，后台回复关键字「TVM 年终聚会」，获取嘉宾完整 PPT。
大家也可以备注「TVM 年终聚会」，扫码加入活动群，获取最新的活动资讯哦~

主办方及合作伙伴

作为本次活动的主办方，MLC.AI 社区成立于 2022 年 6 月，并由 Apache TVM 主要发明者、机器学习领域著名的青年学者陈天奇，带领团队上线了 MLC 线上课程，系统介绍了机器学习编译的关键元素以及核心概念。

2022 年 11 月，在 MLC.AI 社区志愿者的共同努力下，首个完整的 TVM 中文文档上线，并成功托管至 HyperAI超神经官网，进一步为对机器学习编译感兴趣的国内开发者，提供了接触并学习一门新技术的基础设置——文档。
MLC 线上课程：https://mlc.ai/TVM 中文文档：https://tvm.hyper.ai/

HyperAI超神经国内领先的人工智能及高性能计算社区，致力于为广大国内开发者提供数据科学领域的优质公共资源，截至目前已为 1200+ 公开数据集提供国内下载节点，支持 300+ 人工智能及高性能计算相关的词条查询，现已收录数百个行业词条及案例，上线含大模型在内的数千个公共数据集和教程，并托管了完整的 TVM 中文文档。
访问官网：https://hyper.ai/

OpenBayes贝式计算是国内领先的高性能计算服务提供商，通过为新一代异构芯片嫁接经典软件生态及机器学习模型，进而为工业企业及高校科研提供更加快速、易用的数据科学计算产品，其产品已被数十家大型工业场景或头部科研院所所采用。
访问官网：https://openbayes.com/

厘米空间（厦门）是招商局集团旗下的专业创新园区管理公司，在厦门运营「厘米空间 CM Space」专业孵化器。扎根于东南沿海，依托招商局集团的交通、城市与园区综合开发和金融三大主业优势，重点为人工智能领域创业企业提供发展初期最为急需的应用场景、模式验证、种子期客户等资源支持，协助人工智能公司高效孵化。

上海云基地（上海市云计算创新基地、上海市大数据创新基地）是国内起步较早的国家级专业孵化器，推动云计算产业从 0 到 1 起步发展。以基金+基地+平台的模式，以数字经济产业为核心，聚焦云计算、云原生、大数据与人工智能、数字医疗等细分领域，集聚和孵化了近千家海内外优秀企业。通过连接技术、用户、资本、服务四个生态，持续举办「场景创新实验室]和「数字经济上市预备营」，构建数字经济产业加速器。

归心谷——全球企业跨境一站式服务平台，致力于全方位打造集创业孵化基地、归心谷人才、归心谷企业服务、归心谷文化传播等为核心内容的市场化企业服务平台。联动北美、欧洲、亚洲等海外智库与市场资源，提供产业园区和孵化基地运营、创业培训、企业咨询服务、投融资、海外人才归国发展、全球创新创业活动等服务，同时帮助中国创业企业出海。归心谷以发现人才，培养人才，成就人才为目标，帮助优秀青年人才实现梦想，形成海归创业和人才培养的归心之地。