作者 |王博
编辑 |德新
「人工智能的定律只有一个,就是规模定律(Scaling Law),大力出奇迹。端到端是描述方式,更应该去考虑如何去生产更多的自动驾驶合适的数据,来喂养更大更合适的模型,取得更好效果。」
这段话,出自毫末智行CEO顾维灏。
近日,顾在2024未来汽车先行者大会上,提到了他认为的端到端竞争的关键点。
端到端的出现,让自动驾驶今年再获资本热捧。
不久前,自动驾驶圈刚曝出一轮10.5亿美金的融资消息,软银领投,英伟达、微软跟投,获投方是一家名为Wayve的英国自动驾驶公司。
这是软银在自动驾驶领域的最新一笔投资,之前其已在Cruise、Stack AV等公司身上花掉数十亿美金。
Wayve自2017年成立至今,推出的核心产品是GAIA-1、LINGO-2两个自动驾驶大模型,主打端到端大模型。
这一点,和毫末在端到端的布局颇为相像。
毫末已搭建自监督感知大模型、自监督认知大模型,并开始进行端到端训练等,虽然命名方式不同,但与Wayve的思考路径相似。
自动驾驶将大模型引入后,解题思路完全改变。
从以自动驾驶工程师手写规则,指导车辆如何驾驶为主,切换到以AI来答卷,让神经网络大模型决定如何开车,程序员终于可以「少掉头发」。
10亿美金融资,让外人见识到自动驾驶大模型的受关注程度。而其实,在智驾标杆特斯拉和自动驾驶的热土中国公司毫末这里,大模型上车已经初试牛刀,胜出希望寄托在数据的大力出奇迹。
一、换种思路,解决头疼问题
大模型概念兴起于NLP领域,直到ChatGPT出现后,GPT这一全新的训练范式迅速被自动驾驶从业者认同,行业上下如获至宝。
在GPT被引入之前,2004年美国DARPA那场自动驾驶比赛之后的十多年里,研发模式仍与当年的DAPRA如出一辙。
以识别车道线为例,传统操作步骤是,先采集车道线数据,然后进行人工标注,再把标注完的数据训练成一个模型,最后把模型部署上车,再使用规则控制车辆做出决策。
这可以称之为小模型加手工规则。
GPT被引入自动驾驶后,研发模式焕然一新。
在大模型领域一早布局的Wayve,成立于2017年,直接跳过了传统的自动驾驶研发模式,瞄准大模型发力。
只不过,业内最先看到的是特斯拉。
在去年6月举行的CVPR 2023上,特斯拉Autopilot软件总监Ashok Elluswamy透露,团队正在训练一个更通用的世界模型。
特斯拉引入大模型,一部分原因在于,传统的自动驾驶研发模式,在城市场景中遇到了困难。
仍以车道线场景为例,实时预测车道线一度是自动驾驶头疼的问题。“车道是三维数据,会分叉、合并,很难建模。”Ashok Elluswamy解释道。
特斯拉的做法是,基于生成式大模型,采用自回归Transformer,将车道令牌化,一次一个令牌地对车道进行预测,对分叉点、合并点进行预测。
其实,早于Ashok Elluswamy演讲前一天,Wayve已在自家官方博客上发布GAIA-1,一个用于自动驾驶的生成式大模型。
几个月后,这一模型扩展至90亿参数,Wayve开始能够生成逼真的驾驶场景视频,展示自动驾驶“在各种情境的反应”,且可以更好地预测未来事件。
今年4月,在NVDIA GTC的舞台上,Wayve CEO Alex Kendall演讲时表示,「自动驾驶行业花费了太多时间聚焦在复杂解法上,比如手动编码规则和高精地图。」
他列出几个自动驾驶误区,第一个便是,以为解决感知问题就搞定了自动驾驶。
“要想创造一种让人们感到高兴并信任的体验,关键不仅仅是能够看到世界。真正的问题在于决策,多智能体复杂推理,才是自动驾驶问题的核心。”他说。
软银领投的那笔10.5亿美金,也在不久后被官宣,Wayve开始被更多自动驾驶领域的从业者认识和关注。
二、中国版Wayve,入局端到端
将大模型引入自动驾驶,Wayve同行者不止有特斯拉,还有中国的自动驾驶公司。
在国内,大家较早听闻大模型消息的玩家中,其中一家是开头提到的毫末。
毫末发布的DriveGPT这一生成式大模型,可用于自动驾驶的感知、决策任务。
开启GPT时刻之前,毫末最初采用的是encoder+dedocer模型,输入一串图片,模型会输出一串自动驾驶决策动作。
后来,这家公司还采用基于encoder自编码的训练方式,输入感知结果,mask司机的驾驶行为,让系统猜司机的驾驶行为。
ChatGPT出现后,毫末很快发现GPT的高效能力,就此入局。
生成式大模型有一大任务,可以归纳为:“建立了一个神经网络,以过去或其他输入为条件,预测未来。”
不同的是,Wayve和特斯拉输入的是视频序列,也就是一段过去的视频,神经网络会预测未来可能发生的事情,生成一段预测的视频序列。
毫末生成的是BEV序列,向大模型输入一段过去10秒的感知场景,大模型会生成一段未来2 - 3秒的场景。
无论各家输入的是视频还是BEV序列,逻辑是相同的。
这一方式,与人类司机驾驶根据道路状况做出驾驶决的做法颇为相似。它一改传统的手写规则,转而让神经网络决定如何开车,相当于借助大模型短暂预测了未来。
生成式大模型可以用于自动驾驶认知决策,这是一个很好的开始。
同时,毫末也在训练基于自监督的通用感知大模型,并最终希望将感知大模型、认知大模型打通,并引入大语言模型LLM来获得世界知识,实现端到端训练。
发布GAIA-1几个月后,2023年9月,Wayve又在自家官方博客上发文,介绍了LINGO-1,一款开环的Driving Commentator C(自动驾驶评论员),这是一个基于视觉、语言、动作的自动驾驶交互模型,可以用于解释自动驾驶系统的行为逻辑。
今年4月, Wayve推出的LINGO-2,为自动驾驶体验开辟全新的控制和定制维度,也是一个在公共道路上进行测试的视觉语言动作模型(VLAM)。这一多模态大模型被用于增加决策的可解释性。
在Wayve的官方视频中,用户可以和车辆进行对话,对行驶路线等问题进行提问,LINGO-2会给出回应,并能实时解释每一项决策背后的过程。
毫末的做法与之相似。
他们意识到,在构建对真实物理世界的4D感知基础上,通过多模态大模型,实现文、图、视频多模态信息的整合,从而完成4D向量空间到语义空间的对齐,实现跟人类一样的“识别万物”的能力。
与Wavye类似,毫末也尝试引入大语言模型LLM,并利用自动驾驶领域数据finetune后,使得LLM成为一个老司机,通过与LLM交互,能够获取丰富的世界知识,甚至能提出决策规划建议。
三、奔赴端到端,解决后续上车问题
大模型时代,人们见证了初出茅庐ChatGPT 3.0,很快又见识到更强的文生视频Sora,再到最近炸场的GPT-4o。
这些产品所采用的新技术,为自动驾驶持续输送思想的养料。
从Wayve和毫末等公司的实践看,大家都在遵循着大模型的思路,但仍会分阶段地推进,比如会推出解决某个模块任务大模型。
在探索自动驾驶最为积极的中国,玩家们会单独布局面向感知的大模型,然后布局用于驾驶决策的规控大模型。虽然这一过程中,某些地方还会用到CNN卷积神经网络,但整体会以Transformer为主。
所以,Wayve推出GAIA-1也好,LINGO-2也好,这些大模型也会进行统一,成为端到端大模型。
而毫末发布的DriveGPT,同样是将自动驾驶生成式大模型、多模态大模型、LLM等统一起来后的产物。
之后,就是 自动驾驶大模型上车,将大模型从云端搬到车端的过程。
鉴于人工智能大模型的竞赛,是涉及算法、数据、算力的挑战,自动驾驶的竞争也会围绕这些维度展开。
进入端到端的大门,仅仅是第一步,紧接着就是数据的比拼。
正如顾维灏所说,自动驾驶经历了硬件驱动、软件驱动,现在正进入数据驱动时代。“数据驱动有一个很典型的特征就是它是大模型的,更多通过模型来实现整个的过程。“
更多的数据,会让自动驾驶玩家们开始比拼算力,囤积成千上万块GPU,从而在云端完成自动驾驶大模型的训练。还要不断进行训练投入,传闻ChatGPT训练一次,需要花费1200万美金。自动驾驶的训练费用自然也不会少。
接下来就是大模型上车。
按照毫末的说法,动辄千亿级参数的大模型,要在保持效果接近的前提下,缩小到亿级才可能上车。
从量产层面看,目前仅有行业标杆特斯拉推出FSD V12,宣布将城市街道驾驶堆栈升级为端到端神经网络,经过数百万个视频训练,取代了30多万行代码,可以视为端到端落地的最新动向。
从一些国内自动驾驶公司的计划看,预计在今年下半年,更多的端到端自动驾驶方案也将量产上车。
资本正在为自动驾驶大模型定价,相信Wayve融资仅是一个开始。在国内,毫末等Wayve的同行者,也许很快会获得资本的押注。毕竟端到端大模型这条路,现在看是最有希望抵达自动驾驶彼岸的方向。
参考文献:
Wayve CEO干货分享:自动驾驶已浪费太多时间
VLAM会是自动驾驶的黑盒解药吗?
Wayve:从源头讲起,如何实现以对象为中心的自监督感知方法?
特斯拉自动驾驶的“通用世界模型”和视频生成技术|Ashok23年CVPR主题演讲
Scaling GAIA-1: 9-billion parameter generative world model for autonomous driving
Wayve - NeRF 为自动驾驶构建城市规模的神经辐射场
“大模型本质就是两个文件!”特斯拉前AI总监爆火LLM科普
毫末智行自动驾驶公开课(第二期):数据、大算力、大模型驱动下的自动驾驶