中国版Wayve决战端到端,等待数据的大力出奇迹

作者 |王博

编辑 |德新

53d9e5d4a63181ee848126f175ecbb41.jpeg

「人工智能的定律只有一个,就是规模定律(Scaling Law),大力出奇迹。端到端是描述方式,更应该去考虑如何去生产更多的自动驾驶合适的数据,来喂养更大更合适的模型,取得更好效果。」

这段话,出自毫末智行CEO顾维灏。

近日,顾在2024未来汽车先行者大会上,提到了他认为的端到端竞争的关键点。

端到端的出现,让自动驾驶今年再获资本热捧。

不久前,自动驾驶圈刚曝出一轮10.5亿美金的融资消息,软银领投,英伟达、微软跟投,获投方是一家名为Wayve的英国自动驾驶公司。

这是软银在自动驾驶领域的最新一笔投资,之前其已在Cruise、Stack AV等公司身上花掉数十亿美金。

Wayve自2017年成立至今,推出的核心产品是GAIA-1、LINGO-2两个自动驾驶大模型,主打端到端大模型。

这一点,和毫末在端到端的布局颇为相像。

5898a1f8b118f223cc845bd733f5ca8d.jpeg

毫末已搭建自监督感知大模型、自监督认知大模型,并开始进行端到端训练等,虽然命名方式不同,但与Wayve的思考路径相似。

自动驾驶将大模型引入后,解题思路完全改变。

从以自动驾驶工程师手写规则,指导车辆如何驾驶为主,切换到以AI来答卷,让神经网络大模型决定如何开车,程序员终于可以「少掉头发」。

10亿美金融资,让外人见识到自动驾驶大模型的受关注程度。而其实,在智驾标杆特斯拉和自动驾驶的热土中国公司毫末这里,大模型上车已经初试牛刀,胜出希望寄托在数据的大力出奇迹。

一、换种思路,解决头疼问题

大模型概念兴起于NLP领域,直到ChatGPT出现后,GPT这一全新的训练范式迅速被自动驾驶从业者认同,行业上下如获至宝。

在GPT被引入之前,2004年美国DARPA那场自动驾驶比赛之后的十多年里,研发模式仍与当年的DAPRA如出一辙。

以识别车道线为例,传统操作步骤是,先采集车道线数据,然后进行人工标注,再把标注完的数据训练成一个模型,最后把模型部署上车,再使用规则控制车辆做出决策。

这可以称之为小模型加手工规则。

GPT被引入自动驾驶后,研发模式焕然一新

在大模型领域一早布局的Wayve,成立于2017年,直接跳过了传统的自动驾驶研发模式,瞄准大模型发力。

只不过,业内最先看到的是特斯拉。

在去年6月举行的CVPR 2023上,特斯拉Autopilot软件总监Ashok Elluswamy透露,团队正在训练一个更通用的世界模型。

特斯拉引入大模型,一部分原因在于,传统的自动驾驶研发模式,在城市场景中遇到了困难。

仍以车道线场景为例,实时预测车道线一度是自动驾驶头疼的问题。“车道是三维数据,会分叉、合并,很难建模。”Ashok Elluswamy解释道。

特斯拉的做法是,基于生成式大模型,采用自回归Transformer,将车道令牌化,一次一个令牌地对车道进行预测,对分叉点、合并点进行预测。

其实,早于Ashok Elluswamy演讲前一天,Wayve已在自家官方博客上发布GAIA-1,一个用于自动驾驶的生成式大模型。

aed727ef3fbcf1bec845b117f941ad96.jpeg

几个月后,这一模型扩展至90亿参数,Wayve开始能够生成逼真的驾驶场景视频,展示自动驾驶“在各种情境的反应”,且可以更好地预测未来事件。

今年4月,在NVDIA GTC的舞台上,Wayve CEO Alex Kendall演讲时表示,「自动驾驶行业花费了太多时间聚焦在复杂解法上,比如手动编码规则和高精地图。」

他列出几个自动驾驶误区,第一个便是,以为解决感知问题就搞定了自动驾驶。

“要想创造一种让人们感到高兴并信任的体验,关键不仅仅是能够看到世界。真正的问题在于决策,多智能体复杂推理,才是自动驾驶问题的核心。”他说。

软银领投的那笔10.5亿美金,也在不久后被官宣,Wayve开始被更多自动驾驶领域的从业者认识和关注。

二、中国版Wayve,入局端到端

将大模型引入自动驾驶,Wayve同行者不止有特斯拉,还有中国的自动驾驶公司。

在国内,大家较早听闻大模型消息的玩家中,其中一家是开头提到的毫末。

毫末发布的DriveGPT这一生成式大模型,可用于自动驾驶的感知、决策任务。

开启GPT时刻之前,毫末最初采用的是encoder+dedocer模型,输入一串图片,模型会输出一串自动驾驶决策动作。

后来,这家公司还采用基于encoder自编码的训练方式,输入感知结果,mask司机的驾驶行为,让系统猜司机的驾驶行为。

ChatGPT出现后,毫末很快发现GPT的高效能力,就此入局。

生成式大模型有一大任务,可以归纳为:“建立了一个神经网络,以过去或其他输入为条件,预测未来。”

不同的是,Wayve和特斯拉输入的是视频序列,也就是一段过去的视频,神经网络会预测未来可能发生的事情,生成一段预测的视频序列。

毫末生成的是BEV序列,向大模型输入一段过去10秒的感知场景,大模型会生成一段未来2 - 3秒的场景。

无论各家输入的是视频还是BEV序列,逻辑是相同的。

这一方式,与人类司机驾驶根据道路状况做出驾驶决的做法颇为相似。它一改传统的手写规则,转而让神经网络决定如何开车,相当于借助大模型短暂预测了未来。

生成式大模型可以用于自动驾驶认知决策,这是一个很好的开始。

同时,毫末也在训练基于自监督的通用感知大模型,并最终希望将感知大模型、认知大模型打通,并引入大语言模型LLM来获得世界知识,实现端到端训练。

发布GAIA-1几个月后,2023年9月,Wayve又在自家官方博客上发文,介绍了LINGO-1,一款开环的Driving Commentator C(自动驾驶评论员),这是一个基于视觉、语言、动作的自动驾驶交互模型,可以用于解释自动驾驶系统的行为逻辑。

今年4月, Wayve推出的LINGO-2,为自动驾驶体验开辟全新的控制和定制维度,也是一个在公共道路上进行测试的视觉语言动作模型(VLAM)。这一多模态大模型被用于增加决策的可解释性。

在Wayve的官方视频中,用户可以和车辆进行对话,对行驶路线等问题进行提问,LINGO-2会给出回应,并能实时解释每一项决策背后的过程。

毫末的做法与之相似。

他们意识到,在构建对真实物理世界的4D感知基础上,通过多模态大模型,实现文、图、视频多模态信息的整合,从而完成4D向量空间到语义空间的对齐,实现跟人类一样的“识别万物”的能力。

与Wavye类似,毫末也尝试引入大语言模型LLM,并利用自动驾驶领域数据finetune后,使得LLM成为一个老司机,通过与LLM交互,能够获取丰富的世界知识,甚至能提出决策规划建议。

三、奔赴端到端,解决后续上车问题

大模型时代,人们见证了初出茅庐ChatGPT 3.0,很快又见识到更强的文生视频Sora,再到最近炸场的GPT-4o。

这些产品所采用的新技术,为自动驾驶持续输送思想的养料。

从Wayve和毫末等公司的实践看,大家都在遵循着大模型的思路,但仍会分阶段地推进,比如会推出解决某个模块任务大模型。

在探索自动驾驶最为积极的中国,玩家们会单独布局面向感知的大模型,然后布局用于驾驶决策的规控大模型。虽然这一过程中,某些地方还会用到CNN卷积神经网络,但整体会以Transformer为主。

所以,Wayve推出GAIA-1也好,LINGO-2也好,这些大模型也会进行统一,成为端到端大模型。

而毫末发布的DriveGPT,同样是将自动驾驶生成式大模型、多模态大模型、LLM等统一起来后的产物。

之后,就是 自动驾驶大模型上车,将大模型从云端搬到车端的过程

鉴于人工智能大模型的竞赛,是涉及算法、数据、算力的挑战,自动驾驶的竞争也会围绕这些维度展开。

进入端到端的大门,仅仅是第一步,紧接着就是数据的比拼

正如顾维灏所说,自动驾驶经历了硬件驱动、软件驱动,现在正进入数据驱动时代。“数据驱动有一个很典型的特征就是它是大模型的,更多通过模型来实现整个的过程。“

更多的数据,会让自动驾驶玩家们开始比拼算力,囤积成千上万块GPU,从而在云端完成自动驾驶大模型的训练。还要不断进行训练投入,传闻ChatGPT训练一次,需要花费1200万美金。自动驾驶的训练费用自然也不会少。

接下来就是大模型上车。

按照毫末的说法,动辄千亿级参数的大模型,要在保持效果接近的前提下,缩小到亿级才可能上车。

从量产层面看,目前仅有行业标杆特斯拉推出FSD V12,宣布将城市街道驾驶堆栈升级为端到端神经网络,经过数百万个视频训练,取代了30多万行代码,可以视为端到端落地的最新动向。

从一些国内自动驾驶公司的计划看,预计在今年下半年,更多的端到端自动驾驶方案也将量产上车。

资本正在为自动驾驶大模型定价,相信Wayve融资仅是一个开始。在国内,毫末等Wayve的同行者,也许很快会获得资本的押注。毕竟端到端大模型这条路,现在看是最有希望抵达自动驾驶彼岸的方向。


参考文献:
Wayve CEO干货分享:自动驾驶已浪费太多时间
VLAM会是自动驾驶的黑盒解药吗?
Wayve:从源头讲起,如何实现以对象为中心的自监督感知方法?
特斯拉自动驾驶的“通用世界模型”和视频生成技术|Ashok23年CVPR主题演讲
Scaling GAIA-1: 9-billion parameter generative world model for autonomous driving
Wayve - NeRF 为自动驾驶构建城市规模的神经辐射场
“大模型本质就是两个文件!”特斯拉前AI总监爆火LLM科普
毫末智行自动驾驶公开课(第二期):数据、大算力、大模型驱动下的自动驾驶

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/24071.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C语言野指针、规避野指针、assert宏断言

目录 a.野指针成因 1.指针未初始化 2.指针越界访问 3.指针指向的空间释放 b.规避野指针 1.指针初始化 2.小心指针越界 3.指针变量不再使用时,及时置NULL,指针使用之前检查有效性 4.避免返回局部变量的地址 c.assert宏断言的使用 概念&#xff1…

【MySQL】SQL通用语法

【MySQL】SQL通用语法 SQL是结构化查询语言(Structured Query Language)的缩写,是一种专门用来管理和操作关系型数据库的标准化语言。SQL能够实现数据库的创建、查询、更新和删除操作,以及对数据进行存储、检索和管理。通过SQL语句…

串口屏在焊接机上的应用

在现代工业自动化浪潮中,焊接技术作为制造业的脊梁,其精准与效率直接关系到产品的质量和生产线的流畅性。而在这场技术的革新中,串口屏以其独特的优势,正成为焊接机领域的璀璨明星。今天,就让我们一同探索串口屏如何助…

动手学深度学习28 批量归一化

动手学深度学习28 批量归一化 批量归一化代码从零实现调包简洁实现 QA https://www.bilibili.com/video/BV1X44y1r77r/?spm_id_fromautoNext&vd_sourceeb04c9a33e87ceba9c9a2e5f09752ef8 批量归一化 n个比较小的数相乘,值会越来越小。 批量归一化:…

opencv-python(四)

读取图像文件 image cv2.imread(path, flag) flag:1. 默认值,依原图像读取图像,保留Alpha透明度通道。2.IMREAD_GRAYSCALE:将图像转为灰度再读取。3.IMREAD_COLOR:将图像转为三通道BGR彩色再读取。 可读取的图像格…

upload-labs-第五关

目录 第五关 1、构造.user.ini文件 2、构造一个一句话木马文件,后缀名为jpg 3、上传.user.ini文件后上传flag.jpg 4、上传成功后访问上传路径 第五关 原理: 这一关采用黑名单的方式进行过滤,不允许上传php、php3、.htaccess等这几类文件…

Vue根据后端返回的tabList动态渲染组件信息

最近做了一个功能&#xff0c;后端根据配置信息&#xff0c;动态返回一个tabList&#xff0c;其中结构是List<String,Object> tabList; map里面的数据是 label、value 页面需要根据tablist动态渲染组件&#xff08;不同的tab都使用了组件进行了封装&#xff09; 实现效果…

都给我冲!微信视频号下载助手可快速提取视频号视频,已测可用

不少视频内容创作者在写文案&#xff0c;以及收集素材的时候发现微信视频号的视频无法下载&#xff0c;该怎么办呢&#xff1f; 都给我冲&#xff01;已实测好用的视频号下载助手&#xff0c;无论是个人或者企业都可以快速保存视频号视频。 你也不用担心自己是用到什么设备&am…

Xilinx的Aurora8B10B ip原理讲解(高速收发器十六)

点击进入高速收发器系列文章导航界面 前文讲解了Aurora 8B/10B协议的一些基础知识&#xff0c;本文对Xilinx的Aurora 8B/10B IP进行讲解&#xff0c;该IP在Aurora 8B/10B的基础之上还完成了字对齐等等操作&#xff0c;开放给用户的端口有axi_full或axi_stream两种格式。 相应的…

17.3 命令行-POSIX特性、安装与分享

1. POSIX特性 在Linux和macOS系统中&#xff0c;大多数命令行工具都要求以推荐标准POSIX指定的方式传递命令行参数。 POSIX即UNIX可移植操作系统接口(Portable Operating System Interface of UNIX)是一套标准&#xff0c;旨在确保操作系统之间彼此兼容。 很多开发人员也希望…

沃尔沃Volvo EDI:运输标签测试流程

对接Volvo的EDI项目中&#xff0c;需要按照以下流程完成测试&#xff1a; 1.创建EDI连接并且传输第一个交付计划 2.请求发货通知以及运输标签 3.反馈关于发货通知以及运输标签的细节 4.使用生产数据进行最终的验证 在Volvo EDI项目案例中&#xff0c;详细介绍了有关连接测试以…

25届最近5年南京航空航天大学自动化考研院校分析!

南京航空航天大学 一、学校学院专业简介 二、考试科目指定教材 1、考试科目介绍 2、指定教材介绍 三、近5年考研分数情况 以下为南京航空航天大学&#xff0c;自动化学院近几年的考研分数情况。 以下为南京航空航天大学&#xff0c;航天学院近几年的考研分数情况。 以下为南京…

React -- memo允许你的组件在 props 没有改变的情况下跳过重新渲染。

memo(Component, arePropsEqual?) 使用 memo 将组件包装起来&#xff0c;以获得该组件的一个 记忆化 版本。通常情况下&#xff0c;只要该组件的 props 没有改变&#xff0c;这个记忆化版本就不会在其父组件重新渲染时重新渲染。但 React 仍可能会重新渲染它&#xff1a;记忆化…

内容产品运营方案业务架构解析与实践探索

### 背景 在信息爆炸的时代背景下&#xff0c;内容产品运营成为各行各业竞争的重要环节。构建合理的内容产品运营方案业务架构&#xff0c;能够帮助企业更好地管理内容生产、推广和变现&#xff0c;提升品牌影响力和商业价值。 ### 业务架构设计 #### 1. 内容生产与管理 建立…

漏洞挖掘 | 记一次信息泄露到登入后台

这次是项目上遇到的一个洞&#xff0c;打开页面是一个红红的登录页面 这里就不放图了&#xff0c;浓浓的红色气息~ 老样子抓登录包 虽然是明文传输但是爆破弱口令无果 f12大法&#xff0c;审计源代码&#xff0c;在其中一个js文件中发现了这个接口 拼接URL进行访问 感觉有点东…

移动性:mobility

移动性管理原理 什么是移动性 一些术语 移动性管理办法 让网络&#xff08;路由器&#xff09;处理移动性&#xff1a;路由器通过常规路由表发送交换节点的永久地址 路由器互相交换各自移动节点位置信息&#xff0c;路由系统定期会通告自己这边新移动过来的移动设备信息端系统…

【Linux】系统优化:一键切换软件源与安装Docker

引言 在Linux系统安装完成后&#xff0c;进行一些必要的初始化设置是提升系统性能和用户体验的关键。本文将重点介绍两个实用的一键脚本&#xff1a;LinuxMirrors提供的软件源切换脚本和Docker安装脚本。这两个脚本将帮助我们简化配置安装过程。 一键切换软件源脚本 在Linux…

【Test 58】 Qt信号与槽机制! 高频的Qt 知识点!

文章目录 1.Qt 信号与槽机制原理&#xff08;Signal & Slot&#xff09;2. QObject 类 connect 的介绍3. 信号与槽机制连接方式4. 信号和槽机制优势及其效率&#xff1a;5. 信号与槽机制应用 1.Qt 信号与槽机制原理&#xff08;Signal & Slot&#xff09; &#x1f42…

【Java笔记】第9章:三个修饰符

前言1. abstract&#xff08;抽象的&#xff09;2. static&#xff08;静态的&#xff09;3. final&#xff08;最终的&#xff09;结语 上期回顾:【Java笔记】第8章&#xff1a;面向对象的三大特性&#xff08;封装、继承、多态&#xff09; 个人主页&#xff1a;C_GUIQU 归属…

【GUI软件】小红书搜索结果批量采集,支持多个关键词同时抓取!

文章目录 一、背景介绍1.1 爬取目标1.2 演示视频1.3 软件说明 二、代码讲解2.1 爬虫采集模块2.2 软件界面模块2.3 日志模块 三、获取源码及软件 一、背景介绍 1.1 爬取目标 您好&#xff01;我是马哥python说 &#xff0c;一名10年程序猿。 我用python开发了一个爬虫采集软件…