端到端将重塑智驾?获10亿美金融资,解密英国AI独角兽Wayve

‍作者 |张马也

编辑 |德新

ebfb9dffde350dd0592fafddd3ea76df.jpeg

就在前两天,英国AI公司Wayve宣布获得新一轮10.5亿美元融资,投资方为软银、英伟达和现有投资人微软,可以说是顶级豪华阵容。

作为一家英国公司,Wayve这轮融资也创造了英国AI公司有史以来最大的单笔融资。甚至英国首相也在一份声明中表示,它「巩固了英国作为人工智能超级大国的地位」。

在通用人工智能领域,Open.ai在过去两年成为全球顶级的热门标的;而智能驾驶领域,曾经获得过10亿美金级融资的公司不多,只有Waymo、Argo、Cruise等少数几家。

Wayve的巨额融资也勾起人们对于未来的强烈好奇:它有没有可能成为智能驾驶领域的Open.ai,又或者说,成为端到端这代技术上的Waymo/Cruise?

到目前为止,Wayve已完成三轮融资,累计融资金额超过13亿美元。除了资本大鳄和商业巨头,有「深度学习三巨头」美誉、现Meta首席人工智能科学家Yann LeCun,也是Wayve的投资人。

Wayve上一次引发关注是在不久前3月份,原Mobileye中国区的负责人 Erez Dagan加入Wayve担任总裁,主要负责产品、业务和战略。

本轮融资后,Wayve将加速推出首款用于量产车辆的自动驾驶软件,包括L2+智驾软件以及实现完全自动驾驶的软件系统。Erez加入后,其重点关注的方向也是面向OEM的交付。据说,Wayve正在与全球前几大车厂商洽谈合作。

一、自动驾驶2.0:押注端到端

Wayve由Alex Kendall(联创兼现任CEO)和Amar Shah(已离开)于2017年共同创立,两为均来自剑桥大学。

其公司总部英国伦敦,目前约有300名左右的员工。

be7f0df21813e191958de452c4324657.jpeg

Wayve称自己是第一个在公共道路上,开发和测试端到端深度学习自动驾驶系统的公司。

2015年,Alex Kendall与Vijay Badrinarayanan(现任AI副总裁)、Roberto Cipolla等人,一起提出了SegNet,这是第一个使用端到端深度学习进行语义分割的实时方法,无需高精地图即可理解复杂环境

从2017年开始,Wayve就在汽车上对神经网络强化学习的一些早期成果进行了应用。公司把这套系统在道路上进行了模拟部署,随后逐渐扩大规模,最终实现在伦敦市中心的交通环境下进行真实驾驶。

Wayve将自己的智驾系统称为AV2.0

e333a3a6321c380aa8810f9e52356083.jpeg

Wayve认为,基于传统机器学习方法的AV1.0架构,所面临的根本问题是技术可扩展性。

因为它依赖复杂的传感器、高精度地图和手工编码的规则,使得系统成本居高不下,在行为预测、规划和处理长尾场景问题上,效果很难提升。

AV2.0不依赖传统的高清地图和手工编码的规则,而是专注于构建数据驱动的学习型驾驶系统,而且可以扩展、适应、推广到系统从未见过的场景。

AV2.0的特点如下:

  • 采用端到端深度学习网络架构;
  • 无需高精地图;
  • 以安全为核心设计,符合行业安全期望;
  • 传感器灵活性,兼容纯视觉到包括雷达和激光雷达的多种架构;
  • 通过数据驱动进行泛化扩展;
  • 在全球范围内,经济适用;

其中最重要的,就是端到端架构

它抛弃传统的「感知 - 规划 - 执行」的架构,将车辆传感器原始的输入数据,直接转换为驾驶操作输出。

在行业内,端到端的方法已经得到了初步的验证。特斯拉此前发布的FSD v12,就采用了端到端架构。国内外很多用户试用过后,普遍的评价是,基本达到了人类驾驶的水准。

这种方法的核心是自我监督学习。就像大语言模型LLM预测下一个单词一样,驾驶系统可以从原始的、未标记的数据中进行无监督学习。

自动驾驶和大型语言模型之间有许多相似之处,从根本上讲,它们都是大型的、高数据量的、复杂的决策问题。输入模型的数据越多,AI模型的特定应用就越丰富,越具有表现力,无需人工输入即可对大量驾驶记录进行训练。

二、核心技术栈:解决可解释性,建立人机信任

Wayve为自动驾驶的迭代升级开发了一个快速、连续和无缝的学习循环系统Fleet Learning Loop,不断记录数据、训练模型、评估性能和部署更新的模型,以此循环。

在量产车队中,它能从OEM的各种车辆中收集真实世界的驾驶数据,然后上传到云端处理,再将迭代后的模型部署到车端,升级车辆的自动驾驶功能。

Wayve还一直在开发智能驾驶基础模型(foundation model for driving)。该模型利用多模态数据,包括文本和非驾驶视频源,来优化对驾驶环境的内部表征。

Wayve认为,这能增强AI模型的驾驶能力,允许从不同来源交叉学习与驾驶相关的概念,并提高与驾驶任务目标的一致性。

简单来说,就是通过从多个数据源学习,可以提高车辆对传感器流中最有意义和可操作性的方面的理解,从而提高智能驾驶的流畅度和安全性。

除此之外,Wayve还开发了LINGO和GAIA两个模型,用来解决智驾场景的可解释性和信任等问题

行业内对端到端架构的其中一大担忧是它是一个黑盒方案,其过程不可解释。LINGO能用自然语言描述自己的驾驶决策,并解释决策的原因。

例如在行驶过程中,LINGO做出了绕行路边停靠车辆的判断时,它可以向用户输出判断依据:由于交通堵塞,我正在缓慢靠近;我正在经过一辆停在路边的车;因为前方道路畅通,所以我加速前进。

Wayve在去年下半年推出过LINGO-1,当时该模型以视觉和语言信息为输入,但只能输出语言结果。LINGO-2的输入和输出都可以是视觉和语言信息,甚至也包括驾驶行为,也就是能控制车辆的行驶。

按官方说法,LINGO-2是一种将视觉、语言和行动综合起来,以解释和确定驾驶行为的驾驶模型,是第一个在公开道路上测试的,闭环「视觉-语言-行动」驾驶模型(VLAM)。

838eb941d5248ce792a4b9f27d9dbe4d.jpegLINGO-2 架构

LINGO-2 的亮点在于:通过语言提示,调整驾驶行为

可以使用一些限定的导航命令,如「靠边停车」、「右转」等,让LINGO-2调整车辆的行为。这也能帮助模型训练,并且增强人车交互。

aee314fe765465d53dfb2834a45835fd.jpegLINGO-2在指令的要求下停车

 

b8183e80130845ddaadd2ecd69783d91.jpegLINGO-2回答场景问题,并解释驾驶操作

通过直接将语言和动作联系起来,LINGO可以一定程度上揭示出AI系统如何做出决策,使得自动驾驶模型不再是一个「黑盒子」。

更重要的是,LINGO可以增强人类对智能驾驶系统的信任

目前,LINGO-2还只在Ghost Gym模拟器中进行了验证,在现实世界中用语言控制汽车的行为是否可以可靠、安全地完成,还需要更多研究。

三、将世界模型融入驾驶模型

对于长尾场景,Wayve给出的一个解决方法是GAIA-1,一个为智能驾驶打造的生成式世界模型

1872a7186480c3c3e8eeb5a4306a16a1.jpegGAIA-1架构

GAIA-1首先是一个多模态生成模型,利用视频、文本和动作输入,生成逼真的驾驶场景视频。它能够对车辆的行为和其他基本场景特征,进行细粒度控制。无论是改变车辆的行为,还是修改整体场景,模型都能完成。

这样,GAIA-1可以作为仿真模拟中的重要一环,生成无限的数据,来训练和验证自动驾驶系统,解决极端场景,特别是在获取真实世界数据成本高或风险大的情况下。

7afdb40651f3b60eac4b0e04cf96ebe8.jpegGAIA-1可根据各种提示,生成驾驶场景

它还是一个真实的世界模型,可以学习、理解驾驶中的重要概念,比如什么是卡车、公共汽车、行人、骑自行车的人、道路布局、建筑物和交通信号灯。

所谓世界模型,是对环境及其未来动态的表征,能实现对周围环境的结构化理解,就像人类对自己周围的环境进行建模理解一样。

将世界模型整合到驾驶模型中,使得自动驾驶车辆能够预测未来事件,从而提前规划行动,在复杂或未知的情况下做出更加明智的决策。

目前版本的GAIA-1拥有超过90亿个可训练参数,训练数据集包含了2019年至2023年在伦敦收集的4700小时的专有驾驶数据。模型可以预测视频序列中的后续帧,从而在不需要任何标签的情况下,实现自回归预测能力。

四、迈向商业化量产

目前,Wayve在商业化上的作为不多。

此前,它一直在英国生鲜配送公司Ocado的车上训练模型,这家公司也是投资方之一,曾投资了1360万美元。

a83bc29e288e2f0bf5306352799b30db.jpeg

据称,Wayve已经在全球100多个城市开始了系统测试。

本轮融资后,Wayve将加速推出首款用于量产车辆的自动驾驶软件,包括L2+智驾系统,以及实现完全自动驾驶的软件系统。

它也在与全球前几大车厂商洽谈合作,但具体名单未知。

原Mobileye中国区的负责人Erez Dagan加入Wayve担任总裁,其重要的关注方向也是面向OEM的交付。Erez在Mobileye工作了20年,是全世界第一款纯视觉ADAS产品的创始团队成员,后来担任产品和战略执行副总裁,并在Mobileye被收购后担任英特尔集团副总裁。

联系到此前马斯克表示,特斯拉将于今年8月8日发布Robotaxi,种种迹象似乎表明完全自动驾驶的技术路线正在逐渐清晰。

Wayve的目标甚至不止于此。在最近Techcrunch的一次采访中,Alex Kendall说到,Wayve的驾驶大模型不仅在驾驶数据上进行训练,还对互联网规模的文本和其他来源进行训练,甚至使用英国政府的PDF文档来训练模型

Wayve正在构建具身AI(Embodied AI)基础模型,一个基于非常多样化的数据进行训练的通用系统,能够在复杂的现实世界环境中感知、行动、学习和适应人类行为。智能驾驶只是这一系统目前最大的应用场景。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/10225.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux——mysql运维篇

回顾基本语句: 数据定义语言 ( DDL ) 。这类语言用于定义和修改数据库的结构,包括创建、删除和修改数据库、表、视图和索引等对象。主要的语句关键字包括 CREATE 、 DROP 、 ALTER 、 RENAME 、 TRUNCATE 等。 create database 数据库 &…

CCC数字钥匙各版本关系

CCC钥匙规范版本关系 CCC数字钥匙架构Overview

2024精选7个wordpress模板

通用多用途wordpress模板 中国红WordPress模板,适合服务行业企业建站的通用多用途wordpress模板。 WordPress是一款使用PHP语言开发的开源内容管理系统(CMS),最初设计用于个人博客,但随着时间的发展,它已经演化成为一个功能强大的…

String s = “hello“和String s = new String(“hello“)的区别

这涉及字符串加载到字符串常量池的原理:由于字符串字面量先在编译阶段加载到class常量池中,然后在类加载阶段从类常量池中加载到运行时常量池中,当字符串字面量被调用的时候,会检查字符串常量池中是否包含该字符串对象&#xff0c…

BS架构和CS架构的区别

BS架构(Browser/Server Architecture)和CS架构(Client/Server Architecture)是两种常见的软件架构模式,它们有以下主要区别: BS架构: BS架构是指基于浏览器的软件架构,其中应用程序的…

谷歌上架攻略:个人号20人连续14天封闭测试的详细流程及相关注意事项

众所周知,近年来,Google play为了确保应用质量和用户体验,对开发者提出不少新要求。其中,对于个人开发者的一项要求是,自2023年11月13日起,新注册的个人开发者账号在上架正式版应用前,必须经过2…

JNA POSTMESSAGE

JNA(Java Native Access)是一个Java库,它允许Java程序直接调用本地(native)共享库(如Windows的DLLs)中的函数,而无需使用Java Native Interface (JNI)。PostMessage 是Windows API中的一个函数,用于将消息发送到窗口的消息队列中。 如果你想使用JNA来调用Windows API…

项目数据接口国密支持

项目数据接口国密支持 说明 国密即国家密码局认定的国产密码算法,即商用密码。 国密主要有SM1,SM2, SM3, SM4。密钥长度和分组长度均为128位。 1、SM1为对称加密。其加密强度与AES(高级加密标准, Advanced Encryption Standard…

2024.5.9 关于 SpringCloud —— Nacos 的安装与配置

目录 Windos 安装步骤 docker 启动 nacos Windos 安装步骤 1)点击下方链接,进入并访问 nacos 官网 Nacos官网 | Nacos 官方社区 | Nacos 下载 | Nacos 2)按照下图箭头指示下载对应版本的压缩包 3)此时我们将得到一个压缩包&…

内容自动化的进阶之路:Kompas.ai带你走进智能创作时代

在数字化媒体的浪潮中,内容创作和管理正变得越来越复杂和挑战性。为了应对这一挑战,内容自动化技术应运而生,它通过使用人工智能(AI)和机器学习(ML)算法,自动化内容创作的多个环节&a…

Sass详解:颠覆CSS开发的新时代

在前端开发领域,CSS是网页样式设计的重要组成部分,而Sass作为CSS的扩展语言,为开发者提供了更加强大和灵活的样式编写方式。本文将深入探讨Sass的各项特性、优势以及应用场景,帮助读者更好地理解和运用这一强大工具。 1. Sass是什…

引入外部依赖集成示例

1、package.json引入相关依赖 “dataview/engine”: “2.0.0-beta.7”, “dataview/plugin-tech”: “1.0.0-beta.1”, Engine为引擎,plugin-tech为Dataview中的科技风元件,若不引入会造成使用了科技风元件的页面无法正确渲染。引入后,重新执…

历史人物数字人如何成为地方文化推广大使?

如今,文旅产业业态已经从“打卡式旅游”逐渐走向“体验型旅游”转变。数字人可以为游客提供情绪价值、引起情感共鸣的文化体验。不少文旅品牌通过打造历史人物数字人,将城市民俗风情、非物质文化遗产等相结合,并且结合AI交互数字人的人机对话…

【C++】继承(上)(超详细,保证你学会)

什么是继承? 1.语法 1.1例子 通过这种方法,Student和Teacher这两个类就继承了Person的成员变量和成员函数,可以直接调用它们。 如图,如果成员变量和成员函数在基类中是公有的话就可以直接访问!但如果是私有和保护的话就…

4种前端处理文本换行展示

序: 后端传递了一大段包含了回车符的文本内容,前端展示的时候所有文字堆在一起,没有换行展示。以下方法中content为后端返回的文本内容 方法一: “↵”符号在html中会识别别为\r,\n等转义字符,所以我们可以使用\r\n去替换(.replace(/(\r\n|\n|\r)/gm, ’< br />…

【FFmpeg】调用ffmpeg库进行RTMP推流和拉流

【FFmpeg】调用ffmpeg库实现RTMP推流 1.FFmpeg编译2.RTMP服务器搭建3.调用FFmpeg库实现RTMP推流和拉流3.1 基本框架3.2 实现代码3.3 测试3.3.1 推流3.3.2 拉流 参考&#xff1a;雷霄骅博士, 调用ffmpeg库进行RTMP推流 示例工程 【FFmpeg】调用FFmpeg库实现264软编 【FFmpeg】…

/usr/bin/ld: cannot find -l<nameOfTheLibrary>

在编译程序报了如下错误&#xff1a;/usr/bin/ld: cannot find -lmtcr_ul: No such file or directory 他的命名规则时"lnameOfTheLibrary"&#xff0c;所以我缺少一个mtcr_ul相关的库 问题原因 根本原因&#xff1a;还是某一个lib库文件不存在&#xff0c;你可以通…

SpringAMQP Work Queue 工作队列

消息模型: 代码模拟: 相较于之前的基础队列&#xff0c;该队列新增了消费者 不再是一个&#xff0c;所以我们通过代码模拟出两个consumer消费者。在原来的消费者类里写两个方法 其中消费者1效率高 消费者2效率低 RabbitListener(queues "simple.queue")public voi…

简化 KNN 检索【翻译】Simplifying kNN search

简化 KNN 检索 #转载 #大数据/ES #翻译 这篇文章是关于如何简化 k 最近邻&#xff08;k-Nearest Neighbors&#xff0c;简称 kNN&#xff09;搜索的深入探讨。以下是对全文的翻译(借助 kimi AI)&#xff1a; 在这篇博客文章中&#xff0c;我们将深入探讨我们为使 kNN 搜索的入…

mes系统业务学习

MES-生产溯源: 一物一码&#xff1a;一物一码&#xff0c;通过包装物或产品本身的条码追溯相关联原料、供应商、客户、订单、生产人员、生产过程、质检报告、售后等关键信息&#xff0c;覆盖产品全生命周期。精准质量追溯&#xff1a;通过采集扫描即时记录跟踪每一个关键信息&…