将要上市的自动驾驶新书《自动驾驶系统开发》中摘录片段

在这里插入图片描述

全书共分15章:第1章是自动驾驶系统的概述(场景分类、开发路径和数据闭环等),第2章简介自动驾驶的基础理论,即计算机视觉和深度学习等,第3~4章是自动驾驶的软硬件平台分析,包括传感器、计算平台、软件架构和操作系统等,第5~9章分别介绍自动驾驶的感知、地图、定位、规划和控制模块,第10章重点介绍自动驾驶的仿真系统,第11章讨论自动驾驶的安全理论,第12章讨论自动驾驶的一个特例-自动泊车系统,第13章介绍车联网技术(车-路协同和车辆编队),而第14~15章分别介绍最近自动驾驶相关的两个技术热点,即3D场景的神经渲染(主要以NeRF为主)和扩散模型的内容生成。

本书主要是给有一些基础的读者阅读,比如具备在计算机视觉和机器学习(甚至深度学习)方面的理论基础和实践经验。本书提供大量自动驾驶前沿技术第一手的资料,涉及开发自动驾驶的方方面面。希望该书能够启发和触动自动驾驶第一线的开发人员,在遇到问题和困难的时候开阔思路并发现解决问题的方法。

在“前言”部分,关于自动驾驶的研究现状,作者做了如下分析:

“自动驾驶的发展基本存在两条技术路线。一个是跨越式开发,即直接做L4级别的自动驾驶系统,以高科技公司谷歌和百度为主,他们对车企行业了解不深,把机器人研发的模式用于自动驾驶车辆。注:据说谷歌也曾想从L3级别做起,但是实验发现测试人员一段时间以后很容易相信计算机系统,失去监控的耐心。这个技术路线多半不计成本,采用高清地图和高精密度惯导定位,可没有地图的地方也很难运营(不需要和导航地图接口,直接采用高清地图进行规划,对于大规模导航区域的高清地图下载和全局规划的计算复杂度缺乏认识),安装激光雷达这种最好最昂贵的传感器(当时视觉的深度学习技术比较初级),采用最强的计算平台(因为不是量产,一些L4自动驾驶公司直接采用工控机作为支撑,不需要考虑平台移植的工程难度),面向robotaxi的落地,虽然还没有针对任意场景,但在测试的高速和城市街道场景中,基于较可靠的感知性能,的确提供了面向复杂交通环境下最强的规划决策能力。目前看到的基于数据驱动开发的规划决策算法,多半来自于L4公司,而且其中几个还举办了这方面的竞赛(基于本身提供的开源数据集)。在仿真平台的建设上,也是L4公司远远走在前面(特斯拉基本已经具备L4开发落地能力),包括数据重放和单点测试的可视化能力。高清地图方面,L4公司的技术也比较成熟。收集的传感器数据,L4公司在包括激光雷达和车辆定位轨迹等方面,也高于一般的L2公司。

另一条路线是渐进式开发,即先从L2级别的辅助自动驾驶系统起步,然后逐渐适应更复杂的交通环境,从高速高架慢慢过渡到有闸道有收费站的场景,然后进入城市大街和小路,自动驾驶系统的级别也慢慢演进到L2+、L3、L3+和L4水平。注:最近看到一种新趋势,即L4自动驾驶级别的开发公司,和L2级别自动驾驶的主机厂和Tier-1合作,共同开发L2+的量产级别车辆。渐进式开发的技术路线,一般是主机厂和Tier-1采用,他们首先会考虑成本、车规和量产用户的ODD定义。早先以mobileye为主要供应商,之后特斯拉和英伟达的开发模式成为主流。因为成本,所以这种路线多半采用摄像头为主传感器,加上车企已经接受的毫米波雷达为辅助。相对来说,这个路线的前沿水平(比如特斯拉)基本上视觉感知的能力尤其突出。因为在融合中雷达出现大量虚警信号,特斯拉甚至在自动驾驶感知模块中放弃了它。以前泊车自动驾驶采用超声波传感器,逐渐也和鱼眼摄像头结合提供泊车辅助、记忆泊车甚至代客泊车的应用。特斯拉也采用超声波提供拥挤交通场景的感知。也许是成本的压力,渐进路线一般是“重感知、轻高清地图”的模式,甚至特斯拉已经在BEV网络模型中实现了感知和在线地图及定位的端到端集成。作为行业领军企业的特斯拉,慢慢完善了数据驱动的开发工具链,实现了一个包括数据筛选、数据标注、仿真模拟、模型迭代、场景测试评估和模型部署等的数据闭环。基于自动驾驶的长尾问题和AI模型的不确定问题,谷歌也有类似的框架,但特斯拉将其发挥到极致,在量产的用户车辆上实现了良性循环,目前也已经推出L4级别的自动驾驶版本FSD。

自动驾驶基本存在1.0和2.0两个发展阶段。自动驾驶1.0时代采用多种传感器构成感知输入,比如激光雷达(Lidar)、视觉相机、雷达(Radar)、惯导IMU、轮速计和GPS/差分GPS等,各个传感器在感知能力上存在差异,针对性用多模态传感器融合架构,目前多是采用后融合策略,把各个传感器在相关任务的结果进行一次滤波,达到互补或者冗余的效果。这方面存在两种路线,一是依靠激光雷达加高清地图的做法,成本高,主要是robotaxi等L4公司采用,另一个是视觉为主、轻高清地图的道路,成本低,多是L2/L2+自动驾驶公司为量产落地的思路。两种路线都是会有很传统的后处理步骤(特别是视觉),大量调试工作和问题也来自于此。另外,这个阶段的规划决策多是采用基于规则的方法,实际上没有数据驱动的模型,比如开源的Autoware和百度Apollo。L4公司由于运行场景在一些具备高清地图的固定地区,本身感知投入的传感器精度较高,已经做过数据训练规划决策模型的探索;相对来说,L2/L2+公司还没有建立数据驱动的规划决策模块开发模式,多是采用优化理论的解决方案,普遍从高速场景入手,升级到特斯拉那种“闸道-到-闸道”的模式,很少能支持城市自动驾驶的复杂场景(比如环岛路口和无保护左拐弯操作等)。

自动驾驶2.0时代应该是以数据驱动为标志,同时对于1.0阶段的感知框架也有比较大的改进。数据驱动的开发模式倾向于端到端的模型设计和训练,对于规划决策而言就是需要大量的驾驶数据去学习“老司机”的驾驶行为,包括行为克隆的模仿学习,以及通过基于模型强化学习(M-RL)估计行为-策略的联合分布等,不再靠各种约束条件下的最优问题求解。其中轨迹预测是一个重要的前奏,需要对智体交互行为做良好的建模,并分析存在的不确定性影响。对于感知而言,2.0时代需要考虑机器学习模型取代那种传统视觉或信号处理(滤波)的部分,真正做到采集数据来解决问题的开发模式。比如特斯拉最近的BEV和Occupancy Network,都直接通过深度学习模型实现所需信息输出,而不是采用传统视觉和融合理论去二次处理模型输出。传感器融合理论也从后融合升级到模型中特征级融合甚至数据融合(如果同步和标定有一定的先验知识)。这里可以看到Transformer网络在这个感知框架下扮演着重要的角色,同时也给计算平台提出了更高的要求。基于这种数据驱动的自动驾驶平台需求,大模型的设计思路也被引入,因为大量数据的获取,包括高效的数据筛选、自动标注和仿真技术辅助,需要在服务器维护一个老师大模型支持各种布置到车端的学生小模型训练和迭代升级。”

在“概论”中,对于自动驾驶的场景,作者也进行了总结分级:

自动驾驶的场景,根据难度可以列出如下:

自动/自主泊车:自动泊车APA、记忆泊车HPA和代客泊车AVP分属L2、L3和L4级别;最低级的自动泊车是没有车辆控制的,只是提供泊车的建议,如虚拟的参考轨迹;L2级别会提供停车位检测,并确定规划和控制功能,简单的超声波雷达只是检测一个停车位,而视觉系统可以发现多个停车位,L2级系统让驾驶员选择其中一个,而L3级别会自动选择。

园区摆渡车:L4级,比如百度Apollo龙和法国创业公司EasyMiles,很多是在在闭环道路循环运行,相对驾驶路径固定,规划决策简单。

无人送货车:属于L4级别,其难度在于小区道路拥挤,行人多;但好处是低速,无人在车内,美团、京东、阿里菜鸟和硅谷创业公司Nuro均有这种场景。

高速路商用大货车巡航:属于L3-L4级,其优点是高速公路为主,商业模式简单,在降低司机成本和降低驾驶疲劳度等方面有优势;缺点是,因为高速行驶预警时间要长,而且车身大且长,周围监控难度大;谷歌、创业公司图森和智加科技在这种场景的自动驾驶研发有布局。

高速路交通拥挤堵塞巡航(HTJAP):L3级,好处是速度慢,缺点是交通拥挤,要预防有极端情况(corner case);奥迪A8实现了这种功能,特意安装了5个4线激光雷达Scala。

高速路巡航(HAP):特斯拉Autopilot,L2.5级,高速公路上提供自动跟车和车道保持,难点是报警时间不足,但是相对封闭的环境容易处理,目前正在扩展到街道,并加入红绿灯检测识别的能力;

城市路交通堵塞自动巡航(UTJAP):属于L4,目前没有市场上的产品,只有研发测试,比如Cruise在旧金山,Argo在迈阿密;

无人出租车(等同于城市自动巡航Urban Driving):L4级别,只有试运营的,比如谷歌在凤凰城的Waymo One。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/4800.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《动手学深度学习(Pytorch版)》Task02:预备知识——4.25打卡

《动手学深度学习(Pytorch版)》Task02:预备知识——4.25打卡 数据操作N维数组——张量创建数组访问元素入门初始化矩阵 运算符广播机制索引和切片节省内存转换为其他Python对象转换为NumPy张量ndarray张量转换为Python标量 数据预处理安装pan…

第一阶段--Day1--什么是网络安全?网络安全常用术语

目录 1. 什么是网络安全? 信息系统(Information System) 信息系统安全三要素(CIA) 网络空间安全管理流程 网络安全管理 2. 网络安全的常用术语 3. 网络安全形势 4. 中国网络安全产业现状 1. 什么是网络安全&am…

JFormDesigner 替换自定义类对象, code generation , custom creation code

JFormDesigner 文件的右侧 Code Generation -> Custom Creation Code 编辑写入 自定义的类对象

【一步一步了解Java系列】:探索Java基本类型与C语言的区别

看到这句话的时候证明:此刻你我都在努力~ 加油陌生人~ 个人主页: Gu Gu Study ​​ 专栏:一步一步了解Java 喜欢的一句话: 常常会回顾努力的自己,所以要为自己的努…

C++初阶之类和对象(下)

一、构造函数 1、构造函数体赋值 在创建对象时,编译器通过调用构造函数,给对象中各个成员变量一个合适的初始值。 class Date { public:Date(int year, int month, int day){_year year;_month month;_day day;} private:int _year;int _month;int _…

Java对象在堆和栈上的存储(对象布局,待完善)

0、前言 这里提到的 Java 对象不仅仅包含引用类型(Object),还包含基本数据类型(boolean、int、long、float、double)。文中部分图片来源于 B站 黑马程序员。 1、在栈上的数据存储 1.1、局部变量 局部变量包含以下情…

2024最新docker部署gitlab

docker部署gitlab 快速命令 1 拉取镜像 docker pull gitlab/gitlab-ce2 启动容器 docker run -itd \-p 9980:80 \-p 9922:22 \-v /opt/soft/docker/gitlab/etc:/etc/gitlab \-v /opt/soft/docker/gitlab/log:/var/log/gitlab \-v /opt/soft/docker/gitlab/opt:/var/opt/g…

Vite proxy-rewrite 属性详解

在前端开发中,为了避免跨域问题,我们会在vite.config.ts 中配置如下问题 rewrite: 由于不了解Nginx的知识,这个属性一直困扰着我,这个重写有啥用,加和不加有啥影响 server: {host: 0.0.0.0,proxy: {/api: {target: ht…

操作系统安全:安全审计,Windows系统日志详解,Windows事件ID汇总

「作者简介」:2022年北京冬奥会网络安全中国代表队,CSDN Top100,就职奇安信多年,以实战工作为基础对安全知识体系进行总结与归纳,著作适用于快速入门的 《网络安全自学教程》,内容涵盖系统安全、信息收集等…

从零开始安装 stable diffusion webui v1.9.3 (windows10)

从零开始安装 stable diffusion webui v1.9.3 (windows10) CUDA 安装 CUDA 12.1 | https://developer.nvidia.com/cuda-toolkit-archive CUDNN 8.x | https://developer.nvidia.com/rdp/cudnn-archive 安装路径 F:/CUDA/v12.1 安装git git官网 | https://git-scm.com/ 安…

数据结构-二叉搜索树(BST)

目录 什么是二叉搜索树 二叉搜索树的特性 (1)顺序性 (2)局限性 二叉搜索树的应用 二叉搜索树的操作 (1)查找节点 (2)插入节点 (3)删除节点 (4)中序遍历 什么是二叉搜索树 如图所示,二叉搜索树(binary search tree)满足以下条件。…

【EI会议|稳定检索】2024年航空航天、空气动力学与自动化工程国际会议(ICAAAE 2024)

2024 International Conference on Aerospace, Aerodynamics, and Automation Engineering 一、大会信息 会议名称:2024年航空航天、空气动力学与自动化工程国际会议 会议简称:ICAAAE 2024 收录检索:提交Ei Compendex,CPCI,CNKI,Google Schol…

WebGL开发框架比较

WebGL开发框架提供了一套丰富的工具和API,使得在Web浏览器中创建和操作3D图形变得更加容易。以下是一些流行的WebGL开发框架及其各自的优缺点。北京木奇移动技术有限公司,专业的软件外包开发公司,欢迎交流合作。 1.Three.js 优点&#xff1a…

装饰器模式、代理模式、适配器模式对比

装饰器模式、代理模式和适配器模式都是结构型设计模式,它们的主要目标都是将将类或对象按某种布局组成更大的结构,使得程序结构更加清晰。这里将装饰器模式、代理模式和适配器模式进行比较,主要是因为三个设计模式的类图结构相似度较高、且功…

VitePress 构建的博客如何部署到 github 平台?

VitePress 构建的博客如何部署到 github 平台? 1. 新建 github 项目 2. 构建 VitePress 项目 2.1. 设置 config 中的 base 由于我们的项目名称为 vite-press-demo,所以我们把 base 设置为 /vite-press-demo/,需注意前后 / export default…

Docker容器:搭建LNMP架构

目录 前言 1、任务要求 2、Nginx 镜像创建 2.1 建立工作目录并上传相关安装包 2.2 编写 Nginx Dockerfile 脚本 2.3 准备 nginx.conf 配置文件 2.4 生成镜像 2.5 创建 Nginx 镜像的容器 2.6 验证nginx 3、Mysql 镜像创建 3.1 建立工作目录并上传相关安装包 3.2 编写…

java案例-读取xml文件

需求 导入依赖 <dependencies><!-- dom4j --><dependency><groupId>dom4j</groupId><artifactId>dom4j</artifactId><version>1.6.1</version></dependency> </dependencies>代码 SAXReader saxReade…

进迭时空宣布开源RISC-V芯片的AI核心技术

仟江水商业电讯&#xff08;4月29日 北京 委托发布&#xff09;4月29日&#xff0c;在“创芯生生不息——进迭时空2024年度产品发布会”上&#xff0c;进迭时空CEO、创始人&#xff0c;陈志坚博士宣布将开源进迭时空在自研RISC-V AI CPU上的核心技术&#xff0c;包括AI扩展指令…

无人机+集群组网+单兵图传:空地一体化组网技术详解

空地一体化组网技术是一种结合了无人机、集群自组网和单兵图传等多种技术的先进通信解决方案。这种技术方案的主要目的是在前线事故现场和后方指挥中心之间建立一个高效、稳定的通信链路&#xff0c;以确保信息的实时传输和指挥的顺畅进行。 首先&#xff0c;前端视频采集部分&…

自适应信号处理基础及应用——DSP学习笔记五

本专栏的图片内容都来自于老师讲课的PPT&#xff0c;本篇博客只是我个人对于上课内容的知识结构分析和梳理。 导论 自适应系统的定义、特征、形式、举例 特征 非自适应系统 • 固定参数的设计方法 • 假定事先知道了一切可能的输入条件&#xff1b;在这些条件下怎样动作&#…