「谁用激光雷达,谁完蛋!」
在去年特斯拉举办的 Autonomy Day 上,特斯拉 CEO Elon Musk 言辞激烈地炮轰激光雷达。
「昂贵的传感器是不必要的,这就像是一大堆昂贵的附属品。」
「像阑尾一样。一个阑尾不好——那么,一大堆阑尾怎么样?这太荒谬了。」
Musk 对激光雷达的态度是尽人皆知,他甚至认为:自动驾驶汽车依赖激光雷达,就像行走依赖拐杖一样。
虽然特斯拉在自动驾驶有过多次跳票的记录,但特斯拉在人工智能与神经网络上的飞速进步也给足了 Musk 不断立下 Flag 的底气。
当然,这也离不开 Autopilot 团队的努力。
在今年 2 月的 Scaled ML 大会上,特斯拉 AI 高级总监 Andrej Karpathy 对外分享了特斯拉训练 AI 的方法,同时也首次对外分享了特斯拉如何借助摄像头就能实现激光雷达的探测精度。
传统自动驾驶系统非常依赖激光雷达这一不可或缺的传感器。
激光雷达的工作流程可以简单理解为三个步骤:
首先,激光雷达阵列会投射出激光点阵;
而后,车载计算机将这些激光点阵的回波「翻译」成 3D 图像,让车辆识别周边是否有汽车车辆、行人、道路或建筑;
最后,自动驾驶汽车感知到周围环境后,安全穿梭在复杂的路况下。
近些年来,自动驾驶的蓬勃发展也促进了激光雷达硬件及相关软件方案行业的大跃进。但即使是这样,激光雷达系统的价格依然居高不下。
与其相比,在智能手机、笔记本等行业已相当普及的摄像头却只要数十美元。
与激光雷达依靠激光飞行时间来判断各个像素间距离的方法不同,人类测距靠的是大脑。
除了双眼创造的立体视觉(只适合中等距离),我们还能借助「动态视差」跟踪物体的运动方式,从而得出其他可以参考的线索。而且,即使驾驶员闭上一只眼睛,也一样能够好好驾驶。
那么,借助神经网络,自动驾驶汽车是不是也能实现同样的效果呢?
这时就轮到「虚拟激光雷达」登场了。
目前,特斯拉 AI 团队已经掌握了名为「虚拟激光雷达」(pseudo-LiDAR)的新技术,它弥合了传统计算机视觉和激光雷达强大的点云世界之间的界线。
这是什么意思?
首先,特斯拉将计算机视觉提升到了前所未有的水平——不仅能够分析图像,而且还能够分析图像中的单个像素。
这也意味着,随着时间推移,特斯拉的这一技术或许能够复制传统激光雷达的大部分功能,进一步提高特斯拉在 3D 物体探测方面的技术水平。
与训练多个神经网络相比,训练虚拟激光雷达的过程并不复杂。在这里,工程师们会使用到无监督学习技术。
其次,与传统激光雷达系统相比,特斯拉基于摄像头探测方式的成本更加便宜,硬件端实现起来也更容易,探测距离更是能大幅提升。
不过,想实现相同的性能,特斯拉必须手握一套极其复杂的计算系统,将输入的原始数据转化成真实高效的信息。
比如,车载计算机能从连续的静态图像中识别出道路标线、交通标志和其他车辆。
「我们走了一条『虚拟激光雷达』的路径,只需简单预测单个像素的深度,找到它们直接的距离,就能得出结论。」Karpathy 说道。
这样说来,特斯拉只要不断重复这一过程,就能复制传统激光雷达系统的大部分功能。
但与此同时,这个过程在解构图像时,也需要付出巨大的实时算力。好在,特斯拉注重垂直整合,FSD 芯片就是专为自家代码开发的。
目前,特斯拉的「虚拟激光雷达」解决方案正在变得越来越完善。
在 Scaled ML 大会上,Karpathy 放出了一系列有激光雷达形式的 3D 地图,这些地图看起来就像是激光雷达采集到的信息。
「只要利用好了视觉技术和『虚拟激光雷达』,(自动驾驶车辆在)未使用激光雷达和使用激光雷达之间的差距会快速缩小。」Karpathy 解释。
当然,「虚拟激光雷达」这项技术并非特斯拉独有的专利。
最早提出「虚拟激光雷达」概念的,要追溯到一篇来自康奈尔大学的技术论文。
这篇论文提出了一种新方法来缩短纯视觉技术架构与激光雷达间的性能差距:
通过改变立体摄像头目标检测系统的 3D 信息呈现形式,将基于图像的立体视觉数据转换为类似激光雷达生成的 3D 点云,通过数据转换切换成最终的视图格式。
具体的过程是这样的:
首先,将基于图像的立体视觉数据转换为类似激光雷达生成的 3D 点云;
其次,在数据输入通常用于解读激光雷达数据的 3D 物体探测算法之前,先将数据转换为「鸟瞰」视图格式。
康奈尔大学的研究人员在实验中采用了 40 万像素相机,虽然实验结果仍然无法比肩激光雷达 66% 的 3D 平均精度,但是通过采用这种方案,基于图像数据的 3D 平均精度大幅提高到了 37.9%。
研究人员表示,更高分辨率的相机可能会进一步提高实验结果。
康奈尔大学的这项研究证明,利用成本低廉的立体视觉摄像头,或能提供与激光雷达几乎相同的精度。
要知道,激光雷达是目前自动驾驶技术开发中最常见的方案,也是最昂贵的技术方案。
这项研究,也在一定程度上为 Musk 在激光雷达上的观点提供了一定技术支持。
那么,该如何评价这项技术呢?
如果有一天,「虚拟激光雷达」这项技术能完成对激光雷达的追赶,那些还在使用激光雷达的汽车厂商或是自动驾驶公司,会在第一时间投向「虚拟激光雷达」的怀抱吗?
虽然整个自动驾驶行业已经基本认可自动驾驶车辆需要部署包括激光雷达、毫米波雷达、摄像头在内的多种传感器系统。
但从现在的情况来看,大多数公司还是想靠激光雷达一劳永逸的解决问题,毕竟这条路径肯定行得通,而且激光雷达在未来还有相当大的降价空间。
而康奈尔大学的这项研究表明,立体摄像头系统至少可以为基于激光雷达的探测方案提供低成本的备份冗余。
如果特斯拉能率先将「虚拟激光雷达」应用在车上,那么自动驾驶汽车基于摄像头的 3D 物体探测或许在不久的将来或能成为现实。而这种前景的影响,将是巨大的。
参考信息:
https://cleantechnica.com/2020/04/24/tesla-achieved-the-accuracy-of-lidar-with-its-advanced-computer-vision-tech/
https://www.forbes.com/sites/bradtempleton/2020/04/14/if-teslas-dream-of-making-cameras-perform-as-well-as-lidar-comes-true-it-may-help-teslas-competitors-more/