参考:https://towardsdatascience.com/monocular-birds-eye-view-semantic-segmentation-for-autonomous-driving-ee2f771afb59
有源传感器(lidar or radar)得到的数据,天然就是一种bev表示(x-y平面);
如何利用环视图像可以得到bev?
2D图像本质上是3D空间在2D平面上的投影,如果反过来得到bev表示是一个 inherently ill-posed problem。
这其中会有一些先验,可以简单分为硬先验和软先验;
硬先验
- 相机内参,外参
软先验
- 道路的布局等
- 在BEV下,汽车之间不存在重叠等
为了解决这个问题,传统上一个常见的做法是IPM(inverse perspective mapping,逆透视映射),但这个方法会依赖这些假设:1. 固定的相加外参;2. 地平面平坦假设。
但是当相机外参变化时,或者非平坦表面或崎岖不平的道路,该方法就逐渐失效了。
IPM也是一个研究方向,实际做IPM可以加一些直线约束。IPM变化的一个例子如下:
整个流程为:图像 → BEV平面投影 → 放大图像 → crop出感兴趣区域。
对于BEV Seg来说,难点有
- IPM变化 # 内参,外参,
收集标注数据是一个很难的问题。
bev seg
参考:https://towardsdatascience.com/monocular-birds-eye-view-semantic-segmentation-for-autonomous-driving-ee2f771afb59
自动驾驶需要对周围环境进行感知,环境包含两种类型:
静态元素:road layout and lane structures,can be captured by an HD map containing lane level information.
map分为在线地图和离线地图。对于在线建图,有这些方法:SLAM,或者 这里提到的BEV Seg
动态元素:cars, pedestrians, and other types of road users。
Bev Seg相比SLAM,不依赖时序,对于ego car静止或者缓慢移动时,SLAM方法会失效,但是Bev Seg不会。
两种方法对比如下:
BEV semantic maps起作用的原因:预测或规划,不是很依赖于高度信息,通常是在top-down view (bev) 条件下做的。
因此,不依赖HD MAP,将Bev Seg地图和动态物体检测相结合,这些信息拿去做预测成了一种主流做法。
使用该做法的一些论文:Recent research exploring this strategy includes IntentNet (Uber ATG, 2018), ChauffeurNet (Waymo, 2019), Rules of the Road (Zoox, 2019), Lyft Prediction Dataset (Lyft, 2020), among many others.
感知输出表示,要用到下游的预测和规划上,需要将透视空间中的2D感知转换到3D或者BEV上,这通常需要借助radar或者lidar传感器。
使用BEV感知,有助于跨模态的感知。首先,BEV是可解释的(不怎么需要高度信息);其次,可以方便的扩展到其他新的模态,简化后融合的任务(如果我vision感知输出是bev的,那么很容易和lidar感知相融合);BEV这种感知结果,很容易的拿去被预测或规划消耗。
用lidar或radar做bev很简单,对于vision-based却很难,难点体现在以下两方面:
- view transformation # 将多个视角的透视空间,转换到3D空间的bev表示。这种转换依赖硬先验:内外参;以及软先验,道路布局等;通常的做法是ipm,但是依赖参数固定+地平面假设。
- data collection and annotation # 收集数据很难,一种做法是无人机跟随自车,然后去做标注;或者利用合成数据,或者是unpaired map data?
按照监督信号的类别,大致可分为两类
一、Simulation and Semantic Segmentatio
二、All you need is (multimodal) datasets