A Survey and Framework of Cooperative Perception 论文阅读

论文链接

A Survey and Framework of Cooperative Perception: From Heterogeneous Singleton to Hierarchical Cooperation

0. Abstract

首次提出统一的 CP（Cooperative Percepetion） 框架
回顾了基于不同类型传感器的 CP 系统与分类
对节点结构，传感模态和融合方法进行回顾
提出了一个分层的 CP 框架，回顾现有的数据集和模拟器

1. Intro

目前的 CP 主要关注于自我车辆，对于可扩展的通用型 CP 框架仍然缺失。

从三个方面阐述

节点结构
传感器模态
融合方案

同时提出了分层的 CP 框架

2. 架构与分类

SAE J3216 将 CDA 级别定义为五类，包括

无协作自动化
A 类：状态共享
B 类：意图共享
C 类：协议寻求
D 类：规定性

2.1 架构

CP 过程的四个典型阶段：信息收集，边缘处理，云计算，消息分发

信息收集
安装在车辆或路边基础设施上的高分辨率传感器感知环境和收集交通信息，并通过通信集线器将收集到的数据传输到边缘服务器进行进一步处理

边缘处理
考虑到使用有限的带宽传输大量的原始数据(如点云数据)可能会导致不可接受的时间延迟(特别是在一些安全关键的场景中)，从传感器收集的信息可能会在车辆或基础设施上的边缘服务器上处理。

对于单个的 感知结点（PN） 而言，处理感知数据主要由六个步骤：

预处理：处理原始数据，为特定传感器的感知模块提供现成的格式
特征提取：通过 DNN 或统计方法为后续的任务提取特征
多传感器融合：单个 PN 使用多个传感器时，应该使用多传感器融合算法
检测与跟踪：生成对象检测和跟踪结果，用于展示某些道路使用者的位置，姿态等
原始数据记录：记录带有时间戳的原始传感数据过后期任务判断
结果记录：记录语义感知数据和时间戳以供后期分析

对于不同的 PN，在 CP 系统中的任务也不同，如对于车辆感知结点（V-PN）而言，边缘处理主要用于本身，对于基础设施感知结点（I-PN）而言，其边缘处理是提高固定位置的姿态感知。

云计算
云计算充当多个PN的融合中心。来自异质PN的信息将通过不同的通信方式传输到云端，采用不同的融合方案进行数据融合，这取决于PN和云端之间要共享的数据类型。

对于异构的 PN 有三种类型的感知数据：

原始信息：RGB 图像，点云信息等
特征信息：通过神经网络或统计方法提取的隐藏特征，用于在高维空间中表示原始数据
结果数据：包含2D/3D位置、大小、旋转等语义感知信息

由于带宽限制，结果数据是最常用的感知数据

信息分发
感知信息主要通过两种方式进行传递：1. 没有连接：TMC 等； 2. 有连接：访问定制信息
协同信息合一支持混合交通环境中更为复杂的协同操作

2.2 分类

CP 系统的三个关键方面：

节点的多重性
传感器模态
融合方案

根据节点的多样性和传感器模态可进行以下分类：

单点单模 CP（SS-CP）：通过基础设施到所有设备(I2X)或车辆到所有设备(V2X)通信共享来自单模态传感器的感知数据
多点单模 CP（MS-CP）：通过I2X和/或V2X通信共享来自单模态多传感器的感知数据
单点多模 CP（SM-CP）：通过I2X或V2X通信共享多模态传感器感知数据
多点多模 CP（MM-CP）：通过I2X和/或V2X通信共享多模态传感器感知的感知数据

3. 节点结构

将节点定义为能够进行感知和通信的感知节点(PN)，作为构建CP系统的基本单元，从节点结构的角度对CP进行讨论。

3.1 I-PN based CP (V2I)

Camera-based I-PN

利用路边摄像机提出了一种基于卷积神经网络(CNN)的行人检测和定位方法
基于单目相机的三维车辆检测方法
车辆实时检测、跟踪和速度估计的监控系统
基于深度学习的、通过路边摄像机自动检测路边停车位的方法
利用多深度摄像机提出了一种协同的三维物体检测模型

LiDAR-based I-PN

经典的PCD探测与跟踪流程:背景滤波，聚类，分类，跟踪
基于学习的模型来处理激光雷达数据是另一种主要方法

3.2 Vehicle Nodes（V2V）

车间的协同感知源于无人机的研究，如基于分布式和集中式的 CP 框架
对于道路车辆：通过V2V通信将接收到的传感器数据关联起来
Kim等人实现了一种综合自动驾驶系统(ADS)，该系统可以提供超越领先车辆遮挡的自我车辆信息
Cooper 和 F-Cooper
进一步考虑通信的局限性，设计了“特征提取-压缩-解压-目标检测”流程
基于特征共享的CP模型。空间定位和特征生成需要车辆相对于自车的姿态信息

3.3 Heterogeneous PN-based CP（V2X）

该方向的研究目前较少
通过 V 与 I 之间的合作
- 通过PCD生成3D物体检测结果
- 特征数据通过V2X通信共享
- 提出一种基于多PN特征融合的网格特征方法
V2X-ViT:应用共享权重的 CNN 进行特征提取，车辆的姿态信息被传输到周围车辆和基础设施进行原始数据对齐

3.4 总结

V-PN：更具有自我效率
I-PN：更适合拓展合作
同构 PN：扩展感知范围
异构 PN：通过补充不同传感器配置，实现更好的 FOV

4. 传感器模态

4.1 配置与性能

目前的主流 ADS 设备是摄像头，LiDAR，雷达。对于路旁的传感器设置有典型的位置：信号臂和路灯柱，且对其最低的高度要求。每种传感器在不同的用例中都有自己的功能和优势：

相机：高分辨率，但对于三维位置和速度测量来说不佳
激光雷达：高精度3D感知，可适应环境变化。但价格相对较高，而且数据稀疏
雷达：测量速度，但不太适合区分物体
热成像相机：获取热信息，为照明变化提供弹性
鱼眼相机:360度全视场(FOV)检测，但需要高精度的校准矩阵来解释失真
环路：测量交通量和速度，安装和维护成本高

4.2 单传感器感知

基于单传感器的目标感知系统：

从传感器收集的数据首先被预处理，以减少噪音，过滤不相关的数据，并为下游模块正确地重新格式化。
应用特征提取，通过数学模型（如果基于传统方法）计算预定义的特征，或通过神经网络（如果基于深度学习）生成隐藏的特征
感知模块生成目标检测和跟踪结果，送入后处理模块，以进一步清理感知输出（例如，过滤重叠的边界框和分数低于阈值的预测）。

4.3 多传感器感知

由于不同传感器的互补性，与基于单传感器的感知系统相比，基于多传感器的感知系统有可能通过传感器融合达到更好的目标检测和跟踪性能。
本节讨论了三种流行的基于高分辨率传感器的多传感器感知方案，即相机+相机，相机+激光雷达，以及激光雷达+激光雷达。

4.4 总结

摄像头擅长捕捉视觉信息，LiDAR在收集三维信息方面非常出色。在一个互补的计划中同时利用这些传感器的优势被认为是提高监控系统感知精度的一个有希望的解决方案。

5. 融合方案

从传感器融合的阶段来看，多传感器感知系统可以分为三类：

早期融合–在预处理阶段融合原始数据
深度融合–在特征提取阶段融合特征
晚期融合–在后处理阶段融合感知结果

5.1 早期融合

与其他的 PN 之间共享原始数据，扩大了感知范围并同时提高精度。但对于原始数据的质量十分敏感。同时需要较大的通信带宽来传输大量的原始数据。在当前的通信能力之下，大规模的 V2V 项目利用早期融合是不可行的。

5.2 后期融合

融合独立的感知结果，对于误差校准和不同步的问题的包容度要远高于早期融合。

5.3 深度融合（中期融合）

使用提取的特征进行融合。目前深度融合仍处于起步阶段，需要后续的工作

5.4 总结

早期融合仅需要将多源数据对齐到统一坐标系中的校准，但需要较大的通信带宽来传输数据。后期融合主要关注如何合并多个感知管道生成的建议，思路简单，但准确性有限。由于其低通信要求和高精度的能力，深度融合正在迅速成为CP的一种可变革的解决方案。

6. 分层协同感知框架（HPC）

当前 CP 系统的三个主要问题：

异构性：CP系统要结合智能汽车和智能基础设施的优势，赋能感知的全面性
可扩展性：CP系统需要能够扩展到不同规模的合作层面，如交叉口层面、走廊层面、交通网络层面
动态性：CP系统需要能够与车辆感知节点动态配合

本文的 HCP 框架主要针对路口场景，分为三个层次：交叉口级别；走廊级别以及网络级别

交叉口级别： V-PN 通信共享与车载数据处理，I-PN 感知结果作为辅助数据
走廊级别： 基于多个基础设施来扩展感知，核心是 I-PN。基于 I2I 的通信，共享原始数据和特征级数据
网络级别： 感知整个流量网络的对象级流量状况，使用后期融合策略

7. 数据集与模拟器

7.1 数据集

KITTI： 最受欢迎的数据集之一，由用于移动机器人和自动驾驶的各种传感器模式记录的数小时交通场景组成
NuScenes： 第一个搭载全自动车辆传感器套件的数据集：6 个摄像头、5 个雷达和 1 个 LiDAR，全部具有全 360 度视野
Waymo Open Dataset： 大规模、高质量、多样化的数据集，包含在一系列城市和郊区地理地形中捕获的 1150 个场景

2021年，Deng等人发布了BAAI-VANJEE路边数据集。支持互联自动车辆高速公路技术数据集由路边数据采集平台采集的LiDAR数据和RGB图像组成，包含2500帧LiDAR数据和5000帧RGB图像，其中包括12类物体、74K 3D物体注释和105K 2D物体注释

2022 年之前，没有可用的开源协作感知数据集来处理现实世界的数据

7.2 模拟器

CARLA： 一款用于自动驾驶的开源模拟器，支持灵活的传感器套件规格和环境条件
SVL： 一种用于驾驶自动化的高保真模拟器，它提供端到端和全栈模拟，可与多个开源自动驾驶堆栈（例如 Autoware 和 Apollo）连接
MavLink： 可以高频运行以进行实时硬件在环 (HIL) 仿真，并支持流行的协议

8. 讨论

8.1 现状与挑战

异质性的感知单体：由于路边的传感器有更灵活的位置和姿势来获取数据，协同感知的一个典型方式是将信息从基础设施一侧传输给道路使用者。由于感知单体的异质性，最近只有少数研究考虑了车辆节点和路边设施节点之间的合作。
传感器系统：在大多数研究中，摄像头和激光雷达传感器是分开工作的。另一方面，尽管路边设施在协同感知中起着关键作用，但目前基于路边传感器的感知方法在大多数情况下是直接应用一般的感知方法。主要挑战之一是路边数据采集和注释，以促进基于路边设施的感知系统的深度学习研究。
融合策略的通用性：不同的融合方案有其特定的优势和劣势

8.2 未来趋势

异质合作
车辆与路边设施的合作是解决许多现有交通相关问题的一个有希望的方案。车辆-路边设施协同感知可以利用车辆（作为具有轻量级处理能力的移动感知节点）和基础设施（作为固定节点但具有强大的处理/存储单元）的能力来实现更好的性能。
多模式的合作
基于多传感器的感知系统有可能通过利用互补的传感器数据与适当的融合技术来提高感知性能。在照相机和LiDAR传感器的范围内，目前多模态传感器融合的发展主要是针对一个单一agent上配备的多个传感器的一般目标感知。针对多个感知节点的特定多模态传感器融合仍是一个空白领域，然而，这也是提高整个系统感知精度的重要途径。
可扩展的合作
一些协同感知方法主要是为了在周围节点的协助下增强自车的感知能力，要求周围节点根据自车的元数据来调整它们分享的数据，当涉及众多车辆，这可能会导致可扩展性问题。基于路边设施的感知系统在传感器设备方面更加灵活，具有高计算边缘处理器、大数据存储和宽通信带宽。通过只在车辆上部署轻量级的车载计算模块，如特征图提取，实现基于局部深度融合的协同感知，或从基于路边设施的高性能节点检索感知结果，以实现更广泛的感知，这将变得更加经济有效。