本文介绍一个新的道路标记检测数据集
,论文收录于 WACV2022。Ceymo
数据集总共包含2887张图片
,标注了11类
共4706个道路标记实例
,图片分辨率为 1920×10801920\times10801920×1080。其中,对于每一个道路标记实例,作者采用了三种标注方式:多边形、bounding box以及像素级标注
。 除此之外,作者还提供了数据集评价指标和脚本程序
,在数据集上作者还使用了实例分割
和目标检测
两种检测方法进行对比,作为baseline。从实验结果来看,实例分割的方法准确度高于目标检测方法。
2021-11-17日补充: 论文数据集下载地址:
- Train set - https://drive.google.com/file/d/1-TDEfGXtEQ4s037M_ynmV6aiOfNp2NZv/view?usp=sharing
- Test set - https://drive.google.com/file/d/1YhWld3kxR5Ahz4Q-hy61UKI0KN_so9fa/view?usp=sharing
论文链接:https://arxiv.org/abs/2110.11867
1.Benchmark Dataset
首先介绍数据集收集工作
,作者通过车载摄像头进行录像采集,然后从视频片段中提取出包含道路标记的图片。
采集完之后,作者使用了labelme
标注工具手动标注,将道路标记标注为多边形。除了多边形标注之外,还有bounding box和像素级标注,下图是其中一张图片的标注结果。
下面介绍下数据集分布情况,整个数据集划分为训练集(2099张图片)
和测试集(788张图片)
,数据集分为11类,统计情况如表3所示;测试集划分为6个场景,统计情况如表2所示。
下面是评价指标,作者使用了两个评价指标
,首先是 F1F_1F1 评价指标,当预测区域与真值区域的 IoU>0.3IoU>0.3IoU>0.3 则预测为真阳性。
F1−score =2×precision ×recall precision +recall F_{1-\text { score }}=\frac{2 \times \text { precision } \times \text { recall }}{\text { precision }+\text { recall }} F1− score = precision + recall 2× precision × recall
为了计算所有类别的平均分值,作者还使用了 MarcoF1Marco F_1MarcoF1 评价指标,公式为:
Macro- F1−score =1C∑i=1CF1-score i\text { Macro- } F_{1}-\text { score }=\frac{1}{C} \sum_{i=1}^{C} F_{1} \text {-score }_{i} Macro- F1− score =C1i=1∑CF1-score i
2.Methodology
下面介绍论文使用的检测方法。作者总共使用了两种方法(如下图所示)。
- (a)目标检测方法,首先将原始图片
逆投影
转换为鸟瞰图,这有助于移除大量的背景区域,只保留地面区域。作者使用的检测网络为SSD
,使用了两种主干网:MobileNet-v1
和Inception-v2
。所有模型输入图片分辨率为 500×500500\times500500×500。最后再将输出的bbox转换到原始图片中。 - (b)实例分割方法,使用的网络为
Mark-RCNN
,同样也使用了两种主干网:Inception-v2
和ResNet-50
。输入图片分辨率也为 500×500500\times500500×500。
3.Experiments & Results
最后是实验设置,因为在采集的数据集中存在类别不平衡问题,作者首先进行了数据增强处理
。如水平翻转、调整图片饱和度、亮度和对比度等。训练使用的是TensorFlow API
(具体细节可看原文)。
下面是实验结果(如下表所示),可以看到实例分割方法的准确度高于目标检测方法的准确度。