文章目录
- 视觉分割的定义
- 语义分割(Semantic Segmentation)
- 实例分割(instance Segmentation)
- 全景分割(Panoptic Segmentation)
- 视频语义分割(Video Semantic Segmentation)
- 视频实例分割(Video instance Segmentation)
- 视频全景分割(Video Panoptic Segmentation)
- 各任务对比
- 视觉分割任务的指标与度量
- Intersection over Union (IoU)交并比
- Mean Average Precision(mAP,平均精度)
- 在常见的分割论文中使用的有关数据集、任务和度量标准的精彩总结
视觉分割的定义
下图来自李飞飞教授和其学生讲授的CS-231N
在transformer时代,目标检测和实例分割其实基本上可以看作是一个东西了。
语义分割(Semantic Segmentation)
其实是对输入图像进行像素级分类。
语义分割不仅能分辨出图像中的物体,还能在像素级理解这些物体的边界,在深度学习时代,语义分割问题其实是一个密集预测问题。
实例分割(instance Segmentation)
不仅为每个像素分配一个类别标签,还能将同一类别的不同对象区分开来。
既能识别每个物体的类别,又能识别这些物体的单个实例。
理解不同物体之间的关系。
比语义分割和目标检测都更具挑战性。
全景分割(Panoptic Segmentation)
-
结合语义分割和实例分割,提供对场景的全面理解。
-
为每个像素贴上类别标签和实例标签。
-
全景分割法分配一个语义标签(如 “车”、“树”、“路”),并区分同一类别的多个实例(如车 1、车 2)。这意味着所有像素都会被赋予一个类别标签,属于 "事物 "类别(可数对象,如人、汽车等)的像素还会被区分为不同的实例。
-
"全景 "指的是 “看到一切”,反映了这项任务的目的是整合语义分割(能很好地处理 "物 "类,如天空、道路、草地等)和实例分割(能很好地处理 "物 "类)的优势,前者是无定形的,不可数的,而后者是可数的。
视频语义分割(Video Semantic Segmentation)
-
classifies each pixel in an image into a certain class along the video.
-
explore the temporal segmentation consistency
视频实例分割(Video instance Segmentation)
-
在像素级别分割和跟踪前景物体。
-
探索时间一致性(temporal consistency)和实例 ID 一致性(instance ID consistency)。
-
比图像实例分割更复杂,因为它需要处理物体运动、外观变化、遮挡以及各帧标签的时间一致性等问题。
-
算法还需要将当前帧中的分割实例与之前帧中的实例联系起来,以确保它们在不同帧的实例ID一致性。
视频全景分割(Video Panoptic Segmentation)
- 识别视频序列中每一帧中的每个像素并对其进行分类,并在不同帧中保持实例(单个对象)ID的一致性。
- 这是一项复杂的任务,因为需要处理运动、外观变化、遮挡以及保持各帧标签的时间一致性(temporal consistency )。
- 在视频的每一帧中,视频全景分割的目的是为每个像素分配一个类别标签(语义分割),区分同一类别的不同实例(实例分割),并在视频序列的不同帧中保持这些实例标签的一致性。这包括识别哪些像素属于 "物 "类(如天空、草地、道路),哪些属于 "事 "类(如人、车、狗),并在整个视频中跟踪 "事 "类的各个实例。
各任务对比
参考论文
- Transformer-Based Visual Segmentation: A Survey, arxiv, 2023.
- Largescale video panoptic segmentation in the wild: A benchmark, CVPR-2022.
视觉分割任务的指标与度量
Intersection over Union (IoU)交并比
IoU是一种量化预测分割与实况(实际)分割之间重叠程度的指标。对于给定类别,IoU 的计算方法是将预测分割与实际分割之间的重叠面积除以结合面积(即预测分割或实际分割所覆盖的总面积)。
当语义分割包含多个类别,而不仅仅是一个类别时,要用到 mIoU。
平均联合交叉(mIoU)就是所有类别的平均 IoU。
要计算 mIoU,首先要分别计算每个类别的 IoU,然后将这些 IoU 值相加,再除以类别数。
mIoU 分值从 0 到 1 不等,1 表示所有类别的预测分割与实际分割完全重合,0 表示完全没有重合。mIoU 值越高,表示分割性能越好。
Mean Average Precision(mAP,平均精度)
mAP 是Mean Average Precision的缩写,是用于评估目标检测和实例分割模型性能的常用指标。
- 准确率(Precision): 准确率是模型识别的实例中正确识别实例的比例。
- 召回率(Recall): Recall 是在所有相关实例(本应被识别的实例)中被正确识别的实例的比例。
在实例分割任务中,对于每个预测对象,我们都会计算其与真实对象的交并比(IoU)。如果 IoU 大于某个阈值(如 0.5),则预测结果被视为真阳性;反之,则为假阳性。
然后,我们绘制不同 IoU 阈值下的精度-召回曲线。平均精度(AP)就是精度-召回曲线下的面积。如果我们计算不同 IoU 阈值下的 AP,并取这些值的平均值,就得到了 mAP。
11点法求AP:
从本质上讲,mAP 量化了实例分割模型在不同 IoU 阈值下的性能。mAP 越高,说明模型性能越好。这一指标既考虑了分割的准确性(通过 IoU),也考虑了模型正确识别对象的能力(通过精确度和召回率)。
在常见的分割论文中使用的有关数据集、任务和度量标准的精彩总结
参考论文:Transformer-Based Visual Segmentation: A Survey, arxiv, 2023.