目标检测作为计算机视觉领域的基石之一,其发展一直备受学术界和工业界的关注。传统的目标检测方法通常受限于固定词汇表的约束,即只能在预定义的类别集合中进行检测。然而,现实世界中的对象种类繁多,远远超出了任何固定词汇表的覆盖范围。为了突破这一限制,研究者们提出了开放词汇目标检测(Open-Vocabulary Object Detection, OVD),旨在实现对未知类别目标的检测。
YOLO-World:简介与贡献
YOLO系列作为实时目标检测的佼佼者,以其高效性和实用性广受好评。但它们同样受限于固定类别的检测。为了解决这一问题,本文提出了YOLO-World,一种创新的方法,通过视觉-语言建模和大规模数据集上的预训练,增强了YOLO的开放词汇检测能力。
主要贡献包括:
- YOLO-World的提出:一个高效的开放词汇目标检测器,适用于真实世界的应用。
- Re-parameterizable Vision-Language Path Aggregation Network (RepVL-PAN):一种新的网络结构,用于连接文本特征和图像特征,以获得更好的视觉-语义表示。
- 区域-文本对比损失:一种新的损失函数,用于促进视觉和语言信息之间的交互。
- 大规模预训练方案:通过区域-文本对比学习,在大规模数据集上进行预训练,提高了模型对大型词汇表的检测能力。
不同检测范式的比较
(a)传统目标检测器:这些对象检测器只能检测由训练数据集预定义的固定词汇表中的对象,尤其是在不够通用化的方法中;固定的词汇表限制了对开放场景的扩展。
(b)先前的开放词汇表检测器:先前的方法通常需要构建复杂的模型来处理未知类别,但这些模型往往计算量大,处理时间长,不适合实时或快速响应的应用场景。同时,这些方法在处理图像和文本数据时,需要同时编码这两种类型的数据,这进一步增加了处理时间。
(c)YOLO-World:YOLO是一种实时目标检测系统,以其快速和轻量级而闻名。文中提到的"先提示后检测"范式是一种改进的方法,允许用户根据特定需求生成提示,这些提示随后被编码并集成到模型中,从而提高推理效率并加速模型部署。这种方法避免了使用在线词汇表,而是通过离线预处理来优化性能。
YOLO-World:架构与方法
YOLO-World遵循标准的YOLO架构,并利用预训练的CLIP文本编码器来编码输入文本。RepVL-PAN是YOLO-World的核心,它通过多尺度交叉模态融合来增强文本和图像特征的交互。在推理阶段,文本编码器可以被移除,文本嵌入可以重新参数化到RepVL-PAN的权重中,以实现高效的部署。
关键组件:
- YOLO检测器:基于YOLOv8,包含Darknet作为图像编码器,PAN用于多尺度特征金字塔,以及用于边界框回归和对象嵌入的头部。
- 文本编码器:使用CLIP预训练的Transformer文本编码器来提取文本嵌入。
- 文本对比头部:用于获取对象-文本相似度,通过L2归一化和仿射变换来稳定区域-文本训练。
YOLO-World:实验结果
在具有挑战性的LVIS数据集上,YOLO-World实现了35.4 AP的检测精度,同时保持52.0 FPS的高速度,超越了许多现有的最先进方法。此外,微调后的YOLO-World在多个下游任务上表现出色,包括目标检测和开放词汇实例分割。
YOLO-World:应用与展望
YOLO-World的提出,不仅在学术上具有重要意义,更在实际应用中展现出巨大潜力。无论是在图像理解、机器人技术还是自动驾驶车辆等领域,YOLO-World都能够提供强大的技术支持。未来,随着模型的进一步优化和数据集的不断扩大,YOLO-World有望成为开放词汇目标检测的新基准。