1. End-to-End Referring Video Object Segmentation with Multimodal Transformers
RVOS(视频中的参考对象分割)比RIS(图像中的参考对象分割)要困难得多,因为指代动作的文本表达通常无法从单个静态帧中正确推断出来。此外,与基于图像的方法不同,RVOS方法可能需要在多帧中建立被参考对象的数据关联(跟踪),以应对遮挡或运动模糊等干扰。
本文使用标准的基于Transformer的文本编码器从文本查询中提取语言特征,并使用时空编码器从视频帧中提取视觉特征。然后,将这些特征传递到多模态Transformer中,该Transformer输出多个对象预测序列(模型生成一系列预测结果,每个结果对应于视频中的一个对象实例,并且在整个视频帧序列中跟踪这些对象。)。接下来,为了确定哪个预测序列最符合被指对象,我们计算每个序列的文本参考评分。为此,我们提出了一种时间段投票方案,使我们的模型在做出决策时能够专注于视频中更相关的部分。(在视频的不同时间段计算相似度评分,然后根据这些评分对整个序列进行投票或加权求和,聚焦于视频中最相关的部分。)
2. Tracking Anything with Decoupled Video Segmentation
视频分割有两种:端到端的视频分割和基于跟踪的逐帧分割。
端到端的视频分割方法直接处理整个视频序列,以一次性生成所有帧的分割结果。
基于跟踪的逐帧分割方法首先对每个视频帧进行单独分割,然后通过目标跟踪算法在帧之间关联分割结果。这类方法通常将视频分割问题分解为图像分割和目标跟踪两个步骤。