视觉问答(VQA, Visual Question Answer)
目标:给定一个图片以及问题,需要理解图片的内容并基于此用自然语言回答问题。
例如,图像中发生什么事,人物穿的衣服是什么颜色,图像中有多少架飞机等。
例如,TDIUC(Task Directed Image Understanding Challege) 是一个任务导向的图像理解数据集。作者收集了 VQAv2 等数据集,并进一步划分为 12 个子任务
图像描述(Image Captioning)
目标:给定一个图像,用自然语言描述图像的内容。
视觉定位(Visual Grounding)
目标:给定一个图像以及相应的自然语言表述,然后在图像中定位文本表述对应的物体或区域。
Grounded Captioning
目标:给定一个图像,用自然语言描述图像的内容,并定位所有提到的实体的位置或区域。可以看做是 Image Captioning + Phrase Localization 的组合。
如下图 Fig.1 所示为一个 Grounded Captioning 示例(来自 Flickr30K),可以看出,即输出了描述,又输出了对应实体的位置