论文阅读之MMSD2.0: Towards a Reliable Multi-modal Sarcasm Detection System

文章目录

论文地址
主要内容
主要贡献
模型图
技术细节
- 数据集改进
- 多视图CLIP框架
- - 文本视图
  - 图像视图
  - 图像-文本交互视图
实验结果

论文地址

https://arxiv.org/pdf/2307.07135

主要内容

这篇文章介绍了一个名为MMSD2.0的多模态讽刺检测系统的构建，旨在提高现有讽刺检测系统的可靠性。文章首先指出了现有多模态讽刺检测基准（MMSD）存在的一些问题，包括模型偏差学习和不合理的负面样本标注。为了解决这些问题，作者提出了MMSD2.0，这是一个修正后的数据库，通过移除误导性的线索和重新标注不合理的样本来改进MMSD的不足。

此外，文章还介绍了一个名为multi-view CLIP的新颖框架，该框架能够利用来自多个视角（即文本、图像和文本-图像交互视角）的多粒度线索进行多模态讽刺检测。通过大量实验，作者证明了MMSD2.0是构建可靠多模态讽刺检测系统的有价值基准，并且multi-view CLIP框架在性能上显著超过了以前的基准模型。

主要贡献

文章的主要贡献包括：

首次指出了当前多模态讽刺基准中的问题，激励研究人员重新思考多模态讽刺检测的进展；
引入了MMSD2.0，这是一个修正后的数据库，去除了误导性线索并修正了不合理的标注，为构建可靠的多模态讽刺系统迈出了有意义的一步；
提出了一个新颖的多视图CLIP框架，该框架捕获了不同视角的图像、文本和图像-文本交互的线索，并实现了最先进的性能。

模型图

在这里插入图片描述
MMSD2.0数据集的总体构建过程。给定（a）中的示例，虚假线索去除阶段首先去除文本中的虚假线索，包括标签词（#terrible_food）和表情符号词（emoji_39）以获取（b），然后通过众包对不合理样本重新注释（人类重新注释）阶段对不合理的样本重新注释以获得最终的合理示例（c）。

在这里插入图片描述
文章的多视图CLIP的总体框架。预先训练的CLIP模型对输入的文本和图像进行编码。图像视图和文本视图利用仅图像和仅文本的信息来捕捉讽刺线索。图文交互视图融合了跨模态信息。这三个视图被聚合以进行最终预测。

技术细节

数据集改进

在这里插入图片描述可以观察到标签字数在正样本和负样本中的分布明显不平衡。如图所示，在训练、验证和测试集中，阳性样本中的标签词字数平均超过1个，而阴性样本中的少于1个。换句话说，模型只需要学习虚假相关性（标签词字数）而不需要真的理解讽刺就可以有比较好的训练结果了。

为了解决这个问题，文章从MMSD数据集中的文本中删除了标签词。这使得模型能够捕捉图像特征并使用它们来指导最终预测，而不是依赖于标签字数作为依据。

同样，文章也发现表情符号词在正负样本之间的分布也不平衡。具体而言，如图3（b）所示，只有19.3%的表情词同时存在于阳性和阴性样本中，而其余80.7%的表情符号词仅出现在一种类型的样本中（如阳性样本或阴性样本）。这表明该模型可以简单地使用表情符号单词分布作为预测的优先级，而不是真正捕捉多模式提示。为了解决这个问题，文章删除了文本中的所有表情符号单词，以迫使模型学习真正的多模态讽刺特征，而不是依赖于虚假的文本提示。

MMSD只是将没有“#讽刺”等特殊标签的样本视为负样本（即，不是讽刺）。文章认为这个过程是不合理的，因为没有#讽刺标签的样本也可以表达讽刺意图。因此，我们选择MMSD数据集中的所有负样本（超过50%）作为潜在的不合理样本进行进一步处理。也就是处理数据标注错误的情况。

经过上述处理（删除标签词、表情符号词、重新对阴性样本进行标注）就是得到了MMSD2.0，对比结果如下：
在这里插入图片描述

多视图CLIP框架

首先定义输入数据：
在这里插入图片描述
（x, y）表示一对文本-图像

文本视图

在这里插入图片描述
文本经过CLIP的text encoder进行编码，n表示一句话的词数量。

使用t_CLS作为句子的信息表示然后得到只使用文本的信息进行分类的预测结果。

图像视图

在这里插入图片描述
图像也是同理，使用CLIP的image encoder（这里应该是ViT）对图像信息进行编码。

然后使用单独图像的信息得到一个预测结果。

图像-文本交互视图

在这里插入图片描述

对CILP的文本编码信息、图像编码信息进行拼接。

然后使用注意力机制进行特征交互融合，其中Q、K、V都是F经过线性变换的结果。

交互融合后的特征取CLS使用key-less attention mechanism进行进一步融合，得到f
在这里插入图片描述
然后对f进行分类预测

那么最终的预测分布结果如下：
其中y^o可以被视为从文本视图、图像视图和图像-文本交互视图的不同角度利用丰富的特征。