论文笔记：面向实体的多模态对齐与融合网络假新闻检测

整理了2022TMM期刊 Entity-Oriented Multi-Modal Alignment and Fusion Network for Fake News Detection）论文的阅读笔记

背景
模型
- 改进的动态路由算法
- Cross-Modal Fusion
实验

背景

现有的假新闻方法对多模态特征进行各种跨模态交互和融合，在检测常见假新闻方面已经被证明是有效的。但是，多模态新闻的描述是围绕实体进行的，之前的方法对这一特性的关注较少，在需要以实体为中心的比较的假新闻检测方面表现不佳。基于此，本文探索了一种通过对齐和融合多模态实体来检测假新闻的新范式，并提出了面向实体的多模态对齐和融合网络(EMAF)。该工作采用以实体为中心的跨模态交互，可以保留语义完整性并捕获多模态实体的细节。
作者认为，现有的假新闻检测方法大致可以分为粗粒度和细粒度两种，细粒度方法在词级和像素级(图2中的(a))进行跨模态交互，但是无法保持实体的语义完整性。粗粒度方法在句子级和图像级特征(图2中的(b))上进行跨模态交互，可能会忽略同一模态内对象之间的关系。本文提出了一种面向实体的跨模态交互方法，实现了粗粒度和细粒度方法之间的折衷。
在这里插入图片描述

模型

EMAF由封装模块、跨模态对齐模块、跨模态融合模块和最终的分类器组成。具体来说，采用改进的动态路由算法（胶囊算法）设计了对齐模块，并引入了基于比较的融合模块，前者对重要实体进行对齐和捕获，后者对以实体为中心的特征进行比较和聚合。将聚合地特征送入最终的分类器中得到结果。
设T和V分别表示原始文本句子和图像输入，TE、VE和AE分别表示文本实体、视觉实体和对齐实体的集合。实体集合的每一个元素都是指一个特定实体的表示。本文的视觉实体由预训练的Faster R-CNN提取，文本实体是怎么得到的没有说明。
EMAF的输入由文本实体集 $TE=\{te_1,…,te_M\}$ 和可视化实体集 $VE = \{ve_1,...,ve_N\}$ 。包含视觉实体和文本实体的胶囊单元分别被指定为主胶囊和数字胶囊。对齐模块采用一种改进的动态路由算法，实现可视化实体与文本实体之间的跨模态交互，该过程生成对齐实体集 $AE=\{ae_1,...,ae_M\}$
为了捕获对齐实体和源文本实体之间的一致性和差异性，在跨模态融合模块中引入了Attend、Compare和Aggregate方法来执行二阶交互。收集与真实性相关的重要特征，并生成样本的固定大小表示。然后，分类器根据这个表示给出最终的预测。算法为：
在这里插入图片描述整个模型的结构：

改进的动态路由算法

首先初始化 $b_{i,j}^1$ (这里的上标1和下面的k表示堆叠结构中的第k层)，它用来测量 $ve_i$ 与 $te_j^T$ 的对齐程度： $b_{i,j}^1=ve_i\cdot te_j^T$ 然后使用softmax对 $b_{i,j}^k$ 进行归一化，得到一个对齐的分布 $c_j^k$ ，并以类似于注意机制的方式对视觉实体进行加权和。这样，视觉实体被组装为第j个文本实体，并产生 $s_j^k$ 。 $c_j^k=softmax([b_{1,j}^k, ...,b_{i,j}^k,...,b_{N,j}^1])$ $s_j^k=\sum_ic_{i,j}^kve_i$ 接下来，为了测量当前第j个数字胶囊所代表的实体是否存在于 $s_j^k$ 中，使用了一个称为“压扁”的非线性激活函数。 $v_j^k=\frac{||s_j^k||^2}{1+||s_j^k||^2}\frac{s_j^k}{||s_j^k||}$ 在将对齐的视觉实体信息收集到 $v_j^k$ 后，通过一个门将对应的 $v_j^k$ 和 $te_j^K$ 组合到一起，这个门把v向量的长度作为权重，更新相应文本实体的表示： $G_j^k=||v_j^k||$ $te_j^{k+1}=(1-G_j^k)\cdot te_j^k+G_J^k\cdot v_j^k$ 这样，我们就得到了进行一轮更新后的文本实体表示，再把这个表示作为数字胶囊进入下一轮更新，这样，文本实体会与和这个实体相似度高的视觉实体相似度score增加，文章称之为”被接受“，而相似度低的视觉实体相似度score减少，称之为”被拒绝“。
该过程在达到K次迭代后停止，并且从视觉实体派生的 $TE^K = [te_1^k,…,te_j^k,…,te_M^k]$ 被认为是文本实体的对齐表示。
为了表示方便，将 $TE^K = [te_1^k,…,te_j^k,…,te_M^k]$ 重新定义为 $AE = [ae_1,…,ae_j,…,ae_M]$ 。
在这里插入图片描述

Cross-Modal Fusion

跨模态融合模块旨在捕获对齐实体与原始文本实体之间的一致性和差异性，并进一步提取验证样本真实性所需的特征。
在上文中，我们得到了对齐后的文本实体TE与对齐实体AE之间建立了一一对应关系。但是本文提出，由于在对齐过程中没有考虑来自相同模态的实体之间的语义关系。以图3中的样本为例，“大象”与“岩石”的关系来源于“象形岩石”这句话。自然不能交付给对齐的实体。反过来，从图像中衍生出的“象”与“石”的关系，也无法传递给文本实体。为了弥补这一遗漏，引入了Attend组件，旨在从同一模态中追求实体之间的关系。
对于来自TE的每个实体，将其与所有文本实体连接起来，以捕获其与其他文本实体的关系，然后利用多层感知器(MLP)将连接的结果映射到关系空间。最后，执行max-pooling来选择实体 $te_i$ 的重要关系特征 $tr_i$ 。最终，我们得到了TR代表TE, AR代表AE的关系表示： $tr_i=Maxpooling(MLP([te_i;TE]))$ $ar_i=Maxpooling(MLP([ae_i;AE]))$ 对于TE和AE，执行元素减法来捕获差异，此外还进行了元素点积来捕获相似性。将所有比较特征串联起来，分别在实体级和关系级得到EC和RC： $ec_i=[ae_i;te_i;ae_i-te_i;ae_i\cdot te_I]$ $rci=[ar_i;tr_i;ar_I-tr_i;ar_I\cdot tr_i]$ 最后，在实体集EC和关系集RC上执行平均池化和最大池化策略，通过连接池化操作的结果获得用于标签预测的最终向量C，送入分类头进行预测： $C = [A vg (EC); M a x (EC); A vg (RC); M a x (RC)]$

实验

本文的实验使用了Reddit、微博和Twitter三个数据集。
在这里插入图片描述对比实验结果：在Reddit数据集上，本文的模型和之前模型的对比：消融实验：
可视化：在多层迭代中，数字胶囊单元(文本实体)和主胶囊(视觉实体)之间逐渐被对齐。检测结果的示例：在这里插入图片描述
这篇文章并没有开源，我自己实现的效果与论文中相差很大，如果您也复现了这篇文章或是对这篇文章感兴趣，欢迎私信我一起讨论。