论文笔记整理:柏超宇,东南大学硕士。
文章链接:https://arxiv.org/pdf/2011.01565.pdf
来源:EMNLP 2020
动机
社交媒体每天都会产生大量的内容。为了帮助用户快速捕捉所需内容,关键词预测受到越来越多的关注。尽管如此,之前的工作大多集中在文本建模上,很大程度上忽略了图像中蕴含的丰富信息。随着单模态模型的发展成熟,研究人员把关注热点聚焦在了多模态模型上,希望通过结合文本和视觉信息,帮助模型去更好的完成对应任务。
简介
在这项工作中,作者探索了文本和图像在预测多媒体帖子的关键词中的作用。为了更好地调整社交媒体风格的文本和图像,作者提出了:(1)一种新颖的多模态多头注意力(M3H-Att),以捕捉复杂的跨媒体交互;(2)image wordings,以光学字符和图像属性的形式,连接两种模态。此外,我们设计了一个新颖的统一框架,以利用关键词分类和生成的输出,并将它们的优点结合起来。在实验部分,作者从Twitter收集了一个大规模数据集,实验表明,本文的模型明显优于之前传统注意力网络。进一步的分析表明,该模型的多头注意力能够关注各个模态的信息,并在不同场景下提升分类或生成任务的效果,本文所关注的任务是在多模态的社交信息中提取出关键词。
模型框架
作者采用了一个生成式模型来生成最后的答案,这也是最近多模态模型常用的方法,作者使用了Glove对文字信息进行初始化,使用GRU提取文本的特征。而在图像方面作者考虑了两种特征,使用了在VG数据集上预训练过的Faster-RCNN对目标框进行检测,置信度前五框的类别被选出来,作为图像的attributefeature,用来提供对图像的高层理解;同时也会采用卷积核为7*7的VGG-16抽取出整幅图像的特征。而图片中的文字信息,作者也使用了OCR技术识别了出来,与文字信息拼接在一起。
在抽取出单模态的特征后,作者使用了一个M3H-Att的模型来对这三种模态的特征进行融合,将融合后的多模态向量解码生成所需要的关键词。
M3H-Att即Multi-Modality Multi-Head Attention,也是基于Transformer结构的一个编码器。QKV三个矩阵只有Q送入了自己模态的attention层,而K和V矩阵都送入另一个模态的attention层,详情可以参考下面的图。
这种结构在双流的多模态预训练模型中也有用到,如Vil-BERT,而本模型将bbox的类别也当成一个模态信息进行了三个模态信息的融合。
实验
在实验部分,作者与一些流行的单模态多模态模型进行对比,从实验结果中我们可以发现由于最后需要回答的关键词是文本模态的,所以单从图片中进行解码并不会获得比较好的效果,而从利用文本模态能够得到一个比较不错的结果,本文提出的多模态模型相比较于最出色的单文本模态模型有所提升,但是效果不明显,图片的视觉信息还未和文本对齐,所以带来的性能提升非常有限,在这里可能借助一些预训练任务能够让这几个模态的向量融合的更好。
在实验部分,作者还尝试了一些消融实验,分别展示了在该任务上使用多头注意力机制和OCR特征以及attribute特征的作用,分别都对模型的效果有所提升。
总结
本文研究了社交媒体上的跨媒体关键词预测任务,并提出了一个框架来融合生成和分类模型的优势来完成这一任务。此外,本文还提出了一种新型的多模态多头注意力机制来融合文本和图像的特征。在新收集的大规模Twitter语料库上的实验结果表明,该模型优于基于传统注意力机制的生成和分类模型。
OpenKG
开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
点击阅读原文,进入 OpenKG 网站。