笔记整理 | 王琰,东南大学
来源:ACL 2020
链接:https://arxiv.org/pdf/2005.02472.pdf
概述
本论文引入一项新任务:多媒体事件提取(M²E²),该任务旨在从多模态中抽取出事件和其论点(M2E2)。此外,构造了第一个带注释的新闻数据集作为基准,以支持对跨媒体事件的深入分析。并且提出了一种新方法:弱对齐结构嵌入(WASE),该方法将语义信息的结构化表示形式从文本和视觉数据编码为共同的嵌入空间,通过采用弱监督的训练策略进行跨模态结构对齐,从而能够在无需显式跨媒体注释的情况下利用可用资源。
背景及动机
传统事件提取方法的目标是单一形式,例如文本、图像或视频。但是,当代新闻业是通过多媒体信息来传播新闻。从美国之音(VOA)中随机抽取的多媒体新闻文章进行分析,我们可以发现报道中33%的图像包含用作事件自变量的可视对象,但新闻文章中未提及它们。这说明了多媒体数据之间存在着的互补性和整体性的影响,因此作者提出了多媒体事件提取(M²E²),这是一项旨在从多种模式中联合提取事件和论点的新任务。
数据集
通过映射新闻领域(ACE2)的NLP社区中的事件本体和通用领域(imSitu)的CV社区中的事件本体,来定义具有多媒体新闻价值的事件类型。M²E²中的事件类型和论点角色统计结果如下表,其中包含8种ACE类型,映射到98种imSitu类型,通过添加来自imSitu的视觉论点来扩展ACE事件角色集。粗体显示扩展的事件类型和论点角色,括号中的数字表示文本和视觉事件/自变量的计数。
作者从美国之音(VOA)网站上收集了108,693篇多媒体新闻文章,内容涉及军事,经济和健康等一系列具有新闻价值的主题,并且基于信息性、多样性、具有较多插图等标准选择了245个文档作为注释集。下表显示了该数据集的统计信息。
模型方法
1.Overview
训练阶段包含三项任务:文本事件提取,图像事件提取和跨媒体对齐。学习了跨媒体共享编码器,共享事件分类器和共享论点分类器。在训练期间共同训练三个任务以建立跨媒体结构的嵌入空间;在测试阶段,给定多媒体新闻文章,将句子和图像编码到结构化的公共空间中,并共同提取文本和视觉事件和论点,然后进行交叉模态共指解析。模型总体如下图表示:
2. Text Event Extraction
Text Structured Representation:
本文选择Abstract Meaning Representation (AMR)来表示文本,对每个文本句子运行CAMR parser生成AMR图,串联了预训练的 GloVe 单词嵌入、POS 嵌入、实体类型嵌入和位置嵌入来表示句子中每个单词。然后,将单词序列输入Bi-LSTM网络对单词顺序进行编码,获取每个单词的表示形式。给定 AMR 图,应用GCN对图形上下文信息进行编码。多媒体结构化共同空间构建如下图:
Event and Argument Classifier:
将每个单词分类为事件类型,并把每个实体分类到论点角色,计算公式为:
将真实文本实体提及作为训练期间的输入,并使用命名实体提取器获取测试的实体提及。
3. Image Event Extraction
Image Structured Representation:
用情况图表示每个图像,如上图所示,其中中心节点标记为动词,相邻节点标记为,其中 n 是用于指示实体类型从 WordNet 合成集中派生的名词,r表示实体在事件中根据 FrameNet 所扮演的论点。本文开发了以下两种方法从图像构造情况图,并使用 imSitu 数据集进行训练。
(1) Object-based Graph:
首先获取由在Open Images上训练的Faster R-CNN 模型检测到的对象边界框,使用 VGG-16 CNN 提取图像的视觉特征,使用另一个 VGG-16 来编码边界框,然后应用多层感知器(MLP)预测从图像和另一个 MLP 嵌入的动词来预测每个边界框的名词嵌入。
将预测动词嵌入与 imSitu 分类中的所有动词进行比较,以便对动词进行分类,并同样将每个预测名词嵌入与所有 imSitu 名词进行比较:
定义损失函数为:
(2) Attention-based Graph
提出了一个基于对象的图形构造模型的开放词汇替代方法。首先构造一个角色驱动的attention图,其中每个论点节点由以角色 r 为条件的热图派生。然后,使用热图获取特征图的加权平均值,以表示视觉空间中论点的每个角色。与基于对象的模型类似,接下来嵌入论点并将其与 imSitu 名词嵌入进行比较以定义分布并与基于对象的方法相类似定义损失函数:
Event and Argument Classifier:
使用基于对象或基于注意力的计算方法,并在 imSitu 数据集上预先训练,然后应用GCN获取公共空间中每个节点的结构化嵌入。接下来通过与上一部分相同的分类器,使用公共空间嵌入对每个视觉事件和论点进行分类:
4. Cross-Media Joint Training
为了使事件和论点分类器实现跨模态共享,图像图和文本图应编码到同一空间。本文使用单模态数据集中的事件和论点注释来训练分类器,同时使用VOA新闻图像和标题对来对齐这两种模式。使用图像和字幕对进行弱监督训练,从每个单词到图像对象学习软对齐。
将图像标题对的对齐成本定义为每个节点与其对齐表示之间的欧几里德距离:
使用triplet loss来拉近相关的图像标题对:
公共空间使事件和论点分类器能够跨模式共享权重并在数据集上共同训练,从而最大限度地减少以下目标函数:
总损失函数为:
5. Cross-Media Joint Inference
在测试阶段,采用带句子和图像的多媒体文档作为输入,首先对于每个句子和每个图像生成结构化的通用嵌入,计算其成对相似性。然后匹配句子与其最接近的图像并聚合每个单词的特征与对齐表示。
实验及结果:
分别对M²E²数据集中的纯文本,纯图像和多媒体事件提及进行评估。作者采用了传统的事件提取评价指标Precision,Recall和F1,实验结果如下表所示:
可以看出,和的F1得分优于三个评估设置中的所有基线。与其他多媒体模型的比较证明了本文模型架构和培训策略的有效性。在多媒体事件上,本论文提出的模型优于其仅文本和仅图像的模型,这表明单模式信息不足以用于复杂的新闻理解。此外,本文模型在纯文本和纯图像事件上具有更好的性能,证明了多媒体培训框架在模式之间的知识转移中的有效性。
此外,为了评估跨媒体事件共指性能,将同一文档中的文字和视觉事件提及配对,并计算Precision,Recall和F1,如下表所示。优于所有多媒体嵌入模型的基线,证明了跨媒体对齐的有效性。
总结展望
本文提出了多媒体事件提取的新任务并建立了新的基准,开发了多媒体结构的公共空间构造方法,并且利用现有的图像字幕对和单模态注释数据进行弱监督训练。实验证明了它的有效性,这也是是迈向对多媒体数据中事件进行语义理解的新步骤。
之后的工作可以在扩展框架从视频中提取事件,并扩展到新的事件类型;将提取结果应用于下游应用程序,包括跨媒体事件推断,时间轴生成等方面。
OpenKG
开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
点击阅读原文,进入 OpenKG 博客。