论文浅尝 - ACL2020 | 用于多媒体事件提取的跨媒体结构化公共空间

笔记整理 | 王琰,东南大学


来源:ACL 2020

链接:https://arxiv.org/pdf/2005.02472.pdf

概述

本论文引入一项新任务:多媒体事件提取(M²E²),该任务旨在从多模态中抽取出事件和其论点(M2E2)。此外,构造了第一个带注释的新闻数据集作为基准,以支持对跨媒体事件的深入分析。并且提出了一种新方法:弱对齐结构嵌入(WASE),该方法将语义信息的结构化表示形式从文本和视觉数据编码为共同的嵌入空间,通过采用弱监督的训练策略进行跨模态结构对齐,从而能够在无需显式跨媒体注释的情况下利用可用资源。

背景及动机

传统事件提取方法的目标是单一形式,例如文本、图像或视频。但是,当代新闻业是通过多媒体信息来传播新闻。从美国之音(VOA)中随机抽取的多媒体新闻文章进行分析,我们可以发现报道中33%的图像包含用作事件自变量的可视对象,但新闻文章中未提及它们。这说明了多媒体数据之间存在着的互补性和整体性的影响,因此作者提出了多媒体事件提取(M²E²),这是一项旨在从多种模式中联合提取事件和论点的新任务。

数据集

通过映射新闻领域(ACE2)的NLP社区中的事件本体和通用领域(imSitu)的CV社区中的事件本体,来定义具有多媒体新闻价值的事件类型。M²E²中的事件类型和论点角色统计结果如下表,其中包含8种ACE类型,映射到98种imSitu类型,通过添加来自imSitu的视觉论点来扩展ACE事件角色集。粗体显示扩展的事件类型和论点角色,括号中的数字表示文本和视觉事件/自变量的计数。

作者从美国之音(VOA)网站上收集了108,693篇多媒体新闻文章,内容涉及军事,经济和健康等一系列具有新闻价值的主题,并且基于信息性、多样性、具有较多插图等标准选择了245个文档作为注释集。下表显示了该数据集的统计信息。

模型方法

1.Overview

训练阶段包含三项任务:文本事件提取,图像事件提取和跨媒体对齐。学习了跨媒体共享编码器,共享事件分类器和共享论点分类器。在训练期间共同训练三个任务以建立跨媒体结构的嵌入空间;在测试阶段,给定多媒体新闻文章,将句子和图像编码到结构化的公共空间中,并共同提取文本和视觉事件和论点,然后进行交叉模态共指解析。模型总体如下图表示:

2. Text Event Extraction

Text Structured Representation:

本文选择Abstract Meaning Representation (AMR)来表示文本,对每个文本句子运行CAMR parser生成AMR图,串联了预训练的 GloVe 单词嵌入、POS 嵌入、实体类型嵌入和位置嵌入来表示句子中每个单词。然后,将单词序列输入Bi-LSTM网络对单词顺序进行编码,获取每个单词的表示形式。给定 AMR 图,应用GCN对图形上下文信息进行编码。多媒体结构化共同空间构建如下图:

Event and Argument Classifier:

将每个单词分类为事件类型,并把每个实体分类到论点角色,计算公式为:

将真实文本实体提及作为训练期间的输入,并使用命名实体提取器获取测试的实体提及。

3. Image Event Extraction

Image Structured Representation:

用情况图表示每个图像,如上图所示,其中中心节点标记为动词,相邻节点标记为,其中 n 是用于指示实体类型从 WordNet 合成集中派生的名词,r表示实体在事件中根据 FrameNet 所扮演的论点。本文开发了以下两种方法从图像构造情况图,并使用 imSitu 数据集进行训练。

(1) Object-based Graph:

首先获取由在Open Images上训练的Faster R-CNN 模型检测到的对象边界框,使用 VGG-16 CNN 提取图像的视觉特征,使用另一个 VGG-16 来编码边界框,然后应用多层感知器(MLP)预测从图像和另一个 MLP 嵌入的动词来预测每个边界框的名词嵌入。

将预测动词嵌入与 imSitu 分类中的所有动词进行比较,以便对动词进行分类,并同样将每个预测名词嵌入与所有 imSitu 名词进行比较:

定义损失函数为:

(2) Attention-based Graph

提出了一个基于对象的图形构造模型的开放词汇替代方法。首先构造一个角色驱动的attention图,其中每个论点节点由以角色 r 为条件的热图派生。然后,使用热图获取特征图的加权平均值,以表示视觉空间中论点的每个角色。与基于对象的模型类似,接下来嵌入论点并将其与 imSitu 名词嵌入进行比较以定义分布并与基于对象的方法相类似定义损失函数:

Event and Argument Classifier:

使用基于对象或基于注意力的计算方法,并在 imSitu 数据集上预先训练,然后应用GCN获取公共空间中每个节点的结构化嵌入。接下来通过与上一部分相同的分类器,使用公共空间嵌入对每个视觉事件和论点进行分类:

4. Cross-Media Joint Training

为了使事件和论点分类器实现跨模态共享,图像图和文本图应编码到同一空间。本文使用单模态数据集中的事件和论点注释来训练分类器,同时使用VOA新闻图像和标题对来对齐这两种模式。使用图像和字幕对进行弱监督训练,从每个单词到图像对象学习软对齐。

将图像标题对的对齐成本定义为每个节点与其对齐表示之间的欧几里德距离:

使用triplet loss来拉近相关的图像标题对:

公共空间使事件和论点分类器能够跨模式共享权重并在数据集上共同训练,从而最大限度地减少以下目标函数:

总损失函数为:

5. Cross-Media Joint Inference

在测试阶段,采用带句子和图像的多媒体文档作为输入,首先对于每个句子和每个图像生成结构化的通用嵌入,计算其成对相似性。然后匹配句子与其最接近的图像并聚合每个单词的特征与对齐表示。

实验及结果:

分别对M²E²数据集中的纯文本,纯图像和多媒体事件提及进行评估。作者采用了传统的事件提取评价指标Precision,Recall和F1,实验结果如下表所示:

可以看出,的F1得分优于三个评估设置中的所有基线。与其他多媒体模型的比较证明了本文模型架构和培训策略的有效性。在多媒体事件上,本论文提出的模型优于其仅文本和仅图像的模型,这表明单模式信息不足以用于复杂的新闻理解。此外,本文模型在纯文本和纯图像事件上具有更好的性能,证明了多媒体培训框架在模式之间的知识转移中的有效性。

此外,为了评估跨媒体事件共指性能,将同一文档中的文字和视觉事件提及配对,并计算Precision,Recall和F1,如下表所示。优于所有多媒体嵌入模型的基线,证明了跨媒体对齐的有效性。

总结展望

本文提出了多媒体事件提取的新任务并建立了新的基准,开发了多媒体结构的公共空间构造方法,并且利用现有的图像字幕对和单模态注释数据进行弱监督训练。实验证明了它的有效性,这也是是迈向对多媒体数据中事件进行语义理解的新步骤。

之后的工作可以在扩展框架从视频中提取事件,并扩展到新的事件类型;将提取结果应用于下游应用程序,包括跨媒体事件推断,时间轴生成等方面。

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478554.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

屠榜CV还不是这篇论文的终极目标,它更大的目标其实是……

文 | 魏旭编 | 橙橙子,小戏当 BERT 模型出来之后,Transformer 架构基本成为 NLP 任务的底色。诸如 Roberta、XLNet、ELECTRA、GPT3 等刷榜各类 NLP 任务的模型,无一不是基于 Transformer 框架。无疑,Transformer 开启了 NLP 的统治…

day01『NLP打卡营』实践课1:词向量应用演示

Day01 词向量作业辅导 本教程旨在辅导同学如何完成 AI Studio课程——『NLP打卡营』实践课1:词向量应用展示 课后作业。 1. 选择词向量预训练模型 在PaddleNLP 中文Embedding模型查询PaddleNLP所支持的中文预训练模型。选择其中一个模型,如中文维基百…

流计算框架 Flink 与 Storm 的性能对比

1. 背景 Apache Flink 和 Apache Storm 是当前业界广泛使用的两个分布式实时计算框架。其中 Apache Storm(以下简称“Storm”)在美团点评实时计算业务中已有较为成熟的运用(可参考 Storm 的可靠性保证测试),有管理平台…

论文浅尝 - AAAI2021 | 基于对比学习的三元组生成式抽取方法

作者 | 叶宏彬,浙江大学博士研究生,研究方向:知识图谱、自然语言处理接收会议 | AAAI2021论文链接 | https://arxiv.org/pdf/2009.06207.pdf摘要在自然语言处理和知识图谱领域的信息提取中,三元组抽取是必不可少的任务。在本文中&…

LeetCode 101. 对称二叉树(递归循环)

1. 题目 给定一个二叉树,检查它是否是镜像对称的。 例如,二叉树 [1,2,2,3,4,4,3] 是对称的。1/ \2 2/ \ / \ 3 4 4 3 但是下面这个 [1,2,2,null,3,null,3] 则不是镜像对称的:1/ \2 2\ \3 3来源:力扣(LeetCode&#x…

剑桥大学终身教授T.S.:7大机器学习算法与应用案例

机器学习和人工智能可被应用在文本翻译、面部检测和识别、自动驾驶汽车和诸如国际象棋和围棋一类的极为复杂的控制类游戏等领域,其最新发展日益受到越来越高的关注。本次为大家推荐的科研项目,还是来自于ViaX盐趣,导师是来自剑桥大学计算机系…

会议交流 | 2021年全国知识图谱与语义计算大会(CCKS 2021)征稿通知

2021年全国知识图谱与语义计算大会征稿通知(第一轮)First Call for Full Papers2021年8月18日-21日,广州征稿截止: 2021年5月10日第十五届全国知识图谱与语义计算大会(CCKS: China Conference on Knowledge Graph and Semantic Co…

美团外卖自动化业务运维系统建设

美团外卖业务在互联网行业是非常独特的,不仅流程复杂——从用户下单、商家接单到配送员接单、交付,而且压力和流量在午、晚高峰时段非常集中。同时,外卖业务的增长非常迅猛,自2013年11月上线到最近峰值突破1600万,还不…

把数据集刷穿是什么体验?MetaQA已100%准确率

文 | 炼丹学徒编 | 小轶开始炼丹以来,估计很多小伙伴都和我一样幻想过直接把数据集做到 100% 准确率,然后大吼一声:这数据集,我做到头了!然而愿望终究是愿望。大多时候,看着自己手头上用了浑身解数才提了零…

LeetCode 116. 填充每个节点的下一个右侧节点指针(递归循环)

文章目录1. 题目2. 解题2.1 递归2.2 循环2.3 O(1)空间复杂度1. 题目 给定一个完美二叉树,其所有叶子节点都在同一层,每个父节点都有两个子节点。二叉树定义如下: struct Node {int val;Node *left;Node *right;Node *next; }填充它的每个 n…

大圣魔方——美团点评酒旅BI报表工具平台开发实践

当前的互联网数据仓库系统里,数据中心往往存放了大量Cube化或者半Cube化的数据。如果需要将这些数据的内在关系体现出来,需要写大量的程序和SQL来发现数据之间的内在规律,往往会造成用户做非常多的重复性工作;而且由于没有数据校验…

基于知识图谱的智能问答方案

基于知识图谱的智能问答方案:https://cloud.tencent.com/developer/article/1661504 基于知识图谱的智能问答方案2020-07-142020-07-14 15:57:50阅读 9950三个角度理解知识图谱2012年谷歌首次提出“知识图谱”这个词,由此知识图谱在工业界也出现得越来越…

论文浅尝 - ACL2020 | 用于实体对齐的邻居匹配网络

笔记整理 | 谭亦鸣,东南大学博士来源:ACL 20链接:https://www.aclweb.org/anthology/2020.acl-main.578.pdf1.介绍图谱之间的异构差异是建立实体对齐的一个主要挑战,本文提出了Neighborhood Match Network (NMN),用于处…

LeetCode 117. 填充每个节点的下一个右侧节点指针 II(递归循环)

文章目录1. 题目2. 解题2.1 递归2.2 queue循环2.3 利用next循环1. 题目 填充它的每个 next 指针,让这个指针指向其下一个右侧节点。如果找不到下一个右侧节点,则将 next 指针设置为 NULL。 初始状态下,所有 next 指针都被设置为 NULL。 类似…

美团点评境外度假团队前端项目开发实践总结

随着前端项目数量和规模越来越大,参与的人员也越来越多,如何在前端项目开发过程中保证优质的开发者体验和项目的可维护性,同时确保极致的用户体验将会是一个非常大的挑战。 为了应对这个挑战,美团点评境外度假前端研发团队自2016年…

线性代数不深入,机器学习两行泪!

我经常听到有人说,机器学习很难,到底怎么学更高效?其实,我想说,机器学习本身没有多大难度,因为经过多年的积累后,很多规则已经成型了。对于我们来说真正难的,是机器学习背后的算法所…

反爬虫机制和破解方法汇总

https://cloud.tencent.com/developer/article/1032918 什么是爬虫和反爬虫?爬虫:使用任何技术手段,批量获取网站信息的一种方式。反爬虫:使用任何技术手段,阻止别人批量获取自己网站信息的一种方式。常见的反爬虫机制…

论文小综 | 知识图谱表示学习中的零样本实体研究

转载公众号 | 浙大KG 本文作者| 耿玉霞,浙江大学在读博士,主要研究方向为知识图谱、零样本学习及可解释性前言随着知识图谱表示学习算法的蓬勃发展,在各个领域中都得到了广泛的应用,如推荐系统、知识问答等,以及知识图…

LeetCode 297. 二叉树的序列化与反序列化(前序遍历层序遍历)

文章目录1. 题目2. 解题2.1 前序遍历2.2 层序遍历1. 题目 序列化是将一个数据结构或者对象转换为连续的比特位的操作,进而可以将转换后的数据存储在一个文件或者内存中,同时也可以通过网络传输到另一个计算机环境,采取相反方式重构得到原数据…

互联网企业安全之端口监控

外网端口监控系统是整个安全体系中非常重要的一环,它就像眼睛一样,时刻监控外网端口开放情况,并且在发现高危端口时能够及时提醒安全、运维人员做出相应处理。 对安全人员来说,互联网公司在快速发展壮大的过程中,外网边…