论文浅尝 | CLIP-Event: 用事件结构连接文本和图像

48e64cf19164c529055b1469f0277b1f.png

笔记整理:康婧淇,东南大学硕士,研究方向为多模态事件抽取、自然语言处理。

动机

视觉语言预训练模型通过理解图像和文本之间的排列组合,在支持多媒体应用方面取得了巨大成功。虽然现有的视觉语言预训练模型主要侧重于理解图像中的物体或文本中的实体,但它们往往忽略了事件及其论元结构层面上的对齐。

现实世界的多媒体应用不仅需要了解实体知识(即对象和对象类型),还需要了解事件知识(即事件类型)与事件论元结构(即涉及的实体及其关系)。例如,如今的多媒体新闻数据中的89%的图像包含了事件。此外,识别论元(参与者)对新闻的理解至关重要,因为如果论元扮演不同的角色,事件可能是相互矛盾的。

然而,现有的视觉语言预训练模型侧重于对图像或实体的理解,忽略了事件语义和结构。因此,这些模型在需要理解动词的情况下明显失败。因此,文章专注于将事件结构知识融入视觉语言预训练。

关于从新闻图像中提取事件结构的研究很少,对下游应用中需要的事件知识获取的支持有限。因此,文章建议利用在自然语言处理中得到充分研究的文本信息提取技术,从标题中自动提取事件结构。在新闻数据中,标题基本上指的是与图片相同的事件。因此,文章设计了一个自我监督的对比学习框架,CLIP-Event,利用标题中丰富的事件知识作为远距离监督来解释相关图像中的事件,以有效地跨模式转移事件知识。

贡献

文章的贡献有:

1.本文第一次提出在视觉-语言预训练中利用视觉事件和论元结构信息;2.本文提出一个由多种提示函数生成负面事件描述,以硬性负面事件和论元为条件的对比学习框架;3.本文提出了基于最优传输的事件图对齐方法,将以前的图像或物体对齐扩展到事件结构层面的对齐。4.本文公开了一个事件丰富的图像字幕数据集:VOANews,包括106,875张图像。

方法

d22bf59c28e9f606b76168332a592dc4.png

对于文本模态,利用标题中的事件结构知识来对比关于事件类型和论元角色的硬性负样本(蓝色),具体做法是,首先从文本中抽取事件类型和论元,得到正样本,然后利用提示函数生成负样本。对于图像模态,首先将图像输入目标检测模型,然后经过Vision Encoder得到图像编码信息。接下来,根据最优传输方法实现事件知识的跨媒体转移。

•事件结构知识提取

文本和视觉知识提取:本文使用最先进的文本信息提取系统来提取187种类型的事件,涵盖了广泛的有新闻价值的事件。对于图像,作者使用在Open Images上训练的Faster R-CNN目标检测模型。

主要事件检测:当标题中有多个事件时,图像通常描述标题的主要事件。本文使用预训练CLIP模型来检测主要事件,这些主要事件比较接近依赖解析树的根事件,它们有更多的论元,事件类型频率更高,触发词和图像之间的相似度更高。然后根据这些标准对事件进行排名,并进行多数投票。

•事件结构驱动的负采样

负事件样本采样:首先计算事件类型分类器的混淆矩阵,该分类器是基于事件类型标签 φϵ 和输入图像i之间的相似度分数,并选择最高的一个作为预测的事件类型 ϕ 。

b3c11d58c4ab85af0c8cfcc4b48c8918.png

负论元样本采样:通过对论元角色序列进行右旋转来改变论元顺序。如果事件只有一个论元,就按照论元的混淆矩阵来抽取一个负论元样本。

描述生成方法:为了使用文本编码器对正面和负面事件结构进行编码,本文设计了多个提示函数,如表1所示。

27f323e423fb117c563104bad817c22c.png

•通过最优传输实现事件图的对齐

图像级别对齐:通过计算文本t和图像i之间的余弦相似度s(t, i)和距离d(t, i)实现,其中c(·, ·) = 1− cos(·, ·),t由Text Transformer得到,i由Vision Transformer得到。

  ,

实体级别对齐:文本实体e和图像对象o之间的余弦距离同时考虑了事件提及的相似度和事件类型的相似度。

 ϕϕ ,

其中  是实体e的文本提及,te是其嵌入句子的上下文。同样,io是对象o的边界框,io是其在图像上的嵌入上下文。  和  是由Text Transformer编码的类型表示。

事件级别对齐:为了基于两个图的结构获得全局对齐分数,本文使用最优传输来计算文本事件图Gt和图像事件图Gi之间的最小距离  :

8966147ac7aada2febabe1f9d439f4a1.png

其中,⊙表示Hadamard内积,   表示传输计划,用于优化两个图形之间的soft节点对齐。n和m分别是  和  中的节点数。也就是说,文本图  中的每个节点可以以不同的权重转移到图像图  中的多个节点。C是成本矩阵,表示事件节点之间和论元节点之间的成本。事件节点的成本是图像i和触发词v之间的余弦距离,论元<a, e>和边界框o之间的成本基于对象o与参数角色a和文本实体e的相似度。

318159059c8a33aae927e0ea66ea0995.png

然后,通过可微Sinkhorn-Knopp算法近似计算最优传输T∈Rn×m+。

31c16c05d7a3071de0e53e2ec05dc4ca.png

其中, ϵϵ . 从任何正向量q0开始执行以下迭代过程:

4411133737c26c22febc3fa5aa2aee25.png

•对比学习目标

本文优化了图像i和正面描述t+之间的余弦相似度,使其接近1,而负面描述t−接近0,

221a02e2f808d465677e830a530ea1c9.png

其中,DKL(·||·)是Kullback-Leibler散度,Ιt∈T+是指示函数,表示描述是否为肯定描述,它使模型能够处理任何数量的正面和负面描述。此外,本文还将同一batch中其他图像的描述作为负面描述。

本文将两个事件图之间的距离最小化,

90e118d1e6b7121b45d53072eb0cffd8.png

事件和论元描述的对比学习以及事件图的对齐被联合优化,其中 λλ 。

 λλ 

实验

(1)实验相关细节

评估任务包括五个部分:多媒体事件抽取(M2E2),真实场景识别(GSR),图像检索,视觉常识推理(VCR)和视觉常识实时推理。本文提出的视觉语言预训练模型使用一个新的数据集VOANews用于预训练,关于该数据集的信息如下表所示。本文使用ViT-B/32的Text和Vision Transformer来初始化编码器。Baselines选择了SOTA多模态预训练模型CLIP,SOTA事件抽取模型WASE和JSL,Ablation Study选择了CLIP-Event w/o Optimal Transport和单独的提示函数。

7fc4ec54e33b715a360c733be9d2dacb.png

(2)实验结果

零样本CLIP-Event在M2E2数据集上的论元提取优于最先进的弱监督模型,表明所提出的最优传输对齐有效地捕获了论元结构,而以前的视觉语言预训练模型无法实现。

109657145585441aad1a91b92e9a53b6.png

由于SWiG使用不同的论元边界框定位策略,CLIP-Event在M2E2上比SWiG获得更高的增益。SWiG将扮演相同角色的所有对象合并到一个大的边界框中。如图5b所示,本文的方法首先检测每个对象的论元角色,然后将相同角色的对象合并到一个大的边界框中。相比之下,M2E2允许多个对象具有相同的论元角色,如图5a所示。

4b94c9616bd2ae9b09b38735c4bb656f.png

(3)下游任务分析

针对图像检索任务,如图5所示,与Flickr30k和MSCOCO相比,VOANews由于标题中的各种事件和更难的句子结构而面临更大的挑战,VOANews上的改进远远高于Flickr30k和MSCOCO上的改进,这证明本文提出的模型能够处理冗长的句子,尤其是那些有很多事件的句子。下游任务受益于细粒度的事件图对齐。例如,在图6中,物体和调查人员以及被毁坏的汽车之间的强烈对齐使图像能够成功地排名更高。

6224cc1d03583c70d9342f96b650ac46.png

84977bad01e28b700414d11cca43d042.png

针对VCR任务,Rationale 的F1比Answer的 F1改进得多。Rationale预测更具挑战性,因为它涉及到场景的细节,本文的细粒度对齐很好地捕捉到了这些细节。事件知识对下游任务尤其有益。在图7中,只有正确答案对应于输入图像的事件类型。

915d2f94b8a5c8e160d8b9ecc56dd3c9.png

针对VisualCOMET任务,本文比较了CLIP-Event与SOTA模型的困惑度,该模型也是基于检索的。基线是使用VisualCOMET的训练集进行训练的,但本文的模型是一个无监督的模型,它实现了优异的性能,表明该模型能够理解图像中的事件。

5cfbdd1e10c881185ac2c3f926a0008e.png

总结

受到CLIP的启发,本文使用对比学习框架,利用基于混淆矩阵的事件结构来产生硬性负样本,并设计事件提示函数,将事件编码为自然句子。本文按照CLIP使用Text和Vision Transformers。对于文本,使用SOTA文本信息提取系统来提取187种类型的事件,涵盖了广泛的有新闻价值的事件。对于图像,应用在开放图像上训练的Faster R-CNN来检测物体。本文提出了一种结合事件结构知识的视觉语言预训练模型方法,通过自动从标题中提取事件知识,并通过对比学习监督图像事件结构的理解,进行事件知识的跨媒体转移。此外,本文提出了一个基于最优传输的事件图对齐损失,获得基于论元结构的全局对齐。该方法在零样本设置下的事件提取和下游任务上均优于目前最先进的视觉-语言预训练模型。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

c8524e073e088fa4252ff4ca483bce26.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477692.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 402. 移掉K位数字(贪心,单调栈)

1. 题目 给定一个以字符串表示的非负整数 num&#xff0c;移除这个数中的 k 位数字&#xff0c;使得剩下的数字最小。 注意: num 的长度小于 10002 且 ≥ k。 num 不会包含任何前导零。 示例 1 : 输入: num "1432219", k 3 输出: "1219" 解释: 移除掉…

Spring Cloud Alibaba基础教程:使用Nacos实现服务注册与发现

自Spring Cloud Alibaba发布第一个Release以来&#xff0c;就备受国内开发者的高度关注。虽然Spring Cloud Alibaba还没能纳入Spring Cloud的主版本管理中&#xff0c;但是凭借阿里中间件团队的背景&#xff0c;还是得到不少团队的支持&#xff1b;同时&#xff0c;由于Spring …

忙累了躺平,躺醒后该干点啥

文 | 一只菜鸡前几天刷到 微调 的一些碎碎念&#xff0c;觉得自己的2021年还是有蛮多收获的&#xff0c;于是在各位卖萌屋小伙伴的鼓励下&#xff0c;就有了本文。收获很多&#xff0c;我从中挑选出来自我感觉对读者来说比较有用的三点。1. 放低期待&#xff0c;学会适当躺平我…

论文浅尝 | P-Adapters: 从具有不同提示的语言模型中鲁棒地提取事实信息

笔记整理&#xff1a;田玺&#xff0c;浙江大学硕士研究生。研究方向&#xff1a;知识图谱、自然语言处理论文地址&#xff1a;https://openreview.net/forum?idDhzIU48OcZh&#xff0c;录用于ICLR2022摘要之前的工作发现&#xff0c;从大型语言模型&#xff08;LLMs&#xff…

LeetCode 470. 用 Rand7() 实现 Rand10()(随机概率)

1. 题目 已有方法 rand7 可生成 1 到 7 范围内的均匀随机整数&#xff0c;试写一个方法 rand10 生成 1 到 10 范围内的均匀随机整数。 不要使用系统的 Math.random() 方法。 示例 1: 输入: 1 输出: [7]示例 2: 输入: 2 输出: [8,4]示例 3: 输入: 3 输出: [8,1,10]提示: rand…

Spring Cloud Stream同一通道根据消息内容分发不同的消费逻辑

应用场景 有的时候&#xff0c;我们对于同一通道中的消息处理&#xff0c;会通过判断头信息或者消息内容来做一些差异化处理&#xff0c;比如&#xff1a;可能在消息头信息中带入消息版本号&#xff0c;然后通过if判断来执行不同的处理逻辑&#xff0c;其代码结构可能是这样的…

图谱实战 | 再谈图谱表示:图网络表示GE与知识图谱表示KGE的原理对比与实操效果分析...

转载公众号 | 老刘说NLP知识图谱嵌入是一个经典话题&#xff0c;在之前的文章《知识表示技术&#xff1a;图谱表示VS图网络表示及基于距离函数的表示学习总结》中&#xff0c;围绕知识图谱嵌入学习这一主题&#xff0c;对比了知识图谱嵌入与图网络嵌入的异同。而在实际工作中&a…

LeetCode 1247. 交换字符使得字符串相同

1. 题目 有两个长度相同的字符串 s1 和 s2&#xff0c;且它们其中 只含有 字符 “x” 和 “y”&#xff0c;你需要通过「交换字符」的方式使这两个字符串相同。 每次「交换字符」的时候&#xff0c;你都可以在两个字符串中各选一个字符进行交换。 交换只能发生在两个不同的字…

图深度学习前沿工作汇总与解析

图深度学习除了可以应用于标准图推理任务以外&#xff0c;还广泛应用于推荐、疾病或药物预测、自然语言处理、计算机视觉、交通预测等领域。可见&#xff0c;基于图的深度学习不仅有助于挖掘现有图数据背后的丰富价值&#xff0c;而且还通过将关系数据自然地建模为图&#xff0…

Spring Cloud Stream消费失败后的处理策略(四):重新入队(RabbitMQ)

应用场景 之前我们已经通过《Spring Cloud Stream消费失败后的处理策略&#xff08;一&#xff09;&#xff1a;自动重试》一文介绍了Spring Cloud Stream默认的消息重试功能。本文将介绍RabbitMQ的binder提供的另外一种重试功能&#xff1a;重新入队。 动手试试 准备一个会…

图谱实战 | 华农夏静波:深层语义知识图谱在药物重定位中的应用

转载公众号 | DataFunSummit分享嘉宾&#xff1a;夏静波 华中农业大学 副教授编辑整理&#xff1a;王金华 电科32所出品平台&#xff1a;DataFunTalk导读&#xff1a;自新冠病毒肺炎疫情发生以来&#xff0c;由于传统药物研发周期长&#xff0c;药物重定位&#xff08;老药新用…

LeetCode 738. 单调递增的数字(贪心)

1. 题目 给定一个非负整数 N&#xff0c;找出小于或等于 N 的最大的整数&#xff0c;同时这个整数需要满足其各个位数上的数字是单调递增。 &#xff08;当且仅当每个相邻位数上的数字 x 和 y 满足 x < y 时&#xff0c;我们称这个整数是单调递增的。&#xff09; 示例 1…

晋升挂了,leader说不是我技术不行

本文授权转载自公众号“算法圈的小破事”&#xff0c;点击以上卡片进行关注大家好&#xff0c;我是在互联网危险边缘疯狂试探的皮皮虾。今天跟大家分享一个故事。晋升去年秋季&#xff0c;我参加了校招入职以来的第一场晋升答辩。答辩前&#xff0c;我比来比去&#xff0c;觉得…

Spring Cloud Stream消费失败后的处理策略(二):自定义错误处理逻辑

应用场景 上一篇《Spring Cloud Stream消费失败后的处理策略&#xff08;一&#xff09;&#xff1a;自动重试》介绍了默认就会生效的消息重试功能。对于一些因环境原因、网络抖动等不稳定因素引发的问题可以起到比较好的作用。但是对于诸如代码本身存在的逻辑错误等&#xff…

论文浅尝 | DEKR: 一个基于描述增强知识图谱的机器学习方法推荐系统

笔记整理&#xff1a;刘尧锟&#xff0c;天津大学硕士链接&#xff1a;https://dl.acm.org/doi/pdf/10.1145/3404835.3462900动机面对大量的机器学习&#xff08;ML&#xff09;方法&#xff0c;为给定的数据集和任务选择合适的方法是一个挑战。一般来说&#xff0c;ML方法或数…

Meta AI 发布 data2vec!统一模态的新里程碑!

文 | ZenMoore编 | 小轶如果让大家举一个最成功的自监督模型的例子&#xff0c;尤其对于各位 NLPer&#xff0c;肯定毫不犹豫地祭出我大 BERT. 想当年 BERT 打了一个名叫 MLM (Masked Language Model) 的响指&#xff0c;直接成了 NLP 灭霸。视觉界、语音界闻声而来&#xff0c…

LeetCode 946. 验证栈序列(栈)

1. 题目 给定 pushed 和 popped 两个序列&#xff0c;每个序列中的 值都不重复&#xff0c;只有当它们可能是在最初空栈上进行的推入 push 和弹出 pop 操作序列的结果时&#xff0c;返回 true&#xff1b;否则&#xff0c;返回 false 。 示例 1&#xff1a; 输入&#xff1a;…

Spring Cloud Stream消费失败后的处理策略(一):自动重试

之前写了几篇关于Spring Cloud Stream使用中的常见问题&#xff0c;比如&#xff1a; 如何处理消息重复消费如何消费自己生产的消息 下面几天就集中来详细聊聊&#xff0c;当消息消费失败之后该如何处理的几种方式。不过不论哪种方式&#xff0c;都需要与具体业务结合&#xf…

会议交流 | DataFunSummit 2022:图机器学习在线峰会

深度学习模型是当今人工智能研究的核心。众所周知&#xff0c;对欧几里得数据&#xff08;例如图像&#xff09;和序列数据&#xff08;例如文本&#xff09;具有颠覆性学习能力的深度学习技术不能直接适用于图结构数据。这种差距推动了图深度学习研究的浪潮&#xff0c;在学术…

专访邱锡鹏:人工智能开源社区的「先行者」

文 | 刘冰一、Echo源 | 极市平台邱锡鹏&#xff0c;复旦大学理学学士和博士。任职复旦大学计算机科学技术学院教授&#xff0c;博导。发表 CCF A/B 类论文 70 余篇&#xff0c;获得 ACL 2017 杰出论文奖&#xff08;CCF A类&#xff09;、CCL 2019 最佳论文奖。出版开源专著《神…