论文浅尝 - EMNLP2020 | 跨媒体关键词预测: 多模态多头注意力和图像文本的统一框架...

论文笔记整理:柏超宇,东南大学硕士。


文章链接:https://arxiv.org/pdf/2011.01565.pdf

来源:EMNLP 2020

动机

社交媒体每天都会产生大量的内容。为了帮助用户快速捕捉所需内容,关键词预测受到越来越多的关注。尽管如此,之前的工作大多集中在文本建模上,很大程度上忽略了图像中蕴含的丰富信息。随着单模态模型的发展成熟,研究人员把关注热点聚焦在了多模态模型上,希望通过结合文本和视觉信息,帮助模型去更好的完成对应任务。

简介

在这项工作中,作者探索了文本和图像在预测多媒体帖子的关键词中的作用。为了更好地调整社交媒体风格的文本和图像,作者提出了:(1)一种新颖的多模态多头注意力(M3H-Att),以捕捉复杂的跨媒体交互;(2)image wordings,以光学字符和图像属性的形式,连接两种模态。此外,我们设计了一个新颖的统一框架,以利用关键词分类和生成的输出,并将它们的优点结合起来。在实验部分,作者从Twitter收集了一个大规模数据集,实验表明,本文的模型明显优于之前传统注意力网络。进一步的分析表明,该模型的多头注意力能够关注各个模态的信息,并在不同场景下提升分类或生成任务的效果,本文所关注的任务是在多模态的社交信息中提取出关键词。

模型框架

作者采用了一个生成式模型来生成最后的答案,这也是最近多模态模型常用的方法,作者使用了Glove对文字信息进行初始化,使用GRU提取文本的特征。而在图像方面作者考虑了两种特征,使用了在VG数据集上预训练过的Faster-RCNN对目标框进行检测,置信度前五框的类别被选出来,作为图像的attributefeature,用来提供对图像的高层理解;同时也会采用卷积核为7*7的VGG-16抽取出整幅图像的特征。而图片中的文字信息,作者也使用了OCR技术识别了出来,与文字信息拼接在一起。

在抽取出单模态的特征后,作者使用了一个M3H-Att的模型来对这三种模态的特征进行融合,将融合后的多模态向量解码生成所需要的关键词。

M3H-Att即Multi-Modality Multi-Head Attention,也是基于Transformer结构的一个编码器。QKV三个矩阵只有Q送入了自己模态的attention层,而K和V矩阵都送入另一个模态的attention层,详情可以参考下面的图。

这种结构在双流的多模态预训练模型中也有用到,如Vil-BERT,而本模型将bbox的类别也当成一个模态信息进行了三个模态信息的融合。

实验

在实验部分,作者与一些流行的单模态多模态模型进行对比,从实验结果中我们可以发现由于最后需要回答的关键词是文本模态的,所以单从图片中进行解码并不会获得比较好的效果,而从利用文本模态能够得到一个比较不错的结果,本文提出的多模态模型相比较于最出色的单文本模态模型有所提升,但是效果不明显,图片的视觉信息还未和文本对齐,所以带来的性能提升非常有限,在这里可能借助一些预训练任务能够让这几个模态的向量融合的更好。

在实验部分,作者还尝试了一些消融实验,分别展示了在该任务上使用多头注意力机制和OCR特征以及attribute特征的作用,分别都对模型的效果有所提升。

总结

本文研究了社交媒体上的跨媒体关键词预测任务,并提出了一个框架来融合生成和分类模型的优势来完成这一任务。此外,本文还提出了一种新型的多模态多头注意力机制来融合文本和图像的特征。在新收集的大规模Twitter语料库上的实验结果表明,该模型优于基于传统注意力机制的生成和分类模型。


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478579.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从实际案例聊聊Java应用的GC优化

当Java程序性能达不到既定目标,且其他优化手段都已经穷尽时,通常需要调整垃圾回收器来进一步提高性能,称为GC优化。但GC算法复杂,影响GC性能的参数众多,且参数调整又依赖于应用各自的特点,这些因素很大程度…

LeetCode 162. 寻找峰值(二分查找)

1. 题目 峰值元素是指其值大于左右相邻值的元素。 给定一个输入数组 nums,其中 nums[i] ≠ nums[i1],找到峰值元素并返回其索引。 数组可能包含多个峰值,在这种情况下,返回任何一个峰值所在位置即可。 你可以假设 nums[-1] n…

谷歌:CNN击败Transformer,有望成为预训练界新霸主!LeCun却沉默了...

文 | ????????????????这几年,大家都说深度学习进入了预训练时代。作为一个入行不久的小白,我一直以为各类基于 Transformers 结构的预训练模型是 NLP 的巨大里程碑,CNN、RNN 老矣,只配作为手下败将。大家的文章似…

新词发现简介

原文链接:https://blog.csdn.net/weixin_43378396/article/details/103848628 新词发现是 NLP 的基础任务之一,通过对已有语料进行挖掘,从中识别出新词。新词发现也可称为未登录词识别,严格来讲,新词是指随时代发展而新…

论文浅尝 - AAAI2020 | 利用自然语言推断生成人称一致的对话

链接: https://arxiv.org/pdf/1911.05889.pdf动机虽然最近几年通过利用社交网络上大量人人交互数据训练开放域对话模型取得了很大的成功,但是这些数据驱动的对话系统仍然无法很自然的与人类对话,其中的一个主要问题就是对话系统缺乏一致的角色…

智能投放系统之场景分析最佳实践

美团点评作为业内最大的O2O的平台,以短信/push作为运营手段触达用户的量级巨大,每日数以千万计。 美团点评线上存在超过千万的POI,覆盖超过2000城市、2.5万个后台商圈。在海量数据存在的前提下,实时投放的用户在场景的选择上存在一…

7个提升PyTorch性能的技巧

文 | William Falcon源 | AI公园在过去的10个月里,在PyTorch Lightning工作期间,团队和我已经接触过许多结构PyTorch代码的风格,我们已经发现了一些人们无意中引入瓶颈的关键地方。我们非常小心地确保PyTorch Lightning不会对我们为你自动编写…

论文浅尝 - EMNLP2020 | 基于规则引导的协作 agent 知识图谱推理学习

论文笔记整理:叶橄强,浙江大学在读硕士,研究方向为知识图谱的表示学习和预训练。来源:EMNLP 2020现有的大多数基于行走的模型通过在提供可解释的决策的同时获得良好的性能,在知识图谱推理中显示出其优势。但在遍历过程…

Shield——开源的移动端页面模块化开发框架

一直以来,如何能更高效地开发与维护页面是Android与iOS开发同学最主要的工作和最关心的问题。随着业务的不断发展,根据特定业务场景产生的定制化需求变得越来越多。单一页面往往需要根据不同业务、不同场景甚至不同用户展示不同的内容。在这样的背景下&a…

1年排名前进13位 ,这个论题成顶会新宠!

写过论文的同学都知道,写久了真的会头秃,其中耗发量最高的当属论题和创新点。今天分享一套方法,这个方法已经帮助近3000位同学成功发(拯)表(救)论(头)文(发&a…

LeetCode 50. Pow(x, n)(二分查找)

文章目录1. 题目2. 二分查找2.1 递归2.2 循环1. 题目 实现 pow(x, n) &#xff0c;即计算 x 的 n 次幂函数。 示例 输入: 2.00000, 10 输出: 1024.00000 示例 输入: 2.00000, -2 输出: 0.25000 解释: 2-2 1/22 1/4 0.25 说明: -100.0 < x < 100.0 n 是 32 位有符号…

OpenKG 祝大家 2021 新年快乐 —「2020 精选文章汇编」

过去的一年是不寻常的一年&#xff0c;虽然疫情改变了所有人的生活&#xff0c;但是它并没有击垮我们。这一年&#xff0c;大家依旧保持着开源开放的精神&#xff0c;持续地分享着知识图谱领域的技术动态、应用实践&#xff0c;同学们也持续不断地输出优质的论文笔记。OpenKG 继…

智能分析最佳实践——指标逻辑树

所有业务都会面对“为什么涨、为什么降、原因是什么&#xff1f;”这种简单粗暴又不易定位的业务问题。为了找出数据发生异动的原因&#xff0c;业务人员会通过使用多维查询、dashboard等数据产品锁定问题&#xff0c;再辅助人工分析查找问题原因&#xff0c;这个过程通常需要一…

论文浅尝 - EMNLP2020 | 图结构对于多跳问答而言必要吗?

笔记整理 | 陈卓&#xff0c;浙江大学计算机科学与技术系&#xff0c;博士研究生研究方向 | 知识图谱&#xff0c;图神经网络&#xff0c;多模态论文链接&#xff1a;https://www.aclweb.org/anthology/2020.emnlp-main.583.pdf发表会议&#xff1a;EMNLP 2020背景提要抽取式阅…

为什么每次有人大声通电话时,我就很烦躁...

文 | Chaos编 | 小戏不知你是否有过这样的体验&#xff0c;当你周围有人在大声讲电话时&#xff0c;你会不自觉的感觉到烦躁。为什么呢&#xff1f;有一种委婉的说法是因为你听到了不完整的对话。直白点说其实就是讲电话的人通过放大声音强行让你接收了他说的信息&#xff0c;但…

LeetCode 367. 有效的完全平方数(二分查找)

1. 题目 给定一个正整数 num&#xff0c;编写一个函数&#xff0c;如果 num 是一个完全平方数&#xff0c;则返回 True&#xff0c;否则返回 False。 说明&#xff1a;不要使用任何内置的库函数&#xff0c;如 sqrt。 示例 1&#xff1a; 输入&#xff1a;16 输出&#xff1…

美团点评联盟广告场景化定向排序机制

在美团点评的联盟广告投放系统&#xff08;DSP&#xff09;中&#xff0c;广告从召回到曝光的过程需要经历粗排、精排和竞价及反作弊等阶段。其中精排是使用CTR预估模型进行排序&#xff0c;由于召回的候选集合较多&#xff0c;出于工程性能上的考虑&#xff0c;不能一次性在精…

论文浅尝 - COLING2020 | 一种用于跨语言实体对齐的上下文对齐强化跨图谱注意力网络...

笔记整理 | 谭亦鸣&#xff0c;东南大学博士生来源&#xff1a;COLING 2020链接&#xff1a;https://www.aclweb.org/anthology/2020.coling-main.520.pdf本文发现&#xff0c;目前基于GCN的对齐方法都是分别考虑两个KG&#xff0c;然后分别学习它们的embedding&#xff0c;并认…

LeetCode 744. 寻找比目标字母大的最小字母(二分查找)

1. 题目 给定一个只包含小写字母的有序数组letters 和一个目标字母 target&#xff0c;寻找有序数组里面比目标字母大的最小字母。 数组里字母的顺序是循环的。举个例子&#xff0c;如果目标字母target ‘z’ 并且有序数组为 letters [‘a’, ‘b’]&#xff0c;则答案返回…