论文浅尝 - ICLR2020 | 具有通用视觉表示的神经机器翻译

论文笔记整理:柏超宇,东南大学在读硕士。


来源:ICLR2020 https://openreview.net/forum?id=Byl8hhNYPS

代码链接:https://github.com/cooelf/UVR-NMT

简介和动机

近年来,不少工作已经证明了视觉信息在机器翻译(NMT)这个任务上面是帮助的,但是这种模型存在着不少的限制,视觉信息仅仅用于小型的多模态数据集,而不能应用于大规模纯文本数据集上面,并且是制作训练集的成本较高,一幅图片要配上两种语言的平行句子对,当前多模态机器翻译模型无法充分利用视觉信息。

在这篇文章中作者提出了一种仅依靠在单语文本中将图像信息作为客观信息融入进来,而不是现有的依靠图像双语标注方法,从而突破了在NMT中使用视觉信息的瓶颈,并在多个数据集上取得了提升。

模型方法

模型先基于多模态数据集Multi30K制作了一个主题-图像查找表,在训练和解码的过程中,计算每个词的TF-IDF,从主题-图像查找表中检索出与源句子具有相似主题的一组图像。然后设计了一个简单的注意力层,将图像表示和原始源句表示融合在一起,作为对解码器的输入,以预测目标翻译。这种方法可以容易地应用到纯文本的NMT模型中,而无需标注大规模的双语并行语料库。

在获得主题-图像查找表后,模型可以对纯文本数据集进行翻译,对于输入进来的句子,模型仍然会执行上面相似的操作①去除句子中停用词②计算每个词的TF-IDF③取k个TF-IDF值最高的词④在主题-图片查询表中找到k个词对应的图片⑤取出出现次数最多的m张图片,这个图片集合可以和文本输入一起送入后续的网络,增强翻译的效果。

后面的任务可以看作是一个seq2seq模型,即将文本序列和图片序列进行编码融合,随后解码出另一种语言的序列。

在文本的encoder和decoder阶段作者使用了流行的Transformer模型,而在融合阶段有所创新使用了一个单层的attention来完成文本embeeding和图片特征向量之间的融合,将文本表示向量作为Q输入进了图片的attention层中。

由于机器翻译任务最终需要生成的是另一种语言的文本序列,图像只是起辅助作用,所以需要调整下两个模态信息的权重。最终得到的H向量即可送入解码器进行解码。

数据集和实验

我们在三个数据集上进行实验:WMT16 En-RO, WMT14 EN-DE和WMT14 EN-FR。这三个数据集大小从小到大增加,从而在不同大小的数据集上都能验证该方法。加上视觉特征后,翻译效果都有了不错的提升。更重要的是,由于视觉模块只加了一层的attention层,所以加上视觉特征后参数量没有显著增加,训练和推理的时间也不会长很多,

而在Multi30K这个多模态数据集上面,该模型也能取得不错的效果,比起传统的多模态方法在一些指标上面也能有所提升。

同时作者也对融合权重λ和每个句子配合的图片数量进行了研究,手动去设置权重的话是很难得到一个平衡两个模态信息的值,而像这个模型中采用了自动计算的方法所得到的结果始终优于手动设置的值。同时,为单个句子配上过多的图片也会让模型产生困惑,需要在保证信息充足的情况下减少噪声的引入。

这个工作突破了原有机器翻译依赖双语视觉标注的限制,能将训练好的模型应用在纯文本的数据集上并取得不错的效果。

模型没有过多的增加Transformer的复杂度,可能将中间的层换成VL-BERT这样的包含更多背景知识的模型会得到更好的效果。但肯定会大大提升模型复杂度。希望感兴趣的同学一起阅读原文。


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478747.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

知识图谱能否拯救NLP的未来?

文 | Luke知乎知识图谱是NLP的未来吗?2021年了,不少当年如日中天技术到今天早已无人问津,而知识图谱这个AI界的大IP最火的时候应该是18,19年,彼时上到头部大厂下到明星创业公司都在PR自己图谱NLP布局能够赋予AI认知能力…

论文浅尝 | Data Intelligence 已出版的知识图谱主题论文

本文转载自公众号:DI数据智能。 知识图谱被称为人工智能的基石,它的前身是语义网,由谷歌在2012年率先提出,用于改善自身的搜索业务。Data Intelligence执行…

一步步手动实现热修复(三)-Class文件的替换

*本篇文章已授权微信公众号 guolin_blog (郭霖)独家发布 本节课程主要分为3块: 1.一步步手动实现热修复(一)-dex文件的生成与加载2.一步步手动实现热修复(二)-类的加载机制简要介绍3.一步步手动实现热修复(三)-Class文件的替换 本节示例所…

Vision Transformer 论文解读

原文链接:https://blog.csdn.net/qq_16236875/article/details/108964948 扩展阅读:吸取CNN优点!LeViT:用于快速推理的视觉Transformer https://zhuanlan.zhihu.com/p/363647380 Abstract: Transformer 架构早已在自然语言处理…

长这么大,才知道数据集不用下载可以直接在线使用

每天清晨打开电脑,搜索所需的数据集,点击“Download”,愉快地眯上眼睛,期待n个小时后醒来乖巧下载好的数据,开始放进模型像小仓鼠进滚轮一样快乐奔跑。梦醒时分,一个“Error”蹦进眼睛里,美好码…

会议交流 - CCKS2020 | 2020年全国知识图谱与语义计算大会

OpenKG开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

LeetCode 739. 每日温度(单调栈)

1. 题目 根据每日 气温 列表,请重新生成一个列表,对应位置的输入是你需要再等待多久温度才会升高超过该日的天数。如果之后都不会升高,请在该位置用 0 来代替。 例如,给定一个列表 temperatures [73, 74, 75, 71, 69, 72, 76, …

令人振奋的好消息!2016年12月8日Google Developers中文网站发布!

令人振奋的好消息! 2016年12月8日Google Developers中文网站发布! 以往我们需要访问Android的开发网站、Google的开发网站都需要翻墙,苦不堪言。现在Google发布了中文网站,怎能不让人开心?! Android中文…

美团外卖Android Lint代码检查实践

概述 Lint是Google提供的Android静态代码检查工具,可以扫描并发现代码中潜在的问题,提醒开发人员及早修正,提高代码质量。除了Android原生提供的几百个Lint规则,还可以开发自定义Lint规则以满足实际需要。 为什么要使用Lint 在美团…

这篇论文提出了一个文本-知识图谱的格式转换器...

文 | 花小花PosyHello, 大家好,我是小花。今天给大家介绍一篇有野心的paper。为何如此说呢?因为该工作提出了一个知识的格式转换器,用于转换 无结构化的纯文本(Text)和结构化的知识图谱(KG) 。换句话说,给模型一打句子&#xff0c…

论文小综 | Using External Knowledge on VQA

本文转载自公众号:浙大KG。本文作者:陈卓,浙江大学在读博士,主要研究方向为图神经网络和知识图谱表示学习我们生活在一个多模态的世界中。视觉的捕捉与理解,知识的学习与感知,语言的交流与表达,…

如何修改TextView链接点击实现(包含链接生成与点击原理分析)

*这篇文章的主要目的是想要大家学习如何了解实现,修改实现,以达到举一反三,自行解决问题的目的。 某天遇到这么一个需求:在TextView中的文本链接要支持跳转,嗯,这个好办,TextView本身是支持的&…

LeetCode 752. 打开转盘锁(图的BFS最短路径)

1. 题目 你有一个带有四个圆形拨轮的转盘锁。每个拨轮都有10个数字: ‘0’, ‘1’, ‘2’, ‘3’, ‘4’, ‘5’, ‘6’, ‘7’, ‘8’, ‘9’ 。每个拨轮可以自由旋转:例如把 ‘9’ 变为 ‘0’,‘0’ 变为 ‘9’ 。每次旋转都只能旋转一个拨…

使用TensorFlow训练WDL模型性能问题定位与调优

简介 TensorFlow是Google研发的第二代人工智能学习系统,能够处理多种深度学习算法模型,以功能强大和高可扩展性而著称。TensorFlow完全开源,所以很多公司都在使用,但是美团点评在使用分布式TensorFlow训练WDL模型时,发…

会议交流 - CNCC 技术论坛 | NLP中知识和数据怎么选?当然是全都要!——第四届中文信息技术发展战略研讨会...

本文转载自公众号:中国计算机学会 。本论坛将于CNCC2020期间,10月23日下午16:00-18:00,在北京新世纪日航饭店3层南京厅举行。本论坛将邀请多位来自国内著名高校和人工智能企业的知名自然语言处理专家介绍他们在知识图谱、知识获取、预训练模型…

从我开发过的Tensorflow、飞桨、无量框架看深度学习这几年

文 | Peter潘欣知乎和深度学习框架打交道已有多年时间。从Google的TensorFlow, 到百度的PaddlePaddle,再到现在腾讯的无量。很庆幸在AI技术爆发的这些年横跨中美几家公司,站在一个比较好的视角看着世界发生巨大的变化。在这些经历中,视角在不…

探索Glide对Gif图片资源的获取、解析过程

先预祝大家汤圆节快乐!很久没写博客了。今天我们来探索一下Glide是如何支持Gif图片加载的。 本篇博客的目的 了解代码分析的基本思路与方法了解Glide是如何对Gif图片进行支持的 探索背景 为什么会有这么一个想法呢,一来一直对Glide是知其名而不知其所…

美团“猜你喜欢”深度学习排序模型实践

引言 推荐作为解决信息过载和挖掘用户潜在需求的技术手段,在美团点评这样业务丰富的生活服务电子商务平台,发挥着重要的作用。在美团App里,首页的“猜你喜欢”、运营区、酒店旅游推荐等重要的业务场景,都是推荐的用武之地。 目前&…

如何关闭docker容器里的进程

如何关闭docker容器里的进程 1、使用docker exec 容器名 ps -ef命令查看进程信息 示例: 创建名为"redis"的容器,并在容器内部和宿主机中查看容器中的进程信息: 2、然后进入该容器中,执行如下命令即可停掉进程&…

论文浅尝 | 一日看尽长安花--NLP可解释研究梳理

本文是对TACL2019《Analysis Methods in Neural Language Processing: A Survey》的翻译和整理。本文转载自知乎,文章链接:https://zhuanlan.zhihu.com/p/265815975导读NLP领域发展迅猛,其模型分析方法也正逐渐火热。为什么要研究NLP的可解释…