Facebook最新对抗学习研究:无需「平行语料库」完成「无监督」机器翻译

来源:雷克世界

编译:嗯~阿童木呀、多啦A亮

概要:得益于最近在深度学习方面取得的进展以及大规模平行语料库的可用性,现如今,机器翻译已经在多个语言对上取得了令人印象深刻的表现。


相信大家都知道,最近在机器翻译领域取得了令人印象深刻的成果,而这主要归功于最近在深度学习方面所取得巨大进步,以及大规模平行语料库(large-scale parallel corpora)的可用性。我们已经进行过无数次尝试,试图将这些成功扩展到低资源语言对,但这需要数以万计的并行句子。在这项研究中,我们把这个研究方向做到了极致,并研究了在没有任何平行数据的情况下,是否有可能学习翻译?我们提出构建一种模型,它用两种不同的语言从单语语料库(monolingual corpora)中提取句子,然后将它们映射到相同的潜在空间中。通过学习从这个共享的特征空间中以两种语言进行重构,该模型有效地学习了在不使用任何标记数据的情况下进行翻译。我们在两个广泛使用的数据集和两个语言对上对模型进行演示,结果显示,BLEU分数高达32.8,而在在训练期间甚至没有使用一个平行句。


得益于最近在深度学习方面取得的进展以及大规模平行语料库的可用性,现如今,机器翻译已经在多个语言对上取得了令人印象深刻的表现。然而,这些模型只有在提供大量的并行数据,即大约数百万个并行句子的情况下,才能很好地运行。不幸的是,并行语料库的构建成本是非常高的,因为这需要专门的专业知识,而且通常对于低资源语言来说是不可能的。相反,单语数据更容易找得到,而且许多具有有限并行数据的语言仍然拥有大量的单语数据。



在半监督环境中,我们已经进行了多次尝试,试图利用单语数据来提高机器翻译系统的质量。最值得注意的是,Sennrich 等人于2015年提出了一个非常高效的数据增强方案,我们称之为“回译(back-translation)”,即从目标语言到源语言的辅助翻译系统首先在可用的并行数据上进行训练,然后用于从大的目标端的单语语料库中生成翻译。然后将这些翻译的组成对以及与其相对应的参考目标(ground truth targets)用作原始翻译系统的附加训练数据。


另一种在目标端使用单语数据的方式是用语言模型来增强解码器(Gulcehre等人于2015年提出)。最后,Cheng等人(于2016年)、He等人(于2016年)提出在单语数据上增加一个辅助自动编码任务,这样就可以保证翻译后的句子可以再次被回翻成原文。但是,所有这些研究依然依赖于数万个平行的句子。


之前关于零资源(zero-resource)机器翻译的研究也依赖于标记信息,它们不是来自于那些有用的语言对,而是其他相关的语言对(Firat等人于2016年、Johnson等人于2016年、Chen等人于2017年提出)或其他形式的语言对(Nakayama 和 Nishida于2017年、Lee等人于2017年提出)。唯一的例外就是Ravi和Knight(于2011年)、 Pourdamghani和Knight(于2017年)所进行的研究,他们将机器翻译问题简化为解密问题。不幸的是,他们的方法局限性在于只适用于相当短的句子,而且它只是在一个非常简单的环境中得以证明的,包括那些最常见的短句子或者是非常接近的语言中。

 

图1:原理简笔图,用以指导我们设计目标函数。左(自动编码):模型被训练,以便基于其噪声版本重建一个句子。其中,x是目标,C(x)是噪声输入,x^是重建。右(翻译):模型被训练用以翻译另一个领域的句子。其中输入是在前一次迭代(t),y = M(t)(x)处由模型本身M产生的噪声翻译(在这种情况下,翻译顺序为从源到目标(from source-to-target))。该模型是对称的,我们在其他语言中将重复相同的过程。


在本文中,我们研究是否可以训练一个通用的机器翻译系统,而不需要任何形式的监督。我们所做的唯一假设是每种语言都存在一个单语语料库。这个假设有两个有趣的原因。 首先,当我们遇到一个我们没有注释的新语言对,就可以使用它。其次,它对任何好的半监督方法预期会产生一个强大的下界表现。

 

关键点是在两种语言(或领域)之间建立一个共同的潜在空间,并根据两个原则通过在两个领域进行重构来学习翻译:(1)模型必须能够从噪声版本中以给定的语言重构句子,如在标准去噪自动编码器中。(2)该模型还学习了在目标域中对同一句子进行有噪的翻译时重构任何源语句,反之亦然。对于(2),翻译的句子通过使用回译程序获得,即通过使用学习模型将源句子翻译成目标域来获得翻译后的句子。除了这些重构目标之外,我们还使用对抗正则化术语将源句子和目标句子的潜在表示限制为相同的分布,由此模型试图欺骗鉴别器,该鉴别器被同时训练以识别给定的潜在句子表示的语言。然后迭代地重复这个过程,从而产生高质量的翻译模型。为了保持我们的方法完全无监督,我们初始化我们的算法,通过使用一个基于从同一单语数据衍生出双语词汇的句子逐字翻译的无监督翻译模型。

 

虽然无法与使用大量并行资源的有监督方法进行竞争,但我们在第4部分中展示了我们的模型能够实现卓越的性能。例如,在WMT数据集上,在对100000对句子进行完全监督的机器翻译系统中,我们可以达到同样的翻译质量。在Multi30K-Task1数据集中,我们在所有语言对上实现了22以上的BLEU值,英翻法BLEU值达到32.76。

 

接下来,在第2部分中,我们将描述模型和训练算法。然后我们在第四部分给出实验结果。最后,我们在第五部分进一步讨论相关工作,并在第六部分总结我们的发现。

 

结论


我们提出了一种新的神经机器翻译方法,其中翻译模型仅使用单语言数据集学习,句子或文档之间没有任何对齐。这个方法的原理是从一个简单的无监督逐字翻译模型开始,并基于重构损失迭代地改进这个模型,并且使用鉴别器来对齐源语言和目标语言的潜在分布。我们的实验表明,我们的方法能够在没有任何监督的情况下学习有效的翻译模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/498301.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux的软件很大,linux软件raid10,机器相同,结果差异很大

我在两台相同的机器上拥有完全不同的软件raid10性能和行为.我有两台硬件相同的机器,同时购买,具有相同的软件版本,硬件版本和固件版本.每个都有一个带有8 x 6 Gb / s通道的SAS控制器连接到SAS机箱,该机箱可容纳12个SAS磁盘.在机器1上,它是稳定的并且似乎工作正常,raid阵列中的每…

结合脑成像技术与人工智能,破除自杀的“诅咒”

来源:36氪 概要:近日发表的一项研究,介绍了一种通过人工智能与脑成像技术结合的方法来预测自杀倾向的方法。在初步的试验中,准确率达到了91%。 自杀已经成为了一个公共健康领域的“诅咒”,正在夺取越来越多的生命。在很…

Linux软件安装部署文档,MetaQ安装部署文档

一.MetaQ安装部署情况:地点IPBroker IDMaster/SlaveSlave ID:Group合肥192.168.52.231Slave1:meta-slave-group-hf北京192.168.51.331Master/广州192.168.70.1571Slave2:meta-slave-group-gz二.MetaQ安装1. 前提已有安装了ZooKeeper的机器&am…

美媒:中关村取代硅谷获评全球最大科技中心

来源:澎湃 概要:北京被评为2017年度全球最大科技城市第一名,中关村已取代硅谷成为全球最大的科技中心。 美媒称,一份最新报告显示,北京被评为2017年度全球最大科技城市第一名,中关村已取代硅谷成为全球最大…

linux 和服务通讯,Android 的Activity和Service之间的通信

在Android中Activity负责前台界面展示,service负责后台的需要长期运行的任务。Activity和Service之间的通信主要由IBinder负责。在需要和Service通信的Activity中实现ServiceConnection接口,并且实现其中的onServiceConnected和onServiceDisconnected方法…

【MLA首日报告摘要】周志华、马毅等教授分享机器学习最新进展

来源:专知 概要:第15届中国机器学习及其应用研讨会今天11月4日在北京交通大学举行,海内外从事机器学习及相关领域研究的10余位专家与会进行学术交流。 第15届中国机器学习及其应用研讨会今天11月4日在北京交通大学举行,海内外从事…

linux汇编字符长怎么看,linux – 在内联GNU汇编程序中获取字符串长...

使用GCC的内联asm来学习汇编的问题在于你花了一半的时间来学习gcc的内联汇编是如何工作的,而不是实际学习汇编.例如,这是我如何编写相同的代码:#include int getStringLength(const char *pStr){int len;__asm__ ("repne scasb""not %%ecx"&quo…

埃森哲5G智慧城市报告:美国GDP将狂增5千亿

来源:智东西 概要:第五代通信技术将不仅仅带来网速的提高(eMBB),更意味着可靠的低延时(uRLLC)海量物联网(mMTC)。 5G被认为是万物互联的开始。第五代通信技术将不仅仅带来…

linux 信号发生器,用STM32实现函数信号发生器

自己慢慢看,,,,[mw_shl_codec,true]#ifndef __BSP_WAVEMAKER_H#define __BSP_WAVEMAKER_H#include "stm32f10x.h"#define DAC_DHR12RD_Address 0x40007420#define DAC_DHR8R1_Address 0x40007410#define DAC_DHR12R1_Ad…

星际旅行、返老还童…1.3万字看完今年的WE大会,简直就是一部科幻电影

来源:腾讯科技 概要:在第五届WE大会上,科学家们的“脑洞”更大了:星际旅行、返老还童等一个个过去科幻电影里的镜头出现了。 11月5日,WE大会在老时间、老地点如约而至。 时光飞速,WE大会如今已经是第五届了…

gdp笔记本 linux,linux中如何使用微软鼠标的第4、5键

虽说使用的人大都对微软没什么好感,但不能否认微软确实也出了不少好东西呀,比如微软鼠标(IE系列) icon_smile.gif IE2.0和以上版本都有5个按钮,除了正常的左中右外,两侧还各有一个,在windows中可用来支持浏览器的前进/…

智能优化算法应用:基于战争策略算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于战争策略算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于战争策略算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.战争策略算法4.实验参数设定5.算法结果6.…

从芯片巨头沦落到收购对象 高通是怎样失去魔力的?

来源:凤凰科技 概要:过去5年,高通股价几乎是原地踏步,而其他科技公司的股价却一直在快速上涨。 据《福布斯》北京时间11月6日报道,在华尔街,高通已经失去昔日魔力。过去5年,高通股价几乎是原地踏…

zynq linux网口不通,已解决: ZYNQ 7035以太网口无法连通 - Community Forums

网口使用emio连接mii phy芯片,lwIP Echo Server测试例子可以运行,u-boot,linux无法连ping通,能识别到芯片;我该如何配置u-boot与内核?关键打印信息:U-Boot 2019.01 (May 20 2020 - 05:49:03 000…

2017年中国人工智能产业专题研究报告(完整版)

来源:数据观 概要:目前,中国的人工智能研究处于爆发期,行业巨头公司正逐渐完善自身在人工智能的产业链布局,而不断涌现出的创业公司将持续在垂直领域深耕深挖。 目前,中国的人工智能研究处于爆发期&#x…

C语言的广泛作用的论文,关于c语言论文模板

该频道包含关于c语言论文模板和c语言的范例,免费为你学习关于c语言的论文提供相关参考文献资料。摘要:在一套试卷中,重复题问题是影响考试质量的一个重要因素。该文针對C语言试卷中选择题间易出现重复题问题进行深入研究 通过对代码相似性检测以及文。摘…

周志华:最新实验表明gcForest已经是最好的非深度神经网络方法

北京时间 11月5 日到11月6日,西瓜书《机器学习》作者、南京大学机器学习与数据挖掘研究所(LAMDA)周志华教授日前在MLA 2017上的演讲:深度森林初探——讲述的关于他最新集成学习研究成果-深度森林,一种对深度神经网络可…

C语言答案写成科学记数法,c语言科学记数法_C语言中、科学计数法123456e+002具体代表什么意思、或者说怎么理解这个数_淘题吧...

『壹』 c语言用double写了一个表示科学计数法的程序,但是却读不出来30位以上的数,怎么办double 是抄64 位(8字节),52 位代表有袭效数位,11 位表示指数,一位表示符号,精度(有效数位)十进制的 16 位。int64 的…

中国工程程院院士高文:从大数据科学到人工智能的迁移过程

概要:中国工程程院院士、北京大学教授高文应邀参加JDD京东金融全球数据探索者大会,并进行了以“探索大数据,迎接人工智能时代”为主题的演讲。 来源:亿欧 11月6日,京东举行JDD京东金融全球数据探索者大会,在…

男人女人小孩共32人c语言,C编程核心要点,你确信你会C语言?看完之后,男人沉默,女人流泪...

引言笔者有十余年的C开发经验,相比而言,我的C经验只有一两年,C比较简单,简单到《The C Programming Language》(C程序设计语言)只有区区的200多页,相比上千页的C大部头,不得不说真的很人性化了。C是古典艺术…