卡耐基梅隆大学提出新型「自适应」技术,可提高「个性化神经机器翻译」质量...

640?wx_fmt=jpeg原文来源:arXiv

作者:Paul Michel、Graham Neubig

「雷克世界」编译:嗯~是阿童木呀

导语:现如今,随着人工智能的发展,机器翻译在一定程度上取得了很大的进展,但是大家都知道,语言的产生取决于演讲者或作者,它可能会反映诸如工作、性别、角色、方言等个人特征,也可能涉及诸如技术、法律、宗教等将要谈及的话题。而对于当前的神经机器翻译(Neural Machine Translation,NMT)系统来说,其中不包含关于演讲者的任何明确信息,从而这迫使模型隐式地学习这些特征。最近,美国卡耐基梅隆大学(Carnegie Mellon University)的Paul Michel和Graham Neubig教授提出了一种新型的自适应技术,能够显著提高神经机器翻译的精确度,并能够在目标文本中更好地反映演讲者的特征,从而实现“个性化神经机器翻译”。


在世界上,可以说每个人都会说或会写自己的母语,但受很多因素的影响,他们所倾向于谈论的内容大多是有关他们的性别、社会地位或地理来源。当试图执行机器翻译(Machine TranslationMT)的时候,这些变化对系统应该如何执行翻译有着重大影响,但是这并不能被标准的“一体适用”(one-size-fits-all)模型很好地捕捉到。在本文中,我们提出了一种简单且参数有效的自适应技术,它只需要直接或通过因式近似(factored approximation)来将输出softmax的偏差适应于MT系统的每个特定用户。用三种语言进行TED演讲的实验结果表明了翻译精确度的提高,并能够在目标文本中更好地反映演讲者的特征。


一般来说,语言的产生取决于演讲者或作者,它是否反映了个人特征(例如工作、性别、角色、方言)或倾向于讨论的话题(例如技术、法律、宗教)。当前的神经机器翻译(Neural Machine Translation,NMT)系统不包含关于演讲者的任何明确信息,而这迫使模型隐式地学习这些特征。这是一种用于捕捉个人间差异的相对来说比较困难和间接的方式,在某些情况下,如果没有外部上下文,这是不可能实现的(见表1,Mirkin等人于2015年提出)。


640?wx_fmt=png

表1:样本展示,其中演讲者的信息会影响英语-法语的翻译


在最近的一些研究中包含了关于作者的个人信息,如个性(Mirkin等人于2015年提出)、性别(Rabinovich等人于2017年提出)或礼貌文雅性(Sennrich等人于2016年提出),但这些方法只能处理哪些特征具有明确标签的现象。我们的研究调查了我们该如何有效地对与说话者相关的变化进行建模以改进NMT模型的性能表现。


特别地,考虑到对于任何特定的演讲者来说都只提供少量的训练样本,所以我们有意向对我们的NMT系统加以改进。我们提议将这个任务作为一个域自适应问题加以处理,其中,里面包含了大量的域,而每个域中拥有非常少量的数据,在这样的环境中,我们可以期望域自适应的传统方法能够将所有模型参数调整为次优。我们所提出的解决方案涉及将演讲者的特定变化建模为softmax层中的附加偏差向量,在其中,我们可以直接学习这种偏差,或者通过一个将每个用户视为几个原型偏向量混合的因式分解模型来进行学习偏差。


640?wx_fmt=png

图1:我们针对softmax层的不同自适应模型的图形表示 从上到下依次为:基本softmax、完全偏差softmax、事实偏差softmax


为了更好地进行实验,我们构建了一个新的带有演讲者注释的TED演讲数据集(SATED),用以对我们所提出的方法加以验证。自适应实验结果表明,将演讲者信息明确地纳入到模型中可以提高翻译质量和演讲者特征的精确度。


可以这样说,用于MT的域自适应技术通常依赖于数据选择(Moore和Lewis于2010年、Li等人于2010年、Chen等人于2017年、Wang等人于2017年提出)、调优(Luong和Manning于2015年、Miceli Barone等人于2017年提出),或者将域名标签添加到NMT输入中(Chu等人于2017年提出)。除此之外,还有一些方法可以对测试集中每个句子的模型参数进行微调(Li等人于2016年提出),以及对根据人类后期编辑进行自适应的方法(Turchi等人于2017年提出)。尽管这些方法遵循我们的基线自适应策略来调整所有参数。对于迁移学习,也有部分更新方法,尽管语言对之间的迁移任务非常不同(Zoph等人于2016年提出)。


640?wx_fmt=png

图2:我们连续的n-gram模型的演讲者分类精确度。


Mima等人(于1997年进行)的开创性研究引入了多种方法以便将各种关于演讲者角色、等级、性别和对话域的信息整合到基于规则的MT系统中。在数据驱动系统的上下文中,以往的研究将特定的特征(如礼貌文雅性或性别)视为域自适应模型中的“域”,并应用了自适应技术,例如在温和的礼貌中加入“礼貌标签”(Sennrich等人于2016年提出),或者做数据选择以创建用于训练的性别特定语料库(Rabinovich等人于2017年提出)。可以说,上述方法与我们的方法大有不同,不同之处在于它们需要明确的信号(性别、礼貌等等),它们需要标记(手动或自动),并且还要处理有限数量的“域”(≈2),而我们的方法需要对演讲者进行注释,并且必须将其扩展到更多的“域”中(≈1,800)。


在本文中,我们已经解释并激发了在NMT系统中对演讲者进行明确建模的挑战,然后提出了两个模型以参数有效的方式来实现这一点。我们把这个问题作为一种极端的域自适应形式,并且表明,即使在自适应一小部分参数(softmax偏差,小于所有参数的0.1%)时,也能够使得该模型通过翻译更好地反映个人语言的变化。


我们通过进一步的实验结果表明,特定于任何人的参数数量可以减少到10个,而仍然能够保留比某些语言对的基线更好的分数,从而使其在具有潜在数百万不同用户的实际应用中加以应用。


相关代码资源


该存储库包含《用于个性化神经机器翻译的极端自适应技术》论文中所涉及的相关代码。


数据


本文中所使用的数据是SATED数据集,可点击链接查看。


此外,论文中所涉及的附加实验是在来自于论文《个性化机器翻译:保留原作者特征》中性别注释的europarl语料库,可点击链接查看。


你可以通过运行下面的代码下载所有数据:


# SATED

wget http://www.cs.cmu.edu/~pmichel1/hosting/sated-release-0.9.0.tar.gz

tar xvzf sated-release-0.9.0.tar.gz

# Europarl

https://www.kaggle.com/ellarabi/europarl-annotated-for-speaker-gender-and-age/downloads/europarl-annotated-for-speaker-gender-and-age.zip

unzip europarl-annotated-for-speaker-gender-and-age.zip


要求


该项目是用Dynet进行编码的。它应该用的是2.0.3版本,你可以通过运行下面的代码安装该版本:


pip install dynet==2.0.3


原文链接:https://arxiv.org/pdf/1805.01817.pdf


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/495599.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

小甲鱼 OllyDbg 教程系列 (九) :Delphi 程序逆向特点

小甲鱼 OllyDBG 使用教程:https://www.bilibili.com/video/av30969642?p16 OD 实验(十二) - 对一个 Delphi 程序的逆向:https://www.cnblogs.com/sch01ar/p/9678256.html 程序下载地址:https://pan.baidu.com/s/1Gb97C6HBNlmph7MbGrN_SQ …

基于系统科学理论的认知科学研究进展

来源:人机与认知实验室摘要: 系统科学的一个未曾言明的假设是,一切事物都是以系统方式存在和运行的,都可以用系统观点来认识,一切问题都需要用系统方式来处理。关于认知的一系列问题也不例外。一、研究背景及方法2000年…

小甲鱼 OllyDbg 教程系列 (十) : Windows 逆向常用 api 以及 XOFTSPY 逆向

小甲鱼 OllyDbg 视频教程 尝试 1 : https://www.bilibili.com/video/av6889190?p17 尝试 2 : https://www.bilibili.com/video/av6889190?p18 小甲鱼OD学习第13-14讲:https://www.bbsmax.com/A/QV5ZL1gZzy/ 逆向常用 api &am…

小甲鱼 OllyDbg 教程系列 (十一) : inline patch ( 内嵌补丁 )

小甲鱼 OllyDbg 视频教程:https://www.bilibili.com/video/av6889190?p19 程序下载地址:https://pan.baidu.com/s/1u6SWgx83VWDwitNzxT2OXg 提取码:if41 PEiD 查壳工具:https://pan.baidu.com/s/1iNS4UlBvmXCxaj5a-AFupw …

5 年提速 500 倍,英伟达 GPU 创纪录突破与技术有哪些?

作者:诗颖摘要:日前,英伟达 Developer Blog 上一篇博文详细陈述了英伟达 Volta Tensor Core GPU 在深度学习社群取得的巨大突破,以及种种突破背后的技术细节。2017 年 5 月,在 GTC 2017 上,英伟达 CEO 黄仁…

【译】Lesson 1: 一个三角形和一个方块

【声明】:本系列文章译自:http://learningwebgl.com/blog/?page_id1217, 感谢Giles Thomas;限于我的英文水平,本文翻译并不一定严格遵从原文,但也不会严重背离原文(如果有,请务必知…

小甲鱼 OllyDbg 教程系列 (三) :PJ 软件功能限制

小甲鱼OllyDbg教程:https://www.bilibili.com/video/av6889190?p8 https://www.freebuf.com/articles/system/87723.html 程序下载地址:https://pan.baidu.com/s/1OprawMSCXPZw1wuY5vxMmA 提取码: tp9e 无壳的实例 目标:去除软件功能限制…

特朗普即将主持AI会议 中美竞争成焦点

来源:华尔街见闻摘要:特朗普将用一整天在白宫主持他当选以来的第三次科技大会,这次的主题是人工智能(AI)。特朗普都将和硅谷巨头们探讨AI相关话题。其中,对AI技术的监管以及中美之间的AI竞争将会是会议的焦…

Fedora 10初体验

一、前奏 Fedora 10 - 熄灭吧 Fedora 是基于 Linux 的操作细碎,包罗了从容和开源软件最新的效果。Fedora 准许通通人从容操纵、修正和重新宣布。它由普及举世的贡献者协作开发,他们组成了 Fedora 项目社区。Fedora 项目对通通人都是开放的。 Fedora 项目…

DeepMind重大突破:AI进化出大脑级导航能力,像动物一样会“抄小路”

作者:刘伟摘要:DeepMind团队称,其最新研发出的一个人工智能程序具有类似哺乳动物一样的寻路能力。美国东部时间 5 月 9 日,一手打造 AlphaGo的DeepMind 团队又在世界顶级学术杂志《自然》上发表了一项重磅成果。在一篇题为 Vector…

小甲鱼 OllyDbg 教程系列 (十二) : inline patch ( 内嵌补丁 ) 之 调用堆栈查找法

小甲鱼 OD 教程:https://www.bilibili.com/video/av6889190?p20 堆栈调用方法 程序运行后,直接断点到 004DC0D1 这个 位置,按 F8一直没反应,打开程序,可以看到 neg 窗口, 点击 exit ,关闭 neg …

Solaris 11 安装图解(8)

豆豆网 技能应用频道 图 13 完成安装界面 完成安装之后,安装日记会保留在文件中。可在以下地位检查安装日记:■ /a/var/sadm/system/logs/install_log■ /a/var/sadm/system/logs/upgrade_log■ /a/var/sadm/system/logs/sysidtool.log三、 系统登录…

CPU是如何制造出来的

来源:EDN电子技术设计摘要:Intelx86架构已经经历了二十多个年头,而x86架构的CPU对我们大多数人的工作、生活影响颇为深远。CPU是现代计算机的核心部件,又称为“微处理器”。对于PC而言,CPU的规格与频率常常被用来作为衡…

解析:GE工业互联网平台Predix

来源:赛迪智库摘要:当前,工业互联网平台作为我国构建工业互联网生态的核心载体,成为推动制造业与互联网融合的重要抓手。早在2012年GE提出工业互联网的概念,随后推出Predix,要将GE在工业领域的技术设备硬件…

小甲鱼 OllyDbg 教程系列 (十三) : 把代码和变量注入程序 以及 硬件断点

小甲鱼 OllyDbg 视频教程:https://www.bilibili.com/video/av6889190?p21 程序下载地址:https://pan.baidu.com/s/1A4-BDgbdUgy-cmI4IMMzYw 提取码:jsdv 开始,按照惯例,首先用 PEiD 打开,看下是什么语…

小甲鱼 OllyDbg 教程系列 (十四) : 模态对话框 和 非模态对话框 之 URlegal 和 movgear

小甲鱼 OD 使用教程:https://www.bilibili.com/video/av6889190?p22 exeScope 下载:https://pan.baidu.com/s/1dSWapltdQsX9ttl_lSoq_g 提取码:yz2p URlegal 下载:https://pan.baidu.com/s/1Ljbvsnk_1Ps0e-cp7a1F9A 提取码…

Swiftfox:极速的冲浪体验

Toy Posted in Apps将 Firefox 针对特定的处置惩罚器进行优化之后,便成了 Swiftfox。行使 Swiftfox,无论是启动次第本人,还是阅读网站内容,都能让你觉取得一股强烈的极速之风。更爽的是,你之前所用的 Firefox 设置、主…

小甲鱼 OllyDbg 教程系列 (十五) : 逆向注册机简单算法

小甲鱼 OD 教程: https://www.bilibili.com/video/av6889190?p24 KeygenMe 下载地址:https://pan.baidu.com/s/1gXAscM3WCNpIqxIm5t1rrQ 提取码:z5in 前言 用 OD 打开程序 输入框 常用 API,当不知道是哪个时,可…

以大自然为师,可上天入地的11款仿生机器人

来源:资本实验室尽管人类已经借助科技的力量改造了世界,但许多技能仍然为人类所不拥有,很多恶劣的环境仍然是人类的禁区。而经过大自然的“公平选择”,使得某些生物具有我们所不具备的独特“技能”“,也适合在人类难以…

深度分析:区块链技术未来发展的 8 个趋势

来源:36氪CB Insigh日前发表了一份关于区块链技术的研究报告,结合区块链目前的发展现状,提出了区块链技术未来发展的8个趋势。虽然加密货币和加密资产的价格已从2017年的峰值回落,但区块链创业公司的股权投资,在2018年…