两个分布的特征映射_跨语言分布表示学习方法概述

分布表示(distributed representation)与深度神经网络(deep neural network)极大地推动了近几年自然语言处理研究的发展。我们知道,分布表示指的是对于一个客观描述对象的低维、稠密、连续向量表示。不同于符号表示(symbolic representation),分布表示可以自然地联结表现形式不同但语义空间相同(或相似)的对象,比如不同模态数据(图像、文本、语音)以及不同语言的数据等。近年来,很多研究致力于跨语言分布表示学习,即:将不同语言的词语嵌入至一个统一的向量空间之内,使得语义相似(单语及跨语言)的词在该向量空间内距离接近,如图1所示。跨语言分布表示为不同语言的数据资源之间建立了一座桥梁,为跨语言的迁移学习提供了一种有效的途径,进而为很多跨语言应用(比如对于资源稀缺语言的文本分类、句法分析,以及机器翻译等)带来显著的推动作用。

900550c899bdee9c25ac3b1f56c3936f.png

Figure 1: 跨语言词汇分布表示(三维空间下的示意)

本文首先描述典型的跨语言分布表示学习方法,再简单介绍其应用场景。

1 跨语言分布表示学习

根据学习方式的不同,可以将现有的跨语言分布表示学习分为两类,分别是:1. 基于线下处理的方法;2. 基于联合学习的方法。接下来我们对这两类方法中较为典型的模型进行介绍。

1.1 线下处理方法

线下处理方法的基本思路是先独立学习各个语言的词汇分布表示,然后对两者进行对齐。Mikolov等发现,使用word2vec学习得到的不同语言的分布表示之间存在一定程度上的线性映射关系(类似于同种语言下的word analogy性质)(见图2), 于是提出“翻译矩阵”学习的方法来实现跨语言分布表示的映射 (Mikolov et al., 2013)。

6663734a867e77fc4c5cb7a0cd8f41e6.png

Figure 2: 英语与法语词表示示例(数字、动物)

具体地,给定一个翻译词对的集合

b3becad189a4d5f0b3d432df33dc0797.png

(即双语词典,其中i为源语言中第i个词,zi为目标语言中与xi互为翻译的词),D中词对所对应的分布表示矩阵分别记为

b3ef340e804f63194559b017d639a17b.png

以及

1e499ef3ead9ca455e65be782dc485d9.png

作者假设存在一个从源语言到目标语言的线性映射矩阵W,使得平方误差最小:

928368f411d0942f666a6dd0ce0aaee4.png

再将w应用于整个源语言词表进行跨语言映射。这种方法也能够很自然地扩展到多语言(≥ 2)的情形。

另外一种方法是典型关联分析(CCA)。CCA是一种度量两个多维变量之间线性相关性的统计分析方法。对于两个多维变量,CCA寻找两个映射矩阵,将原始的变量分别映射至新的子空间(一般情况下维度更低),使得两个变量之间的相关性最大。如果把两种语言的词表示看作是两个多维变量,则可利用CCA对这两种语言的词表示矩阵进行变换 (Faruqui and Dyer, 2014)。我们仍然考虑双语词典D,并将词表示矩阵记为

cd3878b2b7937e4c9bdf734cf4147c04.png

,CCA优化以下目标:

1e9051f75f7487fd72cce65f40bd94cb.png

Corr表 示 相 关 系 数 。W与V 则 可 用 于 对 两 种 语 言 的 词 表 示 矩 阵 进 行 映 射 。 可见,CCA仍然隐含了线性变换的前提假设。然而,由于语言的复杂性,线性变换对于词表示向量之间的映射关系刻画得并不理想,鉴于此,Lu等人提出深度典型关联分析(Deep CCA),先对原始词向量进行多层非线性变换,再使用CCA处理 (Lu et al.,2015)。

事实上,一种更为简单有效的方法是根据词对齐直接进行跨语言映射。首先,我们从双语平行数据中统计出词对齐矩阵(矩阵元素为对齐次数,需要作归一化处理),再根据该矩阵对源语言词表示矩阵进行变换,如图3所示。

d632d76f510d981a0dbee7fb8c3087bc.png

Figure 3: 跨语言映射方法

我们发表在ACL 2015的工作中对该方法进行了改进,增加了一步单语传播的过程,以缓解目标语言中OOV的问题 (Guo et al., 2015)。该方法可解释性较强,并且在跨语言依存句法分析任务上取得了最好的性能。

1.2 联合学习方法

联合学习方法的目标是同时学习多语言的词语分布表示。Klementiev等人最早提出基于多任务学习(Multi-task Learning)来同时更新不同语言的词语分布表示矩阵 (Klementiev et al., 2012)。以英文-法文为例,该方法首先从英-法双语平行数据中根据词对齐信息获得双语词汇相似度矩阵(对齐频率)。分布表示的学习仍然依赖单语数据下的神经网络语言模型,每当计算英语中

532a4a2df3e39f56ac341267a2e506ee.png

的梯度时,都会根据相似度矩阵为相应法语词赋予梯度(根据相似度进行加权),从而达到联合学习的目的。该方法可以视为上述跨语言映射方法的联合学习版本。

Zou等人则借鉴前文所述“翻译矩阵”的思想,将双语词汇相似度矩阵作为跨语言映射矩阵,而以相应的平方误差损失作为单语分布表示学习目标的正则项 (Zou et al.,2013)。另一个比较独特的思路是使用跨语言AutoEncoder (Chandar A P et al., 2014),也称相关性网络(Correlational Neural Network)。该方法将AutoEncoder的重构思想应用于双语平行数据之间的语义重构,基本思路是将一种语言的句子表示(bag-of-words)作为输入,期望重构出另一种语言的句子表示。对应的AutoEncoder权值矩阵则为所学到的跨语言分布表示。

受跨语言AutoEncoder所启发,我们还可以通过最小化双语平行数据中句对表示之间的距离,来学习跨语言分布表示。在词分布表示的基础之上通过语义组合(semantic composition)得到句子表示的方法有很多,为了保证分布表示学习的效率,一般使用较为简单的语义组合模型。 Hermann与Blunsom提出双语组合语义向量模型(BiCVM),考虑了两种基本的语义组合方式,分别是ADD模型:

69b5c890815c96909d8602fd283fe0b2.png

与BI模型:

531d923e5cb591c993f162cdd77b3d23.png

(考虑Bigram信息)。

8174c551da8a1237458d76138c1d806a.png

Figure 4: 双语组合向量模型

注意到,双语平行数据对于很多语言对而言都是非常有限的,因此,Gouws等人进一步提出Bilbowa模型 (Gouws et al., 2015),将单语分布表示学习的优化目标与双语平行约束进行融合,使得模型能够同时利用大规模单语数据以及有限的双语数据。

总体而言,基于句子表示对齐的方法粒度较粗,所得到的跨语言表示在词级别的语义对齐上表现得并不是很理想。实际上我们完全可以先进行双语词对齐,再利用词对齐信息来改进跨语言词表示的学习过程。我们发表在AAAI 2016的工作中对word2vec中的skip-gram模型进行了扩展并提出multilingual skip-gram模型 (Guo et al.,2016),基本思想是根据词对齐获取跨语言上下文,进而在skip-gram模型中引入对跨语言上下文的预测,如图5所示。该模型能够自然地扩展至多于两种语言的情形,而且充分利用了单语数据以及双语数据。

c7358353d1b973233aa61cc51c9210ea.png

Figure 5: 跨语言skip-gram模型

另一方面,考虑到skip-gram模型与矩阵分解模型的紧密联系 (Levy and Goldberg,2014),我们也可以通过对多语言“词–上下文”共现矩阵进行分解来获得跨语言分布表示,Shi等人采取了这种做法 (Shi et al., 2015)。

线下处理与联合学习的方法各有优劣。从资源依赖的角度,线下处理方法使用的是双语词典,而联合学习方法依赖双语平行数据。双语词典既可以从平行数据中通过自动词对齐来获得,也可以从一些在线词典资源中获取,比如PanLex1,Wikitionary2等;相对而言,对于大部分语言而言,高质量的双语平行数据较难获取。因此,线下处理方法的可扩展性更强。然而也应该注意到,“翻译矩阵”及CCA等线下处理方法对于跨语言映射的线性变换假设不尽合理,这在很大程度上制约了其分布表示学习的质量。联合学习方法则通常不对跨语言分布表示之间的映射关系进行约束,因此更为自由。

2 应用

跨语言数据是一种重要的知识来源,尤其是对于资源稀缺语言而言。跨语言分布表示正好为不同语言之间的知识迁移提供了一座桥梁,使得资源稀缺语言的自然语言处理任务能够充分利用跨语言的标注资源。这种跨语言迁移学习的基本思路是在源语言端构建一个基于分布表示的模型,并使用源语言的特征分布表示进行训练;然后将所得到的模型直接应用于目标语言数据。基于跨语言分布表示的“模型迁移”方法已经被成功应用于文本分类、句法分析、情感分析等任务中。以句法分析为例,使用前文所述的多语言skip-gram模型与跨语言映射的方法相对于“去词汇化特征”模型迁移的结果取得了最高+6.9/+8.9%的LAS提升:

1062080810be19958a2220dedb6add32.png

Figure 6: 跨语言依存句法分析上的结果

3 总结与展望

从目前的研究现状来看,不同的跨语言分布表示学习方法在不同自然语言处理任务上的表现各有优劣。比如Bilingual autoencoder模型在跨语言文本分类上表现较好,而对于句法分析则几乎没有帮助。对于情感分析等任务而言,或许情感极性的对齐比词义对齐更为重要。因此,未来的一个研究方向是学习任务相关的跨语言分布表示。另外,目前大部分表现较好的模型仍然严重依赖双语平行资源,而大部分真正的资源稀缺语言的双语数据难以获取。因此,如何充分利用单语数据以及代价相对较低的小规模词典资源来学习高质量的跨语言分布表示,也是一个很有趣的研究思路。

References

Sarath Chandar A P, Stanislas Lauly, Hugo Larochelle, Mitesh Khapra, Balaraman Ravindran, Vikas C Raykar,and Amrita Saha. 2014. An autoencoder approach to learning bilingual word representations. In NIPS

Manaal Faruqui and Chris Dyer. 2014. Improving vector space word representations using multilingual correlation. In EACL

Stephan Gouws, Yoshua Bengio, and Greg Corrado. 2015. Bilbowa: Fast bilingual distributed representations without word alignments. In ICML

Jiang Guo, Wanxiang Che, David Yarowsky, Haifeng Wang, and Ting Liu. 2015. Cross-lingual dependency parsing based on distributed representations. In ACL-IJCNLP

Jiang Guo, Wanxiang Che, David Yarowsky, Haifeng Wang, and Ting Liu. 2016. A representation learning framework for multi-source transfer parsing. In AAAI

Alexandre Klementiev, Ivan Titov, and Binod Bhattarai. 2012. Inducing crosslingual distributed representations of words. In COLING

Omer Levy and Yoav Goldberg. 2014. Neural word embedding as implicit matrix factorization. In NIPS Ang Lu, Weiran Wang, Mohit Bansal, Kevin Gimpel, and Karen Livescu. 2015. Deep multilingual correlation for improved word embeddings. In NAACL

Tomas Mikolov, Quoc V Le, and Ilya Sutskever. 2013. Exploiting similarities among languages for machine translation. arXiv.

Tianze Shi, Zhiyuan Liu, Yang Liu, and Maosong Sun. 2015. Learning cross-lingual word embeddings via matrix co-factorization. In ACL-IJCNLP

Will Y. Zou, Richard Socher, Daniel Cer, and Christopher D. Manning. 2013. Bilingual word embeddings for phrase-based machine translation. In EMNLP

注:

  1. https://panlex.org/
  2. https://en.wiktionary.org

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/522083.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2018亚太CDN峰会开幕,阿里云王海华解读云+端+AI的短视频最佳实践

摘要: 4月11-12日,2018亚太CDN峰会在北京隆重召开,在11日下午的短视频论坛中,阿里云高级技术专家王海华进行了《短视频最佳实践:云端AI》的主题演讲,分享了短视频的生命周期关键点和阿里云技术解决方案。 4…

数据科学家实操之路

摘要: Kaggle最近进行了一项旨在评估数据科学和机器学习当前发展状况的调查。 他们收到了将近17000份答卷,并利用这些答卷做出了大量的分析。Kaggle最近进行了一项旨在评估数据科学和机器学习当前发展状况的调查。 他们收到了将近17000份答卷&#xff0c…

快报:Java跌惨!Python背后或有推手?网友:心态已崩!

“愿你出走半生,归来仍学Python!”最近Python的slogan正在“变化”。原因是来自于PYPL官方发布2019年7月编程语言指数榜,Python连续半年夺冠,并且本月市场份额超高的28.08%。这简直是遇神杀神,遇佛杀佛的灭霸节奏&…

mybatis源码深度解析_30天消化MyBatis源码解析笔记,吊打面试官,offer接到手软

MyBatis 是一个优秀的 Java 持久化框架,SSM 框架组合(Spring SpringMVC Mybatis),依赖 MyBatis 搭建的项目更是数不胜数,在互联网公司的使用中,占据了大片江山,你在使用 MyBatis 吗?会使用你真的了解 MyB…

从司法领域看阿里云产业AI策略:生态联盟,技术赋能

摘要: 在日前结束的云栖大会深圳峰会上,除了阿里云全面进军IoT的战略宣布之外,持续不断的生态签约成了另一大亮点:全天的IoT合伙作伴签约,围绕“ET大脑”的千里马计划,以及司法领域重要IT服务商通达海的合作…

word表格怎么缩小上下间距_如何缩小word表格中的行距

自己绘制表格,然后在表格属性里可以设置www.51dongshi.com防采集。word行距缩小的方法:本次操作以Dell电脑为例,具体操作步骤如下:产品名称:Dell产品型号:Dell 灵越5000系统版本:Windows 10软件…

全球云端数据仓库领导者 MaxCompute 将于本月10日正式开服美东节点

摘要: 作为全球云端数据仓库的领导者,阿里云MaxCompute为满足更多客户的业务需求,不断加快全球化部署的节奏。本月10日,美东(弗吉尼亚)节点会正式上线。届时,将会以最新版本产品向用户提供大数据…

给面试官讲明白:一致性Hash的原理和实践

戳蓝字“CSDN云计算”关注我们哦!来源 | 靳刚同学作者 | 靳刚“一致性hash的设计初衷是解决分布式缓存问题,它不仅能起到hash作用,还可以在服务器宕机时,尽量少地迁移数据。因此被广泛用于状态服务的路由功能”01—分布式系统的路…

mysql如何逻辑删除_mysql逻辑删除如何恢复

在项目中,一般会遇到这种情况:逻辑删除以及多关联不删除逻辑删除(软删除):逻辑删除就是对要被删除的数据打上一个删除标记,通常使用一个is_deleted字段标示行记录是不是被删除(或者使用一个status字段代表所谓的“删除”状态)&…

手把手,教你用MaxCompute+OpenSearch搭建分布式搜索引擎

摘要: 最近,经常有客户咨询如何低成本搭建高性能的海量数据搜索引擎,比如实现公众号检索、影讯检索等等。由于客户的数据在阿里云上,所以希望找到云上解决方案。笔者开始调研一些云上产品,很多人向我推荐了OpenSearch&…

再获绿色等级5A称号!揭开腾讯数据中心节能环保黑科技

9月3日北京,腾讯目前位于深圳最大的数据中心,“腾讯光明中国移动|万国数据数据中心二期”荣获运行5A绿色数据中心称号,达到了“数据中心绿色等级评估”的最高等级。该数据中心绿色分级评估由ODCC联合中国信通院、绿色网格TGGC发起&#xff0c…

MaxCompute_2_MaxCompute数据迁移文档

摘要: 乍一看标题会以为是不是作者写错了怎么会有从MaxCompute到MaxCompute迁移数据的场景呢在实际使用中已经有客户遇到了这种场景比如两个网络互通的专有云环境之间数据迁移、公共云数加DataIDE上两个云账号之间数据迁移、还有网络不通的两个MaxCompute项目数据迁…

printf 指针地址_指针搞都不懂,好意思说自己会C语言?

C语言面试必问知识点之「指针」一、指针相关概念指针与地址我们使用的计算机,系统为了更好地管理我们的内存,就为内存区的每一个字节都分配一个唯一编号,这就是“地址”。指针的实质就是地址,就是这一个个编号。指针变量变量在编译…

开启数据科学职业生涯的8个基本技巧

摘要: 本文为数据科学家开创数据科学事业铺平了道路。只要按照这八个小贴士来做,你就能让自己的职业生涯有一个良好的开端。Nick Bostrom(译者注:Nick Bostrom是牛津大学哲学系的教授,是人类未来研究院的创始人和主任。…

WIAC上,华为展区都有点儿啥?

戳蓝字“CSDN云计算”关注我们哦!谈及计算产业的变迁,我们了解到其先后经历了大型计算机、小型机/x86服务器阶段,并同时开创了敏捷、创新、体验好、省成本的Cloud 1.0以及Cloud 2.0时代,在云计算、5G与AI等创新技术不断叠加发展的…

【技术系列】浅谈GPU虚拟化技术(第一章)

摘要: GPU深度好文系列,阿里云技术专家分享 第一章 GPU虚拟化发展史 GPU的虚拟化发展历程事实上与公有云市场和云计算应用场景的普及息息相关。如果在10年前谈起云计算,大部分人的反应是“不知所云“。但是随着云计算场景的普及,概…

php如何删除数据mysql数据库_php如何删除数据库

php如何删除数据库1、首先查看有哪些数据库2、使用php删除test2<?php $dbhost localhost; // mysql服务器主机地址$dbuser root; // mysql用户名$dbpass root; // mysql用户名密码$conn mysqli_connect($dbhost, $dbuser, $dbpass);if(! $conn ){die(连接失败: . mysq…

Mac 神兵利器(二) 极简软件清单

摘要&#xff1a; 作为一个非常爱好折腾的Mac重度用户&#xff0c;在尝试了不少于50次重装系统经历以及安装了几乎所有软件类别的N多软件后&#xff0c;决定分享一下自己的软件清单。 选择app的三个原则&#xff1a; 尽量使用系统原生软件&#xff0c;比如日历&#xff0c;提醒…

解决 idea 运行 Spring Boot 项目启动慢的问题

同事win10启动Spring Boot工程只要3秒左右&#xff0c;我的启动要30秒。开始以为是CPU差距太大&#xff0c;后来才觉得不是这样&#xff01; 解决方案 hostname命令查看自己的 hostname 注意修改 hosts 文件时&#xff0c;ip 与域名之间要换成两个 tab 键。 127.0.0.1 PC-2…

亚马逊首席科学家李沐「实训营」国内独家直播,马上报名 !

开学了&#xff0c;别人家的学校都开始人工智能专业的学习之旅了&#xff0c;你呢&#xff1f;近年来&#xff0c;国内外顶尖科技企业的 AI 人才抢夺战愈演愈烈。华为开出200万年薪吸引 AI 人才&#xff0c;今年又有 35 所高校新增人工智能本科专业&#xff0c;众多新生即将开展…