论文浅尝 - EMNLP2020 | 通过词重排序跨语言解析

笔记整理 | 吴林娟,天津大学硕士


来源:EMNLP2020

链接:https://www.aclweb.org/anthology/2020.findings-emnlp.265.pdf


动机

依赖解析研究快速发展,然而依赖解析的性能在很大程度上依赖于语料库的大小。获取足够的训练数据成本大且困难,基于机器学习的方法不能简单地应用于低资源语言的依赖解析。跨语言迁移的方法以及在POS、依赖解析、命名实体识别、实体链接、问答等低资源语言任务上获得了成功的应用。但是跨语言迁移的一个关键挑战是难以处理源语言和目标语言之间的词序差异,于是作者针对这个问题提出了通过词重排序跨语言解析(Cross lingUal paRSing by wOrd Reordering,CURSOR)的方法。


亮点

CURSOR的亮点主要是:将词的重新排序形式化为一个组合优化问题,并开发了一个基于种群的优化算法来寻找接近最优的重新排序结果。


概念及模型

问题定义

在源数据集S里,给定一个句子,目标是对句子中的单词进行排列,模仿目标语言中的顺序。为了测量排列的优劣,使用多层LSTM在目标语料库上训练一个基于POS任务的语言模型。句子可以表示为:

目标是可以找到一个排列,这个重新排序的句子是由语言模型估计获得最高概率的:

其中R(x)是x中单词的所有可能排列的集合。理论上,候选者的总个数是n!,而大多数的排列可能与原句意思不同。为了避免这种情况,作者在生成R(x)时应用了一个语法约束:在原句子中构成成分的子序列在重新排序后仍然是子序列,而子序列中单词的内部顺序可能会发生变化。

基于种群的优化

式(2)中最优的可以归结为一个著名的旅行推销员问题,是NP-hard的。因此,最优排序在计算上是困难的,作者设计了一个遗传算法来寻找接近最优的结果。

遗传算法是一种来自于自然选择过程的启发式搜索方法,它通过迭代的方式将候选解群体进化为更好的解。每一次迭代的总体称为一代。该算法首先执行初始化操作符来创建初始生成。在每一代中,对种群中每一个个体的适应度进行评估,通过应用选择算子,使适应度得分较高的个体有更多的机会繁殖下一代。下一代是通过两种遗传操作符的结合产生的:交叉和变异。交叉算子将双亲的遗传信息结合在一起产生新的后代,而突变算子将多样性引入到抽样群体中。遗传算法在解决组合优化问题方面表现得很好,适用于单词重排问题。

为了满足语法约束,作者在子树层次上设计了交叉和变异操作符,即当一个单词被移动到其他地方时,它的子树也被移动。

整体算法

实验

作者通过将在英语语料库上训练的四种不同的解析模型转移到30种目标语言来评估CURSOR,并提出了一种结合的方法来进一步提高性能。实验结果如下:

从表1中可以看出,与基线相比,在词汇重排后的语料库上训练了四种不同的解析模型,跨语言迁移性能都得到了提高。使用RNN编码器的模型比使用SelfAtt编码器的模型受益更多,可能是因为它们对词序更敏感。通过treebank重新排序增强的RNN-Graph模型获得了最佳的平均UAS(66.6%),比基线高出2.5%。对于那些词序与英语截然不同的语言,如印地语(hi)和拉丁语(la),这些改进是非常重要的。

作者研究了跨语言迁移的性能与源语言和目标语言的相似性之间的关系,以及迁移方向和迁移解析距离的差异对迁移性能的影响。证明了目标语言和源语言越相似,迁移性能越好。而且CURSOR方法可以很好地消除迁移方向的影响,模型在预测长距离依赖时,对语序的正确性更加敏感。


总结

作者提出了一种用于跨语言依赖分析的树库重新排序方法,不需要任何并行语料库,并且可以应用于任何一对源语言和目标语言,但是条件为POS标记可用。在30种语言的不同网络架构中进行的大量实验表明,论文提出的方法可以显著提高跨语言解析的性能。但是面向POS标记数据为低资源的语言,该方法不太适用,这一点可以留给我们读者继续思考的空间。

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478523.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Knowledge Review:超越知识蒸馏,Student上分新玩法!

文 | 陀飞轮知乎今天介绍一篇我司的文章Distilling Knowledge via Knowledge Review(缩写为KR),提出知识蒸馏的新解法。之前在知乎回答过一个知识蒸馏的问题,为何感觉“知识蒸馏”这几年没有什么成果?https://www.zhihu.com/question/3098084…

美团App 插件化实践

背景 在Android开发行业里,插件化已经不是一门新鲜的技术了,在稍大的平台型App上早已是标配。进入2017年,Atlas、Replugin、VirtualAPK相继开源,标志着插件化技术进入了成熟阶段。但纵观各大插件框架,都是基于自身App的…

评测征集 | 2021全国知识图谱与语义计算大会

CCKS 2021将组织知识图谱相关评测竞赛,旨在为研究者们提供一个测试技术、算法、及系统的平台。与CCKS 2020 一样,CCKS 2021 的评测任务仍然采用 Biendata 在线平台发布和评测。CCKS 2020评测竞赛环节共设立8个任务,吸引了2300多支参赛队伍。大…

论文投稿新规则,不用跑出SOTA,还能“内定”发论文?!

文 | Sheryc_王苏从5月初开始,CV圈似乎开始了一阵MLP“文艺复兴”的热潮:在短短4天时间里,来自谷歌、清华、牛津、Facebook四个顶级研究机构的研究者分别独立发布了4篇关于MLP结构在图像任务上取得不错效果的论文。虽然研究本身令人兴奋&…

即时配送的订单分配策略:从建模和优化

最近两年,外卖的市场规模持续以超常速度发展。近期美团外卖订单量峰值达到1600万,是全球规模最大的外卖平台。目前各外卖平台正在优质供给、配送体验、软件体验等各维度展开全方位的竞争,其中,配送时效、准时率作为履约环节的重要…

LeetCode677. 键值映射(Trie树)

1. 题目 实现一个 MapSum 类里的两个方法,insert 和 sum。 对于方法 insert,你将得到一对(字符串,整数)的键值对。字符串表示键,整数表示值。如果键已经存在,那么原来的键值对将被替代成新的键…

技术实践 | ICDE2021-大规模知识图谱预训练及电商应用

本文作者 | 张文(浙江大学)、黄志文(阿里巴巴)、叶橄强(浙江大学)、文博(浙江大学)、张伟(阿里巴巴),陈华钧*(浙江大学)接…

吊打BERT、GPT、DALL·E,跨模态榜单新霸主诞生!

文 | 赵一静最近,三个重量级榜单,视觉推理VCR、文本推理ANLI、视觉问答VQA同时被统一模态模型UNIMO霸榜。一个模型统一了视觉和文本两大主阵地,重塑了小编的认知和期望。如此全能,堪称是AI领域的外(一)星&a…

Spring Data REST 远程代码执行漏洞(CVE-2017-8046)分析与复现

前言 2009年9月Spring 3.0 RC1发布后,Spring就引入了SpEL(Spring Expression Language)。对于开发者而言,引入新的工具显然是令人兴奋的,但是对于运维人员,也许是噩耗的开始。类比Struts 2框架,…

体验paddle2.0rc版本API-Model--实现Mnist数据集模型训练

原文链接:体验paddle2.0rc版本API-Model–实现Mnist数据集模型训练:https://blog.csdn.net/weixin_44604887/article/details/109566281 尝试Mnist训练 导入需要的包导入Mnist数据集组网搭建网络查看模型参数查看模型网络(自动命名&#xff0…

LeetCode 648. 单词替换(Trie树)

1. 题目 在英语中,我们有一个叫做 词根(root)的概念,它可以跟着其他一些词组成另一个较长的单词——我们称这个词为 继承词(successor)。例如,词根an,跟随着单词 other(其他),可以形成新的单词 another(另一个)。 现…

99%算法工程师不知道的if/else优化技巧

文 | IT技术控知乎、灵剑知乎观点一(IT技术控)前期迭代懒得优化,来一个需求,加一个if,久而久之,就串成了一座金字塔。当代码已经复杂到难以维护的程度之后,只能狠下心重构优化。那,有…

人工智能在线特征系统中的生产调度

在上篇博客《人工智能在线特征系统中的数据存取技术》中,我们围绕着在线特征系统存储与读取这两方面话题,针对具体场景介绍了一些通用技术,此外特征系统还有另一个重要话题:特征生产调度。本文将以美团点评酒旅在线特征系统为原型…

LeetCode 211. 添加与搜索单词 - 数据结构设计(Trie树)

1. 题目 设计一个支持以下两种操作的数据结构: void addWord(word) bool search(word) search(word) 可以搜索文字或正则表达式字符串,字符串只包含字母 . 或 a-z 。 . 可以表示任何一个字母。 示例: addWord("bad") addWord("dad&quo…

研究综述 - TKDE2020 | 基于知识图谱的推荐系统

作者 | 郭庆宇转载公众号 | 读芯术TKDE 2020综述:基于知识图谱的推荐系统A Survey on Knowledge Graph-Based Recommender Systems中科院计算所、百度、港科大、中科大、微软原文Qingyu Guo, Fuzhen Zhuang, Chuan Qin, Hengshu Zhu, Xing Xie, Hui Xiong, Qing He…

谢撩,人在斯坦福打SoTA

文 | Jazon编 | 小戏小编注:不知道大家还记不记得卖萌屋之前人在斯坦福,刚上CS224n的Jazon小哥发来的关于斯坦福神课CS224n上半学期的报道?今天,Jazon又在斯坦福前线发来了关于他在CS224n下半学期的经历,那么现在让我们…

前端感官性能的衡量和优化实践

本文已发表在2017年8月《程序员》杂志。 我们为什么需要关注站点的性能,性能为什么如此重要呢?如今任何互联网产品首先重要的都是流量,流量最终会转换为商业价值。所以在互联网产品中,流量、转化率和留存率基本上是产品经理或者业…

LeetCode 421. 数组中两个数的最大异或值(Trie树)

1. 题目 给定一个非空数组&#xff0c;数组中元素为 a0, a1, a2, … , an-1&#xff0c;其中 0 ≤ ai < 231 。 找到 ai 和aj 最大的异或 (XOR) 运算结果&#xff0c;其中0 ≤ i, j < n 。 你能在O(n)的时间解决这个问题吗&#xff1f; 示例:输入: [3, 10, 5, 25, 2,…

论文浅尝 - EMNLP2020 | 基于知识库的多跳关系推理

笔记整理 | 谢辛&#xff0c;浙江大学硕士研究方向 | 自然语言处理&#xff0c;知识图谱Feng Y, Chen X, Lin B Y, et al. Scalable multi-hop relational reasoning for knowledge-aware question answering[J]. 2020.emnlp-main.99链接&#xff1a;https://arxiv.org/pdf/200…

智能工单处理,达观数据助力运营商实现业务流程智能化改造

智能工单处理&#xff0c;达观数据助力运营商实现业务流程智能化改造 https://m.sohu.com/a/466386308_383123 智能工单处理&#xff0c;达观数据助力运营商实现业务流程智能化改造 达观数据 05-14 14:04 订阅 运营商一线业务运营亟待智能化改造 近几年&#xff0c;运营商领域…