论文浅尝 | 基于微量资源的神经网络跨语言命名实体识别

论文笔记整理:谭亦鸣,东南大学博士生,研究方向为跨语言知识图谱问答。


640?wx_fmt=png

来源:EMNLP 2018

链接:https://www.aclweb.org/anthology/D18-1034

 

问题背景与动机

本文关注小语种/资源匮乏语言的跨语言命名实体识别问题,首先作者肯定了现有无监督/弱监督方法在单语资源丰富的情况下能够取得不错的性能。但是对于单语资源不足的情况下,这些方法却无法适用,原因在于:无监督方法需要构建单语embedding并投影到共享空间中,但是单语资源不足的情况下,无法构建有质量的embedding;弱监督方法则需要使用一定规模(10K~1M)的双语词典作为语言对齐的seed,显然这个要求对于小资源语言(如维吾尔语)也是相对苛刻了。

为了解决这一问题,作者提出结合词典方法与embedding方法,利用微量平行数据(<10K)构建embedding,将丰富资源的英语数据与微量资源的小语种词汇投影到共享空间中,而后利用近邻方式构建规模更大的双语词典,再利用双语词典将英语数据word-by-word译为小语种数据,用于NER模型的训练。同时,考虑到这种方法产生的语言距离真实的自然语言表达存在差异,作者在NER模型中引入self-attention试图减缓这种影响

 

贡献

1.  提出了一种通过语言迁移实现的跨语言NER策略

2. 提出一种 order-invariant self-attention 机制用于缓解语言迁移以及数据量不足对 NER 模型产生的影响

 

方法说明

本文的方法过程描述如下:

1.  使用单语语料独立训练两种语言的 embedding 单语嵌入使用的方法类似 (Mikolovetal., 2013b; Pennington et al., 2014; Bojanowskiet al., 2017)等人的工作,利用单语文本训练嵌入矩阵。

2.  利用给定的微量双语字典,将上述两种语言的embedding投影到一个共享空间中投影方法,采用的是 (Zhang et al., 2016; Artetxe et al., 2016; Smithet al., 2017) 等类似的方式,通过训练投影矩阵,实现将两种语言的 embedding 投影

3.  对于单语资源丰富的英语embedding,利用最近邻策略,挑选另一语言的词语的embedding作为其翻译结果,从而构建较大规模的双语字典在计算embedding相似度方面,采用cross-domain similarity local scaling (CSLS) metric(Lample et al., 2018)实现。

4.  利用3中的翻译将英语命名实体识别语料译为另一语言,同时保留命名实体标签,用于NER模型的训练

下图是上述过程的一个示意,语言对为英语-西班牙语:

640?wx_fmt=png

模型

640?wx_fmt=png

NER模型方面,作者采用了一个分层神经网络+self-attention+CRF的序列标注方案:其中输入粒度被细化到了char级,每个单词的字母都通过双向RNN融合得到,此基础上再通过一层双向RNN做词级别的embedding,之后使用self-attention对得到的每个词的embedding做一步转换得到embedding_a,而后将embedding与embedding_a进行组合,得到用于训练CRF序列标注过程的单词表示。

 

实验

数据集

实验数据方面,作者采用了CoNLL 2002以及2003 NER公开数据集,其中包含英德荷及西班牙语共四种语言,通过将英语与其他三种语言组合为“资源丰富-资源缺乏”的语言组合,构建出上述方法所需的数据形式。

 

实验结果

640?wx_fmt=png

表1 反映了本文方法在公开数据集上的实验,采用F1值作为评价指标,结果上看,相对其他同类模型,本方法的性能提升较为显著。

640?wx_fmt=png

同时作者也针对embedding过程的效果进行统计评判,这种使用近邻进行翻译的方法,在双语性能上表现出了一定提升。

640?wx_fmt=png

同时作者也对小语种维吾尔语进行了NER实验对比,在无额外知识补充的且使用微量平行数据的情况下,本文增量模型的性能提升还是比较明显。但是整体结果上,相对目前最好的模型差距还是是否明显,作者认为产生这一情况的原因在于维吾尔语极低的单语质量,且英语和维吾尔语之间的天然差异本身就非常的大。

 


OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479635.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

美团命名服务的挑战与演进

| 本文根据美团基础架构部技术专家舒超在2019 ArchSummit&#xff08;全球架构师峰会&#xff09;上的演讲内容整理而成。 命名服务主要解决微服务拆分后带来的服务发现、路由隔离等需求&#xff0c;是服务治理的基石。美团命名服务&#xff08;以下简称MNS&#xff09;作为服务…

ajax发送数据时的contentType

contentType&#xff1a; 指明发送的data数据&#xff08;这里是aa&#xff09;的类型 参数值&#xff1a;application/x-www-form-urlencoded&#xff08;默认&#xff09; 特点&#xff1a; 以key/value为一组使用&连接&#xff0c;如:usernamelly&password123&…

NeurIPS 2020 | 自步对比学习:充分挖掘无监督学习样本

文 | 葛艺潇源 | PaperWeekly本文介绍一篇我们发表于 NeurIPS-2020 的论文《Self-paced Contrastive Learning with Hybrid Memory for Domain Adaptive Object Re-ID》&#xff0c;该工作提出自步对比学习框架及混合记忆模型&#xff0c;旨在解决无监督及领域自适应表征学习中…

Postman安装与使用

原文链接&#xff1a;https://blog.csdn.net/fxbin123/article/details/80428216 一、Postman背景介绍 用户在开发或者调试网络程序或者是网页B/S模式的程序的时候是需要一些方法来跟踪网页请求的&#xff0c;用户可以使用一些网络的监视工具比如著名的Firebug等网页调试工具。…

Android中如何查看在res中存放的drawable文件对应的JAVA类型是什么呢

有些时候需要将res中的资源文件加载进来然后做一些修改&#xff0c;然后再赋值给控件使用&#xff0c;比如这样&#xff1a; Drawable drawable getResources().getDrawable(int id); 现在我需要把资源文件id所对应的Drawable对象加载进来&#xff0c;然后做向下转型处理&…

LeetCode 35. 搜索插入位置(二分查找)

文章目录1. 题目信息2. 解题2.1 暴力遍历2.2 二分查找1. 题目信息 给定一个排序数组和一个目标值&#xff0c;在数组中找到目标值&#xff0c;并返回其索引。如果目标值不存在于数组中&#xff0c;返回它将会被按顺序插入的位置。 你可以假设数组中无重复元素。 示例 1:输入…

青年人在美团是怎样成长的?

2020年五四青年节&#xff0c;我们采访了美团技术团队9位青年代表&#xff0c;他们是来自清华大学、北京大学、中国科学院大学等国内高校的2位博士研究生和7位硕士研究生。在这个属于青年人的特别的日子里&#xff0c;我们请他们分享了自己在美团成长的故事。 道阻且长&#xf…

Failed to execute goal org.apache.maven.plugins:maven-resources-plugin

maven打jar包错误 引起错误的原因是在 SpringbootStudyApplication 类中&#xff0c;加入了下面注释中的代码&#xff08;监听项目启动&#xff0c;然后打开浏览器&#xff09;&#xff0c;单纯删掉注释代码是无法解决问题的&#xff0c;可能的原因是由于加入这部分代码而impo…

它来了它来了!2020深度学习硬核技术干货集锦!

这份干货来自于今天要给大家推荐的一个深度学习与计算机视觉领域知名公众号&#xff1a;「极市平台」。从2016年创立至今&#xff0c;极市平台深耕于DL与CV领域&#xff0c;输出300篇高质量原创文章&#xff0c;并积累了近10万名海内外专业算法开发者。极市平台公众号坚持每日更…

容器的使用和创建虚拟环境 vitualenv

xshell jupter容器的使用方法 #容器相当于子服务器 1 创建指定python版本的虚拟环境 方法1&#xff1a; 1.安装虚拟环境的第三方包 venv pip install venv 2.创建虚拟环境 cd 到存放虚拟环境的地址 在当前目录下创建名为env的虚拟环境&#xff1a; python -m venv env python…

Android中动态的更改selector中某张图片的属性

在我们平常开发的时候会有许多状态按钮&#xff0c;比如state_pressed&#xff0c;android:state_checked&#xff0c;或者就正常状态等等&#xff0c;我们做这样的效果通常需要三个文件&#xff0c;一张是按下的图片&#xff0c;一张是正常状态的图片&#xff0c;一张是管理它…

LeetCode 17. 电话号码的字母组合(回溯)

文章目录1. 题目信息2. 解题1. 题目信息 给定一个仅包含数字 2-9 的字符串&#xff0c;返回所有它能表示的字母组合。 给出数字到字母的映射如下&#xff08;与电话按键相同&#xff09;。注意 1 不对应任何字母。 示例:输入&#xff1a;"23" 输出&#xff1a;[&…

细数一行代码改变结局的炼丹骚操作

文 | 陀飞轮&圈圈&年年的铲屎官源 | 知乎tips总结知乎答主&#xff1a;陀飞轮谈一下自己知道的。尽量避开优化器、激活函数、数据增强等改进。。先上完整列表&#xff1a;Deep Learning: Cyclic LR、FloodingImage classification: ResNet、GN、Label Smoothing、Shuff…

推荐收藏 | 美团技术团队的书单

4月23日对于世界文学而言是一个具有象征性意义的日子。1616年的这一天&#xff0c;塞万提斯、莎士比亚、印卡加西拉索德拉维加几位大师相继与世长辞。此外&#xff0c;这一天也是其他一些著名作家的出生和去世的日期&#xff0c;例如&#xff1a;莫里斯德吕翁、哈尔多尔K拉克斯…

论文浅尝 | 采用多层注意力机制的事件检测

笔记整理&#xff1a;杨帆&#xff0c;浙江大学计算机学院硕士&#xff0c;研究方向知识图谱。动机事件编码&#xff08;event encoding&#xff09;之前的工作集中在提取实体&#xff0c;检测触发单词以及匹配预定义的模板&#xff0c;这些方法存在以下缺点&#xff1a;首先它…

简单Nlp分析套路,获取数据(爬虫),数据处理(分词,词频,命名实体识别与关键词抽取),结果展现

简单NLP分析套路&#xff08;1&#xff09;----语料库积累之3种简单爬虫应对大部分网站&#xff1a; https://cloud.tencent.com/developer/article/1384454 简单NLP分析套路&#xff08;2&#xff09;----分词&#xff0c;词频&#xff0c;命名实体识别与关键词抽取&#xff…

在Activity启动过程中如何任务栈的栈顶是否是将要启动的Activity的实例

我们在ActivityStack类中可以看到某个方法用于返回当前任务栈顶端的ActivityRecord对象&#xff0c;如果栈是空的&#xff0c;就返回null&#xff0c;ActivityRecord用于代表在历史任务栈中的一个Activity对象的信息。 /*** Returns the top activity in any existing task ma…

无需人工!无需训练!构建知识图谱 BERT一下就行了!

文&#xff1a;Sherry今天给大家带来的是一篇号称可以自动建立知识图谱的文章《Language Models are Open Knowledge Graphs》&#xff0c;文中提出了一个叫Match and Map&#xff08;MAMA&#xff09;的模型&#xff0c;无需人工&#xff01;无需训练&#xff01;只需语料和预…

LeetCode 557. 反转字符串中的单词 III(栈)

文章目录1. 题目信息2. 解题2.1 栈2.2 STL reverse()1. 题目信息 给定一个字符串&#xff0c;你需要反转字符串中每个单词的字符顺序&#xff0c;同时仍保留空格和单词的初始顺序。 示例 1:输入: "Lets take LeetCode contest" 输出: "steL ekat edoCteeL tse…

美团OCTO万亿级数据中心计算引擎技术解析

美团点评自研的 OCTO 数据中心&#xff08;简称 Watt&#xff09;日均处理万亿级数据量&#xff0c;该系统具备较好的扩展能力及实时性&#xff0c;千台实例集群周运维成本低于10分钟。本文将详细阐述 Watt 计算引擎的演进历程及架构设计&#xff0c;同时详细介绍其全面提升计算…