论文浅尝 | 基于微量资源的神经网络跨语言命名实体识别

论文笔记整理:谭亦鸣,东南大学博士生,研究方向为跨语言知识图谱问答。


640?wx_fmt=png

来源:EMNLP 2018

链接:https://www.aclweb.org/anthology/D18-1034

 

问题背景与动机

本文关注小语种/资源匮乏语言的跨语言命名实体识别问题,首先作者肯定了现有无监督/弱监督方法在单语资源丰富的情况下能够取得不错的性能。但是对于单语资源不足的情况下,这些方法却无法适用,原因在于:无监督方法需要构建单语embedding并投影到共享空间中,但是单语资源不足的情况下,无法构建有质量的embedding;弱监督方法则需要使用一定规模(10K~1M)的双语词典作为语言对齐的seed,显然这个要求对于小资源语言(如维吾尔语)也是相对苛刻了。

为了解决这一问题,作者提出结合词典方法与embedding方法,利用微量平行数据(<10K)构建embedding,将丰富资源的英语数据与微量资源的小语种词汇投影到共享空间中,而后利用近邻方式构建规模更大的双语词典,再利用双语词典将英语数据word-by-word译为小语种数据,用于NER模型的训练。同时,考虑到这种方法产生的语言距离真实的自然语言表达存在差异,作者在NER模型中引入self-attention试图减缓这种影响

 

贡献

1.  提出了一种通过语言迁移实现的跨语言NER策略

2. 提出一种 order-invariant self-attention 机制用于缓解语言迁移以及数据量不足对 NER 模型产生的影响

 

方法说明

本文的方法过程描述如下:

1.  使用单语语料独立训练两种语言的 embedding 单语嵌入使用的方法类似 (Mikolovetal., 2013b; Pennington et al., 2014; Bojanowskiet al., 2017)等人的工作,利用单语文本训练嵌入矩阵。

2.  利用给定的微量双语字典,将上述两种语言的embedding投影到一个共享空间中投影方法,采用的是 (Zhang et al., 2016; Artetxe et al., 2016; Smithet al., 2017) 等类似的方式,通过训练投影矩阵,实现将两种语言的 embedding 投影

3.  对于单语资源丰富的英语embedding,利用最近邻策略,挑选另一语言的词语的embedding作为其翻译结果,从而构建较大规模的双语字典在计算embedding相似度方面,采用cross-domain similarity local scaling (CSLS) metric(Lample et al., 2018)实现。

4.  利用3中的翻译将英语命名实体识别语料译为另一语言,同时保留命名实体标签,用于NER模型的训练

下图是上述过程的一个示意,语言对为英语-西班牙语:

640?wx_fmt=png

模型

640?wx_fmt=png

NER模型方面,作者采用了一个分层神经网络+self-attention+CRF的序列标注方案:其中输入粒度被细化到了char级,每个单词的字母都通过双向RNN融合得到,此基础上再通过一层双向RNN做词级别的embedding,之后使用self-attention对得到的每个词的embedding做一步转换得到embedding_a,而后将embedding与embedding_a进行组合,得到用于训练CRF序列标注过程的单词表示。

 

实验

数据集

实验数据方面,作者采用了CoNLL 2002以及2003 NER公开数据集,其中包含英德荷及西班牙语共四种语言,通过将英语与其他三种语言组合为“资源丰富-资源缺乏”的语言组合,构建出上述方法所需的数据形式。

 

实验结果

640?wx_fmt=png

表1 反映了本文方法在公开数据集上的实验,采用F1值作为评价指标,结果上看,相对其他同类模型,本方法的性能提升较为显著。

640?wx_fmt=png

同时作者也针对embedding过程的效果进行统计评判,这种使用近邻进行翻译的方法,在双语性能上表现出了一定提升。

640?wx_fmt=png

同时作者也对小语种维吾尔语进行了NER实验对比,在无额外知识补充的且使用微量平行数据的情况下,本文增量模型的性能提升还是比较明显。但是整体结果上,相对目前最好的模型差距还是是否明显,作者认为产生这一情况的原因在于维吾尔语极低的单语质量,且英语和维吾尔语之间的天然差异本身就非常的大。

 


OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479635.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

美团命名服务的挑战与演进

| 本文根据美团基础架构部技术专家舒超在2019 ArchSummit&#xff08;全球架构师峰会&#xff09;上的演讲内容整理而成。 命名服务主要解决微服务拆分后带来的服务发现、路由隔离等需求&#xff0c;是服务治理的基石。美团命名服务&#xff08;以下简称MNS&#xff09;作为服务…

NeurIPS 2020 | 自步对比学习:充分挖掘无监督学习样本

文 | 葛艺潇源 | PaperWeekly本文介绍一篇我们发表于 NeurIPS-2020 的论文《Self-paced Contrastive Learning with Hybrid Memory for Domain Adaptive Object Re-ID》&#xff0c;该工作提出自步对比学习框架及混合记忆模型&#xff0c;旨在解决无监督及领域自适应表征学习中…

Postman安装与使用

原文链接&#xff1a;https://blog.csdn.net/fxbin123/article/details/80428216 一、Postman背景介绍 用户在开发或者调试网络程序或者是网页B/S模式的程序的时候是需要一些方法来跟踪网页请求的&#xff0c;用户可以使用一些网络的监视工具比如著名的Firebug等网页调试工具。…

LeetCode 35. 搜索插入位置(二分查找)

文章目录1. 题目信息2. 解题2.1 暴力遍历2.2 二分查找1. 题目信息 给定一个排序数组和一个目标值&#xff0c;在数组中找到目标值&#xff0c;并返回其索引。如果目标值不存在于数组中&#xff0c;返回它将会被按顺序插入的位置。 你可以假设数组中无重复元素。 示例 1:输入…

青年人在美团是怎样成长的?

2020年五四青年节&#xff0c;我们采访了美团技术团队9位青年代表&#xff0c;他们是来自清华大学、北京大学、中国科学院大学等国内高校的2位博士研究生和7位硕士研究生。在这个属于青年人的特别的日子里&#xff0c;我们请他们分享了自己在美团成长的故事。 道阻且长&#xf…

它来了它来了!2020深度学习硬核技术干货集锦!

这份干货来自于今天要给大家推荐的一个深度学习与计算机视觉领域知名公众号&#xff1a;「极市平台」。从2016年创立至今&#xff0c;极市平台深耕于DL与CV领域&#xff0c;输出300篇高质量原创文章&#xff0c;并积累了近10万名海内外专业算法开发者。极市平台公众号坚持每日更…

容器的使用和创建虚拟环境 vitualenv

xshell jupter容器的使用方法 #容器相当于子服务器 1 创建指定python版本的虚拟环境 方法1&#xff1a; 1.安装虚拟环境的第三方包 venv pip install venv 2.创建虚拟环境 cd 到存放虚拟环境的地址 在当前目录下创建名为env的虚拟环境&#xff1a; python -m venv env python…

Android中动态的更改selector中某张图片的属性

在我们平常开发的时候会有许多状态按钮&#xff0c;比如state_pressed&#xff0c;android:state_checked&#xff0c;或者就正常状态等等&#xff0c;我们做这样的效果通常需要三个文件&#xff0c;一张是按下的图片&#xff0c;一张是正常状态的图片&#xff0c;一张是管理它…

LeetCode 17. 电话号码的字母组合(回溯)

文章目录1. 题目信息2. 解题1. 题目信息 给定一个仅包含数字 2-9 的字符串&#xff0c;返回所有它能表示的字母组合。 给出数字到字母的映射如下&#xff08;与电话按键相同&#xff09;。注意 1 不对应任何字母。 示例:输入&#xff1a;"23" 输出&#xff1a;[&…

细数一行代码改变结局的炼丹骚操作

文 | 陀飞轮&圈圈&年年的铲屎官源 | 知乎tips总结知乎答主&#xff1a;陀飞轮谈一下自己知道的。尽量避开优化器、激活函数、数据增强等改进。。先上完整列表&#xff1a;Deep Learning: Cyclic LR、FloodingImage classification: ResNet、GN、Label Smoothing、Shuff…

推荐收藏 | 美团技术团队的书单

4月23日对于世界文学而言是一个具有象征性意义的日子。1616年的这一天&#xff0c;塞万提斯、莎士比亚、印卡加西拉索德拉维加几位大师相继与世长辞。此外&#xff0c;这一天也是其他一些著名作家的出生和去世的日期&#xff0c;例如&#xff1a;莫里斯德吕翁、哈尔多尔K拉克斯…

论文浅尝 | 采用多层注意力机制的事件检测

笔记整理&#xff1a;杨帆&#xff0c;浙江大学计算机学院硕士&#xff0c;研究方向知识图谱。动机事件编码&#xff08;event encoding&#xff09;之前的工作集中在提取实体&#xff0c;检测触发单词以及匹配预定义的模板&#xff0c;这些方法存在以下缺点&#xff1a;首先它…

无需人工!无需训练!构建知识图谱 BERT一下就行了!

文&#xff1a;Sherry今天给大家带来的是一篇号称可以自动建立知识图谱的文章《Language Models are Open Knowledge Graphs》&#xff0c;文中提出了一个叫Match and Map&#xff08;MAMA&#xff09;的模型&#xff0c;无需人工&#xff01;无需训练&#xff01;只需语料和预…

LeetCode 557. 反转字符串中的单词 III(栈)

文章目录1. 题目信息2. 解题2.1 栈2.2 STL reverse()1. 题目信息 给定一个字符串&#xff0c;你需要反转字符串中每个单词的字符顺序&#xff0c;同时仍保留空格和单词的初始顺序。 示例 1:输入: "Lets take LeetCode contest" 输出: "steL ekat edoCteeL tse…

美团OCTO万亿级数据中心计算引擎技术解析

美团点评自研的 OCTO 数据中心&#xff08;简称 Watt&#xff09;日均处理万亿级数据量&#xff0c;该系统具备较好的扩展能力及实时性&#xff0c;千台实例集群周运维成本低于10分钟。本文将详细阐述 Watt 计算引擎的演进历程及架构设计&#xff0c;同时详细介绍其全面提升计算…

中文实体命名识别工具使用汇总:Stanza、LAC、Ltp、Hanlp、foolnltk、NLTK、BosonNLP

实体命名识别相关知识Stanford CoreNLP 命名实体识别一、简介&#xff1a;二、java版本使用三、python版本使用NLTK 命名实体识别一、简介&#xff1a;二、搭建环境三、nltk使用1、英文实体命名初体验2、使用nltk来处理中文资料结巴分词使用foolnltk 命名实体识别一、简介二、p…

论文浅尝 | 基于知识图谱中图卷积神经网络的推荐系统

笔记整理&#xff1a;王若旭&#xff0c;浙江大学在读硕士&#xff0c;研究方向为关系抽取&#xff0c;零样本学习。本文发表于 www2019&#xff0c;参考链接&#xff1a;https://arxiv.org/pdf/1905.04413.pdf为了解决推荐系统中协同过滤方法面对的数据稀疏和冷启动的问题&…

NeurIPS 2020 | Glance and Focus: 通用、高效的神经网络自适应推理框架

文 | rainforest wang源 | 知乎本文主要介绍我们被NeurIPS 2020会议录用的一篇文章&#xff1a;Glance and Focus: a Dynamic Approach to Reducing Spatial Redundancy in Image Classification代码和预训练模型已经在Github上面放出&#xff1a;https://link.zhihu.com/?tar…

如何下载Android源码(非常详细,含自动恢复下载,编译,运行模拟器说明)

今天终于把代码下载完成&#xff0c;特此开一篇博文记录一下。上图&#xff1a; 为了下载这些源码&#xff0c;历时5天5夜&#xff0c;说为什么这么长时间&#xff0c;是因为太容易中断了&#xff0c;有时候下一晚上可能就一直没在下&#xff0c;在你入睡的时候它就自己断了&am…

NumPy快速入门-- Less 基础/线性代数

文章目录1. 广播&#xff08;Broadcasting&#xff09;规则2. 使用索引数组索引3. 使用布尔值作为数组索引4. ix_()函数5. 线性代数 简单数组操作6. 技巧和提示6.1 “自动”整形6.2 矢量堆叠1. 广播&#xff08;Broadcasting&#xff09;规则 Broadcasting允许通用函数以有意义…