论文学习20-End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF(序列标注,2016ACL

文章目录

  • abstract
  • 1.introduction
  • 2.Architecture
    • 2.1 CNN for Character-level Representation
    • 2.2 BiLSTM
      • 2.2.1 LSTM单元
      • 2.2.2BiLSTM
    • 2.3CRF
    • 2.4BiLSTM-CNNs-CRF
  • 3.训练

Ma, X. and E. Hovy “End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF.”

abstract

最先进的序列标记系统传统上需要大量的手工特征和数据预处理的特定任务的知识。在这篇论文中,我们介绍了一种新的中立网络架构,它利用双向LSTM、CNN和CRF的组合,自动地从字级和字级表示中获益。我们的系统是真正的端到端的,不需要特征工程或数据预处理,因此适用于广泛的序列标记任务。我们用两个数据集来评估我们的系统,这两个数据集分别用于两个序列标记任务:Penn Treebank WSJ词性标记语料库(POS)和CoNLL 2003命名实体识别语料库(NER)。我们获得了最先进的性能,这两个数据集的准确性为97.55%的POS标签和91.21%的F1为NER。

  • 利用双向LSTM、CNN和CRF的组合,自动地从字级和字级表示中获益
  • 端到端,无需特征工程或数据预处理

1.introduction

摘要语言序列标记是语言深层理解的第一个阶段,如词性标记和命名实体识别,其重要性已被自然语言处理界所认识。自然语言处理(NLP)系统,如句法分析(Nivre and Scholz, 2004;McDonald等人,2005;辜朝明和柯林斯出版社,2010年;马和赵,2012a;马和赵,2012b;陈和曼宁,2014;(Ma and Hovy, 2015)和实体共引用解析(Ng, 2010;Ma et al., 2016),正变得越来越复杂,部分原因是利用POS标记或NER系统的输出信息。
大多数传统高性能序列标签模型是线性统计模型,包括隐马尔科夫模型(HMM)和条件随机域(CRF) (Ratinov和罗斯,2009;Passos et al ., 2014;罗et al ., 2015),严重依赖于手工特性和taskspecific资源。例如,英语POS涂画者受益于精心设计的单词拼写功能;正字法的特性和外部资源等地名表广泛应用于ner。然而,这样的特定于任务的知识是昂贵的开发(马和夏,2014),使序列标签模型难以适应新的任务或新领域。

  • 传统:HMM,CRF,手工特征代价昂贵

近年来,以分布式词表示为输入的非线性神经网络(又称词嵌入)被广泛地应用于NLP问题,并取得了很大的成功。Collobert等人(2011)提出了一种简单而有效的前馈中性网络,通过在固定大小的窗口内使用上下文独立地对每个单词的标签进行分类。最近,循环神经网络(RNN) (Goller and Kuchler, 1996)及其变体,如长短时记忆(LSTM) (Hochreiter and Schmidhuber, 1997;Gers等人(2000)和门控递归单元(GRU) (Cho等人,2014)在序列数据建模方面取得了巨大成功。针对语音识别(Graves et al., 2013)、词性标注(Huang et al., 2015)和NER (Chiu and Nichols, 2015)等序列标记任务,提出了几种基于rnn的神经网络模型;(Hu et al., 2016),实现与传统模式的竞争绩效。然而,即使是使用分布式表示作为输入的系统,也会使用它们来增强而不是取代手工制作的功能(例如单词拼写和大小写模式)。当模型仅仅依赖于神经嵌入时,它们的性能会迅速下降。

  • 目前都是用nn来增强手工特征,而非取代。
  • 仅依靠nn,性能会迅速下降。

本文提出了一种用于序列标记的神经网络结构**它是一个真正的端到端的模型,不需要特定于任务的资源、功能工程或数据预处理,只需要在未标记的语料库上预先训练好的词嵌入即可。因此,我们的模型可以很容易地应用于不同语言和领域的序列标记任务。我们首先使用卷积神经网络(convolutional neural networks, CNNs) (LeCun et al., 1989)将一个单词的字符级信息编码到它的字符级表示中。然后,我们将字符级和字级表示相结合,并将它们输入到双向LSTM (BLSTM)中,以对每个单词的上下文信息进行建模。在BLSTM之上,我们使用一个连续的CRF来联合解码整个句子的标签。**我们在Penn Treebank的两个语言序列标记任务上对我们的模型进行了评估(Marcus et al., 1993),和NER对CoNLL 2003共享任务的英语数据进行了评估(Tjong Kim Sang和De Meulder, 2003)。我们的端到端模型优于之前的先进系统,POS标签的准确率为97.55%,NER标签的准确率为91.21%。本工作的贡献在于(i)提出了一种用于语言序列标记的新型神经网络结构。(ii)对两个经典NLP任务的基准数据集对该模型进行实证评价。(iii)采用真正的端到端系统,达到最先进的性能。

  • 它是一个真正的端到端的模型,不需要特定于任务的资源、功能工程或数据预处理,只需要在未标记的语料库上预先训练好的词嵌入即可。因此,我们的模型可以很容易地应用于不同语言和领域的序列标记任务。
  • 我们首先使用卷积神经网络(convolutional neural networks, CNNs) (LeCun et al., 1989)将一个单词的字符级信息编码到它的字符级表示中。
  • 然后,我们将字符级和字级表示相结合,并将它们输入到双向LSTM (BiLSTM)中,以对每个单词的上下文信息进行建模。
  • 在BiLSTM之上,我们使用一个连续的CRF来联合解码整个句子的标签。

2.Architecture

CNN+BiLSTM+CRF

2.1 CNN for Character-level Representation

(Santos和Zadrozny, 2014;Chiu和Nichols, 2015)的研究表明,CNN是一种从单词字符中提取形态学信息(如单词的前缀或后缀)并将其编码成神经表征的有效方法。图1显示了我们用来提取给定单词的字符级表示的CNN。CNN与Chiu和Nichols(2015)的CNN类似,只是我们只使用字符嵌入作为CNN的输入,没有字符类型特征。在向CNN输入字符嵌入之前应用一个dropout层(Srivastava et al., 2014)。

  • CNN
    • 输入:字符嵌入
    • dropout层(CNN之前)
      在这里插入图片描述

2.2 BiLSTM

2.2.1 LSTM单元

在这里插入图片描述
在这里插入图片描述

2.2.2BiLSTM

对于许多序列标记任务,同时访问过去(左)和未来(右)上下文是有益的。然而,LSTM的隐藏状态ht只从过去获取信息,对未来一无所知。一个优雅的解决方案是双向LSTM (BLSTM),它的有效性已经被以前的工作所证明(Dyer et al., 2015)。基本思想是将每个序列向前和向后呈现为两个独立的隐藏状态,分别捕获过去和未来的信息。然后将这两个隐藏状态连接起来,形成最终的输出。

  • 双向链接起来就行。

2.3CRF

对于序列标记(或一般的结构化预测)任务,考虑邻域内标签之间的相关性,共同解码给定输入语句的最佳标签链是有益的。例如,在词性标注中,形容词后面紧跟名词的可能性比动词大,而在带有标准BIO2注释的NER中(Tjong Kim Sang和Veenstra, 1999), I-ORG不能跟I-PER。因此,我们联合使用条件随机域(CRF)对标签序列进行建模(Lafferty et al., 2001),而不是单独对每个标签进行解码。

  • 可以进行约束。
    在这里插入图片描述在这里插入图片描述在这里插入图片描述
  • 用贪婪的维特比解码

2.4BiLSTM-CNNs-CRF

在这里插入图片描述

3.训练

  • word-embedding:tanford’s publicly available GloVe 100-dimensional embeddings
    • glove

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481550.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

可溶解光开关利用光控制神经元

ISTOCK来源:IEEE电气电子工程师大约20年前,出现了一种称为光遗传学的策略,用激光控制大脑活动。它利用病毒将基因插入细胞,使其对光敏感。光遗传学给研究人员提供了一种精确的方法来刺激或抑制大脑回路,并阐明它们在大…

生成式AI无敌了: 大神微调Stable Diffusion,打造神奇宝贝新世界

来源:大数据文摘授权转载自AI科技评论作者:李梅、施方圆编辑:陈彩娴作为一个强大、公开且足够简单的模型,最近大火的 Stable Diffusion 在文本生成图像之外,给了大家无限的创作可能性。最近,来自 Lambda La…

论文学习21-Globally Normalized Transition-Based Neural Networks(2016,标签偏差问题

文章目录abstract1.introduction2.Model2.1 Transition System2.2 全局和局部归一化3.训练3.2标签偏差问题abstract 介绍了一种基于全局规范化转换的神经网络模型,该模型实现了最先进的词性标注、依存分析和句子压缩结果。我们的模型是一个简单的前馈神经网络&#…

推翻单一干细胞理论:哺乳动物大脑中发现了第二种干细胞

来源:生物通在成年哺乳动物的大脑中,神经干细胞保证了新的神经细胞,即神经元的不断形成。这个过程被称为成年神经发生,帮助鼠维持它们的嗅觉。一个研究小组最近在鼠大脑中发现了第二种干细胞群,它主要参与成年鼠嗅球中…

论文阅读课1-Attention Guided Graph Convolutional Networks for Relation Extraction(关系抽取,图卷积,ACL2019,n元)

文章目录abstract1.introduction1.1 dense connectionGCN1.2 效果突出1.3 contribution2.Attention Guided GCNs2.1 GCNs2.2 Attention Guided Layer2.3 Densely Connected Layer2.4 线性层2.5 AGGCN for RE3.实验3.1 数据集3.2 设置3.3 n-ary3.4 句子级4.ablation Study4.相关…

Nat. Rev. Genet. | 通过可解释人工智能从深度学习中获得遗传学见解

编译 | 沈祥振审稿 | 夏忻焱今天为大家介绍的是来自Maxwell W. Libbrecht,Wyeth W. Wasserman和Sara Mostafavi的一篇关于人工智能对于基因组学的可解释性的研究的综述。基于深度学习的人工智能(AI)模型现在代表了基因组学研究中进行功能预测…

复杂系统的逆向工程——通过时间序列重构复杂网络和动力学

导语蛋白质相互作用网络、生态群落、全球气候系统……很多复杂系统都可以抽象为一个相互作用的网络和其上的动力学。传统的研究主要关注在如何构建网络动力学模型,从而产生和实验观测数据具有相似统计特征的结果。所谓的复杂系统逆向工程,就是反其道而行…

关系提取论文总结

文章目录1.模型总结1.1 基于序列的方法1.2 dependency-based(基于依赖的)(有图)1.2.2 句间关系抽取1.5 自动学习特征的方法1.4 联合抽取模型1.6 RNN/CNN/GCN用于关系提取1.7 远程监督1.8句子级关系提取1.9MCR(阅读理解&#xff09…

邬贺铨:“物超人”具有里程碑意义,五方面仍需发力

来源:人民邮电报作者:邬贺铨我国正式迈入“物超人”时代。据工业和信息化部最新数据显示,截至8月末,我国三家基础电信企业发展移动物联网终端用户16.98亿户,成为全球主要经济体中率先实现“物超人”的国家。“物超人”…

深度:计算机的本质到底是什么?

来源:图灵人工智能来源:www.cnblogs.com/jackyfei/p/13862607.html作者:张飞洪 01 抽象模型庄子说过吾生有崖,知无涯。以有限的生命去学习无尽的知识是很愚蠢的。所以,学习的终极目标一定不是知识本身,因为…

中科大郭光灿院士团队发PRL,量子力学基础研究取得重要进展

来源:FUTURE | 远见选编:FUTURE | 远见 闵青云 中国科学技术大学郭光灿院士团队在量子力学基础研究方面取得重要进展。该团队李传锋、黄运锋等人与西班牙理论物理学家合作,实验验证了基于局域操作和共享随机性(LOSR, Local operat…

论文阅读课2-Inter-sentence Relation Extraction with Document-level (GCNN,句间关系抽取,ACL2019

文章目录abstract1.introduction2.model2.1输入层2.2构造图2.3 GCNN层2.4MIL-based Relation Classification3.实验设置3.1 数据集3.2 数据预处理3.3 基线模型3.4 训练3.5结果4.相关工作4.1 句子间关系抽取4.2 GCNN5. 结论相关博客Sahu, S. K., et al. (2019). Inter-sentence …

量子并不总意味着小尺度,量子物理学家用它探索系外行星生命

来源:机器之心除了量子计算,量子物理学的应用范畴还很广。近日,美国东北大学物理学教授 Gregory Fiete 探讨了量子研究的广泛应用。量子物理学家研究的世界与普通人每天生活的世界是同一个,唯一的区别是它被科学家「缩放」到了无法…

论文阅读课3-GraphRel: Modeling Text as Relational Graphs for(实体关系联合抽取,重叠关系,关系之间的关系,自动提取特征)

文章目录abstract1.Introduction2.相关工作3.回顾GCN4.方法4.1第一阶段4.1.1 Bi-LSTM4.1.2 Bi_GCN4.1.3 实体关系抽取4.2 第二阶段4.2.1 构建关系权图4.3训练4.4 inference5.实验5.1 settings5.1.1数据集5.2 baseline and evaluation metrics5.3 Quantitative Results5.4 细节分…

大脑是如何编码外界各种信息的?

来源:知乎链接:https://www.zhihu.com/question/532956044/answer/2494267009大脑将外部信息编码成心智模型。编码方式分为三种神经链接、语言逻辑和数学。心智模型理论是成型于上世纪九十年代的认知科学理论,代表人物就是著名学者史蒂芬平克…

论文阅读课4-Long-tail Relation Extraction via Knowledge Graph Embeddings(GCN,关系抽取,2019,远程监督,少样本不平衡,2注意

文章目录abstract1.introduction2.相关工作2.1 关系提取2.2 KG embedding2.3 GCNN3. 方法3.1符号3.2框架3.2.1 Instance Encoder3.4 Relational Knowledge Learning through KG Embeddings and GCNs.3.5 knowledge-aware attention4.实验4.1 数据集4.3 result4.4 长尾关系的处理…

用机器学习建立的数字「鼻子」表明,我们的嗅觉既反映了芳香分子的结构,也反映了产生它们的代谢过程...

来源:ScienceAI编辑:萝卜皮Alex Wiltschko 十几岁时就开始收集香水。他的第一瓶是 Azzaro Pour Homme,这是他在 T.J. Maxx百货的货架上发现的一款永恒的古龙水。他从《Perfumes: The Guide》中认出了这个名字,这本书对香气的诗意描…

论文阅读课5-DocRED: A Large-Scale Document-Level Relation Extraction Dataset(大规模文档集关系提取数据集

文章目录abstract1.Introduction2.数据收集3.数据分析4.基线设置5.实验Yao, Y., et al. (2019). DocRED A Large-Scale Document-Level Relation Extraction Dataset. Proceedings of the 57th Annual Meeting ofthe Association for Computational Linguistics.基线docRED数据…

74位图灵奖得主背景显示:大多数没有主修计算机专业,也并非高引用计算机科学家...

来源:中小学信息学竞赛计算机科学是世界上发展最快的学科之一,计算机科学的发展直接影响着人们的生活,并有可能从根本上改变传统的生活方式。图灵奖作为计算机领域的最高奖项,一直被誉为“计算机界的诺贝尔奖”,截止20…

Meta最新款VR头显体验者亲述:Quest Pro更漂亮、更有趣,但戴久了,脑袋疼!

来源:AI前线作者:Rachel Metz编译:核子可乐、冬梅价值一万多块的 VR 头显设备,你会买吗?声明:本文为 InfoQ 翻译,未经许可禁止转载。当地时间 10 月 11 日,元宇宙公司 Meta 召开了一…