论文学习9-Bidirectional LSTM-CRF Models for Sequence Tagging(LSTM,BILSTM,LSTM-CRF,BILSTM-CRF

文章目录

  • 1.Introduction
  • 2 model
    • 2.1 LSTM
    • 2.2BI-LSTM
      • BPTT
  • 2.3 CRF
  • 2.4 LSTM-CRF
  • 参考文献

本篇论文介绍了LSTM网络、BI-LSTM网络、CRF网络、LSTM-CRF网络、BI-LSTM-CRF网络,比较将它们用于自然语言处理的性能与准确率。重点介绍了BI-LSTM-CRF网络。

1.Introduction

  • 序列标记
    • 包括词性标记(POS)、
    • 分块标记和
    • 命名实体识别(NER)
  • 本文以前
    • 统计模型
      • Hidden Markov Models (HMM),
      • Maximum entropy Markov models (MEMMs) (McCallum et al.,2000), and
      • Conditional Random Fields (CRF)(Lafferty et al., 2001)。
    • 神经网络
      • 基于卷积网络的模型(Collobert et al., 2011)
        • Conv-CRF等模型,因为它包含一个卷积网络和CRF层输出(这个词的句子级别loglikelihood (SSL)是用于原始论文)。
        • Conv-CRF模型产生了有前景的结果序列标记任务。
      • 在演讲语言理解社区,
        • 递归神经网络(Mesnil et al ., 2013;Yao et al ., 2014)和
        • 基于卷积网(Xu and Sarikaya, 2013)最近提出的模型。
      • 其他相关工作包括(Graves et al ., 2005;Graves et al ., 2013)提出了一个双向递归神经网络语音识别。
  • 贡献
    • 1)系统比较了上述模型在NLP标记数据集上的性能;
    • 2)首次将双向LSTM CRF (BI-LSTM-CRF)模型应用于NLP基准序列标记数据集。
      • 由于具有双向LSTM组件,该模型可以使用过去和未来的输入特性。
      • 此外,由于有一个CRF层,该模型可以使用句子级标记信息。
      • 我们的模型可以在POS、chunking和NER数据集上产生最先进(或接近)的精度;
    • 3)与之前的观察结果相比,我们发现BI-LSTMCRF模型具有较强的鲁棒性,对嵌入字的依赖性较小(Collobert et al., 2011)。它可以产生准确的标签性能,而不必借助于文字嵌入。
      在这里插入图片描述

2 model

2.1 LSTM

在这里插入图片描述

  • 长期短期内存网络LSTM与RNN是一样的,只是隐藏层更新被专门构建的内存单元所取代。因此,他们可能更善于发现和利用数据中的长期依赖关系。

2.2BI-LSTM

在这里插入图片描述

BPTT

对展开网络随时间的前向和后向传递与常规网络前向和后向传递的方式类似,不同之处在于我们需要对所有时间步长展开隐藏状态。我们还需要在数据点的开始和结束处进行特殊处理。在我们的实现中,我们对整个句子执行前向和后向操作,只需要在每个句子的请求处将隐藏状态重置为0。我们有批处理实现,可以同时处理多个句子。

2.3 CRF

  • 精度高
  • 利用相邻标签信息预测当前标签有两种不同的方法。
    • 第一种方法是预测每次标记的分布,然后使用类波束解码来寻找最优的标签序列。
      • 最大熵分类器(Ratnaparkhi, 1996)和
      • 最大熵马尔可夫模型(MEMMs) (McCallum等,2000)的工作属于这一类
    • 第二个是关注句子水平不是个人的位置,从而导致条件随机域(CRF)模型(Lafferty et al., 2001)(图5)。请注意,输入和输出直接连接,而不是LSTM和双向LSTM网络记忆细胞/复发性组件使用
    • 这两种使用标记信息的方法之间的关系与使用输入特性的两种方法相似

2.4 LSTM-CRF

  • CRF层由连接连续输出层的线表示。
  • CRF的传递函数(传输矩阵)是参数
  • 有了这样一个层(CRF层),我们可以有效地使用过去和未来的标签来预测当前的标签,与通过双向LSTM网络使用过去和未来的输入特性相似
  • 动态规划(Rabiner, 1989)可以有效地用于计算[A]i,j(转移矩阵)和推理的最佳标签序列。详见(Lafferty et al., 2001)。
    在这里插入图片描述在这里插入图片描述
  • BILSTM-CRF模型
    • 可以有效地使用过去和未来的输入特性,这得益于双向LSTM组件。
    • CRF层:使得它还可以使用句子级标记信息。
    • 较强的鲁棒性,
    • 对嵌入字的依赖性较小。
    • BI-LSTMCRF模型可以在POS、分块和NER数据集上产生最先进(或接近)的准确性。此外,与之前的观察结果相比,该算法具有
  • 输入:单词、拼写、上下文特征
  • 由于删除了拼写和上下文特征,CRF模型的性能显著下降。CRF模型严重依赖工程特性来获得良好的性能
  • 另一方面,基于LSTM的模型,特别是BI-LSTM和BI-LSTM-CRF模型具有更强的鲁棒性,并且受工程特性去除的影响更小。

参考文献

Huang Z, Xu W, Yu K. Bidirectional LSTM-CRF Models for Sequence Tagging[J]. Computer Science, 2015.
https://blog.csdn.net/u012485480/article/details/80425445

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481582.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从连接组学到行为生物学,AI 助力使从图像中提取信息变得更快、更容易

来源:ScienceAI编辑:白菜叶一立方毫米听起来并不多。但在人脑中,这一体积的组织包含约 50,000 条由 1.34 亿个突触连接的神经「线路」。Jeff Lichtman 想追踪所有这些。为了生成原始数据,他使用了一种称为串行薄层电子显微镜的协议…

论文学习10-Joint entity recognition and relation extraction as a multi-head selection problem(实体关系联合抽取模型

文章目录abstract1.introduction2. 相关工作2.1 命名实体识别2.2 关系抽取2.3 实体关系联合抽取模型3.联合模型3.1 Embedding层3.2 bilstm--编码层3.3 命名实体识别3.4 多头选择的关系抽取模型3.5. Edmonds’ algorithmJoint entity recognition and relation extraction as a …

Gary Marcus:文本生成图像系统理解不了世界,离 AGI 还差得远

来源:AI科技评论作者:李梅、黄楠编辑:陈彩娴AI 作画很牛,但它并不理解图像背后的世界。自从 DALL-E 2 问世以来,很多人都认为,能够绘制逼真图像的 AI 是迈向通用人工智能(AGI)的一大…

论文学习11-Adversarial training for multi-context joint entity and relation extraction(实体关系买抽取模型,对抗学习

文章目录1. introduction2.相关工作3.Model3.1 Joint learning as head selection3.2 AT4.实验设置5.结果6.总结实体关系抽取模型对抗学习. 论文链接 code Bekoulis, G., et al. (2018). “Adversarial training for multi-context joint entity and relation extraction.” ar…

【前沿技术】美国脑计划2.0!投5亿美元,绘制史上最全人脑地图

来源:智能研究院【新智元导读】今天,脑科学计划宣布启动的「细胞图谱网络项目」,目标是绘制世界上最全面的人类大脑细胞图谱。这种雄心,堪比当年的人类基因组计划。今天,美国国立卫生研究院(NIH&#xff09…

HMM总结

文章目录4.HMM-->CRF4.1 HMM--是个序列4.1.1 推断问题(evaluate)4.1.2 viterbi decoding解码4.1.3 学习,参数估计4.1.4计算实例4.1.5 EM(baum-welch算法)的上溢出和下溢出概率图模型code4.HMM–>CRF 4.1 HMM–是个序列 x-观测到的条件…

南科大本科生在《物理评论快报》发文,实现由不定因果序驱动的量子冰箱

来源:FUTURE远见选编:FUTURE | 远见 闵青云 近日,南方科技大学物理系师生在实验中实现了由不定因果序驱动的量子冰箱。相关成果以「Experimental realization of a quantum refrigerator driven by indefinite causal orders」为题发表在《物…

论文学习12-Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data(CRF

文章目录abstract1.introduction1.2 条件模型2.标签偏差问题3.CRF提出条件随机场CRF abstract 我们提出了条件随机场,这是一个建立概率模型来分割和标记序列数据的框架。相对于隐马尔可夫模型和随机语法,条件随机场在这类任务中有几个优势,…

杨振宁六大数理工作赏析 | 祝贺杨先生百岁华诞

来源:返朴撰文:林开亮我的物理学界同事大多对数学采取功利主义的态度。也许因为受我父亲的影响,我较为欣赏数学。我欣赏数学家的价值观,钦佩数学的优美和力量:它既有战术上的随机应变,又有战略上的深谋远虑…

论文学习13Reconstructing the house from the ad: Structured prediction on real estate classifieds(实体关系抽取)

文章目录abstractIntroduction2. 相关工作3.房地产结构预测3.1问题形式化3.2 结构预测模型3.2.1 序列标注问题3.2.2 part-of tree constructLocally trained model (Threshold/Edmonds)Globally trained model (MTT)Transition-based dependency parsing (TB)4.实验5.pipeline总…

优化|深度学习或强化学习在组合优化方面有哪些应用?

来源:图灵人工智能前 言深度强化学习求解组合优化问题近年来受到广泛关注,是由于其结合了强化学习(Reinforcement learning)强大的决策(decision-making)能力和深度学习(deep learning)的各种模型(RNN、Transformer、GNN等等)强大的信息提取表征能力(r…

论文学习14-End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures(端到端实体关系抽取)

文章目录abstract1.introduction2.相关工作3.model3.1嵌入层3.2 序列层3.3实体检测3.4 依赖层3.5 Stacking Sequence and Dependency Layers3.6关系分类3.7 训练4 实验总结本文:Miwa, M. and M. Bansal “End-to-End Relation Extraction using LSTMs on Sequences …

人工智能在基因组学市场增长机会以及整个基因组学领域的最新技术

来源:ScienceAI编译:萝卜皮人工智能等最新技术浪潮已经触及几乎所有行业和企业的海岸。基因组学领域也不例外。在 2020-2030 年的评估期内,最新技术在基因组学领域的日益普及将被证明是基因组学市场人工智能的主要增长贡献者。基因组学可以定…

论文学习15-Table Filling Multi-Task Recurrent Neural Network(联合实体关系抽取模型)

文章目录abstract1 introduction2.方 法2.1实体关系表(Figure-2)2.2 The Table Filling Multi-Task RNN Model2.3 Context-aware TF-MTRNN model2.4 Piggybacking for Entity-Relation Label Dependencies2.5 Ranking Bi-directional Recurrent Neural Network (R-biRNN)3.Mode…

【Brain】大脑里也有个Transformer!和「海马体」机制相同

来源: 墨玫人工智能【导读】Transformer模型性能强的原因是模拟了人脑?我不能创造的,我也不理解。——费曼想要创造人工智能,首先要理解人类的大脑因何有智能。随着神经网络的诞生及后续的辉煌发展,研究者们一直在为神…

CRF总结

文章目录计算下Z(矩阵)1.1 一般参数形式1.2 简化形式Z1.3 矩阵形式1.3.2 Z2.维特比算法3.前向算法4.后向算法5.使用前向后向的概率计算6.期望计算7.参数估计(学习)7.1 梯度上升参考文献CRF 是无向图模型code 它是一个判别式模型建…

CAAI名誉理事长李德毅院士谈机器的生命观

来源:图灵人工智能2022年9月28日上午,为促进人工智能产、学、研、经、用的发展,助力余杭区人民政府建设杭州市人工智能创新发展区,由中国人工智能学会主办的会士系列讲坛—第一期通过线上的形式在余杭区未来科技城成功举办。本次活…

论文学习16-Going out on a limb: without Dependency Trees(联合实体关系抽取2017)

文章目录abstract1. Introduction2. 相关工作3. Model3.1 Multi-layer Bi-directional Recurrent Network3.2实体检测3.3 attention model3.4 关系检测3.5双向编码4.训练5.实验5.2 evaluation metrics5.3 基线和以前的模型5.4 超参数6.结果Katiyar, A. and C. Cardie (2017). G…

困局中的英伟达:进一步是鲜花,退一步是悬崖

来源: AI前线整理:王强、冬梅看看最近几个月的股价,英伟达的投资者肯定不怎么开心:但如果把时间拉长到 5 年,我们看到的故事似乎又不一样了:2020 年底显然是是一个转折点。很多游戏玩家还清楚地记得&#x…

论文学习17-Global Normalization of Convolutional Neural Networks(联合实体关系抽取CNN+CRF)2017

文章目录abstract1.Introduction2.相关工作3.Model全局归一化层(使用线性链CRF)4.实验和分析4.3实验结果总结Adel, H. and H. Schtze “Global Normalization of Convolutional Neural Networks for Joint Entity and Relation Classification.”abstract CNNCRF&g…