论文学习19-Structured prediction models for RNN based sequence labeling in clinical text(LSTM_CRF,2016)

文章目录

  • abstract
  • 1. Introduction
  • 2.相关工作
  • 3.方法
    • 3.1 Bi-LSTM (baseline)
    • 3.2BiLSTM+CRF
    • 3.3 BiLSTM_CRF with pairwise modeling
    • 3.4 Approximate Skip-chain CRF
  • 5.实验

Jagannatha, A. and H. Yu “Structured prediction models for RNN based sequence labeling in clinical text.”

abstract

序列标记是一种广泛应用于非结构化自然语言数据中命名实体识别和信息提取的方法。在临床领域,序列标记的一个主要应用涉及从电子健康记录叙述中提取医疗实体,如药物、适应症和副作用。序列标记,在这个领域,提出了自己的一套挑战和目标。在这项工作中,我们使用递归神经网络实验了各种基于CRF的结构化学习模型。我们扩展了先前研究的LSTM-CRF模型,对成对电位进行了显式建模。我们还提出了一个具有RNN势的跳跃链CRF推理的近似版本。我们将这些方法用于结构化预测,以提高对各种医疗实体的准确短语检测。

  • LSTM_CRF
  • 具有RNN势的跳跃链CRF推理的近似版本
  • 原文code

1. Introduction

医院收集的患者数据分为两类:结构化数据和非结构化自然语言文本。研究表明,出院总结、病程记录等自然文本医疗数据是药物不良事件、药物处方、诊断信息等医学相关信息的丰富来源。从这些天然文本文件中提取的信息可用于多种用途,从药物疗效分析到不良反应监测。
广泛应用的信息提取序列标记方法是对非结构化自然语言数据进行命名实体识别和信息提取的一种常用方法。在临床领域,序列标记的一个主要应用涉及从电子健康记录叙述中提取医疗实体,如药物、适应症和副作用。序列标记,在这个领域,提出了自己的一套挑战和目标。在这项工作中,我们使用递归神经网络实验了各种基于CRF的结构化学习模型。我们扩展了先前研究的LSTM-CRF模型,对成对电位进行了显式建模。我们还提出了一个具有RNN势的跳跃链CRF推理的近似版本。我们将这些方法用于结构化预测,以提高对各种医疗实体的准确短语检测。
最近,递归(RNN)或卷积神经网络(CNN)模型越来越多地用于各种NLP相关任务。然而,这些神经网络本身并不把序列标记看作是一个结构化的预测问题。不同的神经网络模型使用不同的方法来合成每个单词的上下文向量。这个上下文向量包含当前单词及其邻近内容的信息。在CNN的例子中,相邻词由相同大小窗口的单词组成,而在双向rnn (Bi-RNN)中它们包含整个句子。

  • RNN中:窗口是整个句子(上下文)

图形模型和神经网络各有优缺点。虽然图形模型可以联合预测整个标签序列,但它们通常需要特殊的手工特性来提供良好的结果。另一方面,神经网络(尤其是递归神经网络)已被证明在从噪音文本数据中识别模式方面非常擅长,但是他们仍然独立地预测每个单词的标签,而不是作为一个序列的一部分。
简单来说,RNN受益于识别周围输入特征的模式,而CRF等结构化学习模型受益于邻近标签预测的知识。近期的命名实体识别研究(Huang et al., 2015)等将神经网络与CRF的优点结合起来,将CRF的一元势函数建模为神经网络模型。他们将两两配对的电位模型化为一个矩阵[a],其中Ai、j分别对应从标签i到标签j的转移概率.在神经网络模型中加入CRF推理有助于通过强制成对约束来标记各种命名实体的精确边界。

  • RNN受益于识别周围输入特征的模式,
  • 而CRF等结构化学习模型受益于邻近标签预测的知识。
  • l两者结合更好。(在神经网络模型中加入CRF推理有助于通过强制成对约束来标记各种命名实体的精确边界。)

这项工作的重点是在电子健康记录的非结构化临床记录中标注医疗事件(药物、指征和不良药物事件)和事件相关属性(药物剂量、用药途径等)。稍后在第4部分中,我们将显式定义我们所评估的医疗事件和属性。为了简单起见,对于本文的其余部分,我们使用广义的术语“医疗实体”来指代我们感兴趣的所有医疗相关信息
在医疗文件中检测医疗实体,如由临床医生编写的电子健康记录笔记,与在NLP中类似的序列标记应用(如命名实体识别),呈现出一些不同的挑战。这种差异部分是由于医学领域的关键性质,部分是由于医学文本和其中实体的性质。首先,在医学领域,准确的医学短语的提取是非常重要的。医学实体的名称通常遵循多项式命名法。如葡萄膜黑色素瘤或毛细胞白血病等疾病名称需要准确识别,因为部分名称(毛细胞或黑色素瘤)可能有显著不同的含义。此外,重要的医疗实体可能是电子健康记录中相对罕见的事件。例如,在我们的语料库中,每600个单词中就会出现一次药品不良事件。之前引用的NN模型的CRFs推理确实改进了短语的精确标注。然而,对CRFs的成对势函数进行建模的更好方法可能导致在标记稀有实体和检测精确短语bondaries方面的改进。

  • 上面是对于医学特性的要求(挑战一)
  • 下面是挑战二(要长期标签依赖建模)
    • CRF(短期依赖)+RNN的长期依赖

该领域的另一个重要挑战是需要对长期标签依赖关系进行建模。例如,在“患者表现为A继发于B”这句话中,A的标签与B的标签预测有很强的相关性。如果B是药物或诊断,A既可以被标记为药物不良反应,也可以被标记为症状。传统的线性链CRF方法只执行局部成对约束,可能不适合对这些依赖关系进行建模。可以认为,RNNs可能通过相邻单词的输入特性中的模式隐式地建模标签依赖关系。
在这项工作中,我们探讨了使用基于RNN的特征提取器进行结构化学习的各种方法。我们使用LSTM作为我们的RNN模型。具体来说,我们使用神经网络来模拟CRF成对电位。我们还对一个近似版本的跳跃链CRF进行建模,以捕获前面提到的长期标签依赖关系。我们证明,与具有相同数量可训练参数的标准LSTM或CRF-LSTM模型相比,这些改进的框架提高了性能。据我们所知,这是唯一一项专注于使用和分析基于RNN的结构化学习技术的工作

2.相关工作

正如前面所提到的,神经网络和条件随机域都被广泛地用于NLP中的序列标记任务。特别地,CRFs (Lafferty et al., 2001)在一般情况下被用于各种序列标记任务,特别是命名实体识别方面有着悠久的历史。早期的一些著名作品包括McCallum等人(2003),Sarawagi等人(2004)和Sha等人(2003)。Hammerton等人(2003)和Chiu等人(2015)使用长短时记忆(LSTM) (Hochreiter和Schmidhuber, 1997)进行命名实体识别。
最近在基于图像和文本领域的一些工作中,使用了结构化推理来提高基于神经网络的模型的性能。在NLP中,Collobert等(2011)使用了卷积传统的神经网络来模拟一元势。Lample等人(2016)和Huang等人(2015)专门针对递归神经网络,使用LSTMs对CRF的一元势进行建模。
在生物测定的命名实体识别中,有几种方法使用带有实体(如蛋白质或基因名称)注释的生物语料库。settle(2004)使用条件随机字段提取蛋白质、DNA和类似的生物实体类。Li et. al.(2015)最近使用LSTM进行命名实体识别或生物创造语料库中的蛋白/基因名称。Gurulingappa等人(2010)对现有的各种生物医学词典进行了评估,以从Medline摘要语料库中提取不良反应和疾病。
我们的工作使用一个真实世界的电子健康记录的临床语料库注释了各种医疗实体。其他使用真实世界医学语料库的作品包括Rochefort等人(2015),他们研究的是叙述性放射学报告。他们使用一种基于svm的分类器和一袋单词的特征向量来预测深静脉血栓和肺栓塞。Miotto et. al.(2016)使用去噪自编码器构建电子健康记录的无监督表示,可用于患者健康的预测建模

3.方法

我们使用Bi-RNNs作为单词序列的特征提取器。我们评估了三种不同的结构化学习方法。基线是一个双向递归神经网络,如3.1节所述。

3.1 Bi-LSTM (baseline)

  • embedding+BiLSTM+softmax
    在这里插入图片描述
  • loss:交叉熵

3.2BiLSTM+CRF

  • BiLSTM如上
    在这里插入图片描述
  • BiLSTM的输出经过tanh层得到矩阵A(LXL)

在这里插入图片描述

  • 损失函数log-likelihood
    在这里插入图片描述
    在这里插入图片描述

3.3 BiLSTM_CRF with pairwise modeling

在前一节中,成对的电位是通过一个转移概率矩阵来计算的[A],而与当前的上下文或单词无关。由于第1节中提到的原因,这可能不是一个有效的策略。一些医疗实体相对少见。因此,从外部标签到医疗标签的转换可能无法通过固定的参数矩阵有效地建模。在这种方法中,成对电位是通过一个依赖于当前词汇和上下文的非线性神经网络来建模的

  • 这里用Ψnn(yt,yt+1)\Psi_{nn}(y_t,y_{t+1})Ψnn(yt,yt+1)
    • LSTM->CNN(1-D,2size 的卷积)->tanh
      在这里插入图片描述

3.4 Approximate Skip-chain CRF

  • 线性链CRF的变种

跳跃链模型是对线性链crf的修改,允许通过使用跳跃边来实现长期的标签依赖关系。这些基本上是标签位置之间不相邻的边的相互关系。由于这些跳跃边缘,跳跃链CRF模型(Sutton和McCallum, 2006)显式地对标签之间的依赖关系建模,这些标签之间可能有不止一个位置的距离。在解码最佳标签序列时,将这些依赖项的联合推理考虑在内。然而,跳跃链CRF中的循环图使得精确推理变得难以处理。在这样的模型中,推理的近似解需要多次重复的循环信念传播(BP)。由于对于合并的RNN-CRF模型,每次梯度下降迭代都需要重新计算边缘,因此这种方法在计算上非常昂贵。Lin et. al.(2015)提出了一种缓解这一问题的方法,该方法直接对用于图像分割的二维网格CRF的消息传递推理中的消息进行建模。这绕过了对势函数建模的需要,以及使用loopy BP计算图上的近似消息的需要。
**近似CRF消息传递推理:**Lin等人(2015)利用输入图像特征的神经网络,直接对变量消息的因子进行估计。他们的基本推理是,从因子F到标记变量yt(用于任何循环BP的迭代)的因子到变量的因子到变量的消息可以近似为所有输入变量和作为该因子一部分的先前消息的函数。他们只对一个循环的BP进行建模,并通过经验表明,这将显著提高性能。这允许他们将消息建模为仅作为输入变量的函数,因为消息传递的第一次迭代的消息仅使用势函数计算。
在我们的跳跃链模型中,我们采用了类似的方法来计算可变边值。然而,我们不是估计单个因素到变量的消息,而是利用我们的问题中的序列结构并估计因素到变量的消息组。对于任何标签节点yt,第一组包含了与在句子中yt之前发生的节点相关的因子(从左至右)。第二组因素到变量的消息对应于涉及到句子后面出现的节点的因素。我们使用像LSTM这样的递归计算单元分别从左和右输入因子。来估计log因子到变量的和
我们现在假设使用跳跃边将当前节点t连接到前面的m个节点和后面的m个节点。每条边(跳跃或不跳跃)都由一个因子表示,该因子包含边的二进制势和连接节点的一元势。如前所述,我们将与节点t相关的因素分为两个集,FL(t)和FR(t)。其中FL(t)包含了{yt m,…, 1}和。因此,我们可以用FL(t)中的因子来表示组合后的信息
在这里插入图片描述

  • FR(t)中包含从yt+1到yt+m变量的因子组合信息可以表示为:
    在这里插入图片描述

与Lin et. al.(2015)类似,为了限制网络复杂度,我们只使用一个消息传递迭代。在我们的设置中,这意味着从邻近变量yi到当前变量yt的一个变元到因子的消息只包含yi的一元势和yi、yt之间的二元势。因此,我们可以看到
在这里插入图片描述

  • Modeling the messages using RNN:
    在这里插入图片描述
    在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
.

5.实验

  • embedding:skip-gram
  • dropout=0.5
  • batch norm(层间)
  • adagrad with mmentum
  • BIO
  • ten-fold
  • early-stoping

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481554.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

「深度学习表情动作单元识别」 最新2022研究综述

来源:专知基于深度学习的表情动作单元识别是计算机视觉与情感计算领域的热点课题.每个动作单元描述了一种人脸局部表情动作,其组合可定量地表示任意表情.当前动作单元识别主要面临标签稀缺、特征难捕捉和标签不均衡3个挑战因素. 基于此,本文将…

为什么物理诺奖颁给量子信息科学?——量子信息的过去、现在和未来

导语10月4日,2022年诺贝尔物理学奖授予 Alain Aspect, John F. Clauser 和 Anton Zeilinger,表彰他们“用纠缠光子实验,验证了量子力学违反贝尔不等式,开创了量子信息科学”。他们的研究为基于量子信息的新技术奠定了基础&#xf…

论文学习20-End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF(序列标注,2016ACL

文章目录abstract1.introduction2.Architecture2.1 CNN for Character-level Representation2.2 BiLSTM2.2.1 LSTM单元2.2.2BiLSTM2.3CRF2.4BiLSTM-CNNs-CRF3.训练Ma, X. and E. Hovy “End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF.”abstract 最先进的序列…

可溶解光开关利用光控制神经元

ISTOCK来源:IEEE电气电子工程师大约20年前,出现了一种称为光遗传学的策略,用激光控制大脑活动。它利用病毒将基因插入细胞,使其对光敏感。光遗传学给研究人员提供了一种精确的方法来刺激或抑制大脑回路,并阐明它们在大…

生成式AI无敌了: 大神微调Stable Diffusion,打造神奇宝贝新世界

来源:大数据文摘授权转载自AI科技评论作者:李梅、施方圆编辑:陈彩娴作为一个强大、公开且足够简单的模型,最近大火的 Stable Diffusion 在文本生成图像之外,给了大家无限的创作可能性。最近,来自 Lambda La…

论文学习21-Globally Normalized Transition-Based Neural Networks(2016,标签偏差问题

文章目录abstract1.introduction2.Model2.1 Transition System2.2 全局和局部归一化3.训练3.2标签偏差问题abstract 介绍了一种基于全局规范化转换的神经网络模型,该模型实现了最先进的词性标注、依存分析和句子压缩结果。我们的模型是一个简单的前馈神经网络&#…

推翻单一干细胞理论:哺乳动物大脑中发现了第二种干细胞

来源:生物通在成年哺乳动物的大脑中,神经干细胞保证了新的神经细胞,即神经元的不断形成。这个过程被称为成年神经发生,帮助鼠维持它们的嗅觉。一个研究小组最近在鼠大脑中发现了第二种干细胞群,它主要参与成年鼠嗅球中…

论文阅读课1-Attention Guided Graph Convolutional Networks for Relation Extraction(关系抽取,图卷积,ACL2019,n元)

文章目录abstract1.introduction1.1 dense connectionGCN1.2 效果突出1.3 contribution2.Attention Guided GCNs2.1 GCNs2.2 Attention Guided Layer2.3 Densely Connected Layer2.4 线性层2.5 AGGCN for RE3.实验3.1 数据集3.2 设置3.3 n-ary3.4 句子级4.ablation Study4.相关…

Nat. Rev. Genet. | 通过可解释人工智能从深度学习中获得遗传学见解

编译 | 沈祥振审稿 | 夏忻焱今天为大家介绍的是来自Maxwell W. Libbrecht,Wyeth W. Wasserman和Sara Mostafavi的一篇关于人工智能对于基因组学的可解释性的研究的综述。基于深度学习的人工智能(AI)模型现在代表了基因组学研究中进行功能预测…

复杂系统的逆向工程——通过时间序列重构复杂网络和动力学

导语蛋白质相互作用网络、生态群落、全球气候系统……很多复杂系统都可以抽象为一个相互作用的网络和其上的动力学。传统的研究主要关注在如何构建网络动力学模型,从而产生和实验观测数据具有相似统计特征的结果。所谓的复杂系统逆向工程,就是反其道而行…

关系提取论文总结

文章目录1.模型总结1.1 基于序列的方法1.2 dependency-based(基于依赖的)(有图)1.2.2 句间关系抽取1.5 自动学习特征的方法1.4 联合抽取模型1.6 RNN/CNN/GCN用于关系提取1.7 远程监督1.8句子级关系提取1.9MCR(阅读理解&#xff09…

邬贺铨:“物超人”具有里程碑意义,五方面仍需发力

来源:人民邮电报作者:邬贺铨我国正式迈入“物超人”时代。据工业和信息化部最新数据显示,截至8月末,我国三家基础电信企业发展移动物联网终端用户16.98亿户,成为全球主要经济体中率先实现“物超人”的国家。“物超人”…

深度:计算机的本质到底是什么?

来源:图灵人工智能来源:www.cnblogs.com/jackyfei/p/13862607.html作者:张飞洪 01 抽象模型庄子说过吾生有崖,知无涯。以有限的生命去学习无尽的知识是很愚蠢的。所以,学习的终极目标一定不是知识本身,因为…

中科大郭光灿院士团队发PRL,量子力学基础研究取得重要进展

来源:FUTURE | 远见选编:FUTURE | 远见 闵青云 中国科学技术大学郭光灿院士团队在量子力学基础研究方面取得重要进展。该团队李传锋、黄运锋等人与西班牙理论物理学家合作,实验验证了基于局域操作和共享随机性(LOSR, Local operat…

论文阅读课2-Inter-sentence Relation Extraction with Document-level (GCNN,句间关系抽取,ACL2019

文章目录abstract1.introduction2.model2.1输入层2.2构造图2.3 GCNN层2.4MIL-based Relation Classification3.实验设置3.1 数据集3.2 数据预处理3.3 基线模型3.4 训练3.5结果4.相关工作4.1 句子间关系抽取4.2 GCNN5. 结论相关博客Sahu, S. K., et al. (2019). Inter-sentence …

量子并不总意味着小尺度,量子物理学家用它探索系外行星生命

来源:机器之心除了量子计算,量子物理学的应用范畴还很广。近日,美国东北大学物理学教授 Gregory Fiete 探讨了量子研究的广泛应用。量子物理学家研究的世界与普通人每天生活的世界是同一个,唯一的区别是它被科学家「缩放」到了无法…

论文阅读课3-GraphRel: Modeling Text as Relational Graphs for(实体关系联合抽取,重叠关系,关系之间的关系,自动提取特征)

文章目录abstract1.Introduction2.相关工作3.回顾GCN4.方法4.1第一阶段4.1.1 Bi-LSTM4.1.2 Bi_GCN4.1.3 实体关系抽取4.2 第二阶段4.2.1 构建关系权图4.3训练4.4 inference5.实验5.1 settings5.1.1数据集5.2 baseline and evaluation metrics5.3 Quantitative Results5.4 细节分…

大脑是如何编码外界各种信息的?

来源:知乎链接:https://www.zhihu.com/question/532956044/answer/2494267009大脑将外部信息编码成心智模型。编码方式分为三种神经链接、语言逻辑和数学。心智模型理论是成型于上世纪九十年代的认知科学理论,代表人物就是著名学者史蒂芬平克…

论文阅读课4-Long-tail Relation Extraction via Knowledge Graph Embeddings(GCN,关系抽取,2019,远程监督,少样本不平衡,2注意

文章目录abstract1.introduction2.相关工作2.1 关系提取2.2 KG embedding2.3 GCNN3. 方法3.1符号3.2框架3.2.1 Instance Encoder3.4 Relational Knowledge Learning through KG Embeddings and GCNs.3.5 knowledge-aware attention4.实验4.1 数据集4.3 result4.4 长尾关系的处理…

用机器学习建立的数字「鼻子」表明,我们的嗅觉既反映了芳香分子的结构,也反映了产生它们的代谢过程...

来源:ScienceAI编辑:萝卜皮Alex Wiltschko 十几岁时就开始收集香水。他的第一瓶是 Azzaro Pour Homme,这是他在 T.J. Maxx百货的货架上发现的一款永恒的古龙水。他从《Perfumes: The Guide》中认出了这个名字,这本书对香气的诗意描…