20-Joint entity and relation extraction based on a hybrid neural network(LSTM-ED+CNN),考虑长距离的实体标签之间的关

文章目录

  • abstract
  • 1.introduction
  • 2.相关工作
    • 2.1. Named entity recognition
    • 2.2. Relation classification
    • 2.3 联合模型
    • 2.4. LSTM and CNN models On NLP
  • 3.模型
    • 3.1. Bidirectional LSTM encoding layer
    • 3.2. Named entity recognition (NER) module:LSTM decoder
    • 3.3. Relation classification (RC) module
    • 3.4. Training and implementation
  • 4. Experiment
    • 4.1. Experimental setting
    • 4.2. Results
  • 5. Analysis and discussions
    • 5.1. Analysis of named entity recognition module
    • 5.2. Analysis of relation classification module
    • 5.3. The effect of two entities’ distance
    • 5.4. Error analysis
  • 6. Conclusion
  • 参考文献

Zheng, S., et al. (2017). “Joint entity and relation extraction based on a hybrid neural network.” Neurocomputing 257(000): 1-8.

abstract

实体和关系提取是一个结合检测实体提及和从非结构化文本识别实体的语义关系的任务。我们提出了一种混合神经网络模型来提取实体及其关系,而不需要任何手工制作的特征。混合神经网络包含用于实体提取的新型双向编码器 - 解码器L STM模块(BiL STM-ED)和用于关系分类的CNN模块。在BiLSTM-ED中获得的实体的上下文信息关键词:进一步通过CNN模块以改进关系分类。我们在公共数据集ACE05(自动内容提取程序)上进行实验神经网络,以验证我们的信息提取方法的有效性。我们提出的方法实现了实体和关系提取标记分类任务的最新结果。

  • 任务:实体关系联合抽取
  • 模型:
    • 实体抽取:BiLSTM编码器-解码器
      • 获取实体的上下文信息
    • 关系分类:CNN
  • 数据集:ACE05

1.introduction

实体和关系提取是检测实体提及并从文本中识别它们的语义关系。它是知识提取中的一个重要问题,在知识库的自动构建中起着至关重要的作用。传统系统将此任务视为两个独立任务的管道,即命名实体识别(NER)[1]和关系分类(RC)[2]。这个分离的框架使任务易于处理,每个组件都可以更灵活。但它很少关注两个子任务的相关性。联合学习框架是一种有效的方法来关联NER和RC,这也可以避免错误的级联[3]。然而,大多数现有的联合方法是基于特征的结构化系统[3-7]。它们需要复杂的特征工程,并且严重依赖于受监督的NLP工具包,这也可能导致错误传播。为了减少特征提取中的手工工作,最近,Miwa和Bansal [8]提出了一种基于神经网络的端到端实体和关系提取方法。然而,当检测到实体时,它们使用NN结构来预测实体标签,这忽略了标签之间的长关系。基于上述分析,我们提出了一种混合神经网络模型来解决这些问题,

  • pipeline
    • 命名实体识别
    • 关系分类
    • 分开处理,优点灵活,缺点没有关注两个子任务的相关性
  • 联合学习框架
    • 优点:避免错误的级联
    • 以前:基于特征,依赖于受监督的nlp工具包,这也有错误传播
    • 神经网络方法:
      • Miwa和Bansal端到端的方法
        • LSTM(encode)+softmax(NN-decode):实体提取
        • dependency Tree LSTM:关系抽取
        • NN的解码忽略了标签之间的长关系
  • LSTM-ED+CNN
    • 优点:
      • 联合模型:无错误传递
      • 混合神经网络:不用nlp工具(依赖树)
      • LSTM-decoder:可以获取标签之间的长关系依赖
    • 结构
      • 共享编码层:BiLSTM,获取实体的上下文信息
      • 实体抽取:LSTM解码器
        • decoder:也用Lstm,可以获得标签之间的长关系
      • 关系分类:CNN

2.相关工作

  • 信息抽取
    • pipeline
      • 命名实体识别
      • 关系分类
      • 分开处理,优点灵活,缺点没有关注两个子任务的相关性
    • 联合学习框架
      • 优点:避免错误的级联
      • 以前:基于特征,依赖于受监督的nlp工具包,这也有错误传播
      • 神经网络方法:
        • Miwa和Bansal端到端的方法
          • LSTM(encode)+softmax(NN-decode):实体提取
          • dependency Tree LSTM:关系抽取
          • NN的解码忽略了标签之间的长关系

2.1. Named entity recognition

  • 特征
    • CRF[14,20] .
    • HMM
  • 神经网络
    • 序列标注
      • CNN
        • Collobert et al[21]:CNN+CRF
      • RNN
        • Chiu and Nichols [15]:character level+word level混合特征
          • decode:线性层+softmax
        • BiLSTM+CRF[16,17,22]
          • decode:CRF
        • Miwa and Bansal [8] :
          • encode:BiLSTM
          • decode:NN+softmax
  • decode不同

2.2. Relation classification

  • 特征
    • Kambhatla [23] employs Maximum Entropy model
      • 结合从文本中衍生出的各种词汇,句法和语义特征
    • Rink [2]设计了16种使用许多有监督的NLP工具包和资源提取的功能,包括POS,Word-Net,依赖解析等。
    • 手工设计的特征不全面
    • 依赖于nlp工具
    • 手工特征设计需要大量工作
  • 神经网络
    • CNN
    • RNN
      • RecNN
      • LSTM
  • 其他
    • 基于核的方法
      • Nguyen et al. [28] :探索基于句法和语义结构的创新内核的使用
      • Sun and Han [34]:提出了一种新的树内核,称为特征丰富的树内核(FTK),用于关系提取。
    • 组合方法
      • FCM [25]:学习了一个句子的子结构的表示。与现有的组合模型相比,FCM可以轻松处理任意类型的输入和组合的全局信息。

2.3 联合模型

  • pipeline
    • 学习了一个句子的子结构的表示。与现有的组合模型相比,FCM可以轻松处理任意类型的输入和组合的全局信息。
  • 联合模型
    • 特征
      • 基于特征的结构化系统[3,4,35-37],需要复杂的特征工程。 [35,36]提出了一个联合模型,该模型使用子任务的最佳结果并寻求全局最优解。
      • Singh et al. [37]:单一图模型,它表示了子任务之间的各种依赖关系
      • Li and Ji [3]:逐步预测,结构感知器,具有高效的beam搜索
      • Miwa and Sasaki [4]:引入了一个表格来表示句子中的实体和关系结构,并提出了一种基于历史的波束搜索结构化学习模型。
    • 神经网络:
      • Miwa和Bansal [8]:LSTM+Tree-LSTM使用基于LSTM的模型来提取实体和关系,这可以减少手工工作。

2.4. LSTM and CNN models On NLP

  • CNN
    • 视觉:图像特征
    • 用于nlp:能够提取句子语义和关键词信息
  • LSTM
    • 有长期记忆

本文使用的方法基于神经网络模型:卷积神经网络(CNN)和长短期记忆(LSTM)。CNN最初是为计算机视觉而发明的[38],它总是被用来提取图像的特征[39,40]。近年来,CNN已成功应用于不同的NLP任务,并且还显示了提取感知语义和关键词信息的有效性[27,41-43]。长短期记忆(LSTM)模型是一种特定的复发性神经网络(RNN)。LSTM用带有门的内存块替换了一个重复神经网络的隐藏向量。它可以通过训练适当的门控权重来保持长期记忆[44,45]。LSTM还在许多NLP任务上展示了强大的能力,如机器翻译[46],句子表示[47]和关系提取[26]。在本文中,我们提出了一种基于联合学习实体及其关系的混合神经网络。与手工制作的基于特征的方法相比,它可以从给定的句子中学习相关的特征而无需复杂的特征工程工作。当与其他基于神经网络的方法[8]进行比较时,我们的方法考虑了实体标签之间的长距离关系。

3.模型

在这里插入图片描述

混合神经网络的框架如图1所示。混合神经网络的第一层是双向LSTM编码层,由命名实体识别(NER)模块和关系分类(RC)模块共享。在编码层之后有两个“通道”,一个链接到NER模块,它是LSTM解码层,另一个链接到CNN层以提取关系。在以下部分中,我们将详细描述这些组件。

  • LSTM-ED+CNN
    • 优点:
      • 联合模型:无错误传递
      • 混合神经网络:不用nlp工具(依赖树)
      • LSTM-decoder:可以获取标签之间的长关系依赖
    • 结构
      • 共享编码层:BiLSTM,获取实体的上下文信息
      • 实体抽取:LSTM解码器
        • decoder:也用Lstm,可以获得标签之间的长关系
      • 关系分类:CNN

3.1. Bidirectional LSTM encoding layer

在这里插入图片描述

  • BiLSTM encoder
    • 字嵌入层
    • 平行的层
      • 前向lstm层h→\stackrel{\rightarrow}{h}h
        • 考虑前文(1-t)和wt
      • 后向lstm层h←\stackrel{\leftarrow}{h}h
    • 连接层:h=[h→;h←]h=[\stackrel{\rightarrow}{h};\stackrel{\leftarrow}{h}]h=[h;h]
    • LSTM的公式
      • it=δ(Wxixt+Whiht−1+Wcict−1+bi)ft=δ(Wxfxt+Whfht−1+Wcfct−1+bf)zt=tanh(Wxcxt+Whcht−1+bc)ct=ftct−1+itztot=δ(Wxoxt+Whoht−1+Wcoct+bo)ht=ottanh(ct)i_t=\delta(W_{xi}x_t+W_{hi}h_{t-1}+W_{ci}c_{t-1}+b_i)\\ f_t=\delta(W_{xf}x_t+W_{hf}h_{t-1}+W_{cf}c_{t-1}+b_f)\\ z_t=tanh(W_{xc}x_t+W_{hc}h_{t-1}+b_c)\\ c_t=f_tc_{t-1}+i_tz_t\\ o_t=\delta(W_{xo}x_t+W_{ho}h_{t-1}+W_{co}c_t+b_o)\\ h_t=o_ttanh(c_t)it=δ(Wxixt+Whiht1+Wcict1+bi)ft=δ(Wxfxt+Whfht1+Wcfct1+bf)zt=tanh(Wxcxt+Whcht1+bc)ct=ftct1+itztot=δ(Wxoxt+Whoht1+Wcoct+bo)ht=ottanh(ct)

3.2. Named entity recognition (NER) module:LSTM decoder

  • NER:LSTM decoder
    • 输入:
      • BiLSTM encoder:hth_tht
      • 先前预测的标签:Tt−1T_{t-1}Tt1
      • decoder的前隐藏状态:st−1s_{t-1}st1
    • LSTM
      • LSTM的公式
        • it=δ(Wxiht+Whist−1+WtiTt−1+bi)<−−−这个变了ft=δ(Wxfxt+Whfst−1+Wcfct−1+bf)zt=tanh(Wxcxt+Whcst−1+bc)ct=ftct−1+itztot=δ(Wxoxt+Whoht−1+Wcoct+bo)st=ottanh(ct)i_t=\delta(W_{xi}h_t+W_{hi}s_{t-1}+W_{ti}T_{t-1}+b_i)<---这个变了\\ f_t=\delta(W_{xf}x_t+W_{hf}s_{t-1}+W_{cf}c_{t-1}+b_f)\\ z_t=tanh(W_{xc}x_t+W_{hc}s_{t-1}+b_c)\\ c_t=f_tc_{t-1}+i_tz_t\\ o_t=\delta(W_{xo}x_t+W_{ho}h_{t-1}+W_{co}c_t+b_o)\\ s_t=o_ttanh(c_t)it=δ(Wxiht+Whist1+WtiTt1+bi)<ft=δ(Wxfxt+Whfst1+Wcfct1+bf)zt=tanh(Wxcxt+Whcst1+bc)ct=ftct1+itztot=δ(Wxoxt+Whoht1+Wcoct+bo)st=ottanh(ct)
      • 转换Tt=Wtsst+btsT_t=W_{ts}s_t+b_{ts}Tt=Wtsst+bts
      • softmax:
        • yt=WyTt+byy_t=W_yT_t+b_yyt=WyTt+by
        • pti=exp(yti)Σj=1ntexp(ytj)p_t^i=\frac{exp(y_t^i)}{\Sigma_{j=1}^{nt}exp(y_t^j)}pti=Σj=1ntexp(ytj)exp(yti)
    • 因为T类似于tag embedding,而LSTM可以学习长期依赖–>类似于标签交互

3.3. Relation classification (RC) module

在这里插入图片描述

  • CNN
    • 输入:LSTM编码出来的,实体的隐层表示h和实体之间的单词的嵌入表示q
    • CNN:R=CNN([he1,we1,we1+1...we2,he2])R=CNN([h_{e1},w_{e1},w_{e1+1}...w_{e2},h_{e2}])R=CNN([he1,we1,we1+1...we2,he2])
      • s=[he1,we1,we1+1...we2,he2]卷积:zl(i)=σ(Wc(i)×sl:l+k−1+br(i)),filters的尺寸(k,d),i−−第i个filters结果:z(i)=[z1(i),...,zl−k+1(i)]max−pooling:zmax(i)=max{z(i)}=max{z1(i),...,zl−k+1(i)}s=[h_{e1},w_{e1},w_{e1+1}...w_{e2},h_{e2}]\\ 卷积:z_l^{(i)}=\sigma(W_c^{(i)}\times s_{l:l+k-1}+br^{(i)}),filters的尺寸(k,d),i--第i个filters\\ 结果:z^{(i)}=[z^{(i)}_1,...,z^{(i)}_{l-k+1}]\\ max-pooling:z_{max}^{(i)}=max\{z^{(i)}\}=max\{z^{(i)}_1,...,z^{(i)}_{l-k+1}\}s=[he1,we1,we1+1...we2,he2]zl(i)=σ(Wc(i)×sl:l+k1+br(i))filtersk,d),iifiltersz(i)=[z1(i),...,zlk+1(i)]maxpooling:zmax(i)=max{z(i)}=max{z1(i),...,zlk+1(i)}–把句子长度所在的维度pool了,获取最显著特征
      • 结合多个卷积核(softmax+dropout)
        • Rs=[zmax(1),...,zmax(nr)]R_s=[z_{max}^{(1)},...,z_{max}^{(nr)}]Rs=[zmax(1),...,zmax(nr)]
        • yr=WR⋅(Rs∘r)+bR−−∘是元素级乘法y_r=W_R\cdot (R_s\circ r)+b_R--\circ是元素级乘法yr=WR(Rsr)+bR
        • pri=exp(yri)Σj=1ncexp(yrj)p_r^i=\frac{exp(y_r^i)}{\Sigma_{j=1}^{nc}exp(y_r^j)}pri=Σj=1ncexp(yrj)exp(yri)
    • !!: 实体内有多个单词:隐层表示(h)相加以表示实体向量

3.4. Training and implementation

在这里插入图片描述

  • 目标函数:最大化似然函数
    • ner:Lner=maxΣj=1∣D∣Σt=1Ljlog(pt(j)=yt(j)∣xj,Θner)L_{ner}=max\Sigma_{j=1}^{|D|}\Sigma_{t=1}^{L_j}log(p_t^{(j)}=y_t^{(j)}|x_j,\Theta_{ner})Lner=maxΣj=1DΣt=1Ljlog(pt(j)=yt(j)xj,Θner)
    • RC:Lrc=maxΣj=1∣D∣log(pr(j)=yr(j)∣xj,Θrc)L_{rc}=max\Sigma_{j=1}^{|D|}log(p_r^{(j)}=y_r^{(j)}|x_j,\Theta_{rc})Lrc=maxΣj=1Dlog(pr(j)=yr(j)xj,Θrc)
    • 先训练ner,再训练RC
    • 如果两个实体的距离>LmaxL_{max}Lmax,则不可能存在关系如图4
  • 优化方法:Hinton在[52]中提出的RMSprop

我们首先训练NER模块识别实体并获得实体的编码信息,然后进一步训练RC模块根据编码信息和实体组合对关系进行分类。特别地,我们发现如果两个实体之间存在关系,则两个实体的距离总是小于约20个字,如图4所示。因此,在确定两个实体之间的关系时,我们也充分利用了这个属性,即如果两个实体的距离大于L max,我们认为它们之间不存在关系。基于图4的统计结果,ACE05数据集中的L max约为20。

4. Experiment

4.1. Experimental setting

  • 数据集
    • ACE05
      • 考虑关系的方向
  • baseline
    • a classical pipeline model [3] :CRF+最大熵模型
    • a joint feature-based model called Joint w/Global [3] ,
      • 联合w / Global [3]使用单个模型逐步提取实体提及及其关系。他们开发了许多新的有效的全局功能作为软约束,以捕获实体提及和关系之间的相互依赖性。
    • an end-to-end NN-based model SPTree [8] .M. Miwa , M. Bansal ,2016
      • 通过使用双向顺序和双向树状结构LSTM-RNN来表示单词序列和依存关系树结构。
  • 评估
    • Precision §, Recall ® and F- Measure (F1)
    • 正确:h,r,t均对
  • 超参数
    在这里插入图片描述

4.2. Results

在这里插入图片描述

  • 本文模型有效:效果最好
  • 神经网络模型和联合模型是可行的
    • 联合模型好于pipeline
    • 神经网络模型好于基于特征的模型
  • 精度差不多,区别集中于recall,本文模型平衡了精度和recall

5. Analysis and discussions

5.1. Analysis of named entity recognition module

NER模块包含双向LSTM编码层和LSTM解码层。我们使用BiLSTM-ED来表示NER模块的结构。为了进一步说明BiLSTM-ED对实体提取任务的有效性,我们将BiLSTM-ED与其不同的变异和其他有效的序列标记模型进行了比较。对比方法是:

  • NER:BiLSTM-ED
  • 对比
    • Forward-LSTM:使用单向LSTM对从w 1到w n的输入语句进行编码,然后还应用LSTM结构对实体标签进行解码。
    • Backward-LSTM :具有与Forward-LSTM类似的方式,不同之处在于从w n到w 1的编码顺序。
    • BiLSTM-NN:使用双向LSTM编码输入语句,并使用前馈神经网络(NN)体系结构预测实体标签。它忽略了标签之间的关系。
    • BiLSTM-NN-2 [8]Miwa:使用双向LSTM编码输入句子,并通过考虑相邻标签信息而不是标签之间的长距离关系使用新颖的前馈神经网络(NN)。
    • CRF [53]:是经典且有效的序列标记模型。在本节中,我们使用CRF作为强大的比较方法之一,并且CRF中使用的功能与所使用的[3]相同。
      在这里插入图片描述
  • 结论:
    • 考虑其他标签信息好于不考虑
      • BiLSTM-NN-2>BiLSTM-NN
    • 考虑长距离标签信息比仅考虑相邻标签信息好
      • BiLSTM-ED>BiLSTM-NN-2

5.2. Analysis of relation classification module

在关系分类模块中,我们使用两种信息:实体之间的子句和从双向LSTM层获得的实体的编码信息。为了说明我们考虑过的这些信息的有效性,

  • RC
    • 信息有效性:
      • 实体间子句
      • 实体编码信息(LSTM)
  • 实验
    • pipeline:我们首先使用NER模块检测句子中的实体,然后使用步骤1的正确实体识别结果来测试RC模块。
    • Full-CNN使用整个句子来识别实体的关系。
    • sub-CNN仅使用两个实体之间的子句。
    • Sub-CNN-H:子句+实体编码信息
  • 结果
    • Full-CNN<sub-CNN<sub-CNN-H
      在这里插入图片描述

5.3. The effect of two entities’ distance

在这里插入图片描述

  • sub-CNN来获取下图
    在这里插入图片描述

从图4中,我们知道当水平轴是两个实体之间的距离时,数据分布显示长尾属性。因此,我们设置阈值L max来过滤数据。如果两个实体的距离大于L max,我们认为这两个实体没有任何关系。为了分析阈值L max的影响,我们使用Sub-CNN来基于不同的L max值来预测实体关系。效果如图5所示.L max越小,过滤的数据越多。因此,如果L max太小,它可能会过滤正确的数据并使F 1结果下降。如果L max太大,则无法过滤噪声数据,这也可能损害最终结果。图5显示当L max在10和25之间时,它可以表现良好。该范围也与图4的统计结果相匹配。

  • Lmax用以过滤数据
    • 因为长尾性
    • 结果与统计相符合

5.4. Error analysis

在这里插入图片描述

  • 对角线:正确结果
  • 其他:错误结果
  • 结果显示:
    • 除了“P-S”.其他表现良好
      • 原因:
        • 测试集中“P-S”少,因此“P-S”无法反应真实分布.
        • “person-social”.多是代词,难以判别
    • 大多数被预测为了Other(忽略了某些关系)
      • 我们还可以看到预测关系的分布相对分散在“OTHER”的第一行,这意味着大多数特定关系类可以被预测为“OTHER”。
      • 也就是说,我们无法识别某些关系,直接导致相对较低的召回率。
      • 从“OTHER”的第一列,我们可以看到,如果两个实体之间没有关系,那么模型就可以被有效地区分开来。
    • 具有相反方向的相同关系类型易于混淆
      • 例如:P-W(e2e1)和P-W(e1e2),ART(e1e1)和ART(e2e1),O-A(e1e1)和O-A(e2e1)。
      • 原因是相同的关系类型总是具有类似的描述,即使它们不在同一方向上。

6. Conclusion

实体和关系抽取是知识提取中的一个重要问题,在知识库的自动构建中起着至关重要的作用。在本文中,我们提出了一种混合神经网络模型来提取实体及其语义关系,而不需要任何手工制作的特征。当与其他基于神经网络的方法进行比较时,我们的方法考虑了实体标签之间的长距离关系。为了说明我们的方法的有效性,我们在公共数据集ACE05(自动内容提取程序)上进行了实验。公共数据集ACE05的实验结果验证了我们方法的有效性。在未来,我们将探索如何基于神经网络更好地链接这两个模块,以便它可以更好地执行。此外,我们还需要解决忽视某些关系的问题,并试图提升召回价值。

参考文献

[1] D. Nadeau , S. Sekine , A survey of named entity recognition and classification, Lingvisticae Investigationes 30 (1) (2007) 3–26 .
[2] B. Rink , Utd: classifying semantic relations by combining lexical and semantic resources, in: Proceedings of the 5th International Workshop on Semantic Evaluation, 2010, pp. 256–259 .
[3] Q. Li , H. Ji , Incremental joint extraction of entity mentions and relations., in: Proceedings of the 52rd Annual Meeting of the Association for Computational Linguistics, 2014, pp. 402–412 .
[4] M. Miwa , Y. Sasaki , Modeling joint entity and relation extraction with table representation., in: Proceedings of Conference on Empirical Methods in Natural Language Processing, 2014, pp. 1858–1869 .
[5] Y.S. Chan , D. Roth , Exploiting syntactico-semantic structures for relation extraction, in: Proceedings of the 49rd Annual Meeting of the Association for Computational Linguistics, 2011, pp. 551–560 .
[6] X. Yu , W. Lam , Jointly identifying entities and extracting relations in encyclopedia text via a graphical model approach, in: Proceedings of the 21th COLING International Conference, 2010, pp. 1399–1407 .
[7] L. Li , J. Zhang , L. Jin , R. Guo , D. Huang , A distributed meta-learning system for chinese entity relation extraction, Neurocomputing 149 (2015) 1135–1142 .
[8] M. Miwa , M. Bansal , End-to-end relation extraction using lstms on sequences and tree structures, in: Proceedings of the 54rd Annual Meeting of the Association for Computational Linguistics, 2016 .
[9] C.N. dos Santos , B. Xiang , B. Zhou , Classifying relations by ranking with convolutional neural networks, in: Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, vol. 1, 2015, pp. 626–634 .
[10] Y. Xu , L. Mou , G. Li , Y. Chen , H. Peng , Z. Jin , Classifying relations via long short term memory networks along shortest dependency paths, in: Proceedings of Conference on Empirical Methods in Natural Language Processing, 2015 .
[11] L. Zou , R. Huang , H. Wang , J.X. Yu , W. He , D. Zhao , Natural language question answering over RDF: a graph data driven approach, in: Proceedings of the 2014 ACM SIGMOD international conference on Management of data, ACM, 2014, pp. 313–324 .
[12] J. Sang , C. Xu , J. Liu , User-aware image tag refinement via ternary semantic analysis, IEEE Trans. Multimed. 14 (3) (2012) 883–895 .
[13] J. Sang , C. Xu , Right buddy makes the difference: An early exploration of social relation analysis in multimedia applications, in: Proceedings of the 20th ACM International Conference on Multimedia, ACM, 2012, pp. 19–28 .
[14] G. Luo , X. Huang , C.-Y. Lin , Z. Nie , Joint entity recognition and disambiguation, in: Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2015, pp. 879–888 .
[m5G; March 8, 2017;1:24 ] 7
[15] J.P. Chiu, E. Nichols, Named entity recognition with bidirectional lstm-cnns, arXiv: 1511.08308 (2015).
[16] Z. Huang, W. Xu, K. Yu, Bidirectional lstm-crf models for sequence tagging, arXiv: 1508.01991 (2015).
[17] G. Lample , M. Ballesteros , S. Subramanian , K. Kawakami , C. Dyer , Neural architectures for named entity recognition, in: Proceedings of the Annual Conference of the North American Chapter of the Association for Computational Linguistics, 2016 .
[18] K. Xu Y. Feng, S. Huang, D. Zhao, Semantic relation classification via convolutional neural networks with simple negative sampling, arXiv: 1506.07650 (2015).
[19] D. Zeng , K. Liu , G. Zhou , J. Zhao , Relation classification via convolutional deep neural network, in: Proceedings of the 25th COLING International Conference, 2014, pp. 2335–2344 .
[20] A. Passos , V. Kumar , A. McCallum , Lexicon infused phrase embeddings for named entity resolution, in: Proceedings of the International Conference on Computational Linguistics, 2014, pp. 78–86 .
[21] R. Collobert , J. Weston , L. Bottou , M. Karlen , K. Kavukcuoglu , P. Kuksa , Natural language processing (almost) from scratch, J. Mach. Learn. Res. 12 (2011) 2493–2537 .
[22] X. Ma, E. Hovy, End-to-end sequence labeling via bi-directional lstm-cnns-crf, arXiv: 1603.01354 (2016).
[23] N. Kambhatla , Combining lexical, syntactic, and semantic features with maximum entropy models for extracting relations, in: Proceedings of the 43th ACL International Conference, 2004, p. 22 .
[24] R. Socher , B. Huval , C.D. Manning , A.Y. Nq , Semantic compositionality through recursive matrix-vector spaces, in: Proceedings of the EMNLP International Conference, 2012, pp. 1201–1211 .
[25] M. Yu , M. Gormleyl , M. Dredze , Factor-based compositional embedding models, in: Proceedings of the NIPS Workshop on Learning Semantics, 2014 .
[26] X. Yan , L. Moul , G. Li , Y. Chen , H. Peng , Z. Jin , Classifying relations via long short term memory networks along shortest dependency paths, in: Proceedings of EMNLP International Conference, 2015 .
[27] C.N. dos Santos , B. Xiangl , B. Zhou , Classifying relations by ranking with convolutional neural networks, in: Proceedings of the 53th ACL International Conference, vol. 1, 2015, pp. 626–634 .
[28] T.-V.T. Nguyen , A. Moschittil , G. Riccardi , Convolution kernels on constituent, dependency and sequential structures for relation extraction, in: Proceedings of the EMNLP International Conference, 2009, pp. 1378–1387 .
[29] P. Qin , W. Xu , J. Guo , An empirical convolutional neural network approach for semantic relation classification, Neurocomputing 190 (2016) 1–9 .
[30] S. Zheng , J. Xu , P. Zhou , H. Bao , Z. Qi , B. Xu , A neural network framework for relation extraction: Learning entity semantic and relation pattern, Knowl. Based Syst. 114 (2016) 12–23 .
[31] D. Zhang D. Wang, Relation classification via recurrent neural network, arXiv: 1508.01006 (2015).
[32] J. Ebrahimi , D. Dou ,Chain based RNN for relation classification, in: Proceedings of the NAACL International Conference, 2015, pp. 1244–1249 .
[33] S. Zhang , D. Zheng , X. Hu , M. Yang , Bidirectional long short-term memory networks for relation classification, in: Proceedings of the Pacific Asia Conference on Language, Information and Computation, 2015, pp. 73–78 .
[34] L. Sun , X. Han , A feature-enriched tree kernel for relation extraction, in: Proceedings of the 52th ACL International Conference, 2014, pp. pages 61– 67 .
[35] D. Roth , W.-t. Yih , Global inference for entity and relation identification via a linear programming formulation, in: Introduction to Statistical Relational Learning, 2007, pp. 553–580 .
[36] B. Yang , C. Cardie , Joint inference for fine-grained opinion extraction., in: Proceedings of the 51rd Annual Meeting of the Association for Computational Linguistics, 2013, pp. 1640–1649 .
[37] S. Singh , S. Riedel , B. Martin , J. Zheng , A. McCallum ,Joint inference of entities, relations, and coreference, in: Proceedings of the 2013 Workshop on Automated Knowledge Base Construction, ACM, 2013, pp. 1–6 .
[38] Y. LeCun , L. Bottou , Y. Bengio , P. Haffner , Gradient-based learning applied to document recognition, Proc. IEEE 86 (11) (1998) 2278–2324 .
[39] J. Yu, X. Yang, F. Gao, D. Tao, Deep multimodal distance metric learning using click constraints for image ranking, IEEE Trans. Cybern. (2016), doi: 10.1109/ TCYB.2016.2591583 .
[40] J. Yu , B. Zhang , Z. Kuang , D. Lin , J. Fan , Image privacy protection by identifying sensitive objects via deep multi-task learning, in: Proceedings of the IEEE Transactions on Information Forensics and Security, 2016 .
[41] Y. Kim , Convolutional neural networks for sentence classification, in: Proceedings of the EMNLP International Conference, 2014 .
[42] N. Kalchbrenner , E. Grefenstette , P. Blunsom ,A convolutional neural network for modelling sentences, in: Proceedings of the 52th ACL International Conference, 2014 .
[43] P. Wang , B. Xu , J. Xu , G. Tian , C.-L. Liu , H. Hao , Semantic expansion using word embedding clustering and convolutional neural network for improving short text classification, Neurocomputing 174 (2016) 806–814 .
[44] X. Zhu , P. Sobihani , H. Guo , Long short-term memory over recursive structures, in: Proceedings of the 32nd International Conference on Machine Learning (ICML-15), 2015, pp. 1604–1612 .
[45] A. Graves , Supervised Sequence Labelling, Springer, 2012 . [46] M.-T. Luong , I. Sutskever , Q.V. Le , O. Vinyals , W. Zaremba , Addressing the rare word problem in neural machine translation, in: Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, 2015, pp. 11–19 .
[47] R. Kiros , Y. Zhu , R.R. Salakhutdinov , R. Zemel , R. Urtasun , A. Torralba , S. Fidler , Skip-thought vectors, in: Proceedings of the Advances in Neural Information Processing Systems, 2015, pp. 3276–3284 .
[48] L. Ratinov , D. Roth , Design challenges and misconceptions in named entity recognition, in: Proceedings of the Thirteenth Conference on Computational Natural Language Learning, Association for Computational Linguistics, 2009, pp. 147–155 .
[49] N. Kalchbrenner , E. Grefenstette , P. Blunsom ,A convolutional neural network for modelling sentences, in: Proceedings of Conference on Empirical Methods in Natural Language Processing, 2014 .
[50] K. Duan , S.S. Keerthi , W. Chu , S.K. Shevade , A.N. Poo , Multi-category classification by soft-max combination of binary classifiers, in: Multiple Classifier Systems, Springer, 2003, pp. 125–134 .
[51] G.E. Dahl , T.N. Sainath , G.E. Hinton , Improving deep neural networks for LVCSR using rectified linear units and dropout, in: Proceedings of the ICASSP, 2013, pp. 8609–8613 .
[52] T. Tieleman , G. Hinton , Lecture 6.5-rmsprop, COURSERA: Neural networks for machine learning (2012) .
[53] J. Lafferty , A. McCallum , F. Pereira , Conditional random fields: Probabilistic models for segmenting and labeling sequence data, in: Proceedings of the Eighteenth International Conference on Machine Learning, ICML, vol. 1, 2001, pp. 282–289 .
[54] S.J. Phillips , R.P. Anderson , R.E. Schapire , Maximum entropy modeling of species geographic distributions, Ecol. Modell. 190 (3) (2006) 231–259 .

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481493.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

牛津大学团队采用先进机器人技术,推动「人造肌腱」实际应用

你知道“肩袖撕裂”吗&#xff1f;它是肩关节炎疼痛的常见原因之一。作为肩袖撕裂损伤中最为常见的肌腱损伤&#xff0c;每年世界范围内的患者高达几千万人。该病痛给患者带来巨大疼痛&#xff0c;甚至导致肢体功能丧失&#xff0c;无法正常生活和工作&#xff0c;造成极大的家…

finetune与Bert

文章目录一&#xff1a;过拟合1.1 直接finetune1.2 layer finetune1.3ULMFiT2 Bert节省内存3 Bert蒸馏4.post train一&#xff1a;过拟合 1.1 直接finetune 容易过拟合 1.2 layer finetune 拷贝部分预训练参数&#xff0c;而其他随机初始化 两部分一同训练&#xff1a;提升…

《Nature》长期寻找,终于发现直接促进神经递质“弹药库”的蛋白质

来源&#xff1a;生物通俄勒冈健康与科学大学(Oregon Health & Science University)的科学家们发现了一种长期寻找的基因编码蛋白质&#xff0c;这种蛋白质能使大脑在神经元之间的间隙(称为突触)之间传递广泛的信号。科学家们发现了一种长期寻找的基因编码蛋白质&#xff0…

机器翻译

1 模型 1.1 模型 1.2 RNNBeam searchAttention 损失函数&#xff1a;交叉熵 预测&#xff1a;不使用解码器而是beam search #paddlepaddle from __future__ import print_function import os import six import numpy as np import paddle import paddle.fluid as flui…

姚能伟:以邻盛智能为例,如何在行业大脑进行创新实践

报告内容摘要随着技术发展&#xff0c;未来一定是智慧的时代。为此我们提除了感知世界&#xff0c;透视数据&#xff0c;洞察未知为理念的新型技术探索与实践。依托多年项目经验与行业专业积累&#xff0c;形成了一些行业深度的解决方案。在实践过程中形成了客观世界的泛感知和…

Science:已“死亡”的细菌仍能感知来自环境的信息

根据信号强度对细菌孢子进行颜色编码的显微镜图像&#xff1a;颜色越亮&#xff0c;信号越强细菌依靠其顽强的生命力&#xff0c;在包括人类在内的各种生命体和地球的各个角落繁衍生息。细菌之所以难以被杀死&#xff0c;是因为它们具有独特的生存策略&#xff0c;其中一种是在…

Berttransformer

1.transformer transformer self-attention 当前编码的词和整个句子所有词做attention&#xff0c;权重加在所有句子上获得当前的表示 encoder-decoder-attention 当前解码的单元和编码器的所有输出做attention&#xff0c;权重加在所有编码输出上&#xff0c;获得当前的表示…

GPT1-3(GPT3/few-shot,无需finetune)

GPT1–finetune 12层单向transformer预训练精调被bert比下去了 GPT2-元学习 输入&#xff1a;加上任务描述 “英翻法&#xff1a;This is life” 输出&#xff1a; “C’est la vie” 参数15亿在NLU:比不上bert也比不过其他大参数模型&#xff1a;如Turing-NLG GPT3-Langua…

一种基于人工智能的化学合成机器人,用于纳米材料的探索和优化

编辑 | 萝卜皮格拉斯哥大学&#xff08;University of Glasgow&#xff09;的研究人员提出了一种自主化学合成机器人&#xff0c;用于探索、发现和优化由实时光谱反馈、理论和机器学习算法驱动的纳米结构&#xff0c;这些算法控制反应条件并允许选择性地模板化反应。这种方法允…

千脑智能理论:开启创造机器智能的路线图 | 《千脑智能》

导语当人们谈论人工智能时&#xff0c;往往热衷于算法优化、模型迭代、算力提升&#xff0c;海量参数的复杂网络仿佛就是人工智能的发展方向。然而&#xff0c;这就是真正的智能吗&#xff1f;计算机科学家与神经科学家杰夫霍金斯在《千脑智能》中提出了一种关于大脑和智能的理…

一类机械神经网络的架构材料,未来智能技术的全新畅想

编辑 | 萝卜皮除了一些活组织之外&#xff0c;很少有材料能够在长时间暴露于意料之外的环境负载情况下自主学习表现出所需的行为。在不断变化的条件下&#xff08;例如&#xff0c;内部损坏程度的上升、不同的夹具场景和波动的外部负载&#xff09;&#xff0c;仍然有更少的材料…

自然语言处理的未来之路(周明老师,CCF-GRIR,笔记)

文章目录1.什么叫自然语言处理1.1 困难1.2历史1.3 智能1.4 经典nlp任务的进展02.技术体系2.1 词2.2 句子03 未来发展3.1 资源丰富的任务---中英翻译3.2 资源少的任务3.3 多轮问题--多轮对话4 未来之路自然语言&#xff1a;规则—>统计—>神经网络现在&#xff1a;黄金时代…

从英国首位印裔首相,看印度IC产业

来源&#xff1a;芯师爷当地时间10月24日&#xff0c;英国前财政大臣苏纳克在保守党党首竞选中胜出&#xff0c;将成为英国新一任首相。这也意味着他将成为英国历史上第一位印度裔首相。图源&#xff1a;环球网一时间&#xff0c;关于“首位印度裔首相&#xff0c;苏纳克成功逆…

CASREL:A Novel Cascade Binary Tagging Framework for Relational Triple Extraction(关系抽取,ACL2020,重叠关系)

文章目录1.介绍2.相关工作3.The CASREL Framework3.1 Bert3.2 cascade decoder4.实验5.结果参考1.介绍 做重叠关系的少 重叠关系&#xff1a; Zeng et al. (2018) &#xff1a;seq2seq强化学习改善提取顺序Fu et al. (2019)&#xff1a;(GraphRel)GCNs将文本建模为关系图 以前…

机器学习数学本质的理解

来源&#xff1a;计算机视觉与机器学习近日&#xff0c;国际数学家大会丨鄂维南院士作一小时大会报告&#xff1a;从数学角度&#xff0c;理解机器学习的“黑魔法”&#xff0c;并应用于更广泛的科学问题。鄂维南院士在2022年的国际数学家大会上作一小时大会报告(plenary talk)…

Exploiting the Syntax-Model Consistency for Neural Relation Extraction(关系抽取,语法模型,跨领域关系抽取

文章目录1.Introductiony1.1 神经网络的关系抽取1.2使用依赖树的关系抽取1.2.2 依赖树的一般树1.3 本文做法2. 相关工作2.1核方法2.2 深度学习方法2.2.1 CNN2.2.2 RNN2.2.3 transformer2.2.4 依赖树3.模型3.1CEON-LSTM3.1.1 LSTM3.1.2ON-LSTM3.1.2.1 公式3.1.2.2the master gat…

从500亿缩水到167亿!自动驾驶芯片第一股“流血上市”

来源&#xff1a;数据观综合编辑&#xff1a;蒲蒲美股年内最后一次大规模IPO&#xff0c;MobilEye首日大涨近40%。美国时间10月26日&#xff0c;英特尔旗下自动驾驶子公司 Mobileye 正式登陆纳斯达克&#xff0c;股票代码为“MBLY”&#xff0c;首日上涨37.95%&#xff0c;报收…

[ACL2020]Generalizing Natural Language Analysis through Span-relation Representations

文章目录1 介绍2 span-relation representations2.1未涉及句子级任务3.span-relation model3.1 span representation3.2 span and relation label prediction3.3 应用到不同任务3.5 多任务学习MTL4 GLAD Benchmark基准 and Results4.1 实验4.2 证明通用模型有效4.3 MTL4.3.2 任…

为什么生成式AI这么火?OpenAI刚刚被曝估值已接近200亿美金

“生成式 AI 提醒我们&#xff0c;很难做出有关于人工智能的预测。十年前&#xff0c;传统观点认为&#xff1a;人工智能首先会影响体力劳动&#xff1b;然后&#xff0c;是认知劳动&#xff1b;然后&#xff0c;也许有一天它可以做创造性工作。现在看起来&#xff0c;它会以相…

报告预告:北斗网格码国家标准与城市大脑网格底座探讨

来源&#xff1a;中国指挥与控制学会中国指挥与控制学会“百名专家、百场讲座”第十七讲——城市大脑系列学术报告&#xff08;第八期&#xff09;主办单位&#xff1a;中国指挥与控制学会承办单位&#xff1a;中国指挥与控制学会城市大脑专业委员会远望智库报告人&#xff1a;…