论文阅读课1-Attention Guided Graph Convolutional Networks for Relation Extraction(关系抽取,图卷积,ACL2019,n元)

文章目录

  • abstract
  • 1.introduction
    • 1.1 dense connection+GCN
    • 1.2 效果突出
    • 1.3 contribution
  • 2.Attention Guided GCNs
  • 2.1 GCNs
  • 2.2 Attention Guided Layer
    • 2.3 Densely Connected Layer
    • 2.4 线性层
    • 2.5 AGGCN for RE
  • 3.实验
    • 3.1 数据集
    • 3.2 设置
  • 3.3 n-ary
    • 3.4 句子级
  • 4.ablation Study
  • 4.相关工作
    • 4.1RE
    • 4.2GCN
  • 5.结论

Guo, Z., et al. (2019). Attention Guided Graph Convolutional Networks for Relation Extraction. Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.
原文code,基于pytorch

abstract

依赖树传递丰富的结构信息,这些信息对于提取文本中实体之间的关系非常有用。然而,如何有效利用相关信息而忽略依赖树中的无关信息仍然是一个具有挑战性的研究问题。现有的方法使用基于规则的硬剪枝策略来选择相关的部分依赖结构,可能并不总是产生最佳结果。在这项工作中,我们提出了注意引导图卷积网络(AGGCNs),这是一种直接以全依赖树作为输入的新模型。我们的模型可以理解为一种软修剪方法,自动学习如何有选择地关注对关系提取任务有用的相关子结构。在包括跨句n元关系提取和大规模句子级关系提取在内的各种任务上的大量结果表明,我们的模型能够更好地利用全依赖树的结构信息,其结果显著优于以前的方法。

  • 以前:
    • 已经证明依赖树有用
    • 挑战:如何有效利用相关信息而忽略依赖树中的无关信息
    • 硬剪枝策略:不能得到最优结果
        • 基于规则的硬剪枝会消除树中的部分重要的信息。
  • 我们:AGGCNs(注意引导图卷积网络)
    • 输入:全依赖树( full dependency trees
    • 特点
      • 端到端
      • ≈\approx软剪枝方法
        • 基于规则的硬剪枝会消除树中的部分重要的信息。
        • 给所有边分配权重,权重以端到端的形式学习得到–>自动学习剪枝
      • 自动学习如何有选择地关注对re有用的相关子结构。
      • 效果好
      • 并行地用于依赖树
      • tips
        • GCN+dense connection
          • 目的:对一个大的全连通图进行编码
          • 可得到局部和非局部依赖信息
          • 2层GCN效果最好(经验)
          • 可以学到更好的图形表示
    • 可用于
      • n元关系提取
      • 大规模句子级别语料
      • 效果更好

1.introduction

  • 图中是一个依赖树
    在这里插入图片描述
  • 关系抽取用于
    • biomedical knowledge discovery (Quirk and Poon, 2017),
    • knowledge base population (Zhang et al., 2017)
    • question answering (Yu et al., 2017).

为了进一步提高性能,本文还提出了多种裁剪策略来提取依赖信息。
Xu等人(2015b,c)只在全树实体之间的最短依赖路径上应用神经网络。
Miwa和Bansal(2016)将整个树缩减为实体的最低共同祖先**(LCA)**之下的子树。
Zhang等(2018)将graph convolutional networks **(GCNs) (**Kipf and Welling, 2017)模型应用于修剪过的树。这棵树包含从LCA子树的依赖路径到K的标记。
然而,基于规则的修剪策略可能会消除整个树中的一些重要信息。图1显示了一个跨句n元关系提取的例子,如果模型只考虑修剪树,那么键标记部分响应将被排除。理想情况下,模型应该能够学会如何在全树中包含和排除信息之间保持平衡。
在本文中,我们提出了一种新的注意引导图卷积网络(AGGCNs),它直接作用于全树。直观地,我们开发了一种软修剪策略,将原始依赖树转换为完全连接的边加权图。这些权重可以被视为节点之间的关联强度,可以通过使用自我注意机制以端到端的方式学习(Vaswani et al., 2017)。

  • 硬剪枝:
    • 基于规则的修剪策略可能会消除整个树中的一些重要信息
  • 所以提出自动学习的软剪枝
  • 关系抽取的模型可以分为两类
    • sequence-based(基于序列的)
      • 只对单词序列进行操作(Zeng et al.,2014; Wang et al., 2016)
    • dependency-based(基于依赖的)
      • 然而基于依赖的模型将依赖树合并到模型中(Bunescu和Mooney, 2005;Peng等人,2017)
      • 依赖树+剪枝
      • 比较:与基于顺序的模型相比,基于依赖的模型能够捕获仅从表面形式难以理解的非局部句法关系(Zhang et al., 2018)。
      • eg:
        • AGGCNs(软剪枝)
        • 剪枝策略(硬剪枝)
          • Xu等人(2015b,c)只在全树实体之间的最短依赖路径上应用神经网络。
          • Miwa和Bansal(2016)将整个树缩减为实体的最低共同祖先(LCA)之下的子树。
          • Zhang等(2018)将 (GCNs) (Kipf and Welling, 2017)模型应用于修剪过的树。
            • 这棵树包含从LCA子树的依赖路径到K的标记。

1.1 dense connection+GCN

目的:对一个大的全连通图进行编码
我们接下来将稠密连接(Huang et al., 2017)引入GCN模型(Guo et al.,2019)

对于GCNs,L层将被需要为了捕获L跳跃离开到达的邻居的信息。浅层的GCN模型可能无法捕获大型图的非局部交互。有趣的是,虽然较深的GCNs可以捕获图的更丰富的邻域信息,但从经验上可以观察到,使用2层模型可以获得最佳性能(Xu et al., 2018)。在密集连接的帮助下,我们能够对深度的AGGCN模型进行训练,允许捕获丰富的局部地和非局部依赖信息。

  • 2层GCNs最好
  • dense connnection帮助下可以对深度AGGCN进行训练
    • 可得到局部和非局部依赖信息

1.2 效果突出

实验表明,该模型能够较好地完成各种任务。对于跨句关系提取任务,我们的模型在多类三元关系和二元关系提取方面分别比现有模型的准确率高出8%和6%。对于大型句子级提取任务(TACRED数据集),我们的模型也始终优于其他模型,这表明了该模型在大型训练集上的有效性

1.3 contribution

我们提出了一种新颖的AGGCNs,它以端到端的方式学习一种“软修剪”策略,学习如何选择和丢弃信息。结合密集连接,我们的AGGCN模型能够学习更好的图形表示。

我们的模型在不增加额外的计算量的情况下与以前的GCNs相比获得了最新的结果。与树结构模型(如TreeLSTM (Tai et al., 2015))不同,它可以有效地并行地应用于依赖树。

2.Attention Guided GCNs

在这里插入图片描述

  • AGGCN模型显示了一个示例语句及其依赖树。
  • 它由M个相同的块组成,每个块有三种层,如图所示。
    • 注意引导层
    • 密集连接层
    • 线性组合层
  • 输入:每个块以表示图的节点嵌入和邻接矩阵作为输入。
  • 注意引导层:multi-head attention:然后利用左下所示的多头注意构造N个注意引导邻接矩阵
    • 原始的依赖树被转换成N个不同的完全连接的边加权图(为了简化,省略了自循环)。
    • 靠近边的数字表示矩阵中的权值。
  • 密集连接层得到的矩阵被送入N个单独的dense connection的层,产生新的表示。
    • 左上角显示了一个密集连接层的例子,其中子层的数量(L)是3 (L是超参数)。
    • 每个子层将所有前面的输出连接起来作为输入。
  • 线性组合层:最后,应用线性组合将N个紧密连接的层的输出组合成隐藏的表示。
  • 基本组件
    • GCNs
    • Attention Guided Layer

2.1 GCNs

  • GCNs是直接作用于图结构的神经网络(Kipf和Welling, 2017)。
  • 工作原理
    • 图:给出一个有n个节点的图,我们可以用一个n×n邻接矩阵A来表示图。
    • 加方向:使得GCNs对依赖树进行编码。(Marcheggiani和Titov(2017))
      • 它们为树中的每个节点添加一个自循环。
      • 还包括一个依赖弧的反方向,即
        • 边i->j:
          • 有则Aij=1andAji=1A_{ij}=1 and A_{ji}=1Aij=1andAji=1
          • 无则Aij=0andAji=0A_{ij}=0 and A_{ji}=0Aij=0andAji=0
      • l层节点i的卷积运算
        • 输入:h(l−1)h^{(l-1)}h(l1)
        • 输出:hi(l)h^{(l)}_ihi(l)
        • 公式:hi(l)=ρ(Σj=1nAijW(l)hj(l−1)+b(l))ρ−激活函数(如,relu)hi(0)是xi(d维向量)h^{(l)}_i=\rho(\Sigma_{j=1}^nA_{ij}W^{(l)}h_j^{(l-1)}+b^{(l)})\\ \rho-激活函数(如,relu)\\ h_i^{(0)}是x_i(d维向量)hi(l)=ρ(Σj=1nAijW(l)hj(l1)+b(l))ρrelu)hi(0)xi(d
        • 表示全连接图的邻接矩阵的大小和原始树的大小一样

2.2 Attention Guided Layer

在这里插入图片描述

  • 如前:硬剪枝的缺点
    • 硬剪枝->硬-attention

正如我们在第1节中讨论的,大多数现有的修剪策略都是预定义的。他们将整棵树修剪成一个子树,并在此基础上构造邻接矩阵。事实上,这样的策略也可以被视为一种硬注意的形式(Xu et al., 2015a),其中连接不在结果子树上的节点的边将被直接分配零权重(无人值守)。这样的策略可能会从原始依赖树中删除相关信息。
我们没有使用基于规则的剪枝,而是在注意引导层开发了一种“软剪枝”策略,它为所有边缘分配权重。这些权重可以由模型以端到端方式学习。

  • 我们:软剪枝
    • 给所有边分配权重,权重以端到端的形式学习得到
    • 实现自动学习剪枝
  • 原:树
  • 注意力引导层:将一个树->多个全连接有权图
    • 从第二个块开始有这层
    • 方法:构造注意引导邻接矩阵A~\tilde{A}A~
      • self-attention mechanism (Cheng et al., 2016)来得到A~\tilde{A}A~
        • 可以捕获单个序列的任意位置之间的交互。
      • 本文:用multi-head attention 计算
        • 它允许模型联合处理来自不同表示子空间的信息。
        • 计算:包括一个查询和一组键值对。
        • 输出:计算为值的加权和,其中的
          • 权重:由具有相应键的查询函数计算。
        • 公式A~(t)=softmax(QWiQ×(KWiK)Td)VQ,K:等于AGGCN的h(l−1)t:第t个attentionhead,共有N个(超参数)\tilde{A}^{(t)}=softmax(\frac{QW_i^Q\times (KW_i^K)^T}{\sqrt{d}})V\\ Q,K:等于AGGCN的h^{(l-1)}\\ t:第t个attention head,共有N个(超参数)A~(t)=softmax(dQWiQ×(KWiK)T)VQ,K:AGGCNh(l1)t:tattentionheadN)
    • A~(1)−>G(1)\tilde{A}^{(1)}->G^{(1)}A~(1)>G(1)
    • A~\tilde{A}A~和A尺寸相同
      • 所以没有增加计算消耗
    • 关键思想
      • 使用注意力来诱导节点之间的关系,
      • 特别是那些通过间接的多跳路径连接的节点。
  • 图卷积层(在其后):
    • 输入:A~\tilde{A}A~

图2给出了将原始邻接矩阵转换为多个注意引导邻接矩阵的示例。因此,输入依赖树被转换成多个完全连接的边缘加权图。在实践中,我们将原始邻接矩阵作为初始化处理,以便在节点表示中捕获依赖项信息,以便以后进行注意计算。注意力引导层从第二个块开始。

2.3 Densely Connected Layer

在这里插入图片描述

  • 优点
    • 我们将稠密连接(Huang et al., 2017)引入AGGCN模型,
    • 目的:在大图上捕获更多的结构信息。
    • 在密集连接的帮助下,我们能够训练更深的模型,
    • 允许捕获丰富的局部和非局部信息,从而学习更好的图表示。
  • 做法:
    • 直接连接从任何层引入到它前面的所有层。
    • gj(l)=[xj;hj(1);...;hj(l−1)]g_j^{(l)}=[x_j;h_j^{(1)};...;h_j^{(l-1)}]gj(l)=[xj;hj(1);...;hj(l1)]
    • 超参数L:L个子层
    • 子层的维度:输入维度d和L共同决定dhidden=d/Ld_{hidden}=d/Ldhidden=d/L
      • 输入维度:d->h_j的维度
    • 子层是什么?
    • 输出:每个子层的输出又会被连接起来->仍是d维
      • 随子层数增加而缩小隐层size–>提高效率

与隐藏维度大于或等于输入维度的GCN模型不同,AGGCN模型随着层数的增加而缩小隐藏维度,以提高与DenseNets类似的参数效率(Huang et al., 2017)。

  • N个注意力头–>N个分离的densely connection
    • 原来GCN:hi(l)=ρ(Σj=1nAijW(l)hj(l−1)+b(l))h^{(l)}_i=\rho(\Sigma_{j=1}^nA_{ij}W^{(l)}h_j^{(l-1)}+b^{(l)})hi(l)=ρ(Σj=1nAijW(l)hj(l1)+b(l))
    • 计算变为hti(l)=ρ(Σj=1nA~ij(t)Wt(l)gj(l−1)+bt(l))Wt(l),bt(l)与A~(t)有关Wt(l):(dhidden,d(l)),d(l)=d+dhidden×(l−1)−−g的维度h_{ti}^{(l)}=\rho(\Sigma_{j=1}^n\tilde{A}^{(t)}_{ij}W^{(l)}_tg_j^{(l-1)}+b_t^{(l)})\\ W^{(l)}_t,b_t^{(l)}与\tilde{A}^{(t)}有关\\ W^{(l)}_t:(d_{hidden},d^{(l)}),d^{(l)}=d+d_{hidden}\times(l-1)--g的维度hti(l)=ρ(Σj=1nA~ij(t)Wt(l)gj(l1)+bt(l))Wt(l),bt(l)A~(t)Wt(l):(dhidden,d(l)d(l)=d+dhidden×(l1)g

2.4 线性层

hcomb=Wcombhout+bcombWcomb:(d×N,d)hout=[h(1);...;h(N)]h_{comb}=W_{comb}h_{out}+b_{comb}\\ W_{comb}:(d\times N,d)\\ h_out=[h^{(1)};...;h^{(N)}]hcomb=Wcombhout+bcombWcomb(d×N,d)hout=[h(1);...;h(N)]

2.5 AGGCN for RE

在依赖树上应用AGGCN模型之后,我们获得了所有令牌的隐藏表示。根据这些表示,关系提取的目标是预测实体之间的关系。接下来(Zhang et al., 2018),我们将句子表示和实体表示连接起来,得到最终的分类表示。

  • 首先,我们需要获得hsenth_{sent}hsent句子表示。它可以被计算为
    • hsent=f(hmask)=f(AGGCN(x))f:(d×n)−−>(d×1),max−poolingfunctionh_{sent}=f(h_{mask})=f(AGGCN(x))\\ f:(d\times n)-->(d\times 1),max-pooling functionhsent=f(hmask)=f(AGGCN(x))f:(d×n)>(d×1),maxpoolingfunction
  • 相似地得到实体表示
    • hei=f(hei′),hei′:第i个实体的隐层表示h_{e_i}=f(h_{e_i}'),h_{e_i}':第i个实体的隐层表示hei=f(hei),hei:i
  • 最终:
    • 由前馈神经网络得到最终表示(连接实体表示和句子表示)
    • hfinal=FFNN([hsent;he1;...;hei]h_{final}=FFNN([h_{sent};h_{e_1};...;h_{e_i}]hfinal=FFNN([hsent;he1;...;hei]
  • 最终表示输入到logistic regression classifier分类器中做预测。

3.实验

3.1 数据集

我们评估了该模型在两个任务上的性能,即

  • 跨句n元关系提取
    • PubMed
  • 句子级关系提取
    • TACRED数据集(收费)
      • (Zhang et al., 2018)
    • Semeval-10 Task 8
      • (Hendrickx et al., 2010)

3.2 设置

我们根据开发集的结果调整超参数。对于跨句nary关系提取任务,我们使用与(Song et al., 2018b)4相同的数据分割,而对于句子级关系提取任务,我们使用与(Zhang et al., 2018)5相同的开发集。

  • n-ary
    • 与(Song et al., 2018b)4相同的数据分割
  • 句子级
    • (Zhang et al., 2018)相同的开发集
  • embedding:840B-300d-glove
  • 超参数
    • N(attention head数目)
      • {1,2,3,4}
    • L(densely connected中每层的维度)
      • {2,3,4,5,6}
    • M(块数)
      • {1,2,3}
  • 测试得到最好的超参数:
    • cross-sentence n-ary
      • {N=2,M=2,L=5,d_{hidden}=340}
      • {N=3,M=2,L=5,d_{hidden}=300}
  • 度量
    • 和(Song et al., 2018b; Zhang et al., 2018).一样
    • n-ary
      • test:5-fold cross validation
    • 句子
      • micro-F1 score
        • TACRED
        • SemEval

3.3 n-ary

  • 三种模型
  • a feature-based classifier (Quirk and Poon, 2017) based on shortest dependency paths between all entity pairs,
  • Graph-structured LSTM methods,
    • including Graph LSTM (Peng et al., 2017),
    • bidirectional DAG LSTM (Bidir DAG LSTM) (Song et al., 2018b) and
    • Graph State LSTM (GS GLSTM) (Song et al., 2018b).
    • These methods extend LSTM to encode graphs constructed from input sentences with dependency edges,
  • Graph convolutional networks (GCN) with pruned trees, which have shown efficacy on the relation extraction task (Zhang et al., 2018)
  • the tree-structured LSTM method (SPTree) (Miwa and Bansal, 2016) on drug-mutation binary relation extraction.
    在这里插入图片描述
  • 本文结果好,因为
    • 能用图卷积从树中得到更多信息:AGGCN is able to extract more information from the underlying graph structure to learn a more expressive representation through graph convolutions
    • 比GCN好,因为
      • densely connection
        • 使之可在大图中信息传递
        • 使之可有效地学习到长距离依赖
      • attention
        • 可筛去噪音,得到相关信息
      • 本文的模型可从全树中得到更好的表达

3.4 句子级

  • model
    • dependency-based models,
      • the logistic regression classifier (LR) (Zhang et al., 2017),
      • Shortest Path LSTM (SDPLSTM) (Xu et al., 2015c),
      • Tree-structured neural model (Tree-LSTM) (Tai et al., 2015),
      • GCN
      • Contextualized GCN (C-GCN) (Zhang et al., 2018).
      • (Both GCN and C-GCN models use the pruned trees.)
    • sequence-based models
      • Position Aware LSTM (PA-LSTM) (Zhang et al., 2017).–最新成果
  • TACRED
    在这里插入图片描述

表2所示,logistic回归分类器(LR)的精度得分最高。我们假设这背后的原因是由于数据不平衡的问题。这种基于特征的方法倾向于预测一个频繁出现的标签之间的关系(例如,“per:title”)。因此,它具有较高的查全率,但查全率相对较低。另一方面,神经模型能够更好地平衡精度和回忆分数。
由于GCN和C-GCN已经显示出它们相对于其他基于依赖的模型和PA-LSTM的优越性,我们主要将我们的AGGCN模型与它们进行比较。我们可以观察到AGGCN比GCN多1.1个F1点。我们推测这种有限的改进是由于缺乏有关词序或消歧的上下文信息

  • 比GCN好
    • GCN:这种有限的改进是由于缺乏有关词序或消歧的上下文信息。

与C-GCN类似(Zhang et al., 2018),我们使用双向LSTM网络扩展AGGCN模型,以捕获随后被送入AGGCN层的上下文表示。我们将修改后的模型称为C-AGGCN。我们的C-AGGCN模型F1得分为69.0,比目前最先进的C-GCN模型高出2.6分。我们也注意到AGGCN和C-AGGCN分别比GCN和C-GCN获得更好的精确度和回忆分数。

  • 经验表明,AGGCN模型能够更好地区分相关和不相关信息,从而获得更好的图表示。
  • SemEval
    在这里插入图片描述

我们还在与(Zhang et al., 2018)相同的设置下,在SemEval数据集上评估我们的模型(Zhang et al., 2018)。结果如表3所示。这个数据集比TACRED小得多(仅为TACRED的1/10)。我们的C-AGGCN模型(85.7)始终优于C-GCN模型(84.8),具有良好的泛化能力。

4.ablation Study

  • 各组件的贡献
    • AG>DG>FF
    • AG,DG更重要
      • 这两层可以帮助GCNs更好地学习信息聚合,产生更好的图形表示

烧蚀研究。
我们使用TACRED数据集上性能最好的C-AGGCN模型,研究了两个主要组件的贡献,即密集连接层和注意力引导层。表4显示了结果。我们可以观察到添加注意力引导层或者密集连接的层提高了模型的性能。这表明,这两层可以帮助GCNs更好地学习信息聚合,产生更好的图形表示,其中注意力引导层似乎发挥了更重要的作用。我们也注意到前馈层在我们的模型中是有效的。没有前馈层,结果下降到F1得分67.8。

  • 自己相比较AGGCN
    在这里插入图片描述
  • 软修剪”策略在充分利用树信息方面优于硬修剪策略。

修剪树木的表现。
表5显示了使用修剪树的C-AGGCN模型的性能,其中K表示修剪后的树包含距离LCA子树中的依赖路径K以内的标记。我们可以看到,所有具有不同K值的C-AGGCN模型都能够超越最先进的C-GCN模型(Zhang et al., 2018)(见表2)F1成绩1.5分。这说明,在密集连接层和注意力引导层的结合下,C-AGGCN可以比C-GCN更好地学习下游任务的图形表示。此外,我们注意到全树的C-AGGCN性能优于所有修剪过的C-AGGCNs。这些结果进一步证明了“软修剪”策略在充分利用树信息方面优于硬修剪策略。

  • C-AGGCN可以从更大的图(全树)中获益更多。

句子长度的性能。
图4显示了三个模型在不同句子长度下的F1得分。我们将句子长度划分为5类(< 20,[20,30],[30,40),[40,50),50)。一般来说,在不同的句子长度下,有完整树的C-AGGCN比有修剪过的树的C-AGGCN和C-GCN表现更好。我们还注意到,在大多数情况下,经过修剪的C-AGGCN比C-GCN表现得更好。此外,C-AGGCN对修剪后的树的改进效果随着句子长度的增加而减弱。这种性能下降可以通过使用全树来避免,全树提供了有关底层图结构的更多信息。直观地说,随着句子长度的增加,包含的节点越多,依赖关系图就越大。

在这里插入图片描述
在这里插入图片描述

  • 我们的模型在使用训练资源方面更加有效。

性能与训练数据大小的对比。图3显示了C-AGGCN和C-GCN在不同训练设置下的性能,训练数据量不同。我们考虑五种培训设置(20%、40%、60%、80%、100%的培训数据)。C-AGGCN持续优于C-GCN
当训练数据量增加时,我们可以观察到绩效差距变得更加明显。具体来说,使用80%的训练数据,C-AGGCN模型可以获得66.5的F1分,高于完整训练集上训练的C-GCN。这些结果表明,我们的模型在使用训练资源方面更加有效。

4.相关工作

4.1RE

  • 早期的研究工作是基于统计方法。
    • 研究了基于树的内核(Zelenko et al., 2002)和
    • 基于依赖路径的内核(Bunescu and Mooney, 2005),以提取这种关系。
    • McDonald等人(2005)构建最大的实体团来预测关系。
    • Mintz等人(2009)在统计分类器中包含语法特征。
  • 基于序列的模型利用不同的神经网络来提取关系,包括
    • 卷积神经网络(Zeng et al., 2014;Nguyen和Grishman, 2015年;(Wang et al., 2016),
    • 递归神经网络(Zhou et al., 2016;Zhang et al., 2017)
    • 两者的结合(Vu et al., 2016)和
    • transformer (Verga et al., 2018)。
  • 基于依赖的方法还试图将结构信息合并到神经模型中。
    • Peng et al.(2017)首先将依赖关系图分成两个dag,
      • 然后将树LSTM模型(Tai et al., 2015)扩展到这两个图上进行n元关系提取。
    • Song等人(2018b)使用图递归网络(Song等人,2018a)直接对整个依赖图编码,而不破坏它。
      • AGGCN:和他们的模型的对比让人联想到CNN和RNN的对比。
    • 为了进一步提高性能,还提出了各种各样的裁剪策略来提取依赖信息。
      • Xu等(2015b,c)采用神经模型编码最短依赖路径。
      • Miwa和Bansal(2016)将LSTM模型应用于两个实体的LCA子树。Liu等(2015)将最短依赖路径与依赖子树相结合。
      • Zhang等人(2018)采用了一种以路径为中心的修剪策略。
      • AGGCNs:与这些在预处理中去除边缘的策略不同,我们的模型以端到端的方式学会给每个边缘分配不同的权重

4.2GCN

  • Gori等人(2005)布鲁纳(2014)介绍了尝试扩展神经网络以处理任意结构图的早期工作。
  • 随后的工作通过局部谱卷积技术提高了计算效率(Henaff et al., 2015;Defferrard等人,2016)。
  • AGGCN:与GCNs (Kipf和Welling, 2017)密切相关,GCNs将过滤器限制在每个节点周围的一阶邻域上运行。
  • Velickovic等人(2018)提出了图形注意网络(GATs),利用掩蔽的自注意层来总结邻域状态(Vaswani等人,2017)。
    • 与AGGCN相比,他们的动机和网络结构是不同的。
      • 特别地,GATs中的每个节点只关心它的邻居,而AGGCNs则度量所有节点之间的关联性。
      • GATs中的网络拓扑结构保持不变,而AGGCNs中将构建完全连接的图,以捕获长期的语义交互。

5.结论

介绍了一种新的注意引导图卷积网络(AGGCNs)。实验结果表明,AGGCNs在各种关系提取任务上都取得了较好的效果。与以前的方法不同,AGGCNs直接对整个树进行操作,并学习以端到端方式从其中提取有用的信息。未来的工作有多个场所。我们想要问的一个很自然的问题是,如何利用所提出的框架对与图相关的任务执行改进的图表示学习(Bastings et al., 2017)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481544.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Nat. Rev. Genet. | 通过可解释人工智能从深度学习中获得遗传学见解

编译 | 沈祥振审稿 | 夏忻焱今天为大家介绍的是来自Maxwell W. Libbrecht&#xff0c;Wyeth W. Wasserman和Sara Mostafavi的一篇关于人工智能对于基因组学的可解释性的研究的综述。基于深度学习的人工智能&#xff08;AI&#xff09;模型现在代表了基因组学研究中进行功能预测…

复杂系统的逆向工程——通过时间序列重构复杂网络和动力学

导语蛋白质相互作用网络、生态群落、全球气候系统……很多复杂系统都可以抽象为一个相互作用的网络和其上的动力学。传统的研究主要关注在如何构建网络动力学模型&#xff0c;从而产生和实验观测数据具有相似统计特征的结果。所谓的复杂系统逆向工程&#xff0c;就是反其道而行…

关系提取论文总结

文章目录1.模型总结1.1 基于序列的方法1.2 dependency-based&#xff08;基于依赖的&#xff09;(有图&#xff09;1.2.2 句间关系抽取1.5 自动学习特征的方法1.4 联合抽取模型1.6 RNN/CNN/GCN用于关系提取1.7 远程监督1.8句子级关系提取1.9MCR&#xff08;阅读理解&#xff09…

邬贺铨:“物超人”具有里程碑意义,五方面仍需发力

来源&#xff1a;人民邮电报作者&#xff1a;邬贺铨我国正式迈入“物超人”时代。据工业和信息化部最新数据显示&#xff0c;截至8月末&#xff0c;我国三家基础电信企业发展移动物联网终端用户16.98亿户&#xff0c;成为全球主要经济体中率先实现“物超人”的国家。“物超人”…

深度:计算机的本质到底是什么?

来源&#xff1a;图灵人工智能来源&#xff1a;www.cnblogs.com/jackyfei/p/13862607.html作者&#xff1a;张飞洪 01 抽象模型庄子说过吾生有崖&#xff0c;知无涯。以有限的生命去学习无尽的知识是很愚蠢的。所以&#xff0c;学习的终极目标一定不是知识本身&#xff0c;因为…

中科大郭光灿院士团队发PRL,量子力学基础研究取得重要进展

来源&#xff1a;FUTURE | 远见选编&#xff1a;FUTURE | 远见 闵青云 中国科学技术大学郭光灿院士团队在量子力学基础研究方面取得重要进展。该团队李传锋、黄运锋等人与西班牙理论物理学家合作&#xff0c;实验验证了基于局域操作和共享随机性&#xff08;LOSR, Local operat…

论文阅读课2-Inter-sentence Relation Extraction with Document-level (GCNN,句间关系抽取,ACL2019

文章目录abstract1.introduction2.model2.1输入层2.2构造图2.3 GCNN层2.4MIL-based Relation Classification3.实验设置3.1 数据集3.2 数据预处理3.3 基线模型3.4 训练3.5结果4.相关工作4.1 句子间关系抽取4.2 GCNN5. 结论相关博客Sahu, S. K., et al. (2019). Inter-sentence …

量子并不总意味着小尺度,量子物理学家用它探索系外行星生命

来源&#xff1a;机器之心除了量子计算&#xff0c;量子物理学的应用范畴还很广。近日&#xff0c;美国东北大学物理学教授 Gregory Fiete 探讨了量子研究的广泛应用。量子物理学家研究的世界与普通人每天生活的世界是同一个&#xff0c;唯一的区别是它被科学家「缩放」到了无法…

论文阅读课3-GraphRel: Modeling Text as Relational Graphs for(实体关系联合抽取,重叠关系,关系之间的关系,自动提取特征)

文章目录abstract1.Introduction2.相关工作3.回顾GCN4.方法4.1第一阶段4.1.1 Bi-LSTM4.1.2 Bi_GCN4.1.3 实体关系抽取4.2 第二阶段4.2.1 构建关系权图4.3训练4.4 inference5.实验5.1 settings5.1.1数据集5.2 baseline and evaluation metrics5.3 Quantitative Results5.4 细节分…

大脑是如何编码外界各种信息的?

来源&#xff1a;知乎链接&#xff1a;https://www.zhihu.com/question/532956044/answer/2494267009大脑将外部信息编码成心智模型。编码方式分为三种神经链接、语言逻辑和数学。心智模型理论是成型于上世纪九十年代的认知科学理论&#xff0c;代表人物就是著名学者史蒂芬平克…

论文阅读课4-Long-tail Relation Extraction via Knowledge Graph Embeddings(GCN,关系抽取,2019,远程监督,少样本不平衡,2注意

文章目录abstract1.introduction2.相关工作2.1 关系提取2.2 KG embedding2.3 GCNN3. 方法3.1符号3.2框架3.2.1 Instance Encoder3.4 Relational Knowledge Learning through KG Embeddings and GCNs.3.5 knowledge-aware attention4.实验4.1 数据集4.3 result4.4 长尾关系的处理…

用机器学习建立的数字「鼻子」表明,我们的嗅觉既反映了芳香分子的结构,也反映了产生它们的代谢过程...

来源&#xff1a;ScienceAI编辑&#xff1a;萝卜皮Alex Wiltschko 十几岁时就开始收集香水。他的第一瓶是 Azzaro Pour Homme&#xff0c;这是他在 T.J. Maxx百货的货架上发现的一款永恒的古龙水。他从《Perfumes: The Guide》中认出了这个名字&#xff0c;这本书对香气的诗意描…

论文阅读课5-DocRED: A Large-Scale Document-Level Relation Extraction Dataset(大规模文档集关系提取数据集

文章目录abstract1.Introduction2.数据收集3.数据分析4.基线设置5.实验Yao, Y., et al. (2019). DocRED A Large-Scale Document-Level Relation Extraction Dataset. Proceedings of the 57th Annual Meeting ofthe Association for Computational Linguistics.基线docRED数据…

74位图灵奖得主背景显示:大多数没有主修计算机专业,也并非高引用计算机科学家...

来源&#xff1a;中小学信息学竞赛计算机科学是世界上发展最快的学科之一&#xff0c;计算机科学的发展直接影响着人们的生活&#xff0c;并有可能从根本上改变传统的生活方式。图灵奖作为计算机领域的最高奖项&#xff0c;一直被誉为“计算机界的诺贝尔奖”&#xff0c;截止20…

Meta最新款VR头显体验者亲述:Quest Pro更漂亮、更有趣,但戴久了,脑袋疼!

来源&#xff1a;AI前线作者&#xff1a;Rachel Metz编译&#xff1a;核子可乐、冬梅价值一万多块的 VR 头显设备&#xff0c;你会买吗&#xff1f;声明&#xff1a;本文为 InfoQ 翻译&#xff0c;未经许可禁止转载。当地时间 10 月 11 日&#xff0c;元宇宙公司 Meta 召开了一…

文献阅读6-Entity-Relation Extraction as Multi-turn Question Answering(实体关系联合抽取,层次标签依赖关系,multi-turn QA)

文章目录abstract1.Introduction3.相关工作2.2MRC(机器阅读理解&#xff09;2.3 非QA->QA3.数据集和任务3.1别人的数据集3.2我们建立的数据集RESUME4.Model4.1概述4.2生成问题4.3通过MRC来获取答案范围4.4 强化学习5.实验5.1RESUME结果5.2 其他结果6 Ablation Studies6.2问题…

论文阅读课7-使用句子级注意力机制结合实体描述的远程监督关系抽取(APCNN+D)2017

文章目录abstract1. Introduction2.方法3.训练4.实验4.1数据集4.2 评价指标4.3实验结果和分析4.3.1参数设置4.3.2 baseline4.3.3 conclusion5.相关工作5.1监督学习5.2远程监督学习Ji, G., et al. (2017). Distant Supervision for Relation Extraction with Sentence-Level Att…

Cell经典回顾:机器学习模型揭示大脑怎样整合空间记忆与关系记忆

导语人类等高等动物能够做出复杂推理、整合新知识以控制行为&#xff0c;其神经机制离不开海马-内嗅系统对于空间记忆和关系记忆的调控。来自牛津大学的学者于2020年在Cell杂志发表文章&#xff0c;通过分解和重组的方法构建了一套框架&#xff08;TEM模型&#xff09;&#xf…

论文阅读课8-Chinese Relation Extraction with Multi-Grained Information and External Linguistic Knowledge

文章目录Abstract1.Introduction2.相关工作3. 方法3.1 输入3.1.1 字符级别表示3.1.2单词级表示3.2encoder3.2.1 base lattice LSTM encoder3.2.2 MG lattice LSTM encoder3.3 关系分类器4.实验4.1数据集4.1.2 评估4.1.2 超参数设置4.2lattice的作用4.3词义表示的影响4.4最终结果…

黑客帝国「缸中之脑」真的可以,这100万个「活体人脑细胞」5分钟学会打游戏...

来源&#xff1a;FUTURE | 远见 闵青云 选编既然生物神经元如此高效&#xff0c;为什么不拿来用呢&#xff1f;最新版本的《黑客帝国》还有两天才会上映&#xff0c;但最近的一些科技进展总让我们觉得&#xff0c;导演描述的世界似乎离我们越来越近了。其中一个进展来自前段时间…