【ACL2020】Reasoning with Latent Structure Refinement for Document-Level Relation Extraction

1. 问题

  • 句间关系
    • 很多
    • 约等于文档级关系抽取
  • 文档级关系抽取
    • 句子间关系多
      • 生物医药领域尤其多
    • 需求/困难
      • 整合同一文档不同句子间的信息
      • 处理句间实体复杂的交互

2.相关工作

  • 文档级别关系抽取

    • 结论:
      • 实体mention之间的交互促进推理过程(文档级关系抽取中)
        • 因而使用MIL
    • MIL
      • Verge2018,Jia2019
      • 缺点:
        * 无法捕捉丰富的非局部交互
    • 使用结构信息获取更好的推理
      • 优点:可以捕捉到非局部依赖
      • 整合不同句子的信息
      • 构建静态的文档级别图
        • 来源:非结构化文本
        • 依赖:规则和共指消解
          • 语义信息
          • co-references
          • heuristics:启发式
        • eg
          • Peng2017:构建依赖图:句间,多元实体
          • Sahu,2019:用共指消解扩展了Peng的图,构建了文档级别的图
          • Christopoulou,2019利用结构信息基于一组启发式构建一个异构图,并使用一个特定于边的模型
  • 句子内关系抽取

  • 句子间关系抽取

    • Peng:句间关系多,尤其是生物医药领域
    • 生物医药领域
      • l (Quirk and Poon, 2017;
      • Gupta et al., 2018;
      • Song et al., 2019)

3.本文方法

  • 本文模型:LSR
    • 构建隐式文档级别图
      • 自动的
      • 目的:加强句子间的关系推理
        • 捕捉实体间的非局部交互
      • 构建:
        • 不依赖于规则和共指消解
        • 将图结构视作隐式的变量,并以端到端的形式引入它
        • 基于:结构化的attention
        • 使用:矩阵树理论
        • 可以:生成一个任务特定的依赖结构
      • 进一步:迭代的细化策略:
        • 目的:使得模型能够增量地聚合多条推理的相关信息
        • 做到:基于上一次迭代,动态第构建隐式结构
    • 组件
      • node constructor
        • encoder:文档中的每个句子编码表示-上下文的表示
        • node:最短依赖路径的mention和tokens的向量表示作为node
      • dynamic reasoner
        • 生成结构:基于被提取的节点生成文档级结构
        • 更新node表示:
          • 基于隐式结构上的信息传递
          • 迭代细化
      • classifier
        • 分类:节点最后的表达被用于计算分类的分数

3.1 Node constructor

在这里插入图片描述

  • encoder:文档中的每个句子编码表示
  • node:最短依赖路径的mention和tokens的向量表示作为node
    • mention node
    • entity node
    • meta dependency paths node(MDP)
      • 所有mentions最短依赖路径的集合
      • token–>node

3.1.1 context encoding

  • 文档d,文档内句子did_idi
  • 编码器:LSTM(BiLSTM)/Bert
    • BiLSTM
      • hji→=LSTMl(hj+1i←,γji)\overrightarrow{h_j^i}=LSTM_l(\overleftarrow{h_{j+1}^i},\gamma_j^i)hji=LSTMl(hj+1i,γji)
      • hji←=LSTMl(hj−1i→,γji)\overleftarrow{h_j^i}=LSTM_l(\overrightarrow{h_{j-1}^i},\gamma_j^i)hji=LSTMl(hj1i,γji)
      • j-di中的第j个token
      • γ:wordembedding\gamma:word embeddingγ:wordembedding
      • hji=[hji←;hji→]h_j^i=[\overleftarrow{h_{j}^i};\overrightarrow{h_{j}^i}]hji=[hji;hji]

3.1.2 Node Extraction

  • node:最短依赖路径的mention和tokens的向量表示作为node
    • mention node
    • entity node
      • mentions的平均
    • meta dependency paths node(MDP)
      • 所有mentions最短依赖路径的集合
      • token–>node
  • 构建图
    • Sahu:使用一个句子的依赖树中的所有节点
    • Christopoulou:通过对句子的所有标记求平均来构建一个句子级别的节点
    • 或者:使用mention之间的最短依赖路径上的tokens
      • 这个广泛用于句子级关系抽取,因为他可以有效使用相关信息,忽视无关信息

3.2 Dynamic Reasoner

  • structure induction
    • 学习隐式的文档级图结构
  • multi-hop reasoning
    • 在图上推理
    • 更新节点表示(基于信息传递)
  • 迭代
    • N blocks
    • 为了迭代细化隐式的文档级图,为了更好的推理

3.2.1 Structure Induction

  • 不依赖于规则和共指消解
  • 将图结构视作隐式的变量,并以端到端的形式引入它
  • 基于:结构化的attention
  • 公式
    • node:ui,uju_i,u_jui,uj上下文表示
    • pair-wise unnormalized attention score
      • sij=(tanh(Wpui))TWb(tanh(Wcuj))s_{ij}=(tanh(W_pu_i))^TW_b(tanh(W_cu_j))sij=(tanh(Wpui))TWb(tanh(Wcuj))
        • 2个ff
        • 1个bilinear transformation
      • root scoresir=Wruis_i^r=W_ru_isir=Wrui–第i个节点被选作root的概率
      • 边的权重Pij={0if i=jexp(sij)otherwiseP_{ij}= \begin{cases} 0& \text{if i=j}\\ exp(s_{ij})& \text{otherwise} \end{cases}Pij={0exp(sij)if i=jotherwise
      • 拉普拉斯矩阵
        • Lij={Σi′=1nPi′jif i=j−PijotherwiseL_{ij}=\begin{cases} \Sigma_{i'=1}^nP_{i'j} & \text{if i=j}\\ -P_{ij}&otherwise \end{cases}Lij={Σi=1nPijPijif i=jotherwise
        • variant: Lij^={exp(sir)if i=1Lijif i>1\hat{L_{ij}}=\begin{cases} exp(s_i^r)& \text{if i=1}\\ L_{ij}& \text{if i>1} \end{cases}Lij^={exp(sir)Lijif i=1if i>1
    • marinal probability of the dependency edge:
      • Aij=(1−δ1,j)Pij[L−1^]ij−(1−δi,1)Pij[L−1^]jiA_{ij}=(1-\delta_{1,j})P_{ij}[\hat{L^{-1}}]_{ij}-(1-\delta_{i,1})P_{ij}[\hat{L^{-1}}]_{ji}Aij=(1δ1,j)Pij[L1^]ij(1δi,1)Pij[L1^]ji
      • 输出给下一组件

3.2.2 Multi-hop Reasoning

  • GCN
    • dense connection
      • 捕捉到更多结构信息
      • 帮助训练更深的网络
        • –获取更丰富的局部和非局部的信息
    • uil=Relu(Σj=1nAijWluil−1+bl)u_i^l=Relu(\Sigma_{j=1}^nA_{ij}W^lu_i^{l-1}+b^l)uil=Relu(Σj=1nAijWluil1+bl)

3.2.3 Iterative Refinement

  • structured attention诱导的图结构不足
    • 相对较浅
    • 无法建模复杂的依赖
  • 解决:在更新后的表示上细化图
    • 堆叠N个动态reasoner
      • 诱导N次图
      • 早期:更多的是相邻的信息
      • 迭代多了之后,结构获得了更丰富的非局部信息的交互,因而诱导模块能够生成包含更多信息的结构

3.3 分类器

P(r∣ei,ej)=σ(eiTWeej+be)rP(r|e_i,e_j)=\sigma(e_i^TW_ee_j+b_e)_rP(rei,ej)=σ(eiTWeej+be)r

4.结果

  • 数据集:
    • DocRED
      • F1:59.05\
    • CDR
    • GDA
  • DocRED结论
    • 该模型可以更准确地发现句间关系
      • 静态的基于文档图的模型不能够捕捉到复杂的交互
      • LSR比动态的基于局部attention的模型能够得到更多信息的文档级结构,获得更好的推理
    • 直接编码整个文档的模型不能够捕捉到句间关系
    • 好于Bert:捕捉到了长期依赖,而没有使用上下文的模型
  • CDR
    • LSR 打不过:
      • Spacy在生物领域很弱,所以不行
    • 简化的LSR:去除MDP,使用全连接图
      • 打不过Li2016b:因为他用了额外的无标签训练数据进行co-training
        • 本文要是用了的话他也行(他自己说的)
  • GDA:
    • Christopoulou2019全连接图的变体:他的句间关系好于句内关系,因为他忽略了不同句子间的差异(当一个句子处理了)

4.6.1 Latent Structure Matter的有效性

  • 相同block num下,效果最好,证明了有效

4.6.2 细化

  • 第二次迭代时(2个block)最好,所以细化有效,但是太多次就会过拟合。

4.7 Ablation Study

  • Structure Induction
    • 去掉这个性能下降最多,且都是句间关系抽取性能下降的结果
    • 隐式结构有用

4.8 Case Study

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481468.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

孤独的宇宙中,人类是个例外吗?

© Movie Content Plus来源:人工智能学家利维坦按:爱因斯坦曾说,“宇宙的永恒之谜在于其可理解性,宇宙能被理解是个奇迹。”不过,就可理解性(comprehensibility)来说,该如何定义…

红杉资本谈生成式AI:预计AI的杀手级应用将出现,比赛正在进行

来源:硅发布13年前,我采访Wolfram|Alpha的创始人、美国计算机科学家史蒂芬.沃尔弗拉姆时,大吃一惊。当时Wolfram|Alpha刚推出,使命是:让每一个人都可以在搜索引擎里搜出计算机计算的结果。比如说,输入"…

Transformer and set Trasformer

1.Transformer multihead attention block:MAB(X,Y)LayerNorm(HrFF(H))HLayerNorm(Xmultihead(X,Y,Y;ω)MAB(X,Y)LayerNorm(HrFF(H))\\ HLayerNorm(Xmultihead(X,Y,Y;\omega)MAB(X,Y)LayerNorm(HrFF(H))HLayerNorm(Xmultihead(X,Y,Y;ω) * Attention:Att(Q,K,Vl;ω)ω(QKT)VAtt…

「图神经网络复杂图挖掘」 的研究进展

来源:专知图神经网络对非欧式空间数据建立了深度学习框架,相比传统网络表示学习模型,它对图结构能够实施更加深层的信息聚合操作.近年来,图神经网络完成了向复杂图结构的迁移,诞生了一系列基于复杂图的图神经网络模型. 然而,现有综述文章缺乏对复杂图神经网络全面、…

知识复习:nlp算法面试汇总

文章目录2.相似度3.正则化3.1 L13.2 过拟合和欠拟合3.2.1 dropout3.3 欠拟合4. 激活函数4.1 sigmoid5.Bert5.1 Bert原版5.1.2 bert的训练5.2改进5.2.1缺点改进5.2.2任务改进5.3 参数量5.3 transformer5.3.1 多头注意力机制6.搜索6.1pagerank6.2 文本匹配7.神经网络基础7.1Norm7…

光子深度学习:编码到光波上的机器学习模型的组件

编辑 | 萝卜皮由于功率、处理和内存的限制,高级机器学习模型目前无法在智能传感器和无人机等边缘设备上运行。麻省理工学院的研究人员介绍了一种基于跨网络的离域模拟处理的机器学习推理方法。在这种被称为 Netcast 的方法中,基于云的「智能收发器」将重…

【实体对齐·综述】A Benchmarking Study of Embedding-based Entity Alignment for Knowledge Graphs

文章目录模板的简述简述1.Introduction2. preliminatries2.1 literature review2.1.1 knowledge graph embedding2.1.2 Conventional Entity Alignment2.1.3 embedding-based entity alignment2.2 Categorization of Techniques2.2.1 Embedding Module2.2.1.1 关系嵌入2.2.1.2 …

深度学习优化背后包含哪些数学知识?

来源:图灵人工智能深度学习中的优化是一项极度复杂的任务,本文是一份基础指南,旨在从数学的角度深入解读优化器。深度学习中的优化是一项极度复杂的任务,本文是一份基础指南,旨在从数学的角度深入解读优化器。一般而言…

2022 剑桥 AI 全景报告出炉:扩散模型是风口,中国论文数量为美国的 4.5 倍

来源:FUTURE远见选编:FUTURE | 远见 闵青云 文:AI科技评论 近日,剑桥大学的2022年 AI 全景报告(《State of AI Report 》)出炉!报告汇总和聚焦了过去一年里 AI 行业中炙手可热的事件&#xff0c…

实体对齐汇总

文章目录1.综述2.技术论文3.汇总3.1定义定义统一EA3.2 评价指标3.3 数据集3.4 数据预处理技术3.5 索引3.6 对齐3.6.1 按属性相似度/文本相似度做:成对实体对齐3.6.2 协同对齐:考虑不同实体间的关联3.6.2.1 局部实体对齐3.6.2.2 全局实体对齐3.6.3 基于em…

博后出站即任985教授!他致力于寻找人类五感世界的最后一块拼图

来源:iNature两年前,闫致强从底蕴深厚的复旦大学生命科学学院“跳”到尚处于新生期的深圳湾实验室,“蜗居”在一栋商业大楼里,和团队在这里寻找人类感知世界的最后一块拼图。在亚里士多德定义的五种感官中,介导嗅觉、味…

【实体对齐·BootEA】Bootstrapping Entity Alignment with Knowledge Graph Embedding

文章目录0.总结1.动机2. 贡献方法3.应用场景4.其他模型5.数据集6.效果以下的是组内比较BootEA: “Bootstrapping Entity Alignment with Knowledge Graph Embedding”.Zequn Sun, Wei Hu, Qingheng Zhang, Yuzhong Qu. (IJCAI 2018) [ paper][ code]0.总结 BootEA笔记 BootE…

一项人工智能、化学和分子机器人的交叉研究,加速创新和药物发现,并简化复杂的化学过程自动化...

编辑 | 萝卜皮深入了解各类化学物质的最佳一般反应条件,可以加速创新和药物发现,并使复杂的化学过程自动化且易于使用,对生物医药、材料研究具有重要意义。然而,有机反应的一般条件很重要但很少见,以往识别它们的研究通…

【实体对齐·综述】An Experimental Study of State-of-the-Art Entity Alignment Approaches

文章目录0.总结1.Introduction2.Preliminaries2.2 Scope and Related work2.2.1 Entity Linkingentity disambiguation2.2.2 Entity resolutionentity matchingdeduplicationrecord linkage2.2.3 Entity resolution on KGs2.2.4 EA3.general框架3.1 Embedding Learning Module3…

汽车生产线上的工业机器人是如何工作的?

来源:宝石部落 责任编辑:朱光明 审核人:王颖十年来,随着机器人在制造业的普遍应用,我国工业机器人产业规模快速增长。2021年,我国工业机器人产量达36.6万台,比2015年增长了10倍,市场…

【实体对齐·HGCN】Jointly Learning Entity and Relation Representations for Entity Alignment

文章目录1.动机2.输入输出3.相关工作4.模型4.1 GCN4.2 approximating relation representations4.3 joint entity and relation alignmentHGCN: “Jointly Learning Entity and Relation Representations for Entity Alignment”. Yuting Wu, Xiao Liu, Yansong Feng, Zheng Wa…

Science:海马中如何实现选择性地招募神经元来巩固记忆?

来源:brainnews作者:brainnews创作团队神经元网络活性的标志是选择性地将神经元招募到活跃的集合中,形成暂时稳定的活动模式。在哺乳动物的海马体中这种神经元集合在ripples(~200Hz)振荡期间反复激活,支持空…

往年笔试题

文章目录1 概率1.1 条件概率.每天9点到10点,小明和小红在同一个车站乘坐公交车上班。小明坐101路公交车,每5分钟一班{9:00, 9:05, 9:10, …};小红坐102路公交车,每10分钟一班{9:00, 9:10, 9:20, …},问小明和小红每天相…

量子生物学的未来:量子理论如何帮助理解生命?

导语2022年诺贝尔物理学奖授予了关于量子信息科学的基础性研究。一百多年前,量子革命为我们带来了晶体管和激光,今天,基于量子信息的新技术正在让我们进入一个新的量子信息时代。事实上,已有研究表明,在生命过程中也存…

【量化投资1】

文章目录0.相关包及常识1.股票买卖收益分析2.双均线策略2.1 均线2.2 双均线2.2.1 金叉死叉的获取量化投资0.相关包及常识 股票的买入卖出:最少为一手,100股 tushare open:开盘价格,close:收盘价格 1.股票买卖收益分析 每次至少买入1手最后…