{ACL2020}In Layman’s Terms: Semi-Open Relation Extraction from Scientific Texts(关系抽取,半开放关系抽取)

  • 半开放关系抽取
    • 用FOBIE训练一个narrow IE
    • 训练一个OpenIE
    • 用narrowIE矫正OpenIE

1.Introduction

  • 标注困难、

    • 跨领域标注更难
  • TRADE-OFF relations

    • 随着干燥度的增加,木质部的安全性增加和效率降低的广泛模式是明显的,有一些证据表明在针叶树种或个体之间存在安全-效率的权衡
    • trade-off是中心思想/核心关系,帮助过滤无关的OpenIE的提取
    • 由核心关系的arg作为锚点,进一步探索到相关的概念和关系
    • 无关的概念,就不会被提取
      在这里插入图片描述
  • 信息抽取尤其是关系抽取可以帮助下游任务获得中心思想

  • 需求

    • narrow IE:关系太少,而科技文献需要更多的关系(有很多领域独有的);但准确度高
    • OpenIE用于新闻、网络,科技文献上表现不佳
    • 真正的需要:两者兼备
      • 获取中心思想
      • cover中心思想的关系
  • 本文模型(SORE)

    • 假设:可以减少无关关系的提取,则有益于科技文献
  • 本文数据集(FOBIE)

    • FOBIE包含了手工注释的句子,这些句子表达了明确的权衡,或语法上相似的关系,它们捕获了全文生物学论文中的中心概念。
  • narrow IE:(Luan et al., 2018a)

    • 用于过滤OpenIE提取的结果

2. 相关工作

  • 以前:

    • 手工或规则
      • 跨领域:需要微调(因为依赖语法特征)
      • 对科学文本有用:额外的知识的引入有益于减轻非专家对文本的理解
  • 困难

    • the boundaries of an argument,
    • handling latent n-ary relations,
    • difficulty handling negations,
    • generating uninformative extractions
  • 本文

    • 通过narrow IE,减少错误,和uninformative的提取
    • 使用central concept(narrow IE提取的)

2.2 narrow RE from scientific text

  • pipeline:
    • 预先计算的:依赖树、word position embedding、最短依赖路径
  • 降低pipeline传递误差/联合模型
  • 数据集
    • ScienceIE:SemEval 2017 task10:3个key-phrases,而不是实体,下义词,同义词
    • SemEval 2018 task 7:6 narrow relations between 7 entity types
    • SciERC:7relation(含共指消解),6 entities
  • SemEval任务的系统
    • 基于LSTM
    • 半监督与ensembling结合
    • 预训练concept embedding

2.3 dataset

  • 大多数是生物领域
    • 预先定义的关系
  • BB corpus:
    • 4 entity,2 relation
    • abstract,title,paragraph,sentece(20个全文 doc)
  • SeeDev corpus:
    • 86 paragraph(20个全文doc)
  • 上面两个:
    • 实体关系多,数据集小—不平衡
    • dev/train/test:overlap
  • FOBIE
    • arg:无entity type,有key-phrase
    • 1548个长难句(来自1215 doc)
    • 在生物领域更general
    • BB/SeeDev:只专注于生物领域的一小部分
      在这里插入图片描述

3 dataset description

3.1 数据收集

  • trade-off:
    • 中心词的关系
    • compromise,optimization,balance,interplay,conflict
    • –trigger words
    • 提取工具:rule-based system(RBS)–仅提取trande-off的关系
    • 文本来源:the Journal of Experimental Biology (JEB) and BioMed Central (BMC) journals on ‘Biology’, ‘Evolutionary Biology, and ‘Systems Biology’.
      • 专注于生物领域
      • 保留:abstract,introduction,results,discusss,conclusion
      • spaCy:分句、依赖、POS

3.2 标注

  • 第一次人类标注(专家)
    • 修正和扩展
    • BRAT
    • 标记
      • trade-off
      • argument-modifier
      • not-trade-off
        • 有关,但不表示trade-off
        • 作为负例:帮助识别
          • trigger words可能连续
            • 不相关:trade-off
            • 相关:no-trade-off
    • 注意
      • 多数关系是嵌套的或者非投影的
        • 注意介词:prep
          • 增加介词的规则:
            • 可以从arg中分离的
            • 有多个arg
  • 第二次人类标注(专家)
    • 重标注和质量控制
    • inter-annotator agreement cohen k:0.93
    • no overlap
    • key-phrases:平均3.44 tokens,12% 1token–较长
      • ScienceIE :34% 1token
      • sciERC: avg entity length:2.36
    • sentece:longer
      • FOBIE:79.26% >25tokens
      • SciERC: avg 24.31
        在这里插入图片描述

4. Narrow IE baseline

4.1 task definition

  • 提取
    • trigger
    • trigger和他的arg们之间的二元关系
      • 有方向

4.2 baseline system

  • span-based approach
    • span-based :span representation作为分类特征:保证端到端的学习中在多个任务之间传递信息时,推理的复杂度并不增加
    • 方法:
      • Lee,2017
      • SRL(He ,2017)
      • SciIE(Luan,2018a)–本文用这个
        • span:trigger words,key-phrases
        • relation
        • embedding:glove and elmo
        • beam pruning:剪掉不需要的span
          • mention scores ϕmr\phi_{mr}ϕmr:beam size λn=8\lambda_n=8λn=8
          • max length:W=10(span的最大长度)
        • 标签预测:
          • span标签:ϵ\epsilonϵ-non-span class
          • relation标签:ϵ\epsilonϵ:non-relation class
            在这里插入图片描述

4.3 narrow IE results

  • SciIE:

    • argument recognition
      • a valid span or not
      • trigger word or a key-phrase
    • relation extraction
  • RBS

    • 可以很好地识别trigger word:95.86F1
    • 但难以识别key-phrase:22.36F1
      在这里插入图片描述
      在这里插入图片描述

4.4 supporting trade-off annotation

  • 定性分析
    • central trade-off relation and arg:41.68%
    • trade-off:243
    • tradeoff per doc:77.37%与专家相同
    • 89.71% of 243 doc:讨论后认为对
  • 发现
    • 2种uninformative trade-offs:
      • trade-offs from a cited source
      • trade-offs between generic
      • eg:
        • a trade-off between cost and benefit without defining what the cost and benefit are.

在这里插入图片描述

5 Semi-Open Relation Extraction

5.1 Task description

  • SORE
    • 提取关系、concept–central information
    • scientific
    • filter out uninformative and incorrect extractions
      • semi-Open
    • 依靠narrow IE和OpenIE的输出
      • 平衡:精确但narrow的IE和无边界不可靠的openIE之间
    • 用于
      • 人类阅读
      • 标注数据

5.2实验设置

  • 数据1279 doc
  • narrow IE:2216 trade-offs
  • Elmo: 附加修饰词,移除停顿词,embedding the remaining sequences
  • K-means:聚类–IDF-weighted
    • 簇的个数不影响
    • ±50正好:通用主题和细粒度主题的一个平衡
  • 专家评估效果
  • sentencePiece
  • OpenIE 5:也在这1279 doc上
  • filter:
    • 保留OPenIE提取:
      • 他的arg中一个或多个属于trade-off arg的簇
    • 省略了OpenIE提取的属于噪音簇的
      • 包含过多数学符号
      • 长的嵌套短语
    • 簇的确定
      • IDF-weighted

5.3 SORE质量分析

  • 可以减少无关和噪声的OIE arg
  • 假设成立:SORE减少uninformative extraction,而没有限制RE
    • 人工评估信息是否丰富(提取的)
      • 许多OPENIE的结果结构不良,但如果信息丰富,这是好的
      • 有用的或者正确的信息,不一定与主题有关
        • 包含无信息arg
        • 包含不完全arg
        • non-sensible:无法感知
        • 不能帮助理解的
      • 随机采样:
        • 存在长句子导致的错误(提取错误/边界错误)
        • 问题很复杂
          • 存在:the arity of relations can be high
          • 许多短语是嵌套的并且表达非动词的关系
      • 结果
        • 信息性增加
        • cohen:0.84

5.4 results

  • 手工检查:相关的提取被保留了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481471.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

马斯克成功收购推特,开除CEO等多名高管,还派特斯拉工程师进驻总部审查代码...

来源:AI前线作者:刘燕这场连环反转“大戏”,终于落幕。靴子终于落地10 月 28 日,据 《纽约时报》、CNBC 、《 华尔街日报》、《华盛顿邮报》 等多家外媒报道,马斯克收购推特的交易已经完成。这笔 440 亿美元的收购案终…

【ACL2020】Reasoning with Latent Structure Refinement for Document-Level Relation Extraction

1. 问题 句间关系 很多约等于文档级关系抽取 文档级关系抽取 句子间关系多 生物医药领域尤其多 需求/困难 整合同一文档不同句子间的信息处理句间实体复杂的交互 2.相关工作 文档级别关系抽取 结论: 实体mention之间的交互促进推理过程(文档级关系抽…

孤独的宇宙中,人类是个例外吗?

© Movie Content Plus来源:人工智能学家利维坦按:爱因斯坦曾说,“宇宙的永恒之谜在于其可理解性,宇宙能被理解是个奇迹。”不过,就可理解性(comprehensibility)来说,该如何定义…

红杉资本谈生成式AI:预计AI的杀手级应用将出现,比赛正在进行

来源:硅发布13年前,我采访Wolfram|Alpha的创始人、美国计算机科学家史蒂芬.沃尔弗拉姆时,大吃一惊。当时Wolfram|Alpha刚推出,使命是:让每一个人都可以在搜索引擎里搜出计算机计算的结果。比如说,输入"…

Transformer and set Trasformer

1.Transformer multihead attention block:MAB(X,Y)LayerNorm(HrFF(H))HLayerNorm(Xmultihead(X,Y,Y;ω)MAB(X,Y)LayerNorm(HrFF(H))\\ HLayerNorm(Xmultihead(X,Y,Y;\omega)MAB(X,Y)LayerNorm(HrFF(H))HLayerNorm(Xmultihead(X,Y,Y;ω) * Attention:Att(Q,K,Vl;ω)ω(QKT)VAtt…

「图神经网络复杂图挖掘」 的研究进展

来源:专知图神经网络对非欧式空间数据建立了深度学习框架,相比传统网络表示学习模型,它对图结构能够实施更加深层的信息聚合操作.近年来,图神经网络完成了向复杂图结构的迁移,诞生了一系列基于复杂图的图神经网络模型. 然而,现有综述文章缺乏对复杂图神经网络全面、…

知识复习:nlp算法面试汇总

文章目录2.相似度3.正则化3.1 L13.2 过拟合和欠拟合3.2.1 dropout3.3 欠拟合4. 激活函数4.1 sigmoid5.Bert5.1 Bert原版5.1.2 bert的训练5.2改进5.2.1缺点改进5.2.2任务改进5.3 参数量5.3 transformer5.3.1 多头注意力机制6.搜索6.1pagerank6.2 文本匹配7.神经网络基础7.1Norm7…

光子深度学习:编码到光波上的机器学习模型的组件

编辑 | 萝卜皮由于功率、处理和内存的限制,高级机器学习模型目前无法在智能传感器和无人机等边缘设备上运行。麻省理工学院的研究人员介绍了一种基于跨网络的离域模拟处理的机器学习推理方法。在这种被称为 Netcast 的方法中,基于云的「智能收发器」将重…

【实体对齐·综述】A Benchmarking Study of Embedding-based Entity Alignment for Knowledge Graphs

文章目录模板的简述简述1.Introduction2. preliminatries2.1 literature review2.1.1 knowledge graph embedding2.1.2 Conventional Entity Alignment2.1.3 embedding-based entity alignment2.2 Categorization of Techniques2.2.1 Embedding Module2.2.1.1 关系嵌入2.2.1.2 …

深度学习优化背后包含哪些数学知识?

来源:图灵人工智能深度学习中的优化是一项极度复杂的任务,本文是一份基础指南,旨在从数学的角度深入解读优化器。深度学习中的优化是一项极度复杂的任务,本文是一份基础指南,旨在从数学的角度深入解读优化器。一般而言…

2022 剑桥 AI 全景报告出炉:扩散模型是风口,中国论文数量为美国的 4.5 倍

来源:FUTURE远见选编:FUTURE | 远见 闵青云 文:AI科技评论 近日,剑桥大学的2022年 AI 全景报告(《State of AI Report 》)出炉!报告汇总和聚焦了过去一年里 AI 行业中炙手可热的事件&#xff0c…

实体对齐汇总

文章目录1.综述2.技术论文3.汇总3.1定义定义统一EA3.2 评价指标3.3 数据集3.4 数据预处理技术3.5 索引3.6 对齐3.6.1 按属性相似度/文本相似度做:成对实体对齐3.6.2 协同对齐:考虑不同实体间的关联3.6.2.1 局部实体对齐3.6.2.2 全局实体对齐3.6.3 基于em…

博后出站即任985教授!他致力于寻找人类五感世界的最后一块拼图

来源:iNature两年前,闫致强从底蕴深厚的复旦大学生命科学学院“跳”到尚处于新生期的深圳湾实验室,“蜗居”在一栋商业大楼里,和团队在这里寻找人类感知世界的最后一块拼图。在亚里士多德定义的五种感官中,介导嗅觉、味…

【实体对齐·BootEA】Bootstrapping Entity Alignment with Knowledge Graph Embedding

文章目录0.总结1.动机2. 贡献方法3.应用场景4.其他模型5.数据集6.效果以下的是组内比较BootEA: “Bootstrapping Entity Alignment with Knowledge Graph Embedding”.Zequn Sun, Wei Hu, Qingheng Zhang, Yuzhong Qu. (IJCAI 2018) [ paper][ code]0.总结 BootEA笔记 BootE…

一项人工智能、化学和分子机器人的交叉研究,加速创新和药物发现,并简化复杂的化学过程自动化...

编辑 | 萝卜皮深入了解各类化学物质的最佳一般反应条件,可以加速创新和药物发现,并使复杂的化学过程自动化且易于使用,对生物医药、材料研究具有重要意义。然而,有机反应的一般条件很重要但很少见,以往识别它们的研究通…

【实体对齐·综述】An Experimental Study of State-of-the-Art Entity Alignment Approaches

文章目录0.总结1.Introduction2.Preliminaries2.2 Scope and Related work2.2.1 Entity Linkingentity disambiguation2.2.2 Entity resolutionentity matchingdeduplicationrecord linkage2.2.3 Entity resolution on KGs2.2.4 EA3.general框架3.1 Embedding Learning Module3…

汽车生产线上的工业机器人是如何工作的?

来源:宝石部落 责任编辑:朱光明 审核人:王颖十年来,随着机器人在制造业的普遍应用,我国工业机器人产业规模快速增长。2021年,我国工业机器人产量达36.6万台,比2015年增长了10倍,市场…

【实体对齐·HGCN】Jointly Learning Entity and Relation Representations for Entity Alignment

文章目录1.动机2.输入输出3.相关工作4.模型4.1 GCN4.2 approximating relation representations4.3 joint entity and relation alignmentHGCN: “Jointly Learning Entity and Relation Representations for Entity Alignment”. Yuting Wu, Xiao Liu, Yansong Feng, Zheng Wa…

Science:海马中如何实现选择性地招募神经元来巩固记忆?

来源:brainnews作者:brainnews创作团队神经元网络活性的标志是选择性地将神经元招募到活跃的集合中,形成暂时稳定的活动模式。在哺乳动物的海马体中这种神经元集合在ripples(~200Hz)振荡期间反复激活,支持空…

往年笔试题

文章目录1 概率1.1 条件概率.每天9点到10点,小明和小红在同一个车站乘坐公交车上班。小明坐101路公交车,每5分钟一班{9:00, 9:05, 9:10, …};小红坐102路公交车,每10分钟一班{9:00, 9:10, 9:20, …},问小明和小红每天相…