论文阅读课5-DocRED: A Large-Scale Document-Level Relation Extraction Dataset(大规模文档集关系提取数据集

文章目录

  • abstract
  • 1.Introduction
  • 2.数据收集
  • 3.数据分析
  • 4.基线设置
  • 5.实验

Yao, Y., et al. (2019). DocRED A Large-Scale Document-Level Relation Extraction Dataset. Proceedings of the 57th Annual Meeting ofthe Association for Computational Linguistics.
基线+docRED数据集

abstract

文档中的多个实体通常表现出复杂的句子间关系,并且不能通过现有的关系提取(RE)方法很好地处理,这些方法通常集中于提取单个实体对的句子内关系。为了加速文档级RE的研究,我们引入了DocRED,这是一个由维基百科和维基数据构建的新数据集,具有三个特征:(1)DocRED注释命名实体和关系,是文档级RE的最大人类注释数据集从纯文本; (2)DocRED要求阅读文档中的多个句子,通过综合文档的所有信息来提取实体并推断它们之间的关系; (3)与人工注释数据一起,我们还提供大规模远程监督数据,使DocRED可用于监督和弱监督情景。为了验证文档级RE的挑战,我们实施了最新的RE最新方法,并对DocRED上的这些方法进行了全面评估。实证结果表明DocRED对现有RE方法具有挑战性,这表明文档级RE仍然是一个开放的问题,需要进一步努力。基于对实验的详细分析,我们讨论了未来研究的多个有希望的方向。

  • DocRED
    • 用于:大规模文档集句间关系提取
    • 来源:wikipedia和wikidata
    • 特征:
      • 标记实体和关系,文档集最大的人类标注纯文本数据集
        • DocRED包含132,375个实体和56,554个关联事实,这些事实在5,053维基百科文档中注释,使其成为最大的人工注释文档级RE数据集。
      • 要求从多个句子中提取实体并推断关系
        • 由于DocRED中至少40.7%的关系事实只能从多个句子中提取,DocRED要求阅读文档中的多个句子以识别实体并通过合成文档的所有信息来推断它们之间的关系。这将DocRED与那些句子级RE数据集区分开来。
      • 提供大规模远程监督数据,使之可用于监督和弱监督情景
  • 仍是一个开放问题

1.Introduction

  • 句子级关系提取
    • (Socher et al., 2012;
    • Zeng et al., 2014, 2015; .
    • dos Santos et al., 2015;
    • Xiao and Liu, 2016;
    • Cai et al., 2016;
    • Lin et al., 2016;
    • Wu et al., 2017;
    • Qin et al., 2018;
    • Han et al., 2018a).
  • 有必要从句子级提升到文档级
    • 因为许多关系只能从多个句子中提取推理得到
  • 需要文档级数据集
    • 文档级数据集少
      • 非人工标注,噪声大:Quirk and Poon (2017) and Peng et al. (2017)—有个远程监督生成的数据集,没有人类标注,噪声大。
      • 特定领域:BC5CDR(Li et al。,2016)是一个人类注释的文档级RE数据集,由1500个PubMed文档组成,这些文档在生物医学的特定领域仅考虑“化学诱导的疾病”关系,使其不适合开发一般 - 文档级RE的目的方法。
      • 特定方法:Levy等人。 (2017)通过使用阅读理解方法回答问题从文档中提取关系事实,其中问题从实体关联对转换。由于这个工作中提出的数据集是针对特定方法量身定制的,因此它也不适用于文档级RE的其他潜在方法
    • 存在各种问题,所以提出了DocRED
    • 实验结果表明,现有方法的性能在DocRED上显着下降,表明任务文档级RE比句级RE更具挑战性,并且仍然是一个开放性问题。

2.数据收集

(1)为维基百科文档生成远程监督注释。
(2)在文档和指代消解中注释所有命名实体。
(3)将命名实体提及链接到维基数据项。
(4)标签关系及相应的证据。

第二阶段和第四阶段还要:
(1)使用命名实体识别(NER)模型生成命名实体,或者使用远程监督和RE建立关系建议楷模。 (2)手动纠正和补充建议。
(3)审查并进一步修改第二遍的注释结果,以获得更好的准确性和一致性。

3.数据分析

在这里插入图片描述

  • 推理类型
    • (1)大多数关系实例(61.1%)需要进行推理识别,只能通过简单的模式识别提取38.9%的关系实例,这表明推理是文档级RE必不可少的。
    • (2)在与推理相关的情况下,多数(26.6%)需要逻辑推理,其中两个实体之间的关系由桥实体间接建立。逻辑推理要求RE系统能够建模多个实体之间的交互。
    • (3)显着数量的关系实例(17.6%)需要共参照推理,其中必须首先执行共参考解析以识别富文本中的目标实体。
    • (4)相似比例的关系实例(16.6%)必须基于常识推理来识别,其中读者需要将文档中的关系事实与常识结合起来以完成关系识别。
    • 总之,DocRED需要丰富的推理技巧来综合文档的所有信息。

4.基线设置

  • 实验时设置
    在这里插入图片描述

5.实验

  • 基线
    • CNN (Zeng et al., 2014) based model,
    • an LSTM (Hochreiter and Schmidhuber, 1997) based model,
    • a bidirectional LSTM (BiLSTM) (Cai et al., 2016) based model and
    • the Context-Aware model (Sorokin and Gurevych, 2017) originally designed for leveraging contextual relations to improve intra-sentence RE.
  • 过程
    • 输入:concate(glove embedding, coference embedding,type embedding)
    • 编码器(CNN/LSTM…)编码得到h(隐层表示)
    • 一个提及的编码为:mk=1t−s+1Σj=sthj−−−这个提及所有词的表示的平均m_k=\frac{1}{t-s+1}\Sigma_{j=s}^th_j---这个提及所有词的表示的平均mk=ts+11Σj=sthj
    • 实体的编码:ei=1KΣkmk−−所有提及的平均e_i=\frac{1}{K}\Sigma_k m_k--所有提及的平均ei=K1Σkmk
    • 分类器:
      • 输入:实体和位置编码的ei′=concate(ei,E(dij)),ei′=concate(ej,E(dji))e_i'=concate(e_i,E(d_ij)),e_i'=concate(e_j,E(d_ji))ei=concate(ei,E(dij)),ei=concate(ej,E(dji))
      • 输出:P(r∣ei,e2)=sigmoid(ei′TWrej′+br)P(r|e_i,e_2)=sigmoid(e_i'^TW_re_j'+b_r)P(rei,e2)=sigmoid(eiTWrej+br)
        在这里插入图片描述
        在这里插入图片描述
        在这里插入图片描述
        在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481531.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

74位图灵奖得主背景显示:大多数没有主修计算机专业,也并非高引用计算机科学家...

来源:中小学信息学竞赛计算机科学是世界上发展最快的学科之一,计算机科学的发展直接影响着人们的生活,并有可能从根本上改变传统的生活方式。图灵奖作为计算机领域的最高奖项,一直被誉为“计算机界的诺贝尔奖”,截止20…

Meta最新款VR头显体验者亲述:Quest Pro更漂亮、更有趣,但戴久了,脑袋疼!

来源:AI前线作者:Rachel Metz编译:核子可乐、冬梅价值一万多块的 VR 头显设备,你会买吗?声明:本文为 InfoQ 翻译,未经许可禁止转载。当地时间 10 月 11 日,元宇宙公司 Meta 召开了一…

文献阅读6-Entity-Relation Extraction as Multi-turn Question Answering(实体关系联合抽取,层次标签依赖关系,multi-turn QA)

文章目录abstract1.Introduction3.相关工作2.2MRC(机器阅读理解)2.3 非QA->QA3.数据集和任务3.1别人的数据集3.2我们建立的数据集RESUME4.Model4.1概述4.2生成问题4.3通过MRC来获取答案范围4.4 强化学习5.实验5.1RESUME结果5.2 其他结果6 Ablation Studies6.2问题…

论文阅读课7-使用句子级注意力机制结合实体描述的远程监督关系抽取(APCNN+D)2017

文章目录abstract1. Introduction2.方法3.训练4.实验4.1数据集4.2 评价指标4.3实验结果和分析4.3.1参数设置4.3.2 baseline4.3.3 conclusion5.相关工作5.1监督学习5.2远程监督学习Ji, G., et al. (2017). Distant Supervision for Relation Extraction with Sentence-Level Att…

Cell经典回顾:机器学习模型揭示大脑怎样整合空间记忆与关系记忆

导语人类等高等动物能够做出复杂推理、整合新知识以控制行为,其神经机制离不开海马-内嗅系统对于空间记忆和关系记忆的调控。来自牛津大学的学者于2020年在Cell杂志发表文章,通过分解和重组的方法构建了一套框架(TEM模型)&#xf…

论文阅读课8-Chinese Relation Extraction with Multi-Grained Information and External Linguistic Knowledge

文章目录Abstract1.Introduction2.相关工作3. 方法3.1 输入3.1.1 字符级别表示3.1.2单词级表示3.2encoder3.2.1 base lattice LSTM encoder3.2.2 MG lattice LSTM encoder3.3 关系分类器4.实验4.1数据集4.1.2 评估4.1.2 超参数设置4.2lattice的作用4.3词义表示的影响4.4最终结果…

黑客帝国「缸中之脑」真的可以,这100万个「活体人脑细胞」5分钟学会打游戏...

来源:FUTURE | 远见 闵青云 选编既然生物神经元如此高效,为什么不拿来用呢?最新版本的《黑客帝国》还有两天才会上映,但最近的一些科技进展总让我们觉得,导演描述的世界似乎离我们越来越近了。其中一个进展来自前段时间…

Nature发布迄今为止规模最大的全基因组关联研究,揭示了基因与身高的关系

来源:生物通一个国际研究团队已经确定了超过12000个影响一个人身高的基因变异。这项发表在10月12日《自然》杂志上的研究是迄今为止最大规模的全基因组关联研究,使用了来自281项贡献研究的500多万人的DNA。它填补了我们在理解基因差异如何导致身高差异方…

论文阅读9-Fine-tuning Pre-Trained Transformer Language Models to(远程监督关系抽取,ACL2019,GPT,长尾关系,DISTRE)

文章目录abstrac1.Introduction2 Transformer Language Model2.1 Transformer-Decoder2.2 Unsupervised Pre-training of Language Representations3 Multi-Instance Learning with the Transformer3.1 Distantly Supervised Fine-tuning on Relation Extraction3.2input repre…

Meta半年亏损57.7亿美元也要搞元宇宙,听听扎克伯格自己是怎么说的

来源:科技智谷编辑:Light"这可能是世界上最烧钱的梦。元宇宙就是未来,VR就是下一代PC。2022年10月12日,全球VR巨头Meta召开一年一度的Meta Connect大会2022。本次大会, Meta发布了旗下最新的虚拟现实头显——Ques…

文献阅读课10-Neural Relation Extraction for Knowledge Base Enrichment(提取+嵌入+消歧+规范化联合模型,实体已知,仅关系抽取,多词实体)

文章目录Abstract1.Introduction2. 相关工作2.2 Entity-aware Relation Extraction3.提出的模型3.1 Solution Framework3.1 data collection module3.3 Joint Learning of Word and Entity Embeddings3.4 N-gram Based Attention Model训练3.5 Triple Generation4.实验4.1 超参…

张益唐被曝已证明黎曼猜想相关问题,震动数学界

来源:金磊 Alex 发自 凹非寺量子位 | 公众号 QbitAIBreaking News!网传数学家张益唐,已经攻克了朗道-西格尔零点猜想(Landau-Siegel Zeros Conjecture)。而这则消息,据说是张益唐在参加北京大学校友Zoom线上…

论文阅读课11-TEMPROB:Improving Temporal Relation Extraction with a Globally Acquired Statistical Resource

文章目录abstract1.Introduction2.相关工作3 TEMPROB: A Probabilistic Resource for TempRels3.1 事件抽取3.2TempRel提取3.2.1 features3.2.2 learning3.3 Interence3.4 corpus3.5有趣的统计3.6 极端情况3.7 下列事件的分布4.实验4.1 Quality Analysis of TEMPROB4.2 Improvi…

机器学习也将解决量子问题

来源:IEEE电气电子工程师作者:CHARLES Q. CHOI当量子计算机执行可能导致下一代电池或新药的复杂物理和化学模拟时,它可能比任何传统超级计算机强大得多。然而,可能需要很多年才能实现实用和广泛的量子计算。现在,一项新…

Nature重磅:人鼠混合大脑问世,‘大脑类器官’研究再添新进展

一句“我思故我在”解释了大脑的重要性。随着全球老龄化的加剧,神经退行性疾病的发病率也随之增加。“老年痴呆”、“帕金森”等神经退行性疾病更是和癌症一样,成为数不多流传在街头巷尾的“医学名词”。从近代科学诞生一来,人类对于大脑的研…

文献阅读课12-Fine-Grained Temporal Relation Extraction(19ACL,时间关系,时间持续时间,数据集,语义框架,常识)

文章目录abstract1.Introduction2 背景3.数据收集4.Model5.实验6.result7 Model Analysis and TimelinesVashishtha, S., et al. (2019). Fine-Grained Temporal Relation Extraction. Proceedings ofthe 57th Annual Meeting ofthe Association for Computational Linguistics…

Gartner发布2023年十大战略技术趋势,元宇宙等技术上榜

来源:Gartner整理:刘燕10 月 18 日,InfoQ 获悉,Gartner 发布了企业机构在 2023 年需要探索的十大战略技术趋势。Gartner 杰出研究副总裁 Frances Karamouzis 表示:“为了在经济动荡时期增加企业机构的盈利,…

文献阅读课13-DSGAN: Generative Adversarial Training for (远程监督关系抽取,句子级去噪)

文章目录Abstract1.Introduction2.相关工作3 Adversarial Learning for Distant Supervision3.1 Pre-Training Strategy3.2 Generative Adversarial Training for Distant Supervision Relation Extraction3.3 Cleaning Noisy Dataset with Generator4.实验4.2 Training Proces…

Science复活远古“蛋白质”,揭示光合作用的“昨天、今天和明天”

来源:生物通复活数十亿年前的酶,揭示了光合作用如何适应氧气的增加。两个Rubisco配合物相互作用的冷冻电子显微镜图像。如果溶解度所必需的亚基缺失,单个的酶复合体就会以这种方式相互作用,形成线状结构,即所谓的原纤维…

文献阅读课14-DIAG-NRE: A Neural Pattern Diagnosis Framework for远程监督关系抽取,模式标注去噪自动化,FN,FP,RL

文章目录abstract1. Introduction2.相关工作3.方法3.1 NRE Models3.2 Pattern Extraction3.3 Pattern Refinement3.4 Weak Label Fusion(WLF)4 Experiments4.1 Experimental Setup4.2 Performance Comparisons4.3 Pattern-based Diagnostic Results4.4 Incremental Diagnosis4.…