论文小综 | 文档级关系抽取方法(下)

本文作者:

陈想,浙江大学在读博士,研究方向为自然语言处理

张宁豫,浙江大学助理研究员,研究方向为自然语言处理、知识表示与推理


这篇推文是文档级关系抽取方法的第二部分,前面的部分请移步推文“论文小综 | 文档级关系抽取方法(上)”

3.2 基于序列的方法

传统基于序列的方法主要采用RNN等架构。随着近年来transformer模型在NLP领域的应用,基于序列的方法主要采用基于transformer架构。基于序列的模型认为transformer本身可以隐式建模长距离依赖性,此类方法没有引入graph结构而直接应用预训练语言模型。这里我们主要介绍以下2篇代表性的论文。

Document-Level Relation Extraction with Adaptive Thresholding and Localized Context Pooling

发表会议:AAAI 2021

论文链接:

https://arxiv.org/abs/2010.11304

Motivation

multi-entity (multiple entity pairs to classify in a document)和multi-label (multiple relation types for a particular entity pair) 属性是文档级关系抽取比句子级关系抽取难以实现的关键所在[2]。

1. 现有的方法在计算entity representation时,每个entity在不同的entity pair中保持相同的representation,这会引进不相关信息的噪声。作者引入localized context pooling技术,它可以解决对所有的实体对使用相同的entity embedding问题;

2. 对于multi-label问题,现有的方法将之归纳为二值的多标签分类问题,给每个class应用一个全局的阈值来获得关系类别。这种方法涉及启发式阈值调整,并且当来自开发数据的调整阈值可能并非对所有实例均不是最佳时,会引入决策错误。作者提出adaptive thresholding技术,此技术消除了对阈值调整的需要,并使阈值可调整为适用于不同的实体对,从而获得了更好的结果。

Model

ATLOP模型的核心主要为两部分:Localized Context Pooling和Adaptive Thresholding。

1. Localized Context Pooling:有的上下文可能和实体对没啥关系,所以作者只关心对决定实体对的关系有用的上下文。使用与两个实体相关的附加上下文embedding,来增强实体对的embedding。因为已经用了基于双向transformer的bert来编码,bert已经很强大了,其自带多头attention,不需要从头学习新的attention了,所以从最后一层transformer里直接取他们的注意力头来作为局部上下文。如下图所示:

对同一实体的所有提及的attention求平均,获得实体的attention。通过将它们的实体级attention相乘,然后进行规范化,我们获得了对两个实体都很重要的上下文embedding。

将上下文embedding融入到实体embedding中:  

2. Adaptive Thresholding:作者认为全局阈值不合理,因为不同实体对,不同关系,不能一概而论。

Positive T:对于一对实体T,只要二者存在关系,Pt 就包含这类关系,如果不巧,这对实体没有关系,那Pt 就是空的。

Negative T:对于一对实体T,如果二者不存在任何关系,Nt 存储的是实体对T不存在的关系。

如果实体对分类正确,阳性标签的logit会高于阈值,阴性标签的logit低于阈值。这个阈值TH class就可以自己学习得到。自适应阈值的损失函数如下:

Experiment

数据集:DocRED、CDR、GDA

实验结果:

实验结果显示,在DocRED、CDR和GDA三种数据集上,作者提出的ATLOP均达到了SOTA,ATLOP未构建任何图结构,简单的应用bert自身的attention信息以及动态阈值方法便取得了显著的效果。

Entity Structure Within and Throughout: Modeling Mention Dependencies for Document-Level Relation Extraction

发表会议:AAAI 2021

论文链接:

https://arxiv.org/pdf/2102.10249.pdf

Motivation

如下图示例所示,文档级文本需要在多个mention中定义大量的entity,这些entity在两者之间表现出有意义的依存关系。这样的依赖关系表明entity与mention之间丰富的信息交互,从而为关系提取提供了有益的先验[3]。

先前的许多工作都尝试利用这种entity structure,特别是coreference dependency,但大都只是将coreferential information简单编码为额外特征并将其集成到初始input word embeddings中,除了共指信息之外并没有引入其他有意义的依赖信息。

而最近的graph-based方法通常依赖于通用编码器(通常为LSTM/BERT)来首先获取输入文档的上下文表示。然后,他们通过构造精心设计的图来介绍实体结构,在图中通过传播相应地更新实体表示。由于编码网络和图网络之间的异质性,这种方法将上下文推理阶段和结构推理阶段隔离开来,这意味着上下文表示不能首先从结构指导中受益。

作者认为,structural dependencies应纳入编码网络内以及整个系统中,由此提出SSAN (Structured\ Self-Attention Network),可以有效地在其构造块内以及从下至上的所有网络层中对这些依赖性进行建模。

Approach

How to formulate the structure of entities?

Co-occurrence structure:区分依赖于局部上下文的intra-sentential interactions和需要交叉句子推理的句子间交互。

Coreference structure:区分两个mention是否指向同一个entity

作者提出了具有两个可替代的transformation modules的structured self-attention机制,如下图所示:

How to model entity structure?

即为原始的self-attention,而transformation modules作用为调节从到的注意力流,其结果作为原始attention的bias。通过这样简单有效的融合,该模型能够受益于结构依赖性的指导。

Experiment

数据集:DocRED、CDR、GDA

实验结果:

实验结果显示,在DocRED数据集上,SSAN未跟GAIN和ATLOP对比,我们可以看到在未加Adaptation的情况下,SSAN(roberta-based)的F1比ATLOP(Roberta-based)低1%,加上Adaptation后超越ATLOP跃居目前DocRED榜单的第一名,这里Adaptation指采用了远程监数据对模型进行了预训练,这也表明远程数据的预训练对这种加入结构先验信息的方法非常重要。

总之,SSAN将structural dependencies纳入encoder网络内以及整个系统中,能够同时地进行context reasoning and structure reasoning,这种方法很有启发意义,作者也提到SSAN方法很容易适用于其他各种基于Transformer的预训练语言模型以融合任何结构上的依赖性。

4 未来展望

尽管文档级关系抽取取得了一定程度的发展,其性能仍难以满足实际应用的需求。未来可能的方向有:

1. 设计文档实体结构相关的预训练。现有的MLM预训练目标并不能很好的建模实体及实体间的隐式关联,因此,一个能够显式建模实体及其包含的语义关系的预训练目标可以增强文档的实体的表达能力。目前已经有工作[4][7]开始尝试基于对比学习设计更好的实体关系预训练模型。

2. 减轻关系标签分布不平衡。文档级关系抽取中的关系存在明显的长尾分布,且大量的实体间不存在关系,因此类别分布不平衡在一定程度上影响模型效果。[2]针对这一问题提出了动态阈值的方法,然而对于长尾部分的关系仍然缺乏较好的模型进行抽取。

3. 引入外部知识。语言模型缺乏对实体知识的认知,先前的工作表明注入实体等事实类型知识可以显著提升知识敏感的任务性能,[13]提出了一个注入Probase知识库的关系抽取模型,然而知识库存在稀疏性和噪音,更加高效可靠的知识注入方法仍然值得研究。

4. 设计更好的实体交互模型。目前关系抽取中仅考虑实体对之间的一阶交互,缺乏对多个实体对之间的高阶交互建模。尽管基于文档图的模型在一定程度上使得模型得学习了实体与实体之间的交互信息,然而对于实体图中相聚较远的节点,实体之间缺乏足够的信息流通,制约模型的逻辑推理能力。

参考文献

[1] Yao etal., DocRED: A large-scale document-level relation extraction dataset, ACL2019

[2] Zhou etal., Document-Level Relation Extraction with Adaptive Thresholding and Localized Context Pooling, AAAI2021

[3] Xu etal., Entity Structure Within and Throughout: Modeling Mention Dependencies forDocument-Level Relation Extraction, AAAI2021

[4] Qin etal., ERICA: Improving Entity and Relation Understanding for Pre-trained Language Models via Contrastive Learning

[5] Huang etal., Entity and Evidence Guided Relation Extraction for DocRED

[6] Xiao etal., Denoising Relation Extraction from Document-level Distant Supervision, EMNLP2020

[7] Ye etal., Coreferential Reasoning Learning for Language Representation, EMNLP2020

[8] Wang., Fine-tune BERT for DOCRED with Two-step Process

[9] Tang etal., Hin: Hierarchical Inference Network for Document-level Relation Extraction, PAKDD2020

[10] Jia etal., Document-level N-ary Relation Extraction with Multiscale Representation Learning, NAACL2019

[11] Eberts etal., An End-to-end Model for Entity-level Relation Extraction using Multi-instance Learning

[12] Eyal etal., Bootstrapping Relation Extractors using Syntactic Search by Examples

[13] Li etal., Multi-view Inference for Relation Extraction with Uncertain Knowledge, AAAI2021

[14] Christopoulou etal., Connecting the Dots: Document-level Neural Relation Extraction with Edge-oriented Graphs, EMNLP2019

[15] Nan etal., Reasoning with Latent Structure Refinement for Document-Level Relation Extraction, ACL2020

[16] Zeng etal., Double Graph Based Reasoning for Document-level Relation Extraction, EMNLP2020

[17] Xu etal., Document-level Relation Extraction with Reconstruction, AAAI2021

[18] Zhou etal., Global Context-enhanced  Graph  Convolutional  Networks for Document-level Relation Extraction, COLING2020

[19] Zhang etal., Document-level Relation Extraction with Dual-tier Heterogeneous Graph, COLING2020

[20] Wang etal., Global-to-local  Neural  Networks for Document-level  Relation  Extraction, EMNLP2020

[21] Li etal., Graph Enhanced Dual Attention Network for Document-level Relation Extraction, COLING2020

[22] Peng etal., Cross-sentence N-ary Relation Extraction with Graph LSTMs, TACL2017

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478400.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 128. 最长连续序列(哈希set)

1. 题目 给定一个未排序的整数数组,找出最长连续序列的长度。 要求算法的时间复杂度为 O(n)。 示例:输入: [100, 4, 200, 1, 3, 2] 输出: 4 解释: 最长连续序列是 [1, 2, 3, 4]。它的长度为 4。来源:力扣(LeetCode) 链接&#…

清华姚班教师劝退文:读博,你真的想好了吗?

文 | 张焕晨编 | 琰琰源 | AI科技评论先简单介绍一下我的背景。我本科在University of Wisconsin-Madison,然后去CMU念了个PhD,主要研究数据库方向。目前回国在清华IIIS(姚班)做助理教授,并且 cofound 了Singularity D…

纠删码存储系统中的投机性部分写技术

本文已被USENIX’17年度技术大会录用,此处为中文简译版。 阅读英文论文完整版请点击:Speculative Partial Writes in Erasure-Coded Systems 多副本和纠删码(EC,Erasure Code)是存储系统中常见的两种数据可靠性方法。与…

论文浅尝 - EMNLP | 通过元强化学习实现少样本复杂知识库问答

笔记整理 | 谭亦鸣,东南大学博士生来源:EMNLP 2020链接:https://www.aclweb.org/anthology/2020.emnlp-main.469.pdf本文关注聚合型复杂知识图谱问答任务,这类复杂问题的答案通常需要经过一些集合操作得到,例如&#x…

写了一篇关于 NLP 综述的综述!

文 | 小轶综述,往往是了解一个子领域最为高效的起点。然而,对于AI这样一个日新月异高速发展的行业,时效性也自然地成为了我们选择综述的衡量指标之一。即使一篇 AI 综述具有超高 citation,如果它写于 20 年前,那对今天…

美团点评容器平台HULK的调度系统

本文是美团点评基础架构系列文章之一。这个系列将全面介绍支撑数亿用户、超千万日订单的美团点评平台诸多业务的公共基础架构相关技术。系列已经发布的文章包括: - 《分布式会话跟踪系统架构设计与实践》 - 《Leaf——美团点评分布式ID生成系统》 - 《深度剖析开源分…

论文浅尝 | 利用跨内和跨间信息的预训练实体关系编码器

笔记整理 | 朱珈徵,天津大学硕士链接:https://www.aclweb.org/anthology/2020.emnlp-main.132.pdf动机从自由文本中提取实体和关系是自然语言处理中的一项重要任务。它的目标是识别具有特定类型(实体)和这些实体(关系)之间的语义关系的文本。本文主要研究…

python的环境变量设置

程序和可执行文件可以在许多目录,而这些路径很可能不在操作系统提供可执行文件的搜索路径中。 path(路径)存储在环境变量中,这是由操作系统维护的一个命名的字符串。这些变量包含可用的命令行解释器和其他程序的信息。 Unix 或 Windows 中路径变量为 P…

LeetCode 76. 最小覆盖子串(滑动窗口)

1. 题目 给你一个字符串 S、一个字符串 T,请在字符串 S 里面找出:包含 T 所有字母的最小子串。 示例: 输入: S "ADOBECODEBANC", T "ABC" 输出: "BANC"说明: 如果 S 中不存这样的子串&#xff…

推荐一个可交互的 Attention 可视化工具!我的Transformer可解释性有救啦?

本文首发于微信公众号”夕小瑶的卖萌屋“文 | Sherry源 | 夕小瑶的卖萌屋视觉是人和动物最重要的感觉,至少有80%以上的外界信息是经过视觉获得的。我们看论文的时候,通过图表来确定文章的大致内容往往也是一个更高效的 说到深度神经网络的可视化&#xf…

机器学习中模型优化不得不思考的几个问题

本文根据美团点评算法工程师胡淏4月22日在“携程技术沙龙”上的分享整理而成。文字综合了“携程技术中心”微信公众号的版本和胡淏本人在微博上发表的文章,并有少量编辑加工。 图1 机器学习工程师的知识图谱 图1列出了我认为一个成功的机器学习工程师需要关注和积累…

【美团语音交互部】 NLP/知识图谱/语音识别等算法职位开放招聘!

致力于连接最靠谱的算法岗与最强的求职者招聘贴投放请联系微信xixiaoyao-1部门介绍:语音交互部负责美团语音和智能交互技术及产品研发,面向美团业务和生态伙伴,提供对语音和口语数据的大规模处理及智能响应能力。团队以建设业界一流的语音交互…

LeetCode 289. 生命游戏(位运算)

文章目录1. 题目2. 解题2.1 复制数组解法2.2 原地解法2.3 位运算1. 题目 链接&#xff1a;289. 生命游戏 2. 解题 2.1 复制数组解法 很简单&#xff0c;按照题意模拟即可 class Solution { public:void gameOfLife(vector<vector<int>>& board) {if(board…

论文浅尝 | S3QLRDF: 用于大规模RDF数据分布式SPARQL查询的关系分割架构

笔记整理 | 孙磊&#xff0c;天津大学硕士。动机RDF形式的语义网的繁荣对高效、可伸缩以及分布式的存储和高可用和容错并行策略都有着要求。RDF数据的飞速增长提升了在分布式数据管理系统上高效划分策略的需求来提升SPARQL查询性能。亮点本文提出了新的用于RDF的关系分割架构Pr…

美团DSP广告策略实践

近年来&#xff0c;在线广告在整个广告行业的比重越来越高。在线广告中实时竞价的广告由于其良好的转化效果&#xff0c;占有的比重逐年升高。DSP&#xff08;Demand-Side Platform&#xff09;[1]作为需求方平台&#xff0c;通过广告交易平台&#xff08;AdExchange&#xff0…

推荐几个出论文的好方向

如果你准备发AI方向的论文&#xff0c;或准备从事科研工作或已在企业中担任AI算法岗的工作。那么我真诚的向大家推荐&#xff0c;贪心学院《高阶机器学习研修班》&#xff0c;目前全网上应该找不到类似体系化的课程。课程精选了四大主题进行深入的剖析讲解&#xff0c;四个模块…

LeetCode 414. 第三大的数

1. 题目 给定一个非空数组&#xff0c;返回此数组中第三大的数。如果不存在&#xff0c;则返回数组中最大的数。要求算法时间复杂度必须是O(n)。 示例 1: 输入: [3, 2, 1] 输出: 1 解释: 第三大的数是 1.示例 2: 输入: [1, 2] 输出: 2 解释: 第三大的数不存在, 所以返回最大的…

论文浅尝 - ICLR2021 | BERTology 遇上生物学:在蛋白质语言模型中解释注意力

来源&#xff1a;ICLR2021链接&#xff1a;https://arxiv.org/abs/2006.15222v3一.动机Transformer架构已经被证明可以学习有用的蛋白质分类和生成任务表示。然而&#xff0c;在可解释性方面存在挑战。二.亮点本文通过attention分析蛋白质Transformer模型&#xff0c;通过atten…

Vuex框架原理与源码分析

Vuex是一个专为Vue服务&#xff0c;用于管理页面数据状态、提供统一数据操作的生态系统。它集中于MVC模式中的Model层&#xff0c;规定所有的数据操作必须通过 action - mutation - state change 的流程来进行&#xff0c;再结合Vue的数据视图双向绑定特性来实现页面的展示更新…

在错误的数据上,刷到 SOTA 又有什么意义?

文 | Severus编 | 小轶小编注&#xff1a;前段时间&#xff0c;小屋介绍了吴恩达老师近期发起的以数据为中心的 AI 竞赛&#xff08;参见《吴恩达发起新型竞赛范式&#xff01;模型固定&#xff0c;只调数据&#xff1f;&#xff01;》&#xff09;。吴恩达老师认为&#xff1a…