论文浅尝 | 用于文档级事件关系抽取的稀疏事件表示的判别推理

81fb51f2be556248a527c9543d1720e4.png

笔记整理:邹铭辉,天津大学硕士,研究方向为自然语言处理

链接:https://aclanthology.org/2023.acl-long.897

动机

文档级事件关系抽取(Document-level Event-Event Relation Extraction,简称DERE)旨在从文档中提取事件之间的关系。相较于传统的句子级任务(SERE),它涉及更加复杂的长文本理解。为了更好地进行文档级推理,不同于现有方法通过语言工具构建事件图,本文工作更关注文档本身的性质,并且不依赖于任何先验知识。为了做到这一点,作者强调以下关键问题:(1)如何捕捉可能相距较远的事件依赖关系?(2)考虑到SERE和DERE之间的本质差异,是否应该将所有事件对同等对待?为了解决这些问题,作者提出了一种新颖的DERE模型,该模型学习稀疏的事件表示,用于区分句内和句间推理,即SENDIR(Sparse EveNt representations for Discriminating Intra- and inter-sentential Reasoning)。其基本思想是通过假设同一句子中或跨越多个句子的事件对具有不同的信息密度来区分它们:(1)文档中的低密度暗示着对不相关信息的稀疏注意。本文模型的模块1设计了各种类型的注意力机制来学习事件表示,以捕捉远距离依赖关系。(2)句子中的高密度使得SERE相对较容易。本文模型的模块2使用不同的权重来强调句内和句间推理的作用和贡献,从而为联合建模引入了支持性事件对。大量实验证明了SENDIR的显著改进以及各种稀疏注意力在文档级表示上的有效性。

亮点

本文亮点主要包括:

(1)考虑到DERE和SERE任务的本质差异,提出了区分句内推理和句间推理的想法;

(2)本文提出的SENDIR模型关注文档本身的性质,而无需任何的先验知识和外部工具。

模型与方法

ae309ad60a053410e4d2da2c9ff4a225.png

SENDIR旨在学习高质量的事件表示,以促进句内和句间推理。如图2所示,模型框架有四个主要组件:(1)编码器(Encoder)用于将文档编码为向量,(2)稀疏事件表示学习(SER)根据文档嵌入进一步学习事件表示,(3)区分句内和句间推理(DIR)基于每对事件表示进行联合推理,以及(4)分类模块(Classification)用于进行最终预测。

编码器(Encoder)

使用BERT和Bi-LSTM对长文档(超过512个token)进行编码,具体来说,首先使用BERT对单个句子进行编码得到每个句子中token的表示,然后使用Bi-LSTM对所有句子的所有token进行编码。公式如下:

0f259907c55865565c9390d75f3dae83.png

其中Xi=[x1, x2, …, xm]表示第i个包含m个token的句子,H=[ h1, h2, …, hn]表示所有句子的所有n个token的嵌入。

对于事件ei,p,其中i表示第i个事件,p表示句子的索引,定义其嵌入为ei,p = hk,如果事件提及的词是xk,则该事件在文档中的位置为k。

稀疏事件表示学习(SER)

SER研究了不同类型的注意力机制,以捕捉句子之间的长距离依赖关系,以获得高质量的文档表示,并用于增强事件表示。具体而言,SER首先学习事件特定的句子嵌入ci作为局部上下文(基于事件嵌入与所在句子的句子嵌入计算点积注意力):

202ee2c68a2ff6aee21a793ab53fe927.png

基于这些嵌入,SER再应用稀疏自注意力机制来跳过不相关的信息,以得到全局上下文c'i。特别地,SER引入了六种不同类型的长距离依赖假设。图2的模型结构图的左下角可视化展示了不同类型的注意力掩码。Global→假设前两个句子中的事件是文档的核心主题,并且应该看到所有其他事件;Global←假设最后两个句子中的事件是文档的结论主题,并且应该看到所有其他事件;Random通常用于增加非局部交互的能力,本文随机采样20%的矩阵元素为0,其他为1;Banded假设相关信息仅限于邻居句子(距离小于3),即每个事件只能看到邻居句子中的事件;Narrative假设事件大多是按叙述顺序描述的,以便前一个事件可以看到后一个事件;Flashback假设事件是按顺序写入的,因此后一个事件应该看到前一个事件。

然后,根据局部和全局上下文定义事件表示e'i为:

c4c5ee4db5275beae710d626482d820b.png

最后,给定一个事件对(ei, ej),定义其表示vi,j为:

c988e2d66c4c51210ed67af8f23909ea.png

区分句内和句间推理(DIR)

上一节定义了基于局部和全局上下文的事件对表示vi,j。在本节中,DIR将它们作为句内特征进行处理,表明尚未考虑从其他句子中获取事件对以形成推理链。为了进一步获得每对事件的句间特征,DIR首先为每对事件选择支持事件对,并使用GAU进行信息融合。然后,以不同的权重将两种类型的特征组合在一起,以区分两种类型的推理。

首先,假设只有共享至少一个公共事件的事件对才能对推理链做出贡献,而不是使用所有事件对作为支持。基于这一假设,可以为给定的一个事件对(ei, ej)构建一个支持事件对集合T1=[vi,j, vi,1, …, vN,j],然后使用GAU进行推理得到增强后的事件对表示T2=[v'i,j, v'i,1, …, v'N,j]。公式如下:

3bac2d59fa021c640256acde77d69549.png

然后,需要将两种不同权重的特征组合起来。基本思想是,同一句子内的事件对相对容易预测,并且有很高的置信度。因此,DIR利用句内特征来促进跨不同句子的事件对。为了避免更容易的预测带来的问题,如果事件对在同一句子内,则给予句内特征更高的权重。相反,对于来自不同句子的事件,则给予句间特征更高的权重,以突出句间推理。最后,对于关系(ei, ej)之间的查询事件对表示定义如下:

cb498522ef1d4b9b43fa9cf6ea940332.png

其中β1, β2和β3是超参数(本文中分别设置为0.8, 0.2和0),p和q表示事件所在句子的索引。

分类模块(Classification)

给定事件对的最终表示o,使用线性函数来预测关系,公式如下:

28b038bc6e4b9ccc8b94d7f49d208f22.png

实验

本文在两个领域的三个数据集上对模型进行评估。EventStoryLine和Causal-TimeBank是事件因果关系抽取(RE)数据集,而MATRES是事件时间关系抽取数据集。其中,EventStoryLine标注了258份文档,包含22个主题,共有4,316个句子,5,334个事件提及,7,805个句内事件对,以及46,521个句间事件对。Causal-TimeBank (Causal-TB)标注了184份文档,包含6,813个事件,和7,608个事件对。MATRES标注了275份文档,涵盖了四种时间关系,即BEFORE,AFTER,EQUAL和VAGUE。

本文使用精确率(P)、召回率(R)和F1分数(F1)作为评估指标。

866b3f0e6c19df301a27a33c5c394bd0.png

b44efa0bbe1b2e0534539ff497ff3de4.png

表1和表2分别展示了在EventStoryLine、Causal-TB和MATRES上的整体性能。我们可以看到:(1)SENDIR在EventStoryLine和Causal-TB上取得了更好的F1得分,并且在MATRES上也有竞争力的结果,这证明了模型的有效性和泛化能力。(2)在MATRES上,SENDIR略低于SCS-EERE。因为事件时间关系抽取对事件之间的方向尤为敏感。(3)在表1中,所有模型在句内表现比句间更好。这与本文的论断一致,即句内关系抽取更容易。(4)特别地,SENDIR在句内具有更高的精确度。因为区分性推理方案减轻了更困难的跨句子推理的负面影响。(5)在句间设置中,改进主要来自更高的召回率。作者将这归因于增强的远距离建模能力和支持性的查询集——它倾向于从更广泛的上下文和其他事件对中找到关系线索。

3e2befa6612e4d5fd76001de1704c43c.png

为了进一步分析SENDIR,本文还进行了消融分析,以说明主要模块的有效性。表3展示了消融实验的结果。

1a4cce74cc2944ff8c6c78ca8ca6af2a.png

为了研究不同的稀疏注意力掩码对SER(某个特定任务或模型的准确率)的影响,本文使用了以下不同的稀疏注意力掩码:Narrative、Flashback、Global→、Global←、Random和Banded。从图4中可以得到以下结论:(1)在句内,这些稀疏注意力掩码除了Global→外,其他的结果都相似。这与之前的结果一致,即事件对更多地依赖于局部语境而不是远距离的全局语境。(2)Random意外地表现良好,表明文档中存在大量冗余信息,而稀疏掩码矩阵可以减轻噪声的影响。(3)Narrative取得了最佳性能,这反映了人类写作习惯中的语言偏好——总是首先谈论主题。

总结

本文将一种新颖的具有稀疏事件表示的判别推理方法SENDIR用于DERE。该方法可以学习高质量的事件表示,并促进文档级理解中的跨句推理。实验结果表明了方法的有效性,改善了句间情况,而不损害句内事件对。广泛的分析还为稀疏长文本表示学习中的各种语言偏差提供了有趣的见解。SENDIR的局限性包括以下两个方面:(1)它尚未扩展到文档级别的以实体为中心的关系任务。本文工作是以事件为中心的,未来的工作将在实体为中心的情况下进行扩展。文档级别的以实体为中心的关系抽取需要考虑实体的多次提及以及同一实体对的不同方向上的不同关系。(2)它没有引入外部常识知识。知识可以用于丰富事件并提高准确的事件关系抽取。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

f833813bfd1d2f4726cae04440f605f6.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/162547.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【TypeScrpt算法】算法的复杂度分析

算法的复杂度分析 什么是算法复杂度? 不同的算法,其实效率是不一样的 让我举一个案例来比较两种不同的算法在查找数组中给定元素的时间复杂度 [1,2,3,4,5,6,7,...9999,n] 顺序查找 这种方法从头到尾遍历整个数组,依次比较每个元素和给定元…

SAP-查看业务变更记录

一、通过事务码查询修改记录 1、输入TCODE:AUT10,输入时间和事务处理代码,全部搜索输入*。 2、点击刷新,对已输入的条件进行重置。 3、在左侧下菜单,选择要查询的事务记录,双击,会带入“事务处…

【nlp】3.2 Transformer论文复现:1. 输入部分(文本嵌入层和位置编码器)

Transformer论文复现:输入部分(文本嵌入层和位置编码器) 1 输入复现1.1 文本嵌入层1.1.1 文本嵌入层的作用1.1.2 文本嵌入层的代码实现1.1.3 文本嵌入层中的注意事项1.2 位置编码器1.2.1 位置编码器的作用1.2.2 位置编码器的代码实现1.2.3 位置编码器中的注意事项1 输入复现…

探索结构体的奥秘

目录 🍂结构体 1,结构体的声明 1.1 结构的基础知识 1.2 结构的声明 1.3 特殊的声明 1.4 结构的自引用 1.5 结构体变量的定义和初始化 1.6 结构体内存对齐 1.6.1 如何计算 1.6.2 为什么存在内存对齐 1.7 修改默认对齐数 1.8 结构体传参 2&am…

3.7寸墨水屏蓝牙卡证

超薄机身,厚度不足一厘米,轻松佩戴无负重感。 无需基站,服务器,手机APP直接更新~ 独创快速扫描技术,智能感应标签 超长待机,超低功耗,Type C接口充电,一次充电可续航一年&#xf…

极智开发 | 随机初始化onnx模型权重的方法

欢迎关注我的公众号 [极智视界],获取我的更多经验分享 大家好,我是极智视界,本文分享一下 随机初始化onnx模型权重的方法。 邀您加入我的知识星球「极智视界」,星球内有超多好玩的项目实战源码和资源下载,链接:https://t.zsxq.com/0aiNxERDq onnx 模型一直是在算法部署中…

增量有余、后劲不足,星途汽车10月份销量环比下降3.9%

撰稿|行星 来源|贝多财经 近日,奇瑞集团发布了10月销量月报。报告显示,奇瑞集团于2023年10月销售汽车20.03万辆,同比增长50.8%,单月销量首次突破20万辆;2023年前10个月的累计销量为145.36辆,同比增长41.6…

C语言运算符详解

详细介绍了C语言表达式、算术运算符、赋值运算符、关系运算符、条件结构、逻辑运算符、位运算符的语法和使用方法,并讨论了运算符的优先级。 1、表达式与算术运算符 在C语言中,表达式是一个类似数学中的算式,表达式由变量、字面值、常量、运…

【坑】JDK21虚拟线程不支持run方法

【坑】JDK21虚拟线程不支持run方法 run // do nothing java.lang.VirtualThread Overridepublic void start() {start(ThreadContainers.root());}Overridepublic void run() {// do nothing}

2023年,人工智能在医疗行业领域的应用场景

本期行业洞察将带领大家了解人工智能在医疗行业领域的应用,主要了解在患者治疗和运营中的应用、人工智能作为预防工具以及大型医院目前如何使用人工智能。未来的智慧医疗时代已经悄然到来。 人工智能在患者治疗和机构运营中的应用 人工智能有望彻底改变医疗护理的…

csapp archlab part 1

part A [rootedb3963640a6 misc]#./yas sum.ys [rootedb3963640a6 misc]# ./yis sum.yo./yas 和 ./yis 是汇编语言编译器和模拟器的命令行工具。 ./yas 是一个汇编语言编译器,它将汇编语言代码转换为可执行的二进制文件。./yas sum.ys 将sum.ys文件编译成了sum.yo可…

计算机毕业设计项目选题推荐(免费领源码)Java+ssm+MYSQL酒店大数据资源管理系统的设计与实现02029

摘要 信息化社会内需要与之针对性的信息获取途径,但是途径的扩展基本上为人们所努力的方向,由于站在的角度存在偏差,人们经常能够获得不同类型信息,这也是技术最为难以攻克的课题。针对酒店大数据资源管理系统等问题,对…

发挥云计算潜力:Amazon Lightsail 与 Amazon EC2 的综述

文章作者:Libai 欢迎来到云计算世界,这里有无数的机会和无限的应用程序增长。 在当今的数字时代,企业可能会发现管理基础架构和扩展应用程序具有挑战性。 传统的本地解决方案需要大量的硬件、软件和维护前期投资。 要满足不断增长的需求&…

3D Slicer使用与体绘制

3D Slicer默认不进行体绘制,右上角的三维重建窗口只显示一个空的立方体框。要进行体绘制,先切换到体绘制设置窗口: 在体绘制设置窗口中,选择进行体绘制的DICOM序列,然后将体绘制开关打开(眼睛标志&#xff…

Omniverse合成数据生成【城市交通场景】

智慧城市是城市生活的未来。 然而,它们可能给城市规划者带来各种挑战,尤其是在交通领域。 为了取得成功,城市的各个方面—从环境和基础设施到商业和教育—必须在功能上整合。 这可能很困难,因为单独管理交通流量是一个复杂的问题…

Navicat 技术指引 | 适用于 GaussDB 的查询编辑器

Navicat Premium(16.2.8 Windows版或以上) 已支持对 GaussDB 主备版的管理和开发功能。它不仅具备轻松、便捷的可视化数据查看和编辑功能,还提供强大的高阶功能(如模型、结构同步、协同合作、数据迁移等),这…

智能导视电子指路牌是什么?

SVIP-3800系列智能电子指路牌也称智慧指路灯杆,智能指路牌,导航立柱,多功能指示牌,多功能路标,智能指路机器人,智能导视指路牌,问路导航机器人,智能路牌,叁仟智慧路牌、智…

数据结构-leetcode(设计循环队列)

1.学习内容: 今天 我们讲解一道能够很好的总结所学队列知识的题目---设计循环队列 622. 设计循环队列 - 力扣(LeetCode) 2.题目描述: 让我们设计一个队列 要求是循环的 这和我们的双向链表有些类似 让我们按要求设计出这些相对…

Navicat 技术指引 | GaussDB 数据查看器

Navicat Premium(16.2.8 Windows版或以上) 已支持对GaussDB 主备版的管理和开发功能。它不仅具备轻松、便捷的可视化数据查看和编辑功能,还提供强大的高阶功能(如模型、结构同步、协同合作、数据迁移等),这…

220V转12V固定输出12V非隔离芯片WT5106WT5105

220V转12V固定输出12V非隔离芯片WT5106WT5105 今天给大家介绍一款实用芯片,WT5106。它是一款高效率高精度的非隔离降压开关电源恒压控制驱动芯片。 WT5106适用于85VAC~265VAC全范围输入电压的非隔离Buck、Buckboost拓扑结构,小家电、电机驱动、继电器驱…