笔记整理 | 申时荣,东南大学博士
来源:ACL 2020
源码:https://github.com/shuaiwa16/ekd.git
摘要
事件检测(ED)是文本自动结构化处理的一项基本任务。由于训练数据的规模小,以前的方法在unseen/标记稀疏的触发词上效果较差,并且容易过度拟合密集标记的触发词。为了解决该问题,我们提出了一种新颖的扩展知识提炼(EKD)模型,以利用外部开放域触发知识来减少对注释中频繁触发词的内在偏见。在基准ACE2005上进行的实验表明,我们的模型优于9个强基准,对于unseen/标记稀疏的触发词特别有效。
介绍
事件检测(ED)的核心就是识别触发词,触发词识别是一项艰巨的任务,存在长尾问题。以基准ACE2005为例:频率小于5的触发词占总数的78.2%。长尾问题使监督方法容易过度拟合并且在看不见/稀疏标记的触发器上表现不佳。自动生成更多训练实例似乎是一种解决方案:通过自举扩展更多实例并从远程监督方法中扩展更多数据。但是,如表1所示,这些方法在看不见/稀疏标记的触发词上的性能仍不令人满意。我们认为,这些方法要么导致生成语料库的同质性,要么受到知识库覆盖率较低的困扰。更重要的是,扩展后的数据本身分布不均,我们不能期望通过内置的偏差数据来缓解长尾问题。
在本文中,我们使用“开放域触发知识”的外部知识来增强模型的功能,为Unseen/稀疏标记的触发词提供额外的语义支持,并改善触发识别。
如图1的S1所示,即使hearing不适合ACE2005中的任何预定义事件类型,开放域触发器知识也可以将hearing和fire识别为事件触发器。借助开放域触发知识,我们能够从大规模的未标记语料库中发现unseen/稀疏的触发,这将改善触发词识别中的召回率。但是,将开放域触发知识整合到ED中具有挑战性:通过开放域触发知识识别的触发并不总是与域内标签完全匹配,因此不能直接用作触发识别结果。例如,在图1的S4中,开放域触发知识认为exploded是触发词,而在ACE2005的标记规则下,intifada是触发词。
方法
具体来说,我们提出了一个扩展知识蒸馏(EKD)模型,以从标记的和未标记的大量语料库中有效地提取开放域触发知识。我们首先使用WordNet的触发知识将轻量级pipeline应用于设备上未标记的句子。该方法不限于特定的领域,因此可以保证触发词的覆盖范围。然后,考虑到知识增强的数据以及ED注释,我们训练了教师模型以提高性能;同时,对学生模型进行了训练,以使用不加任何知识增强的数据来模仿教师的输出,这与推论过程中的分布相符。通过向学生模型的输入添加噪声,我们进一步促进了模型的泛化。模型的整体流程如图2:
知识收集
开放域触发知识从词义的角度阐述了单词是否触发事件。无论触发器是密集标记的还是看不见/稀疏标记的,开放域触发器知识都可以毫无区别地识别它们。例如,在图1的S3中,尽管被黑客入侵是一个稀有单词,并且没有被标记,但从单词的意义来看,开放域触发知识成功地将被黑客入侵称为触发单词。我们采用一种轻量级pipeline方法,称为WordNet触发(TFW),以收集开放域触发知识(Araki and Mitamura,2018)。具体的:1)将单词歧义化为WordNet意义,2)确定意义是否触发事件。最后,我们总共获得了733,848个带注释的NYT的句子,触发词的总数为265万,平均每句3.6个触发词。
特征抽取
使用预训练的Bert作为文本的特征抽取器。
事件预测
对token的编码使用全连接分类器输出其对应的事件类型。这部分预测结果与真是标注数据计算损失后进行监督学习。
知识蒸馏
对于一个输入的句子S:
使用a)的方法标注的到触发词,并利用指示符表示位置,转换为S+:
同时,为了构建困难的学习样本,利用触发词位置转换得到S-:
使用模型同时输入S+和S-,并执行事件预测,在无标注数据上使得两者预测KL散度变小。
联合训练
最终的训练目标是最小化监督数据集上的正常损失和知识蒸馏部分的散度。主要目的是将wordnet标注的知识被模型学到。
实验
实验表明,在unseen/稀疏触发词上模型表现的更好
在整个训练数据的表现上,也超过了SOTA
OpenKG
开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
点击阅读原文,进入 OpenKG 网站。