论文浅尝 | 利用开放域触发器知识改进事件检测

笔记整理 | 申时荣，东南大学博士

来源：ACL 2020

源码：https://github.com/shuaiwa16/ekd.git

摘要

事件检测（ED）是文本自动结构化处理的一项基本任务。由于训练数据的规模小，以前的方法在unseen/标记稀疏的触发词上效果较差，并且容易过度拟合密集标记的触发词。为了解决该问题，我们提出了一种新颖的扩展知识提炼（EKD）模型，以利用外部开放域触发知识来减少对注释中频繁触发词的内在偏见。在基准ACE2005上进行的实验表明，我们的模型优于9个强基准，对于unseen/标记稀疏的触发词特别有效。

介绍

事件检测（ED）的核心就是识别触发词，触发词识别是一项艰巨的任务，存在长尾问题。以基准ACE2005为例：频率小于5的触发词占总数的78.2％。长尾问题使监督方法容易过度拟合并且在看不见/稀疏标记的触发器上表现不佳。自动生成更多训练实例似乎是一种解决方案：通过自举扩展更多实例并从远程监督方法中扩展更多数据。但是，如表1所示，这些方法在看不见/稀疏标记的触发词上的性能仍不令人满意。我们认为，这些方法要么导致生成语料库的同质性，要么受到知识库覆盖率较低的困扰。更重要的是，扩展后的数据本身分布不均，我们不能期望通过内置的偏差数据来缓解长尾问题。

在本文中，我们使用“开放域触发知识”的外部知识来增强模型的功能，为Unseen/稀疏标记的触发词提供额外的语义支持，并改善触发识别。

如图1的S1所示，即使hearing不适合ACE2005中的任何预定义事件类型，开放域触发器知识也可以将hearing和fire识别为事件触发器。借助开放域触发知识，我们能够从大规模的未标记语料库中发现unseen/稀疏的触发，这将改善触发词识别中的召回率。但是，将开放域触发知识整合到ED中具有挑战性：通过开放域触发知识识别的触发并不总是与域内标签完全匹配，因此不能直接用作触发识别结果。例如，在图1的S4中，开放域触发知识认为exploded是触发词，而在ACE2005的标记规则下，intifada是触发词。

方法

具体来说，我们提出了一个扩展知识蒸馏（EKD）模型，以从标记的和未标记的大量语料库中有效地提取开放域触发知识。我们首先使用WordNet的触发知识将轻量级pipeline应用于设备上未标记的句子。该方法不限于特定的领域，因此可以保证触发词的覆盖范围。然后，考虑到知识增强的数据以及ED注释，我们训练了教师模型以提高性能；同时，对学生模型进行了训练，以使用不加任何知识增强的数据来模仿教师的输出，这与推论过程中的分布相符。通过向学生模型的输入添加噪声，我们进一步促进了模型的泛化。模型的整体流程如图2：

知识收集

开放域触发知识从词义的角度阐述了单词是否触发事件。无论触发器是密集标记的还是看不见/稀疏标记的，开放域触发器知识都可以毫无区别地识别它们。例如，在图1的S3中，尽管被黑客入侵是一个稀有单词，并且没有被标记，但从单词的意义来看，开放域触发知识成功地将被黑客入侵称为触发单词。我们采用一种轻量级pipeline方法，称为WordNet触发（TFW），以收集开放域触发知识（Araki and Mitamura，2018）。具体的：1）将单词歧义化为WordNet意义，2）确定意义是否触发事件。最后，我们总共获得了733,848个带注释的NYT的句子，触发词的总数为265万，平均每句3.6个触发词。

特征抽取

使用预训练的Bert作为文本的特征抽取器。

事件预测

对token的编码使用全连接分类器输出其对应的事件类型。这部分预测结果与真是标注数据计算损失后进行监督学习。

知识蒸馏

对于一个输入的句子S：