论文浅尝 | 利用开放域触发器知识改进事件检测

笔记整理 | 申时荣,东南大学博士


来源:ACL 2020

源码:https://github.com/shuaiwa16/ekd.git

摘要

事件检测(ED)是文本自动结构化处理的一项基本任务。由于训练数据的规模小,以前的方法在unseen/标记稀疏的触发词上效果较差,并且容易过度拟合密集标记的触发词。为了解决该问题,我们提出了一种新颖的扩展知识提炼(EKD)模型,以利用外部开放域触发知识来减少对注释中频繁触发词的内在偏见。在基准ACE2005上进行的实验表明,我们的模型优于9个强基准,对于unseen/标记稀疏的触发词特别有效。

介绍

事件检测(ED)的核心就是识别触发词,触发词识别是一项艰巨的任务,存在长尾问题。以基准ACE2005为例:频率小于5的触发词占总数的78.2%。长尾问题使监督方法容易过度拟合并且在看不见/稀疏标记的触发器上表现不佳。自动生成更多训练实例似乎是一种解决方案:通过自举扩展更多实例并从远程监督方法中扩展更多数据。但是,如表1所示,这些方法在看不见/稀疏标记的触发词上的性能仍不令人满意。我们认为,这些方法要么导致生成语料库的同质性,要么受到知识库覆盖率较低的困扰。更重要的是,扩展后的数据本身分布不均,我们不能期望通过内置的偏差数据来缓解长尾问题。

在本文中,我们使用“开放域触发知识”的外部知识来增强模型的功能,为Unseen/稀疏标记的触发词提供额外的语义支持,并改善触发识别。

如图1的S1所示,即使hearing不适合ACE2005中的任何预定义事件类型,开放域触发器知识也可以将hearing和fire识别为事件触发器。借助开放域触发知识,我们能够从大规模的未标记语料库中发现unseen/稀疏的触发,这将改善触发词识别中的召回率。但是,将开放域触发知识整合到ED中具有挑战性:通过开放域触发知识识别的触发并不总是与域内标签完全匹配,因此不能直接用作触发识别结果。例如,在图1的S4中,开放域触发知识认为exploded是触发词,而在ACE2005的标记规则下,intifada是触发词。

方法

具体来说,我们提出了一个扩展知识蒸馏(EKD)模型,以从标记的和未标记的大量语料库中有效地提取开放域触发知识。我们首先使用WordNet的触发知识将轻量级pipeline应用于设备上未标记的句子。该方法不限于特定的领域,因此可以保证触发词的覆盖范围。然后,考虑到知识增强的数据以及ED注释,我们训练了教师模型以提高性能;同时,对学生模型进行了训练,以使用不加任何知识增强的数据来模仿教师的输出,这与推论过程中的分布相符。通过向学生模型的输入添加噪声,我们进一步促进了模型的泛化。模型的整体流程如图2:

知识收集

开放域触发知识从词义的角度阐述了单词是否触发事件。无论触发器是密集标记的还是看不见/稀疏标记的,开放域触发器知识都可以毫无区别地识别它们。例如,在图1的S3中,尽管被黑客入侵是一个稀有单词,并且没有被标记,但从单词的意义来看,开放域触发知识成功地将被黑客入侵称为触发单词。我们采用一种轻量级pipeline方法,称为WordNet触发(TFW),以收集开放域触发知识(Araki and  Mitamura,2018)。具体的:1)将单词歧义化为WordNet意义,2)确定意义是否触发事件。最后,我们总共获得了733,848个带注释的NYT的句子,触发词的总数为265万,平均每句3.6个触发词。

特征抽取

使用预训练的Bert作为文本的特征抽取器。

事件预测

对token的编码使用全连接分类器输出其对应的事件类型。这部分预测结果与真是标注数据计算损失后进行监督学习。

知识蒸馏

对于一个输入的句子S:

使用a)的方法标注的到触发词,并利用指示符表示位置,转换为S+:

同时,为了构建困难的学习样本,利用触发词位置转换得到S-:

使用模型同时输入S+和S-,并执行事件预测,在无标注数据上使得两者预测KL散度变小。

联合训练

最终的训练目标是最小化监督数据集上的正常损失和知识蒸馏部分的散度。主要目的是将wordnet标注的知识被模型学到。

实验

实验表明,在unseen/稀疏触发词上模型表现的更好

在整个训练数据的表现上,也超过了SOTA


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478301.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Beyond 预训练语言模型,NLP还需要什么样的知识?

近年来,深度学习技术已广泛应用于NLP领域,但实际应用效果往往受限于缺乏大规模高质量监督样本。2018年底,预训练语言模型横空出世,极大缓解了这个问题,通过“超大规模无监督语料上的预训练语言模型相对少量的监督样本进…

日志级别动态调整——小工具解决大问题

随着外卖业务的快速发展,业务复杂度不断增加,线上系统环境有任何细小波动,对整个外卖业务都可能产生巨大的影响,甚至形成灾难性的雪崩效应,造成巨大的经济损失。每一次客诉、系统抖动等都是对技术人员的重大考验&#…

LeetCode 324. 摆动排序 II

文章目录1. 题目2. 解题1. 题目 给定一个无序的数组 nums&#xff0c;将它重新排列成 nums[0] < nums[1] > nums[2] < nums[3]… 的顺序。 示例 1: 输入: nums [1, 5, 1, 1, 6, 4] 输出: 一个可能的答案是 [1, 4, 1, 5, 1, 6] 示例 2: 输入: nums [1, 3, 2, 2, 3,…

最全的Pycharm debug技巧

最全的Pycharm debug技巧&#xff1a; 工欲善其事&#xff0c;必先利其器。无论你的 IDE 是 IntelliJ IDEA、Pycharm、WebStorm、GoLang、还是PhpStorm &#xff0c;调试器都是标配。在遇到有问题的程序时&#xff0c;合理的利用调试器的跟踪和断点技巧&#xff0c;可以很快的…

OpenKG祝大家端午安康

—????????OpenKG祝大家端午安康????????—

两个月,刷了八千篇Arxiv,我发现……

文 | 白鹡鸰编 | 小轶从五月初到现在&#xff0c;大约刷了八千篇Arxiv之后&#xff0c;我发现我有毛病。当然&#xff0c;这是读论文上头时的牢骚&#xff0c;不是真心话&#xff0c;只是说&#xff0c;我在Arxiv上投入的精力的努力&#xff0c;与我预计的收获不成正比。故事的…

深度学习在美团的应用

近年来&#xff0c;深度学习在语音、图像、自然语言处理等领域取得非常突出的成果&#xff0c;成了最引人注目的技术热点之一。美团这两年在深度学习方面也进行了一些探索&#xff0c;其中在自然语言处理领域&#xff0c;我们将深度学习技术应用于文本分析、语义匹配、搜索引擎…

LeetCode 315. 计算右侧小于当前元素的个数(二叉查找树二分查找归并排序逆序数总结)

文章目录1. 题目2. 解题2.1 二叉查找树2.2 二分插入2.3 归并排序1. 题目 给定一个整数数组 nums&#xff0c;按要求返回一个新数组 counts。数组 counts 有该性质&#xff1a; counts[i] 的值是 nums[i] 右侧小于 nums[i] 的元素的数量。 示例: 输入: [5,2,6,1] 输出: [2,1,1…

领域应用 | 金融资管领域知识图谱的构建和应用

转载公众号 | DataFunTalk分享嘉宾&#xff1a;李渔 熵简科技 联合创始人编辑整理&#xff1a;唐汝佳出品平台&#xff1a;DataFunTalk导读&#xff1a;本次分享的主题是金融资管领域知识图谱的构建和应用&#xff0c;主要介绍如何运用大数据、AI这些技术手段&#xff0c;来帮助…

我分析了ACL21论文列表,发现对比学习已经...

文 | 花小花Posy小伙伴们&#xff0c;好久不见呀&#xff0c;小花又回来了&#xff01;最近关注对比学习&#xff0c;所以ACL21的论文列表出来后&#xff0c;小花就搜罗了一波&#xff0c;好奇NLPers们都用对比学习干了什么&#xff1f;都是怎么用的呀&#xff1f;效果怎样呀&a…

LeetCode 629. K个逆序对数组(DP)

文章目录1. 题目2. 动态规划3. 优化的DP1. 题目 给出两个整数 n 和 k&#xff0c;找出所有包含从 1 到 n 的数字&#xff0c;且恰好拥有 k 个逆序对的不同的数组的个数。 逆序对的定义如下&#xff1a;对于数组的第i个和第 j个元素&#xff0c;如果满i < j且 a[i] > a[…

快速的找出元素是否在list中 python

number [[1,2],[3,2]] num np.array(number) np.argwhere(num2) np.argwhere(num2) array([[0, 1], [1, 1]], dtypeint64) 注意&#xff1a;只能是维度相同的时候&#xff0c;才能用该方法。 om ragged nested sequences (which is a list-or-tuple of lists-or-tuples-or nd…

论文浅尝 | 知识图谱的神经符号推理(上)

笔记整理 | 叶橄强&#xff0c;浙江大学在读硕士&#xff0c;研究方向为知识图谱的表示学习和预训练。知识图谱推理是支撑信息提取、信息检索和推荐等机器学习任务的基础组成部分&#xff0c;并且由于知识图可以看作知识的离散符号表示&#xff0c;自然可以利用符号技术做知识图…

ICML2021 | Self-Tuning: 如何减少对标记数据的需求?

文 | 王希梅&#xff0c;高敬涵&#xff0c;龙明盛&#xff0c;王建民源 | THUML本文介绍ICML2021的中稿论文&#xff1a;Self-Tuning for Data-Efficient Deep Learning&#xff0c;就“如何减少对标记数据的需求”这一重要问题给出了我们的思考。论文标题&#xff1a;Self-Tu…

美团点评Docker容器管理平台

本文是郑坤根据第14期美团点评技术沙龙“你不知道的美团云”演讲内容整理而成&#xff0c;已发表在《程序员》杂志2017年1月刊。 美团点评容器平台简介 本文介绍美团点评的Docker容器集群管理平台&#xff08;以下简称“容器平台”&#xff09;。该平台始于2015年&#xff0c;是…

Python 获取本机或者服务器的 IP 地址

获取计算机名称 hostname socket.gethostname() 获取本机 IP ip socket.gethostbyname(hostname) print(ip) 具体操作 import socket hostname socket.gethostname() ip socket.gethostbyname(hostname) print(ip)通常使用 socket.gethostname() 方法即可获取本机 IP …

LeetCode 754. 到达终点数字(数学推理)

1. 题目 在一根无限长的数轴上&#xff0c;你站在0的位置。终点在target的位置。 每次你可以选择向左或向右移动。第 n 次移动&#xff08;从 1 开始&#xff09;&#xff0c;走 n 步。 返回到达终点需要的最小移动次数。 示例 1: 输入: target 3 输出: 2 解释: 第一次移动…

论文浅尝 | 神经符号推理综述(下)

笔记整理 | 许泽众&#xff0c;浙江大学在读博士3、神经驱动的符号推理相比于之前的两种类型&#xff0c;神经驱动的符号推理的目的是挖掘规则&#xff0c;而神经网络在其中扮演的作用是解决纯符号推理的不确定性&#xff0c;并且能够有效的减少搜索空间。这种类型的方法的基本…

没有导师指导,该如何自己选题发CVPR?

| 背景底层计算机视觉技术&#xff0c;如图像增强、图像复原等&#xff0c;一直以来都是一个重要且热门的研究方向。传统的方法多基于稀疏编码、小波变换等技术&#xff0c;近年来&#xff0c;深度学习的兴起为该领域带来了新的发展机遇&#xff0c;同时大幅度提升了方法性能。…

Android硬件加速原理与实现简介

在手机客户端尤其是Android应用的开发过程中&#xff0c;我们经常会接触到“硬件加速”这个词。由于操作系统对底层软硬件封装非常完善&#xff0c;上层软件开发者往往对硬件加速的底层原理了解很少&#xff0c;也不清楚了解底层原理的意义&#xff0c;因此常会有一些误解&…