论文浅尝 | Continual Learning for Named Entity Recognition

657fcdbb6c327d6b821ba6ca9d6560cb.png

笔记整理:李淑怡,天津大学硕士

动机

在许多真实任务下,常常需要引入新的实体类型,因此需要重新训练命名实体识别模型。当因为存储或安全问题限制对原始数据的访问时,那么为新实体类型重新标注原始数据的成本将会是高昂的。而现有的持续学习方法又很容易出现灾难性遗忘问题(catastrophic forgetting)。因此作者提出通过蒸馏学习保留先前学习的现有知识,使原模型指导新模型学习新的实体类型的持续学习方法。在CoNLL-03数据集和OntoNotes数据集上实验表明,该方法允许模型渐进地能学习新的实体类型,还能保留先前学习的知识。

亮点

本文的亮点主要包括:

1.该方法只需要标注新的实体,通过知识蒸馏保留原模型的知识,使得新的模型在原有模型的指导下学习新的实体类型,解决了灾难性遗忘问题。2.实验结果表明,该方法能够使得模型在不丢失先前知识的情况下学习新的实体类型。

概念及模型

该方法使用Teacher-Student的知识蒸馏框架,分为两个阶段:

1、训练原模型Teacher:首先在原有数据集  上训练一个命名实体识别模型  ,训练时神经网络最后一层的输出使用以下softmax函数计算:

其中,  一个温度参数,通常设置为1。

2、训练新模型Student:当引入新的实体类型  时,我们的目标是学习一个新模型  ,   能够标记  中的所有句子。为了使Student保留原模型的知识,将Teacher和Student之间的KL距离作为新模型训练的软目标,从而避免灾难性遗忘问题。Student在数据集  上训练,  包含新的实体类型(带标签)也包含原有的数据(不带标签)。论文中,作者提出了两种产生新模型方法AddNER Model和ExtendNER Model。

AddNER Model

0869206aeb82797c7bcee21004048dd9.png

在该方法中,新模型  对原模型  克隆并且添加一层新的输出层来识别新的实体类型  。因为数据集  中仅  中的句子带有标签y,为了防止灾难性遗忘问题,使用知识蒸馏。这意味着每一句话都要经过  的指导,即通过  为  产生软目标。因此,  的损失函数不仅需要包含得到的新的实体类型的预测值与真实标签之间的交叉熵损失  ,还需要包含原模型的分布  与新模型的分布  之间的KL距离  。因此,  的损失函数为:

 αβ 

其中,α和β是平衡两个损失的贡献的超参数。

由于AddNER包含多个输出层,因此需要合并多个输出结果,对于这个问题,作者提出了一个启发式算法:

•如果所有层的预测结果均为O(即其他),则输出结果为O。•如果恰有一层的预测结果为B(即实体的起点),而其他层预测为O,则输出结果为B。•如果有多层的预测结果为B,而其余层预测为O,则以最高概率输出结果为B。•如果一层预测结果为I(即实体内),当且仅当它上一个字的标记为B或I。否则这一层的输出结果为O,并且再次应用该启发式算法来确定最终输出。

ExtendNER Model

fe282a50c02684a4413093b09b6232a4.png

在该方法中,新模型  对原模型  的克隆并且扩展输出层,即增加新的纬度以识别新的实体类型  。同样的,在训练时,新模型  依然需要考虑两种损失以在不丢失先前知识的情况下学习新的实体类型,当y=O时,计算原模型的分布  与新模型的分布  之间的KL距离  。当y≠O,即该词被标记为  中的新实体类型时,计算新的实体类型的预测值与真实标签之间的交叉熵损失  。总的损失函数也可以表示为:

 αβ 

最终的标签经Viterbi算法获得。

理论分析

实验

作者采用了2个公开数据集进行实验,分别是CoNLL-03数据集和OntoNotes数据集,见表1和表2。模型的评价指标为准确率、召回率和F1。

c035ff5db6e04ca7151c813b712a91a8.png

针对该任务, 首先作者提出了四个问题并针对这四个问题展开实验和讨论:

•迁移学习是否可以在原有的模型基础上学习新的实体类型?

实验在迁移学习上对比了冻结编码层和不冻结编码层的效果。在CoNLL-03数据集上,冻结编码层的整体F1得分为57.49,而不冻结编码层的整体F1得分为56.21。在OntoNotes数据集上效果则更差。这表明,无论是否冻结编码器,转移学习方法都不实用于持续学习环境下的命名实体识别任务。

•在持续学习的环境下,AddNER和ExtendNER模型之间有区别吗?

其次作者对比了使用知识蒸馏的两种Student模型的效果,实验表明两种方法对结果的影响不显著,因此后文中仅报告ExtendNER Model的结果。

•当新的数据集只进行少量的标注时,通过知识蒸馏Student模型是否能有效地学习?

图3展示了各个模型在该任务上的F1得分,该结果表明,该方法明显优于使用硬标签方法和无监督学习方法。尽管其性能不如完全监督的方法,但是总体而言在该方法能在显著减少标注数据的条件下保持相对良好的性能。

1113401a80e7dd81e5986ef0317d9985.png

•学生模型在学习新的实体类型时是否保留了以前学习的实体类型的知识?

为了研究这个问题,作者逐步跟踪模型在其学习实体类型上的结果。结果如图4所示总体而言,F1得分保持不变或者逐步增加。这表明,随着引入新的实体类型,该方法不仅能学习到如何标注新的实体类型,还能保留先前学习的知识。

2241cf0fca901fd29ff8fa401b02fda4.png

总结

本文提出了一个基于持续学习的命名实体识别方法。展示了如何在Teacher-Student框架中通过知识蒸馏来防止持续学习下遗忘已获得的知识的问题。实验结果也证明了本文提出的方法的有效性。作者称,在未来,也许可以考虑集成学习一个CRF层来考虑标签之间的全局依赖关系。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

8c8389acdafebd797c528a12918cf425.png

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477661.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Allen AI提出MERLOT,视频理解领域新SOTA!

文 | Yimin_饭煲2021年,多模态领域大概是人工智能研究者们关注者最多的一个领域了。随着各种模态数据集的增长和算力的发展,研究者们开始不断地尝试在一个模型中融合来自各个模态的信息。而在多模态领域的研究中,和视频相关的任务被认为是最复…

基于HMM的中文词性标注 POSTagging

文章目录1. 词性标注1.1 概念1.2 任务1.3 预处理1.4 初步统计预览2. 最大概率模型2.1 训练2.2 预测2.3 结果评估2.4 结果可视化3. 二元隐马尔科夫BiHMM模型3.1 训练3.2 预测3.3 结果评估3.4 结果可视化4. 结果讨论思考本文的代码是在徐老师的代码基础上,自己加了些注…

图谱实战 | 58同城周超:基于招聘场景下的知识图谱构建及应用

转载公众号 | DataFunSummit分享嘉宾:周超 58同城 NLP资深算法工程师编辑整理:吴祺尧 加州大学圣地亚哥分校出品平台:DataFunTalk导读:知识图谱作为一种富信息工程,已经深入到各行各业中,也为产业效率的提升…

2022年薪百万赛道:高性能神经网络与AI芯片应用

随着大数据的发展,计算机芯片算力的提升,人工智能近两年迎来了新一轮的爆发。而人工智能实现超级算力的核心就是AI芯片。AI芯片也被称为人工智能加速器,即专门用于处理人工智能应用中的大量计算任务的模块。2020年我国人工智能芯片市场规模约…

API网关 Zuul1.0 和 2.0 我们该如何选择?

介绍 在今年5月中,Netflix终于开源了它的支持异步调用模式的Zuul网关2.0版本,真可谓千呼万唤始出来。从Netflix的官方博文[附录1]中,我们获得的信息也比较令人振奋: The Cloud Gateway team at Netflix runs and operates more t…

LeetCode 623. 在二叉树中增加一行(BFS/DFS)

文章目录1. 题目2. 解题2.1 BFS2.2 DFS1. 题目 给定一个二叉树,根节点为第1层,深度为 1。在其第 d 层追加一行值为 v 的节点。 添加规则:给定一个深度值 d (正整数),针对深度为 d-1 层的每一非空节点 N&a…

论文浅尝 | KR-GCN: 知识感知推理的可解释推荐系统

论文作者:马婷,中国科学院信息工程研究所直博生动机抽取并利用知识图谱(KG)中的多跳关系路径可以提高推荐系统的性能,并提供可解释性。然而,现有的工作仍面临着两个主要的挑战:用户偏好的错误传播和模型的弱解释性。提…

吴恩达,确诊新冠阳性!

编 | 好困 袁榭源 | 新智元【导读】当代人工智能领域最权威的学者之一吴恩达,于2022年2月8日晨在自己推特上宣布新冠检测结果阳性,不过症状轻微。北京时间,2022年2月8日早上6点,吴恩达新冠病毒检测呈阳性。吴恩达表示,…

Spring Cloud Config采用Git存储时两种常用的配置策略

由于Spring Cloud Config默认采用了Git存储,相信很多团队在使用Spring Cloud的配置中心时也会采用这样的策略。即便大家都使用了Git存储,可能还有各种不同的配置方式,本文就来介绍一下两种常用的配置策略。 第一种:多个项目公用一…

图谱实战 | 城市大脑知识图谱构建及应用研究

转载公众号 | 专知随着城市大脑建设进程的推进,城市中积累了大量的物联网(IoT)设备和数据,利用海量设备数据对问题 进行分析和溯源,对于城市大脑建设具有重要意义。该文基于资源描述框架和智能物联网协议概念,提出一种以城市物联网本体为基础的城市大脑知识图谱建设方法,城市大…

震惊!三个万引大佬嘴仗,原来是为了他……?

文|白鹡鸰想把小轶挂到三作编|小轶已把白鹡鸰挂到三作这本应是白鹡鸰在小轶追杀下游刃有余拖稿的一天,结果小轶再次把一篇新论文喂到了我的嘴边。象征性地打开论文,草草扫过去,嗯,迁移学习,嗯&a…

LeetCode 611. 有效三角形的个数(双指针)

1. 题目 给定一个包含非负整数的数组,你的任务是统计其中可以组成三角形三条边的三元组个数。 示例 1: 输入: [2,2,3,4] 输出: 3 解释: 有效的组合是: 2,3,4 (使用第一个 2) 2,3,4 (使用第二个 2) 2,2,3注意: 数组长度不超过1000。 数组里整数的范围为 [0, 1000]…

Eureka 2.0 开源流产,真的对你影响很大吗?

最近连续发烧四天,偶尔刷两下朋友圈都能看到好几条来自不同号的关于《Eureka 2.0开源工作宣告停止,继续使用风险自负》的推文。主要内容如下: 近日,知名服务注册与服务发现工具 Eureka 的 GitHub Wiki 上显示其 2.0 版本的开源工作…

会议交流 | 知识图谱开源开放及生态——7月12日TF65

转载公众号 | 中国计算机学会本期会议邀请到来自阿里巴巴等头部企业的代表,以及来自北京大学、南京大学和浙江大学的研究人员,一起深入探讨开放知识图谱、知识图谱开源工具等所面临的机遇和挑战,并进一步了解知识图谱开放和开源工具构建的应用…

LeetCode 650. 只有两个键的键盘(DP)

1. 题目 最初在一个记事本上只有一个字符 ‘A’。你每次可以对这个记事本进行两种操作: Copy All (复制全部) : 你可以复制这个记事本中的所有字符(部分的复制是不允许的)。Paste (粘贴) : 你可以粘贴你上一次复制的字符。 给定一个数字 n 。你需要使用最少的操作…

10个开源工业检测数据集汇总

本文转载自公众号“夕小瑶的卖萌屋”,专业带逛互联网算法圈的神操作 -----》我是传送门 关注后,回复以下口令: 回复【789】 :领取深度学习全栈手册(含NLP、CV海量综述、必刷论文解读) 回复【入群】&#xf…

Hystrix降级逻辑中如何获取触发的异常

通过之前Spring Cloud系列教程中的《Spring Cloud构建微服务架构:服务容错保护(Hystrix服务降级)》一文,我们已经知道如何通过Hystrix来保护自己的服务不被外部依赖方拖垮的情况。但是实际使用过程中经常碰到开发反应“莫名”触发…

大厂生存36计

本文授权转载自公众号“算法圈的小破事”,点击以上卡片进行关注大家好,我是在互联网危险边缘疯狂试探的皮皮虾。互联网大厂就像一座围城,外面人想进去,里面的人想出去。里面的人说又累又不好混,外面的人觉得里面的人舒…

开源开放 | 多模态地球科学知识图谱GAKG

OpenKG地址:http://openkg.cn/dataset/gakg网站地址:https://gakg.acemap.info/论文地址:https://dl.acm.org/doi/10.1145/3459637.3482003开放许可协议:CC BY-SA 4.0 (署名相似共享)贡献者:王新…

LeetCode 468. 验证IP地址

1. 题目 编写一个函数来验证输入的字符串是否是有效的 IPv4 或 IPv6 地址。 IPv4 地址由十进制数和点来表示,每个地址包含4个十进制数,其范围为 0 - 255, 用(".")分割。比如,172.16.254.1; 同时&#xff…