ACL'21 | 弱标签的垃圾数据,也能变废为宝!

文 | LawsonAbs
编 | 小戏

是不是感觉 NER 领域效果提升太过困难?最近一篇来自 Amazon 的文章提出使用强弱标签结合的方式来解决 NER 的问题。强弱标签结合其实非常立足实际的数据情况——干净又准确的强标签数据非常稀少,更多的是标注质量存在问题的弱标签垃圾数据。如果直接混在一起训练,模型很可能就直接拟合到那些弱标签数据上了(毕竟弱标签数据的量更大....)。如何有效将垃圾数据变废为宝就成为了一个很关键的问题。

尽管本文不是第一个提出使用强弱标签数据结合的方式来解决 NER 问题,但论文实验显示在 E-commerce NERBiomedical NER 上,该方法具有一定的效果。话不多说,让我们进入这篇论文吧!

论文题目:
Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data
论文链接:
https://arxiv.org/pdf/2106.08977.pdf

文章在讲什么?

现实世界的场景是:少量的强标签数据(正确地人工标注数据)和大量的弱标签数据。但是之前的模型训练往往要么是基于大量的人工标签数据(不现实&难以为继),要么是使用大量的弱标签数据(模型效果不好)。于是文章采取一种折中的办法,使用少量的强标签数据结合大量的弱标签训练模型。

因此,从实质上讲,这篇文章所做的工作,就是采用少量的强标签和大量的弱标签数据联合分阶段训练模型。在深入模型之前,由于论文中的变量涉及的较多,这里先给出下面会用到的变量解释。

  • :人工标注的标签

  • :弱标签数据的标签

  • :由模型预测得到的标签

  • :根据 按照一定规则组合得到的补全(completed)数据的标签

文章是怎么做的?

在进入文章的细节架构之前,我们首先看一下模型训练的整个过程。

根据上图,我们看到模型训练主要分为三个阶段:

  • Stage 1 中会使用无标签数据进行预训练;

  • Stage 2 中先用强标签进行NER任务训练;然后对弱标签数据进行一个补全操作,再用补全后的弱标签数据进一步训练;

  • Stage 3 中使用强标签数据进行微调

有了对模型整体的把握,让我们分阶段看各个阶段分别做了什么。

Stage 1

首先,在 Stage 1 中,其核心操作是利用无标签数据进行预训练,预训练的方式 MLM 。而模型从朴素 BERT 变成了 In-Domain BERT

Stage 2

强标签数据监督训练

完成了 Stage 1 的无监督预训练,从 Stage 2 开始就要进行真正的 NER 训练了。做 NER 的模型结构是 Stage 1 中完成训练的 In-Domain BERT 接上了一个随机初始化的CRF。这个模型先用少量强标签的NER数据监督训练一下,得到 Initial BERT-CRF。接下来,我们就希望能够用大量弱标注的垃圾数据来进一步提升效果

弱标签数据补全

弱标签的 NER 数据往往标注质量较低,存在实体标注不完全的问题。例如,本文所采用的弱标签数据是利用领域内知识将无标签数据转换而来的。为了提高这些弱标签数据的质量,会先用上面得到的 Initial BERT-CRF 做一个 Weak Label Completion 操作。实际上就是用 Initial BERT-CRF 标注出来的实体补全弱标签数据中大量未标注的部分,公式如下:

Noise-Aware 训练

接下来,就要用这些补全后的弱标签数据进一步训练了。此处存在的问题是弱标签数据存在噪声,模型很容易就过拟合到这些噪声上了。

为此,本文先对每个补全后的弱标签数据 算一个置信度估计,也就是它们的弱标签等于正确标签 的概率:。这里的置信度生成是根据 Histogram Binning 来实现的,具体做法我们会在下一节细讲。

然后在训练时采用的损失函数,会基于这个置信度估计来计算。直观来说,当我们对一个数据的置信度较高时,我们就希望这个损失函数更“激进”一些,模型拟合得更多一些;置信度较低时,则希望模型拟合得更“保守”一些。文中称这个损失函数为 Noise-Aware Loss Function,其表达式如下:

看到这个复杂的表达式先别害怕,让我们一点一点分析,这个函数的目的是计算 Corrected Weak Labels The Model Prediction Score 之间的损失,这里面的 即第 m 个 TokenGolden Label,而 是一个指示函数,其含义是如果后面的这个表达式为真,则值为1,否则为0。

整个公式相当于是一个求期望的过程:

  • 相等时,取 negative log-likelihood 作为损失:

  • 不等时,取 negative log-unlikelihood 作为损失:

Stage 3

Stage 3 阶段就比较清晰了,核心思想就是使用强标签数据在 Pre-trained BERT-CRF 上监督训练,得到最后的 BERT-CRF

弱标签置信度估计

这篇文章的一个亮点就是使用 置信度估计 设计一个损失函数,从而有效利用了弱标签的数据。这个“置信度”衡量了弱标签等于正确标签 的概率:。其具体计算方式在论文的附录A中给出。

由上一节可知,补全后的弱标签 由两部分组成,分别是原始的弱标签 和 Initial BERT-CRF 补全的标签 。所以 可以拆解成这两部分的一个线性组合,也就是如下这样:

其中 是全部实体标签的数量,而 是原始弱标签数据中标注出的实体数量。

在这个式子中,前面部分的 可以直接赋值为 1。因为原始的弱标签都是通过领域规则转换而来,可信度很高。

主要难点在于后面的 如何计算。这里作者采用模型校准(Model Calibration)时一种常用的置信度估计方式,叫了 Historgram Binning [1]。这个估计的步骤如下:

Step 1:分割出一个 Validation Set,用模型给这些样本标注实体。注意到,这里模型标注结果是基于 Viterbi decoding 得到的,也就是:

根据模型给样本的这个打分 ,我们把样本分为不同的组别中,使得每个组别中的样本属于同一个得分区间。组别的置信度计算方式如下:

其中, 是该组别中样本的个数, 是模型给出的预测概率。

下面这张直方图就展示了置信度-解码得分之间的关系:

Step 2:在测试时,根据模型的解码打分找到对应的组别。该样本的将被估计为对应组别的置信度。这里的 0.95 是一个人为设置的平滑操作,使得对补全的弱标签置信度估计趋于保守。

实验

在两种不同领域内进行了模型效果的检测,分别是:E-commerce query domain 和 Biomedical domain。(这两个领域感觉就是这段时间NER模型的主战场了┭┮﹏┭┮,主要是因为这些领域的实体与其它领域的有所不同,所以就需要与之前不同的模型来解决这个问题。)由于E-commerce Multilingual Query NER 和 Biomedical NER 的实验方法大抵相同,下面我们就主要介绍模型在 E-commerce query NER 上的效果。

数据集

作者对实验中使用到的数据进行了一个统计,如下所示:

可以看到,仅仅使用weak label时,模型效果不佳,尤其是在recall上的表现,只有不到50。

基线系统与主要结果

同NEEDLE模型比较的几个基线系统如下所示:

  • Supervised Learning Baseline:直接在强标签数据上微调预训练模型

  • Semi-supervised self-training:使用监督学习得到模型,然后根据这个模型预测得到伪标签进行半监督学习(Wangt et al., 2020; Du et al., 2021)

  • Mean-Teacher and VAT:半监督模型的基线系统

  • Weakly supervised learning(WSL):简单的将强标签数据和弱标签数据结合的方法(Mannn and McCallum,2010)

  • Weighted WSL:同样是WSL方法,但是在弱标签损失中添加了一个固定值作为权重,从而计算损失。

  • Robust WSL:使用均方误差作为损失的WSL方法,这样会对label noise 鲁棒(Ghosh et al.,2017)。

  • Partial WSL:在WSL的基础上,训练模型时丢弃非实体的弱标签

  • BOND:一种用于弱监督训练的自训练框架(Liang et al., 2020)。上述这些系统在这里不再详细介绍了,更加细致的信息可以参考文中的链接查看提出的论文。

本文提出的方法 NEEDLE,和上述基准模型在 E-commerce 上的实验结果如下所示。可以看到,NEEDLE 取得了SOTA的效果。

消融实验

消融实验无非就是对模型各个组件有效性的检测。使用如下缩写表示模型中的各个组件:

  • WLC: weak label completion

  • NAL: noise-aware function

  • FT: final Fine-Tuning 实验效果如下:

可以看出,所有的模块都是有作用的,并且有一定的互补作用。

分析

基于强弱标签数据,本文提出了一种较好的模型来有效地结合二者,但是还未对两种类型数据的“量”上进行分析,所以论文最后在“量”上分析两种数据对模型的影响,结果如下:

  • 弱标签数据的大小对 NEEDLE 模型的影响?实验结果见下图:可以很明显的观察到,与SST和BaseLine 相比,NEEDLE模型性能随着 Weakly Labled Data 的大小增而提高。

  • 两轮Stage II训练 NEEDLE模型中仅包含一个Stage II,现在的假设是使用两轮的Stage II会对实验有影响吗?实验结果是上图中的最后一个小点点,其对应的横坐标是Stage II x2。实验结果表明:三个模型在应用两轮的Stage II 训练时,模型效果都有轻微的上升。

  • 分析强标签数据的大小对模型效果的影响?实验结果如下:这个很明显的两个特征就是:(1)在强标签数据比较少时NEEDLE模型效果比BaseLine 要好2+个点;(2)但是在达到相同的效果的时候,NEEDLE需要的强标签数据大概只是BaseLine系统的1/3。

个人感受

基于强弱标签数据结合的方式,利用多阶段训练出一个更优的模型。每个不同的阶段利用不同类型的标签数据(斗胆猜测一下:这个模型可能是作者实习时做的一个工程项目,然后抽象化之后投出来的一篇文章,因为怎么看都觉得这篇文章的工程属性更强)

最后再总结一下本文值得借鉴的几个地方:

  • 学习利用 Historgram Binning 进行置信度评测的方法。这种方法在模型校正上很有用处。

  • 立足实际问题,提出一个工程上有效的模型,再把该模型抽象化,就是一篇完美的 Paper 啦,这样还怕中不了 ACL 吗?

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

 

[1] Zadrozny В., Elkan C. Obtaining  calibrated  probability  estimates  from  decision  trees  and naive bayesian classifiers. In ICML, pp. 609–616, 2001.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478273.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

会议交流 | “数据智能与知识服务”研讨会的专家报告题目已更新!

“数据智能与知识服务”研讨会的专家报告题目有更新啦!这些专家既有久负盛名的国际知名学者、也有具有前瞻洞见的业界领袖,更有精通各种工程实战的技术大咖。他们将围绕“数据智能与知识服务”的核心主题,为您带来一场豪华的学术盛宴&#xf…

dockerfile拉取python3.7镜像

docker构建python3.7镜像:https://zhuanlan.zhihu.com/p/137288195 FROM:需要什么环境 ENV:修改path,即增加/usr/local/bin这个环境变量 ADD:将本地代码放到虚拟容器中,它有两个参数,第一个是 .…

LeetCode 849. 到最近的人的最大距离

1. 题目 在一排座位( seats)中,1 代表有人坐在座位上,0 代表座位上是空的。 至少有一个空座位,且至少有一人坐在座位上。 亚历克斯希望坐在一个能够使他与离他最近的人之间的距离达到最大化的座位上。 返回他到离他…

可解释性:对神经网络中层特征复杂度的解释与拆分

文 | 任洁,李明杰,刘泽旭源 | 知乎大家好,我们是任洁,李明杰和刘泽旭,本研究是在张拳石老师 Qs.Zhang张拳石 指导下完成的工作。随着深度神经网络的应用日益广泛,可解释性也逐渐受到更多学者的关注。目前对…

新一代开源Android渠道包生成工具Walle

在Android 7.0(Nougat)推出了新的应用签名方案APK Signature Scheme v2后,之前快速生成渠道包的方式(美团Android自动化之旅—生成渠道包)已经行不通了,在此应用签名方案下如何快速生成渠道包呢&#xff1f…

领域应用 | 机器知道哪吒是部电影吗?解读阿里巴巴概念图谱AliCG

转载公众号 | PaperWeekly概念是人类认知世界的基石。比如对于“哪吒好看吗?”,“哪吒铭文搭配建议”两句话,人可以结合概念知识理解第一个哪吒是一部电影,第二个哪吒是王者荣耀的英雄。然而机器能理解吗?针对这一问题…

LeetCode 605. 种花问题

1. 题目 假设你有一个很长的花坛,一部分地块种植了花,另一部分却没有。可是,花卉不能种植在相邻的地块上,它们会争夺水源,两者都会死去。 给定一个花坛(表示为一个数组包含0和1,其中0表示没种…

美团点评业务风控系统构建经验

本文根据“第八届中国系统架构师大会”演讲内容整理而成。 美团最初以团购的形式出现,到现在有了很大的业务形态转变。尤其是经过与大众点评的业务融合,从单一业务发展成了覆盖到店餐饮、到店综合、猫眼、外卖、酒店、旅游等多个垂直领域的综合性电商&am…

95后程序员晒出工资单:狠补了这个,真香…

作为AI 初学者来说,最大的问题就是:资料太多!!!看不完!!!不知道如何取舍!!!人的精力有限!!!大部分想转行AI算法…

领域应用 | 小米在知识表示学习的探索与实践

转载公众号 | DataFunTalk导读:知识表示是知识获取与应用的基础,贯穿了小米知识图谱的构建与应用。本文将结合小米知识图谱的构建及小爱问答场景,介绍融合文本和知识图谱的知识表示学习方法,以及知识表示在知识图谱补全、实体链接…

LeetCode 563. 二叉树的坡度(DFS)

1. 题目 给定一个二叉树,计算整个树的坡度。 一个树的节点的坡度定义即为,该节点左子树的结点之和和右子树结点之和的差的绝对值。空结点的的坡度是0。 整个树的坡度就是其所有节点的坡度之和。 示例:输入: 1/ \2 3输出: 1 解释: 结点的坡度 …

多模态为什么比单模态好?第一份严谨证明来了!

文 | 橙橙子面试官: 听说你对多模态感兴趣,请问为什么多模态学习要比单模态学习效果好?候选人: 直观地,多模态学习可以聚合多源数据的信息,使得模型学习到的表示更加完备。以视频分类为例,同时使用字幕标题等文本信息、…

推荐:26种NLP练手项目(代码+数据)

1.分词 Word Segmentation chqiwang/convseg ,基于CNN做中文分词,提供数据和代码。 对应的论文Convolutional Neural Network with Word Embeddings for Chinese Word Segmentation IJCNLP2017. 2.词预测 Word Prediction Kyubyong/word_prediction &…

会议交流 | 最新NLP核心技术与前沿实践分享!

2021年7月10日,09:00-18:10,DataFunSummit:自然语言处理峰会将如约而至,本次峰会由3位主席和6位出品人精心策划而来,邀请来自业界的40余位嘉宾从NLP基础技术、语义表示与计算、多模理解与生成、信息抽取与检索、人机对…

LeetCode 504. 七进制数(进制转换)

1. 题目 给定一个整数,将其转化为7进制,并以字符串形式输出。 示例 1: 输入: 100 输出: "202"示例 2: 输入: -7 输出: "-10" 注意: 输入范围是 [-1e7, 1e7] 。来源:力扣(LeetCode) 链接&#xf…

领域应用 | 常识性概念图谱建设以及在美团场景中的应用

转载公众号 | 美团技术团队常识性概念图谱,是围绕常识性概念建立的实体以及实体之间的关系,同时侧重美团的场景构建的一类知识图谱。本文介绍了美团常识性概念图谱构建的Schema,图谱建设中遇到的挑战以及建设过程中的算法实践,最后…

美团数据库中间件DBProxy开源

随着数据量的不断增大,传统的直连数据库对数据进行访问的方式已经无法满足一般公司的需求。通过数据库中间件,可以对数据库进行水平扩展,由原来单台数据库扩展到多台数据库,数据库中间件通过路由规则将数据的访问请求路由到其中一…

不卷学术了,这次卷一波NLP实战落地经验

作为最典型的 AI 领域之一,NLP 这些年也是越来越热门,基本上是各大厂必备了。随着 OpenAI 等技术的诞生、迁移学习等技术的成功应用,使得 NLP 技术在搜索、推荐、信息流、互联网金融、社交网络等领域不断发展壮大。与此同时,NLP 工…

docker挂载文件躺过的坑

Docker 实现挂载的三种方式 docker: Error response from daemon: OCI runtime create failed: container_linux.go:348: starting container process caused “exec: “-v”: executable file not found in $PATH”: unknown. 看着启动成功了,但查日志启动失败 日…

美团团购订单系统优化记

团购订单系统简介 美团团购订单系统主要作用是支撑美团的团购业务,为上亿美团用户购买、消费提供服务保障。2015年初时,日订单量约400万~500万,同年七夕订单量达到800万。 目标 作为线上S级服务,稳定性的提升是我们不断的追求。尤…