【论文阅读22】Label prompt for multi-label text classification

论文相关

论文标题:Label prompt for multi-label text classification(基于提示学习的多标签文本分类)
发表时间:2023
领域:多标签文本分类
发表期刊:Applied Intelligence(SCI二区)
相关代码:无
数据集:无

摘要

多标签文本分类由于其实际应用而受到学者的广泛关注。多标签文本分类的关键挑战之一是如何提取和利用标签之间的相关性。然而,在一个复杂和未知的标签空间中,直接建模标签之间的相关性是相当具有挑战性的。在本文中,我们提出了一种标签提示多标签文本分类模型(LP-MTC),该模型受到预先训练语言模型的启发。具体来说,我们设计了一套多标签文本分类的模板,将标签集成到预先训练过的语言模型的输入中,并通过屏蔽语言模型(MLM)进行联合优化。这样,就可以在自我注意的帮助下捕获标签之间的相关性以及标签与文本之间的语义信息,从而有效地提高了模型的性能。在多个数据集上进行的大量经验实验证明了该方法的有效性。与BERT相比,LP-MTC在4个公共数据集上的平均性能比micro-F1提高了3.4%。

1.引言

文本分类是自然语言处理(NLP)中的一项基本和重要的任务,已广泛应用于情感分析、文章检索等领域。在传统的文本分类方法中,每个样本都与一个唯一的标签相称。然而,随着数据量的增加,大量的样本被分配到多个标签上,这导致了传统的单标签文本分类方法的失败。例如,在一些跨学科的研究中,一些文章可能同时涉及化学和计算机。因此,我们很自然地提出了多标签文本分类(MTC)方法。
MTC的目标是在整个标签空间中为某个文档确定适当的类别,并给该文档一个不确定数量的标签。近年来,多标签文本分类被广泛应用于情绪分析、主题分类、信息检索、和标签推荐。在实际应用中,由于文档的冗长和复杂,语义信息可能被隐藏在嘈杂或冗余的内容中。此外,标记之间可能存在一些语言相关性,并且不同的标记可能共享文档的一个子集。为了解决这些问题,对MTC的研究视角可以分为以下三类:如何从原始文档中充分捕获语义模式,如何从每个文档中提取与相应标签相关的区别信息,以及如何准确地挖掘标签之间的相关性。
解决MTC最直接的方法之一是将多标签文本分类任务转换为几个二值分类任务,但这往往忽略了多个标签之间的关系。同样,一些深度学习方法,如CNN 和注意机制,可以有效地对文档进行建模,但仍然忽略了标签之间的关系。如图1所示,在由皮尔逊相关系数计算出的Arxiv学术论文数据集(AAPD)中,不同的标签对之间存在特定的相关性。对于标签0和标签1,相关性为1,这意味着这两个标签在所有实例中都会一起出现。因此,对于一些标签信息较少或长尾分布严重的数据集,标签之间的关联可以提供更重要的信息。
在这里插入图片描述
图1 AAPD列组中所有标签对之间的斯皮尔曼相关系数。颜色越浅,标签对就越相关性
近年来,一些方法利用标签结构和内容来捕获标签之间的相关性。一些研究将MTC转化为标签生成模型,以检索多标签的潜在空间。一些方法通过学习标签的表示来得到一个更一般化的分类模型。也有一些方法通过显式地建模列车集中标签之间的关联来预测测试集的标签。然而,当标签文本之间没有太大的差异或缺乏标签文本时,这些模型可能会在分类上失败。此外,在一个未知和复杂的标签空间中建模标签的关联可能是非常具有挑战性的。
大规模的预训练语言模型的出现,如BERT(来自变形金刚的双向编码器表示)和GPT-3 ,使得自然语言处理领域的知识转移更加容易。最近的一些研究表明,为预先训练过的语言模型编写提示可以更好地释放模型的优势,并实现进一步的改进。在提示学习中,任务被形式化为等效的封闭式任务,语言模型用于处理相应的封闭式任务,而不是原始任务。
受基于大规模预训练语言模型的提示学习方法的启发,我们提出了一种标签提示多标签文本分类模型(LP-MTC),通过使用语言模型学习的提示模板中的语义信息来学习标签与文本之间的关系。具体来说,我们将不同的标签映射到不同的标记上,并构建一组标记前缀模板,用于提示学习。在这里,标签可以是不包含文本信息的特殊标记,如[标签1]、[标签2],而不是文本标签,如体育、科学等。通过将前缀模板与语言模型的输入相结合,可以很自然地通过自我注意来捕获模板中包含的标签关联。此外,与现有的设计良好的基于任务的模板相比,我们的方法更为通用,不需要为不同的数据集进行定制。在训练过程中,我们将标记模板与要分类的句子拼接,并将它们输入BERT。在预测时,我们掩盖了所有的标签标记并预测它们。此外,为了更好地利用BERT的预测能力,我们还构建了一个多任务框架,即原始输入的随机掩码标记,并使用掩码语言模型(MLM)来预测掩码标记,以帮助优化多标签文本分类学习任务。我们的贡献如下:

  • 提出了一种标签提示多标签文本分类模型(LP-MTC),该模型将多标签文本分类转换为提示学习任务。特别是,我们为不同的数据集设计了一个通用的提示模板,并在预先训练好的语言模型的帮助下捕获了标签和文本之间的潜在语义关系。
  • 我们使用MLM为联合训练构建了额外的语言模型学习任务,进一步提高了LP-MTC的性能。
  • 我们对不同的多标签文本分类任务进行了广泛的实验,证明了我们的方法在模型性能、标签相关性和时间能力方面的优越性。

2.相关工作

在本节中,我们将介绍一些与我们的研究相关的工作,包括多标签文本分类和提示学习。

2.1 多标签文本分类

多标签文本分类是自然语言处理中的一项基本任务。现有的方法倾向于通过将多标签文本分类任务转换为多个二元分类任务来解决它。有些方法利用了标签之间的配对关联或互作关联。两两比较(RPC)利用两两分类的自然扩展,产生了一种二元偏好关系,将多标签学习任务转化为标签排序任务。
然而,假设一个标签可以与多个标签相关,并利用标签的高阶依赖关系更有效。分类器链(CC)将MTC的任务转换为一组二元分类任务链。k-标签集(RAkEL)构建小的标签随机子集,并将MTC转换为随机子集的单标签分类任务。近年来,随着深度学习的发展,一些研究采用序列学习模型来解决MTC,如序列生成模型(SGM),它们通过RNN解码器生成一个潜在的标签序列。然而序列模型需要在潜在的空间中寻找最优解,当标签太多时,这就太耗时了。
有些方法对标签的联合概率分布进行建模,而不是对特定标签的关联,如贝叶斯网络和无向图模型。Wang等人,通过不良学习框架,加强了多标签的联合分布与预测的多标签之间的相似性。由于图神经网络(GNN)在非欧几里得空间数据建模中的有效性,有些方法使用GNN来捕获标签之间的相关性。标签特定注意网络(LSAN)提出了一种同时考虑文档内容和标签文本的标签注意网络模型,并使用自我注意机制来衡量每个单词对每个标签的贡献。磁铁使用一个特征矩阵和一个相关矩阵来捕获和探索标签之间的关键依赖关系。与上述研究不同,我们的方法采用预先训练好的语言模型,通过即时学习来捕捉标签之间的相关性,从而提高多标签分类的效果。通过自我注意,我们不是明确地表示标签之间的关系,而是直接将带有标签模板的标记输入BERT,让模型自动学习相关性

2.2 提示学习

近年来,提示学习被用来填补预先训练好的语言模型与下游任务之间的客观差异,并充分利用语言模型的可转移性。通过利用语言提示作为上下文,提示学习将下游任务转换为阻塞式任务。
少样本分类学习分类器只给出每个类的少数标记的例子。一些最早的研究旨在通过在很少样本的情况下迅速学习来解放语言模型的能力。基于层次的优化相结合的完草问题,并展示了提示学习与BERT、GPT-3和其他语言模型相结合的能力。渐渐地,一些手工提示被广泛探索,例如,在神经语言推理和情绪分类。PTE利用完形填空法成功地解决了小样本中的文本分类和自然语言推理问题。Chen和Zhang 提出了一种基于问题的方法,将与标签相关的问题与每个候选句子联系起来,以帮助语言模型更好地理解少样本学习中的文本分类任务。
为了避免劳动密集型的提示设计,自动提示搜索已被广泛探索。自动提示自动创建一组不同任务的提示,并显示MLM执行情绪分析和自然语言推理的内在能力。有些方法还使用了一种自动的方式来将提示符中的单词映射到适当的类别。LM-BFF采用Seq-to-Seq模型来生成提示学习的候选对象。也有研究直接使用一系列可学习的顺序嵌入作为提示,而不是离散的语言短语。但是大多数自动生成的提示的性能不如手动选择的提示。
与以往的其他研究不同,我们的方法旨在探索提示学习在多标签文本分类中的应用,而不是专注于少样本学习。此外,我们的方法不需要为每个数据集构建由自然语言短语或单词组成的不同模板。相反,我们使用一系列专门定义的token来表示标签提示符。

3.初步准备工作

首先,我们出发并描述了MTC任务和提示学习。对于一个给定的文本x = {w1,w2,…,wm}和它的真实标签y = {y1,y2,…,yL},L表示标签的数量,那么MTC任务的目标是学习一个映射函数 χ : x → y : { 0 , 1 } L χ: x→y:\lbrace 0,1\rbrace^L χxy{0,1}L
在提示学习中,通常需要以下三个步骤来构建一个提示学习的管道:

  • 为不同的任务构建提示式模板。以电影情感二分句为例,“这部电影太感人了!”,提示学习或称为提示调优,通常生成一个新的句子,由前缀/后缀模板τ输入:“这部电影太感人了!”我[Mask]它!”[Mask]可以是“爱”或“恨”,分别表示积极或消极的情绪。带有前缀模板的新输入可以表示为:
    在这里插入图片描述
    其中||表示连接。
  • 通过语言模型搜索模板的最优答案。在训练过程中,提示学习通常与语言模型相结合来预测掩码标记信息。形式上,给定一个带有词汇表V的语言模型M和带有掩码m的新输入x,提示学习的目标是预测掩码token w的概率 p M m ( w ∣ x ′ ) p^m_M(w|x') pMmwx,其中w∈V和 p M m ( w ∣ x ′ ) ∈ R ∣ V ∣ p^m_M(w|x')∈R^{|V |} pMmwxRV表示token的概率分布向量。要预测的标记通常反映了句子的分类。
  • 将搜索到的答案映射到标签空间。一般来说,预测的标记与实际的类别不同,因此需要通过映射或称为表达器的方法将特定的标记分配给相应的类别。例如,在图2中,被映射为一个积极的类别,被映射为一个消极的类别。通过这种方式,即时学习可以将二元情绪分类任务转换为封闭式的任务。
    在这里插入图片描述
    图2:构建输入的提示示例

4.方法

在本节中,我们详细描述了所提出的模型,如图3所示。首先,我们需要设计一套提示模板,可以用于多个标签任务,以便在输入中显示标签信息。在此之后,我们需要使用语言模型在模板中学习[Mask]标记。然后,我们还通过随机掩蔽原始输入的标记来构建一个多任务框架,并使用MLM来预测掩蔽标记。

4.1提示模板

对于提示学习,虽然一些研究已经证明了模板方法的优势,但不清楚相同的模板是否适用于每个模型,也不清楚哪样的模板更适合模型。对于MTC,由于不同的文档包含不同数量的真标签,并且不同数据集的标签空间大小不一致,所以很难为每个标签构建特定的模板。为此,我们为整个标签空间构建了一个模板系统。首先,每个位置上的不同标签应该有三种不同的状态:1、0或掩码。为了方便起见,让我们把它们写成Y,N和M。我们强调不同标签的顺序,这对标签的预测非常重要。此外,我们还引入了一个基于位置的提示,允许BERT清楚地识别当前标签的位置。具体来说,我们对每个标签token l∈{Y,N,M}采用以下生成方法Γ:
在这里插入图片描述
其中[.]表示BERT的特殊标记, [ L S ] [L_S] [LS]表示标签的开始标记, [ L E ] [L_E] [LE]表示结束token,p表示标记在模板中的位置。举个例子:给定一个带有掩码的标签序列[1,0,mask],我们生成的模板为 [ L S 1 ] [ Y 1 ] [ L E 1 ] [ L S 2 ] [ N 2 ] [ L E 2 ] [ L S 3 ] [ M 3 ] [ L E 3 ] [L^1_S][Y^1][L^1_E][L^2_S][N^2][L^2_E][L^3_S][M^3][L^3_E] [LS1][Y1][LE1][LS2][N2][LE2][LS3][M3][LE3],如图3所示。通过构建多标签提示模板,我们可以自然地将标签注入到语言模型的输入中,并学习自我注意更好的表示。
在这里插入图片描述

图3 LP-MTC模型结构。以前缀模板为例,绿色的框表示未掩蔽标记,橙色的框表示掩蔽标记,灰色的框表示原始输入标记

4.2对语言模型的提示学习

接下来,我们将标签预测与语言模型的MLM任务相结合。MLM是经过预训练的语言模型中的一项基本任务。它迫使模型通过随机屏蔽输入句子中一定比例的标记来预测掩蔽词。这有助于模型理解掩蔽位置的上下文,导致该模型具有更好的性能。具体来说,我们在提示模板中屏蔽中心标记(只有Y或N),以15%的概率表示BERT。此外,为了更好地结合语言模型的性能,我们还以相同的概率随机掩码了原始句子中的标记。在实际应用中,LP-MTC可以应用于各种语言模型,本文采用了应用最广泛的BERT模型。
在实践中,为了将标签模板引入到MLM任务中,我们在语言模型中添加了特殊的标记,如图3所示的 [ L E 3 ] [L^3_E] [LE3]。因此,我们应该将语言模型V的词汇表扩展到V’,其中|V’| > |V |和语言模型的目标可以修改为 p M m ( w ′ ∣ x ′ ) p^m_M(w'|x') pMm(wx),其中w∈|V’|。

4.3训练与推理

在明确了提示学习的学习目标后,我们对LP-MTC进行了更详细的训练和推理过程。
正向传播在模板生成后,我们将其作为原始句子的前缀,并将x’一起输入到训练前的模型中。训练过程有两个主要目标:基于提示模板预测标签分布,并预测原始句子和模板的掩码标记。假设BERT的输出为 O ∈ R ∣ x ′ ∣ m a x ∗ 768 O∈R^{|x'|max∗768} ORxmax768,则通过使用一层具有激活功能的全连接,可以得到标签的分布预测和掩蔽token的预测:
在这里插入图片描述
其中, ∣ x ′ ∣ m a x |x'|_{max} xmax表示最大token长度, W l ∈ R 768 ∗ L W_l∈R^{768∗L} WlR768L W m ∈ R 768 ∗ ∣ V ′ ∣ W_m∈R^{768∗|V'|} WmR768V O [ i d l ] O[id_l] O[idl]表示基于标签标记的索引的张量选择。
联合损失 我们使用二值交叉熵(BCE)作为MTC的损失函数,而交叉熵作为MLM的损失函数。BCE损失可以写成如下内容:
在这里插入图片描述

在写论文的时候,可以把张量计算,损失函数都写进去。

其中 Y t Y_t Yt为实际的真值标签, P l i P_{li} Pli表示第i个标签的概率。最终的联合损失函数为:
在这里插入图片描述
推理 在推断时,我们在模板中掩码所有的标签token,并计算所有掩码标签的概率。与训练不同,我们此时不需要执行MLM任务,因为提示模板中的token可以很容易地预测标签分布。我们将标签的输出表示为 O l O_l Ol,并使用逻辑sigmoid型函数进行概率归一化:
在这里插入图片描述
然后,所有大于0.5的概率值都被预测为正标签,否则就被预测为负标签。模型推理过程如图4所示。
在这里插入图片描述

5实验

5.1数据集

鉴于多标签文本分类的广泛应用,我们将我们的方法应用于不同类型的数据集来验证LP-MTC的有效性。数据集的统计数据如表1所示。

  • AAPD.Arxiv学术论文数据集(AAPD)是一个广泛应用于多学科学术论文的大规模分类数据集。其目的是通过摘要来预测一篇学术论文的主题。一篇学术论文可以有多门学科,共计54门学科。
  • Reuters 网站的报道。路透社新闻文本数据集,创建于1987年,它一直是MTC的标准基准。我们遵循的分类标准,并使用了90个类别。
  • Emotion一个最大的手动注释数据集,58k英语Reddit评论的细粒度情绪分类,标记为27个情绪类别和中性,总共28个类别。83%的数据包含单个标签,15%包含两个标签,其余4%包含两个以上的标签。
  • Toxic Comments来自Toxic评论分类挑战竞赛的数据集包含了可能被认为是亵渎、粗俗或冒犯性的文本。我们删除了那些不携带任何负面情绪的评论,并只保留了16,225条有标记的记录作为我们的数据集。我们以7:3的比例随机分割了训练集/测试集。
    在这里插入图片描述

5.2 评价指标

与相同,汉明损失和macroF1评分被用于主要的评价指标。此外,我们还使用微精度和微召回率来进行进一步的评价。

  • micro-F1。它可以被解释为精度和查全率的加权平均值。它通过计算每个数据集的总真阳性、假阴性和假阳性来全局计算指标。具体来说,给定第i类的真阳性T Pi、假阳性FPi、假阴性F Ni和真阴性T Ni,微召回可以表示为:
    在这里插入图片描述
  • 汉明损失(HL)。根据预测结果 Y ^ ∈ R N ∗ L \hat{Y}∈R^{N∗L} Y^RNL和地面真实标签 Y ∈ R N ∗ L Y∈R^{N∗L} YRNL,直接计算出误分类标签的比例为:
    在这里插入图片描述
    其中, Ξ ( Y n l , Y ^ n l ) Ξ(Y_{nl},\hat{Y}_{nl}) ΞYnlY^nl是一个指示器函数。 Ξ ( Y n l , Y ^ n l ) = 1 Ξ(Y_{nl},\hat{Y}_{nl})=1 ΞYnlY^nl=1,如果 Y n l = Y ^ n l Y_{nl} =\hat{Y}_{nl} Ynl=Y^nl,else Ξ ( Y n l , Y ^ n l ) = 0 Ξ(Y_{nl},\hat{Y}_{nl})=0 ΞYnlY^nl=0。因此,HL = 0意味着每个样本的所有标签都被分配了正确的值。由于多标签文本中标签的稀疏性,汉明标签的丢失通常是一个很小的十进制(有许多0个标签)

5.3 基线模型

我们参考相应的官方源代码,并将LP-MTC与广泛可用的基线进行比较:

  • CNN 。利用卷积神经网络提取文本特征,输出标签在标签空间中的分布。
  • BiLSTM注意。在最后一层采用自注意的2层LSTM神经网络得到文档表示,并通过逻辑回归对每个标签进行预测。
  • SGM 将MTC视为一个序列生成问题,并应用一个具有新的解码器结构的序列生成模型来解决它。我们使用官方代码来实验原始论文中没有出现的数据集,并使用官方文档中给出的参数。
  • BERT基于自我注意的预训练语言模型。我们对不同的下游任务进行了不同的微调。
  • BERT+MLM在基本的BERT分类上,还添加了额外的MLM任务。我们想看看MLM对下游任务是否有效。
  • Label-Wise (LW) LSTM with PT and FT。通过预训练模型获得了具有标签感知信息的文档表示,并对不同的下游任务进行了细化。PT为训练前的方法。FT表示对下游任务的微调方法。我们使用官方代码4来实现我们的实验结果。对于原始文本中未探讨的实验数据,我们使用源代码中给出的参数配置作为我们的实验参数。由于所有数据集的文本长度都相对较短,所以我们使用LW-LSTM作为原文中所建议的编码器。
  • LP我们的方法没有额外的MLM任务。
  • LP-MLM.我们的方法与额外的MLM任务。

5.4详细信息

我们将基于bert的模型的学习率设置为5e-5,批量大小设置为16,epoch设置为40。我们将warm up比率设置为0.1,将MLM的掩模概率设置为0.15。对于基线模型CNN和BiLSTM注意,我们将学习率设置为0.0003,隐藏大小设置为512。我们使用AdamW作为优化器。所有的代码都由PyTorch实现,并运行在一个NVIDIA RTX 3090上。

5.5总体结果

我们在表2、表3、表4和表5中报告了我们的方法在所有数据集上的实验结果。我们计算了所有基线的微精度、微召回率、微f1和汉明损失。
在大多数情况下,我们的方法在所有数据集上的micao-f1损失和汉明损失上都获得了最优的结果,这可以从两个方面来解释:

  • 提示模板的构建和使用有助于语言模型捕捉标签与其上下文之间的相关性;
  • MLM的使用进一步提高了语言模型对下游任务的调优效果。

我们通过将基于LP的方法(LP和LP-MLM)与不使用提示模板的方法(BERT和BERT-MLM)进行比较,确认了第一点。我们发现,在大多数情况下,LP有显著的性能提高,这表明将MTC转化为提示学习任务可以促进分类效果。提示模板可以被视为语言模型的特殊输入,因此语言模型可以学习模板中包含的标签信息。当我们将标签和原句子一起输入到BERT中时,这相当于为标签构建相应的上下文,而自我注意可以敏感地捕捉到原句子中不存在的上下文关系。用这种方式,我们引入标签之间的关联,可以提高模型理解标签上下文的能力。
对于第二点,我们也注意到,添加MLM可以进一步提高LP和BERT的性能,这说明了联合训练的有效性。我们从Bert的本质来解释这一现象。由于BERT本质上是一个MLM,允许BERT继续学习不同下游任务的掩码令牌,可以使模型更适合于下游任务,从而进行更好的分类。
此外,我们还注意到,对于不同的数据集,LP-MLM与BERT-MLM相比的改进也不同。对于大标签空间的AAPD、Reuters和Emotion,LP-MLM分别提高了1.47%、3.64%和2.97%,而对于只有6个标签的Toxic,提高了1.04%。这表明,通过引入标签之间的相关性所带来的改进可能是与标签空间的大小有关。此外,模型的性能也与数据集的特殊性有关。例如,所有模型的micro-F1值通常很低,情感是一个细粒度的情绪数据集,很难区分。

在我写论文的时候也可以直接说数据集本身就是有问题的,很难达到很好的性能。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

6.分析

在本节中,我们将进一步分析我们提出的模型,包括提示模板的设计和可视化分析。

6.1注意力可视化

BERT的中间层已经被证明可以充分地捕捉到单词之间的语义关系。在LPMTC中,每个潜在的标签都可以被视为一个单词或一个标记,因此我们验证了LP-MTC如何通过可视化每一层的注意力来捕获标签的相关性。

图5(a)、6(a)和7(a)显示了AAPD、 Toxic和Reuters测试集的不同标签之间的斯皮尔曼相关性。
在这里插入图片描述
图5 AAPD测试集的前11个标签的Spearman相关系数与不同BERT层的注意力可视化。颜色越浅,其值越大
在这里插入图片描述
图6 Toxic测试集不同BERT层的所有标签的Spearman相关系数和注意可视化
在这里插入图片描述
图7路透社测试集前11个标签的斯皮尔曼相关系数与不同BERT层的注意力可视化
为了便于观察,我们选择了与AAPD和路透社相关性较高的前11个标签。与图1相似,测试标签的相关分布与训练数据集的类似相关分布相当。
然后,我们以不同BERT层的注意输出参数作为可视化的输入。我们平均所有的注意力头,并在所有的标签对之间选择注意分数。我们将所有批次相加,得到测试集上的全局得分矩阵,并对其进行归一化。我们选择第二层、第六层和最后一层的注意矩阵进行可视化。
从可视化结果中,我们发现浅层的BERT学习了一些粗略的信息,比如标签与自身的相关性(图5(b),但是相关性可能是很弱的,并且经常捕获不相关的标签(图。6(b)和7(b).第6层更注重局部相关性,闭合标签0和1之间的相关性得到了很好的捕获,如图5©所示。然而,我们也发现,一些没有相关性的局部标签被错误地分配为高相关性,如图6©中的标签2和标签4。
最后一层的注意力更接近于原始的标签相关性分布。与第6层相比,它不仅可以学习AAPD的标签0和标签1之间的关系,还可以学习更遥远的标签对之间的相关性,如标签2和标签4图5(d)对ToxicReuters也进行了类似的观察。对于如图所示的毒性。校正了第6层的误差相关性,并正确地捕获了标签1和标签2之间的高相关性。这表明,深度BERT可以捕获标签之间的相关性,这也为LP-MTC的优势提供了一个有效的解释。

6.2损失可视化

为了进一步探索和比较不同模型的优化过程,我们分别在四个数据集上可视化了MTC和MLM任务的损失值。
如图8所示,当在模型中添加MLM任务时,BERT和LP的优化过程在不同的数据集上呈现出相似的趋势。随着模型的训练,MLM和MTC的损失减少和平稳。然而,MLM任务具有更大的标签空间和更多的预测值(占所有令牌的15%),因此优化速度更慢,损失值比MTC具有更大的数量级。此外,我们注意到MTC任务的收敛速度很快,通常在50步之前就变平了,这表明像BERT这样的语言模型可以很容易地学习文档标签。我们还注意到,LPMLM方法可以使MTC任务在训练样本上比在AAPD、Emotion和 Reuters的BERT-MLM更快,说明LP可以帮助模型更好地学习。此外,我们还注意到Toxic数据集的特殊性。LP-MLM和Bert-MLM的损耗变化差别不大,收敛速度,如图8(h)和(g)所示。这是由于与其他三个数据集相比, Toxic的标签空间更小。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

6.3λ的选择

根据MTC和MLM损失的变化,我们也选择了不同的λ来研究MLM任务权重对模型性能的影响。我们设置了不同的λ∈[1,0.1,0.01,0.001],并观察了LPMLM在不同λ下的性能。如图9所示,对于两个不同的数据集,在λ=为0.01时,性能最好。
在这里插入图片描述
图9不同λ量级下的模型性能。红线表示没有MLM任务的LP结果。由于λ对模型性能的影响较小,我们重置了纵坐标的起始值以突出差异

虽然较大或模糊的λ对模型也有积极的改进,但推广的效果略低。一个较大的λ可能会使MLM任务对主任务MTC的影响太大,从而影响到模型的学习效率。相比之下,一个小的λ将减少MLM的影响,从而干扰联合学习模型。
对于多任务学习,不同的任务损失应该是相似的程度。然而,在实验过程中,由于不同数据集的特殊性,最优λ的值趋于波动,因此我们不探讨特定值的影响,而是旨在给出一个粗略的数量级。在我们的实验中,我们根据勘探结果将所有数据的λ统一设置为0.01。

6.4不同的提示策略

不同的模板可能对同一个任务有不同的影响。作为比较,我们比较了两种不同的标签模板生成方法。

  • END 它将模板作为后缀添加到要分类的文档的结尾。具体来说,我们将(1)修改为:
    在这里插入图片描述
  • SAME它不区分不同标签的位置信息,而是用相同的特殊标记表示。具体来说,我们将(2)修改为:
    在这里插入图片描述对于exmaple,给定一个带有掩码[1,0,掩码]的标签序列,我们生成模板为 [ L S ] [ Y ] [ L E ] [ L S ] [ N ] [ L E ] [ L S ] [ M ] [ L E ] [L_S][Y][L_E][L_S][N][L_E][L_S][M][L_E] [LS][Y][LE][LS][N][LE][LS][M][LE].
    不同模板生成策略的影响效果见表6。

表6在不同提示温度条件下的模型性能
在这里插入图片描述
使用END模板的结果略低,毒性下降0.0026微f1,情绪下降0.0184微f1。这表明,当使用适当的标记构建模板时,模板的位置对模型的性能影响很小。SAME方法比END方法对模型性能的负面影响更大,尤其是对情绪法。因为LP-MLM为不同的标签生成不同的标记,所以该模型在学习标签时做出了明确的区别。然而,当SAME方法被采用,标签之间没有显著差异,导致预测的混淆和性能下降。.情感比有毒有更大的标签空间,所以相同的对情感的影响更大。

这个地方很值得借鉴,在构建模型的时候可以分为几种类型
标签位置:前缀模板、后缀模板
分隔符号:每个标签一个分隔符、标签和文本一起一个分隔符、不加分隔符
这时候排列组合就有以下几种情况
1.在前面+不加分隔符
2.在后面+不加分隔符
3.在前面+每个标签一个分隔符
4.在后面+每个标签一个分隔符
5.在前面+标签和文本分隔符
6.在后面+标签和文本分隔符
通过这个实验可以探索,预测结果是与位置有关还是与分隔符有关,还是与二者都有关

6.5耗时

我们进一步计算了LP-MTC在不同数据集上的时间成本,以探索该方法的实际可行性。直观地说,训练的经过时间取决于序列的输入长度,这决定了自我注意计算的量。
标签空间越大,输入序列就越长。因此,为了便于比较,我们选择了标记最少的数据集,Toxic的和标记最多的数据集,即 Reuters进行比较。我们报告了不同模型的每个时期的平均运行时间,如图10所示。
在这里插入图片描述
我们发现,与BERT相比,BERT-MLM增加了训练时间,因为增加了MLM辅助任务。与Bert-MLM相比,LP-MTC的改进是由于使用了标签模板,这增加了输入标记的长度。因此,拥有大标签空间的 Reuters比Toxic需要更多的时间。然而,总的来说,LP-MLM仅略微增加了模型的训练时间。

7.结论

在本文中,我们提出了用于多标签文本分类的LP-MTC模型。我们为多个标签的前缀提示模板,将MTC转换为提示学习任务,并将训练与MLM相结合,提高模型在各种评价指标下的性能。我们的方法可以释放预先训练过的语言模型的能力,并使用自我注意来捕获不同标签标记之间的相关性。此外,我们的方法不需要使用额外的标签文本信息,可以在标签是匿名的时候应用。此外,我们通过可视化分析验证了LP-MTC捕获相关性的能力,并且LP-MTC可以在针对多种类型的数据集的测试中表现良好。

我的阅读总结:这篇论文想要说明的工作真的不是很突出,但是人家的实验做的很充分,看来有的时候写论文也是看字数的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/9428.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringBoot整合Elasticsearch

SpringBoot整合Elasticsearch SpringBoot整合Elasticsearch有以下几种方式: 使用官方的Elasticsearch Java客户端进行集成 通过添加Elasticsearch Java客户端的依赖,可以直接在Spring Boot应用中使用原生的Elasticsearch API进行操作。参考文档 使用Sp…

数据库中的事务处理

MySQL的事务处理:只支持 lnnoDB 和BDB数据表类型 1.事务就是将一组SQL语句放在同一批次内去执行 2.如果一个SQL语句出错,则该批次内的所有SQL都将被取消执行 MySQL的事务实现方法一: select autocommit 查询当前事务提交模式 set a…

机器学习深度学习——图像分类数据集

👨‍🎓作者简介:一位即将上大四,正专攻机器学习的保研er 🌌上期文章:机器学习&&深度学习——softmax回归(下) 📚订阅专栏:机器学习&&深度学习…

PHP在线相册--【强撸项目】

强撸项目系列总目录在000集 PHP要怎么学–【思维导图知识范围】 文章目录 本系列校训本项目使用技术 上效果图phpStudy 设置导数据库项目目录如图:代码部分:主页 配套资源作业: 本系列校训 用免费公开视频,卷飞培训班哈人&…

【Matlab】基于粒子群优化算法优化BP神经网络的数据回归预测(Excel可直接替换数据)

【Matlab】基于粒子群优化算法优化 BP 神经网络的数据回归预测(Excel可直接替换数据) 1.模型原理2.数学公式3.文件结构4.Excel数据5.分块代码5.1 fun.m5.2 main.m 6.完整代码6.1 fun.m6.2 main.m 7.运行结果 1.模型原理 基于粒子群优化算法(…

国标GB28181协议视频平台EasyCVR修改录像计划等待时间较长的原因排查与解决

音视频流媒体视频平台EasyCVR拓展性强,视频能力丰富,具体可实现视频监控直播、视频轮播、视频录像、云存储、回放与检索、智能告警、服务器集群、语音对讲、云台控制、电子地图、H.265自动转码H.264、平台级联等。为了便于用户二次开发、调用与集成&…

MTK系统启动流程

MTK系统启动流程 boot rom -> preloader ->lk ->kernel ->Native -> Android 1、Boot rom:系统开机,最先执行的是固化在芯片内部的bootrom,其作用主要有 a.初始化ISRAM和EMMC b.当系统全擦后 ,也会配置USB,用来仿…

CSS 瀑布流效果效果

示例 <!DOCTYPE html> <html lang="cn"><head><meta charset="UTF-8"><meta name="viewport" content="width=device-width, initial-scale=1.0"><title>瀑布流效果</title><style>…

IMU和视觉融合学习笔记

利用纯视觉信息进行位姿估计&#xff0c;对运动物体、光照干扰、场景纹理缺失等情况&#xff0c;定位效果不够鲁棒。当下&#xff0c;视觉与IMU融合(VI-SLAM&#xff09;逐渐成为常见的多传感器融合方式。视觉信息与IMU 数据进行融合&#xff0c;根据融合方式同样可分为基于滤波…

Rust vs Go:常用语法对比(八)

题目来自 Golang vs. Rust: Which Programming Language To Choose in 2023?[1] 141. Iterate in sequence over two lists Iterate in sequence over the elements of the list items1 then items2. For each iteration print the element. 依次迭代两个列表 依次迭代列表项1…

聊天机器人如何增加电子商务销售额

聊天机器人和自动化对企业和客户来说都是福音。自动对话和聊天机器人&#xff08;以下统称为“自动化”&#xff09;通过自动回答问题或分配会话信息来帮助用户浏览品牌网站或电商商店。即时答案对客户来说非常有用&#xff0c;使用自动化也可以让原本与客户聊天的客服员工专注…

MacDroid for Mac:在Mac上访问和传输Android文件的最简单方式

MacDroid for Mac是一款帮助用户在Mac和Android设备之间传输文件的软件。由于Mac OS X本身并不支持MTP协议&#xff0c;所以透过USB将Android设备连接到Mac电脑上是无法识别的&#xff0c;更别说读取里面的文件了。 MacDroid可以帮助您轻松搞定这个问题&#xff0c;您可以将An…

产业大数据应用:洞察企业全维数据,提升企业监、管、服水平

​在数字经济时代&#xff0c;数据已经成为重要的生产要素&#xff0c;数字化改革风生水起&#xff0c;在新一代科技革命、产业革命的背景下&#xff0c;产业大数据服务应运而生&#xff0c;为区域产业发展主导部门提供了企业洞察、监测、评估工具。能够助力区域全面了解企业经…

output delay 约束

output delay 约束 一、output delay约束概述二、output delay约束系统同步三、output delay约束源同步 一、output delay约束概述 特别注意&#xff1a;在源同步接口中&#xff0c;定义接口约束之前&#xff0c;需要用create_generated_clock 先定义送出的随路时钟。 二、out…

【优选算法题练习】day9

文章目录 一、DP35 【模板】二维前缀和1.题目简介2.解题思路3.代码4.运行结果 二、面试题 01.01. 判定字符是否唯一1.题目简介2.解题思路3.代码4.运行结果 三、724. 寻找数组的中心下标1.题目简介2.解题思路3.代码4.运行结果 总结 一、DP35 【模板】二维前缀和 1.题目简介 DP…

百度智能云连拿四年第一,为什么要深耕AI公有云市场

AI是过去几年云计算市场中的最大变量&#xff0c;而大模型的成熟&#xff0c;毫无疑问将指数级增强这个变量。 记得在2022年年底&#xff0c;生成式AI与大模型开始爆火的时候&#xff0c;我们就曾讨论过一个问题&#xff1a;这轮AI浪潮中&#xff0c;最先受到深刻影响的将是云计…

Oracle 多条记录根据某个字段获取相邻两条数据间的间隔天数,小于31天的记录都筛选出来

需求描述&#xff1a;在Oracle中 住院记录记录表为v_hospitalRecords&#xff0c;表中FIHDATE入院时间&#xff0c;FBIHID是住院号&#xff0c; 我想查询出每个患者在他们的所有住院记录中是否在一个月内再次入院(相邻的两条记录进行比较)&#xff0c;并且住院记录大于一的患者…

qsort的使用及模拟实现

qsort函数是C语言库中提供的一种快速排序&#xff0c;头文件是stdlib.h qsort的使用 qsort函数需要四个参数&#xff1a; 1.排序的起始位置的地址&#xff08;数组名&#xff09;: arr 2.排序元素的个数&#xff1a; sizeof&#xff08;arr)/sizeof(arr[0]) 3.排序元素…

echarts 饼图中间添加文字

需求&#xff1a;饼图中间展示总量数据 方法一、设置series对应饼图的label属性 series: [{type: "pie",radius: [55%, 62%],center: ["67%", "50%"],itemStyle: {borderRadius: 10,borderColor: #fff,borderWidth: 2},// 主要代码在这里label: …

protobuf入门实践1

protobuf入门实践1 下载和安装 protobuf&#xff1a;https://github.com/google/protobuf 解压压缩包&#xff1a;unzip protobuf-master.zip 2、进入解压后的文件夹&#xff1a;cd protobuf-master 3、安装所需工具&#xff1a;sudo apt-get install autoconf automake libt…