多标签文本分类数据集_标签感知的文档表示用于多标签文本分类(EMNLP 2019)...

原文:

Label-Specific Document Representation for Multi-Label Text Classification(EMNLP 2019)

多标签文本分类

摘要:

本文使用标签相关的注意力网络学习文档表示。

该方法在构建文档表示时使用了标签的语义信息来决定标签和文档的语义联系。

并且,根据文档内容信息,使用了自注意力机制识别标签特定的文档表示。

为了整合以上两部分,使用了自适应的融合机制,这样可以输出全面的文档表示。

1 Introduction:

类似CNN、RNN、注意力机制的方法已经很好的实现了文档的表示。但是其中的大多数方法仅仅关注文档而忽略了标签。

近期的一些工作通过探索标签结构或标签内容捕获标签相关性。尽管其已经取得了一些成果,但是这些方法无法在标签文本有巨大差异的情况下,取得好的效果。

比如Management vs Management moves,就很难区分。

2 Label-Specific Attention Network model (LSAN)

模型包含两部分。第一部分通过利用文档内容和标签文本,从每一个文档中,捕获标签相关的部分。第二部分旨在从两个方面自适应的提取正确的信息。最终,分类器基于融合的标签特定的文档表示。

9241771c43ce7591253951ea64489bb9.png

2.1 Input Text Representation:

使用Bi-LSTM捕获双向的语义信息,从而学习每一个输入文档的word embedding。

在第p个时间步,隐藏状态可以被更新。

e037353fb5a3ee4a5c7dcb087b88159a.png

是第p个单词的embedding向量,是其相应的正向/反向词表示。从而,整个文档可以被表示为:

a05ef74a3ffd8e831b7a75d0826974b7.png

2.2 Label-Specific Attention Network

这一部分旨在于获取每个文档的标签相关的内容。这种策略受启发于文本分类。

例子:

June a Friday, in the lawn, a war between the young boys of the football game start.

属于类别youth和sports。内容young boys与youth更相关而不是sports。而football game直接与sports相关。

2.2.1 Self-attention Mechanism

一篇文档中的每一个单词对每一个标签的贡献程度不同。为了捕获文档与每个标签的相关性,本文采取自注意力机制。标签-单词注意力分数可以通过以下公式获得:

0a49f794b811b838878cc1a8f6a557b9.png

是自注意力参数。代表着所有词对第j个标签的贡献度。

接下来,可以获取文本单词对每一个标签的加权和:

0743ef91c234a479a2ae5132086f59e5.png

是输入文档结合第j个标签的表示。就是标签特定的文档表示,

2.2.2 Label-Attention Mechanism

刚刚的自注意力部分可以看作是基于内容的注意力机制,只考虑到了文档内容信息。

然而,标签在文本分类中具有特定的语义信息。为了利用到标签的语义信息,他们被预处理和表示为一个可训练的矩阵,在同一个潜在的k维空间:

0769dc82c2aa0a59dabaa4cfab4f861d.png

一旦得到Bi-LSTM输出的word embedding,以及标签embedding C,我们可以显式的得到每一对单词和标签的语义联系。一个简单的方法是计算词表示和标签表示的点积:

1d0c9f6fb8962a2638f468a26e81a4d2.png

以上两者分别是词和标签正向和反向的语义联系。与刚刚的自注意力机制类似,标签特定的文档表示可以通过标签词的线性组合被构建:

533631ec582c3847c32ea11d778e5022.png

最后,文档可以被重表示:

4c157d50bc84309b69a8f19f734a8c3e.png

这一部分的表示是基于标签文本,所以我们将其命名为标签注意力机制。

2.3 Adaptive Attention Fusion Strategy

为了对以上两者(基于内容的注意力机制,基于标签的注意力机制)结合,在这一部分我们探究使用了注意力融合机制,自适应的从以上两部分中提取正确的信息,并建立更全面的文档表示。

具体来讲,两个权重向量用于得到以上两部分文档表示的重要程度,可以通过一个全连接层得到:

541fb81f4fba5fb82e4f250c71b48d61.png

两个W是参数。分别是自注意力机制和标签注意力机制的重要程度(沿着第j个标签)。所以为这两对参数添加限制:

756619504665cd315136546cd5674aa6.png

得到最终的文档表示:

53fcbba31b01cf015ad3efb97c3dc976.png

2.4 Label Prediction

在得到最终的文档表示后,我们可以通过含两个全连接层的多层感知机建立一个多标签文本分类器。每个标签的预测概率可以通过如下公式得到:

469597a6aa329ab33eb24a6820528d52.png

Sigmoid输出的值可以看作概率,所以我们最后使用交叉熵损失。

45d7cbc5dd28c8b14140d5f32812d9f4.png

N是训练集文档数目,是标签数量,是零一变量,代表文档是否有标签。

3 Experiments

Datasets:

1ab79242c0fc4359dbf13c229733dd0b.png

不同数据集的标签数量L有多有少。

Baseline Models:

一些经典的文本多标签分类方法:XML-CNN: (Liu et al., 2017),SGM: (Yang et al., 2018),DXML: (Zhang et al., 2018)。

AttentionXML: (You et al., 2018) 可以看作本文模型的特殊情况,即只考虑到了文本内容,没有考虑到标签语义。

EXAM: (Du et al., 2018) 与本文模型最接近的工作,但是本文模型处理的更好。

3.2 Comparison Results and Discussion

7f7471370f1d5b5a98561ccf5c7a3cb6.png

XML-CNN的效果最差,原因是其没有考虑到标签相关性。

在RCV1和Kanshan-Cup数据集上,AttentionXML比EXAM效果好。因为这两个数据集具有层级标签结构。此时父标签和子标签可能包含相同的文本内容,使得其更难区分。

在EUR-Lex数据集上,AttentionXML效果最差,因为其只关注文档内容信息,EXAM和LSAN都受益于标签文本信息,所以效果更好。

3.3 Comparison on Sparse Data

为了验证本文方法LSAN在低频标签上的效果,我们将EUR-Lex根据频率划分为三个组。

d589e639f7e4dedfba51eb00ab5fde4b.png

三个方法在三个组上的效果:

2b183924d584496a3f5af7269d464437.png

特别是在低频标签上,本文提出的方法获得了更大的提升。

3.4 Ablation Test

文本提出的LSAN方法可以看作是三部分的结合:自注意力部分(A),标签注意力部分(L)和融合注意力部分(W)。

a7671ff9e313004e99174c47bbed52e8.png

自注意力部分A用来找到有用的文档内容,标签注意力部分L利用到了标签文本信息显式得得到了文档和标签的语义联系。然而,有些标签不易被区分(e.g., Management vs. Management movies).,所以结合两者也很重要。

注意力权重展示:

为了进一步展示融合注意力机制的重要性,展示自注意力和标签注意力在两个数据集上的权重分布。其中EUR-Lex数据比较稀疏,AAPD不稀疏。

5bce6ca61f0b2690b80a4b380c05e520.png

正如我们预料的,在稀疏数据集上,标签注意力机制比自注意力机制更有效。在不稀疏的数据集上,每个标签有充分的文档,所以自注意力机制就够了。

可视化:

探究标签注意力机制的效果。Computer Vision和Neural and Evolutionary Computing是该例子的两个类别,我们可以看出其各自在文本中对应的单词。

7f1e8a5388ef648c00eb070685325268.png

启发:

注意力机制可以拿来进行自适应学习,学习两部分的动态加权。但是需要两部分都有好的性能才能取得更好的效果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/436349.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

wince串口驱动分析(转)

wince串口驱动分析 串行通讯接口主要是指UART(通用串行)和IRDA两种。通常的串行连接电气连接上有3wire和9wire两种。3wire的接线方式下定义了发送、接收和地三根连接。其用途就如名称一样分别用于发送、接收。 通常在串行接口控制器上会有两个FIFO用作接收和发送的缓冲&#xf…

【转】DHF、DMR、MDF、DHR医疗器械文件要求与解读

1、DMR:Device Master Record 器械主文档,法规条款:FDA QSR820.181 2、DHR: Device History Record,法规条款:FDA QSR820.184 3、DHF: Design History File,法规条款:FDA QSR820.30(j) 4、MDF: …

a.pop啥意思python_python中pop什么意思

python中pop什么意思,赋值,移除,元素,位置,变量python中pop什么意思易采站长站,站长之家为您整理了python中pop什么意思的相关内容。python中pop()将列表指定位置的元素移除,同时可以将移除的元素赋值给某个变量,不填写位置参数则默认删除最后…

你是个有魅力的人吗?人格魅力这样修养而成

所谓“人格魅力”是指一个人在与其他人交往中,另别人内心感到信服、愉快、安全等感受的综合概念。他一般是针对一个组织中“领导者”的专有评价。“人格魅力”有先天形成的部分,但更重要的是后天自身的悟性和修养。先天的部分主要是指个人的兴趣&#xf…

【转】CAN 通信测试工具 canutils

转自:https://blog.csdn.net/engrossment/article/details/105222753 概述 CAN,Controller Area Network,控制器局域网,一种高可靠性的现场总线。广泛用于汽车电子、工业控制通信。 canutils 工具包内含 5 个独立的程序&#x…

个人博客php mysql_Windows下搭建个人博客(Apache+MySQL+PHP+WordPress)

Windows下搭建个人博客(ApacheMySQLPHPWordPress)CSDN博客的广告实在是烦,就自己在阿里云上搭建了一个博客(http://www.corfox.cn),CSDN博客可能就很少用啦。购买云服务器和域名可以在阿里云上购买云服务器ECS,阿里云针对学生有个云翼计划的优…

DCB(串口的DCB结构)

串口通讯中的DCB结构 typedef struct _DCB {// dcbDWORD DCBlength; // sizeof(DCB) DORD BaudRate; // current baud rate 指定当前的波特率 DWORD fBinary: 1; // binary mode, no EOF check 指定是否允许二进制模式WIN95中须为TRUE DWORD fParity: 1; // enable p…

IIS内部服务错误aspx与asp

打开事件查看器: 在系统事件中有错误:Distributed Transaction Coordinator 服务因 3221229584 (0xC0001010) 服务性错误而停止。 经多次试验,发现这主要是系统无法找到MS DTC 日志文件造成的,只要创建一下就可以了: 点开始→运行→输入命令"msdtc -resetlog",运行该…

【转】VS技巧—任务列表Task List(ToDoList)

写代码难免有些地方需要以后修改,或者有些地方需要以后晚上。比如我想以后修改此函数,有人会使用注释来提醒自己,比如会写上 //zhangsantodo it is a test function //zhangsantodo it not good 然后在需要修改时全局搜索“zhangsantodo”…

哈希桶 entry_哈希表代码实现

哈希表的主要用处:快速的数据存储和查找。例如,在我们日常上网过程中搜索某条信息的时候,信息的存储方式决定了查找该信息的速度,哈希表结合了数组的便捷访问和链表的便捷查找和删除的特点。实现方式:通过哈希函数获取…

串口握手协议的XON\XOFF原理

串口握手协议的XON\XOFF原理有人可能搞不清楚,看看下面这个例子你应该能有所感悟。 假设电脑A和电脑B通过RS232串口通信 A 和 B协商使用软件握手协议(dcb.fOutX TRUE), 定义XonChar \ XoffChar 比如XonChar 1, XoffChar 2. 现在, A向B发送字符2, B向A发送字符串&…

中秋望月

中秋望月——代腾飞 2007年9月23日 于成都皎皎夜空孤月轮且盼嫦娥来相会但见江水东流去只问佳人几时归 转载于:https://www.cnblogs.com/daitengfei/archive/2007/09/24/903765.html

【转】C++ 存储类

C 存储类 存储类定义 C 程序中变量/函数的范围(可见性)和生命周期。这些说明符放置在它们所修饰的类型之前。下面列出 C 程序中可用的存储类: autoregisterstaticexternmutable auto 存储类 auto 存储类是所有局部变量默认的存储类。 {in…

投标报价得分计算程序_什么是投标报价?怎么计算呢?

投标价格是投标文件中的实质性内容,也是评审因素中的核心内容。在招标采购活动中,由于投标人的疏忽,经常出现投标报价遗漏、书写错误、前后不一等问题。今天保标招标网小编就跟大家一起来看看什么是投标报价?招投标中复价是什么意…

设备I/O之OVERLAPPED

OVERLAPPED,顾名思义为重叠,乍一看会很奇怪,重叠?谁跟谁重叠?似乎在WIN32的Programming中没有这个概念呀?要讨论这个问题就要追溯到对设备I/O的访问中。 在WIN32中,用户不能象以前那样直接对硬件进行访问,使得这一层对开发者而言是个"黑盒",而提供了一组对应的API…

Question of the Day: Microsoft | Database, Multiple Questions in One

Question of the Day: Microsoft | Database, Multiple Questions in One from CareerCup by Jason Yip HR: SQL What is an index? Explain cluster index. What are the different types of joins. Explain. Explain normalizatiion. What is a foreign key? What is the d…

【转】在windows上安装VTK

看了很多教程,花了1天半的时间装上了,记录下。 前置条件:我安装了VS2015,用来编译工程。 参考资料 官方:http://www.vtk.org/Wiki/VTK/Building 安装:http://blog.csdn.net/Chinamming/article/details/1…

映射网络驱动器后为什么每次都要重新连接_如何映射网络驱动器?

有些设备的电脑需要处理一些共享资料或者需要一些外部资料才能生产运行,但是这些资料在本电脑没有,要去企业的公共盘(共享磁盘)里面获取,公共盘是网络上驱动器,这时候我们就要把公共盘映射到本地电脑。PCB厂…

解析 Linux 中的 VFS 文件系统机制

简介: 本文阐述 Linux 中的文件系统部分,源代码来自基于 IA32 的 2.4.20 内核。总体上说 Linux 下的文件系统主要可分为三大块:一是上层的文件系统的系统调用,二是虚拟文件系统 VFS(Virtual Filesystem Switch),三是挂…

Js——elementFromPoint方法

src:http://www.aspxuexi.com/html/dhtml/2007-8-30/elementFromPoint.htm 语法: oElement document . elementFromPoint ( iX , iY ) 参数: iX :  必选项。整数(Integer)。单位:象素(Pixel)。定位横坐标偏移量。 iY :  必…