笔记整理 | 潘晓梅,东南大学硕士,研究方向为知识图谱构建、自然语言处理。
来源:EMNLP 2020.
论文下载地址: https://www.aclweb.org/anthology/2020.emnlp-main.502.pdf
项目源码地址: https://github.com/ccclyu/ComHyper
动机
Taxonomy中包含了结构的良好的词汇知识资源,对各种自然语言处理任务至关重要,包括问答、文本蕴含和文本生成等。当从零开始自动构建或填充手工创建taxonomy时,上下位关系检测任务起着核心作用。对于一对查询词 ,需要推断 和 之间是否存在上下义关系。
目前主要有两种方法,基于模式的方法和基于分布的方法。基于模式的方法有较高的精确度,但由于稀疏性问题导致召回率一般,并且目前已有的方法主要致力于解决第一类稀疏性问题;而基于分布的方法尽管适用范围更广,但整体表现较差,并且不足以填补基于模式方法由于第二类稀疏性问题带来的数据缺失。
为了解决以上问题,作者提出了一个补充框架ComHyper模型——综合了基于模式与基于分布方法在解决稀疏性问题上的优势。
1概要
1.1证明当前基于模式的方法的稀疏性问题是不可忽略的;
1.2提出一种基于Hearst和分布式模型互补的框架,使得二者更加充分地发挥效果;
1.3对几个常见的数据集进行了系统的比较,验证了框架的优越性。
2主要内容
2.1提出基于模式的方法的缺陷之一,稀疏性的两种表现形式(正式提出并量化论证):
2.1.1第一类稀疏性问题:x和y分别出现在一些提取的对中,但是(x, y)不存在;
2.1.2第二类稀疏性问题:x或y不包含在任何提取的配对中(看不见的关系)。
2.1.3研究现状:通过矩阵分解或嵌入技术仅能缓解第一类稀疏性,并不能推广到第二类。DIH能够利用上下文来提取出一些看不见的关系,但是效果仍然不如基于模式的方法。
2.2提出两个问题
2.2.1问题1:第二类问题在实践中常见吗?
经过对真实世界的语料进行分析,表明在实践中遇到第二类问题的概率甚至可以达到50%以上,因此这是不可忽略的。
论证:
(1)将“可见的词”定义为IP,而“不可见的词”定义为OOP,整个训练语料库包含的名词词汇定义为V。通过统计词频和基于Hearst模式得到的词汇进行统计分析计算两条曲线之间形成的面积得出实际场景中大概有19.9%的OOP情况,如图1所示。
图1 语料库中所有名词和IP名词的频率
(2)同时对几个数据集中的数据进行了统计对比,结果如图2 所示。
图2 几个数据集OOP类型数据占比结果
(3)结论:有了OOP的概率,可以估计出现第二类稀疏性情况的概率,即 中有任意一项是OOP的概率,通过计算估计出现第二类问题的概率在19.9%-35.8%之间,甚至可能超过50%。
2.2.2问题2:如何用分布的方法补充基于模式无效的看不见的数据?
2.3提出框架ComHyper:利用了基于模式的模型在第一类情况下的优越性能和第二类情况下分布模型的广泛覆盖性。具体来说,为了处理第二类稀疏性,ComHyper使用了一个训练阶段从基于模式的输出空间进行采样,用于另一个由不同上下位编码器实现的监督模型。在推理阶段,ComHyper使用这两个模型分别处理他们擅长的稀疏类型。框架结构如图3所示:
图3 从语料库中检测上下义关系的补充方法的总体框架
Pattern-Based Model:在整个框架中有两个重要作用:(1)从P(从语料库中提取的所有名词)进行统计和归纳,以评估 中pair;(2)通过采样器为后面的监督训练提供训练样本,用于训练分布模型。
Distributional Model:训练一个监督神经网络模型,输入为上下词对的上下文向量,训练点积用于分类(0或1)。
Training the Distributional Model:损失函数设置如下:
Encoding Queried Words:
(1)Transformed Word Vector:预训练词嵌入,采用预训练的向量并通过多层感知机MLP得到嵌入向量。
(2)NBOW with MEAN-Pooling: 是x的上下位语料,针对们每一个词汇c,通过预训练得到c的每一个 ,求得平均得到c向量,在通过MLP得到输入向量。但是这样的方法忽略了上下文单词的顺序,可能不能很好的保留语义。
(3)CONTEXT2VEC with MEAN-Pooling:使用context2vec编码器代替NBOW,分别使用两个方向相反的LSTM对c进行编码;
(4)Hierarchical Attention Networks.:将注意力放在不同的上下文单词和文本上,通过前馈神经网络来估计每个单词的重要性。
3数据集
3.1Is-a关系数据集:用《Hearst patterns revisited: Automatic hypernym detection from large text corpora》发布的421K is-a关系pair。
3.2语料库:用《Building a very large corpus of english obtained by web crawling: ukwac》中使用的Gigaword语料库。
3.3评估数据集:BLESS (2011), VAL, LEDS, SHWARTZ , WBLESS ( 2014)
4实验过程和实验结果
4.1实验过程:在框架中采用SVDPPMI作为基于模式的模型。用Skip-Gram在语料库上预先训练300维的单词嵌入,以便使用分布模型。比较了W2V、NBOW/CONTEXT2VEC with MEAN-Pooling (NBOW/C2V), 和Hierarchical Attention Networks几种嵌入方式对实验结果的影响。编码器的输出向量维度设置为300。Batch=128,学习率设置为0.003。
4.2实验结果:
(1)如图4所示,在OOP上的表现,除了Leads数据集,模型都比其他方法有一个更好的表现。尤其是在BLESS数据集上,其cosine余弦相似度的准确率为0(这是由于余弦相似度的对称性),但论文中提出的模型准确率可以达到0.975。
图4 在OOP数据上的实验结果
(2)在所有查询对上的实验结果如图5所示,与仅仅只是基于模式的方法和仅仅只是基于监督模型的方法作对比,发现除了在词汇蕴含上论文方法表现不如基于模式的方法外,在其他几个数据及上都明显比另外两个单独的方法表现更好。其中,表现最好的是HAN。
图5 在“所有查询对”上的实验结果
5评估方法
5.1采用三个子任务来评估:(1)排序上位词预测:使用BLESS, EVAL, LEDS , SHWARTZ and WBLESS等数据集进行准确率评估,正例的预测的排名应该高于负例;(2)上下位词的方向确定:确定一对中哪个词的意义更广;(3)分级蕴含:预测HYPERLEX上的标量分数,评估真实标签和预测分数之间的相关性ρ。
6总结
6.1将基于模式的方法与基于分布的方法相结合,并提出了一个互补框架来检测上下位关系。
6.2正式定义和描述了稀疏性的两种表现形式,并论证了第二类稀疏性情况的普遍存在性与不可忽略性。
6.3实验对比分析验证了互补框架能够综合两种方法在解决两类稀疏性问题上的优势,从而提升预测上下位的表现。
OpenKG
开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
点击阅读原文,进入 OpenKG 网站。