论文笔记整理:郭凌冰,浙江大学研究助理,研究方向为知识图谱的表示学习。
绝大部分现有的知识图谱对齐方法都要求足够的已对齐三元组作为监督数据,但在现实世界中,获取大量的对齐三元组的代价十分高昂。本文提出一种同时适用于全监督或者弱监督知识图谱对齐的方法,其通过一种基于对抗学习的框架(KAGAN)来对齐不同知识图谱中实体和关系的嵌入表示:
本文首先定义了由源知识图谱的实体(或关系)到目标知识图谱的实体(或关系)的概率:
,
其中为温度参数,,为线性投影矩阵,用于将对应的源知识图谱实体或关系的嵌入表示投影到目标知识图谱空间进行距离比较。
接着,本文在此基础上又定义了由源知识图谱的三元组到目标知识图谱的三元组的概率:
上述公式通过将对应三元组内的头实体,关系,尾实体间的概率相乘得到最终三元组间对齐的概率。
之后利用全概率公式可以得到一个目标三元组的概率分布:
因此,通过训练一个判别器来使得上述对齐函数生成的三元组尽可能接近目标知识图谱中的真实三元组分布:
其中均为多层神经网络用于评估样本得分,其最终的判别器损失函数为:
由于利用所采样得到的对抗样本是离散的,因此需要通过构建反馈函数来更新生成器部分的梯度:
为了避免源知识图谱中的多个实体对齐到同一个目标知识图谱中的实体(即对抗模型中普遍存在的模型崩塌问题),本文还提出了一种最大化对齐实体与源知识图谱实体之间互信息的正则方法:
在实验部分,本文验证了所提出的模型能在多个数据集上取得领先的结果:
并通过消融实验进一步验证了各模块的有效性:
从表3可以看出,基于互信息最大化的正则方法能够有效提升模型的性能。
从表4可以看出,单独使用对抗学习的方法要优于基于随机采样的方法,而两者的结合并不能进一步提升性能。
最后,本文还探讨了不同的预训练知识图谱嵌入模型以及不同的反馈函数对于结果的影响,结果如表5和表6所示。
欢迎有兴趣的同学阅读原文。
OpenKG
开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
点击阅读原文,进入 OpenKG 博客。