摘要
为了有效地提取知识图中的关系和原因,将实体和关系编码到一个连续的低维语义空间中。在负样本生成阶段,大多数知识图嵌入方法更注重替换头或尾实体以提高训练效率,很少替换关系。这些负样本生成方法对关系预测的贡献不大。本文提出了一种新的负三重组生成方法。与仅替换TransE、TransH、TransR等实体的方法相比,本文提出的方法以适当的比例替换实体和关系。在WN18和FB15K等经典数据集上的实验结果表明,该方法在关系链路预测精度上明显优于原始方法,对实体链路预测影响较小。根据实验结果,我们还发现,随着关系替换概率比例的增加,关系链接预测能力增强,实体链接预测能力减弱。
2 Related Work
在TransG[18]中,负三元组不仅通过替换头或尾实体生成,而且通过将关系r替换为从关系集r中均匀抽样的随机关系生成,即
它们只是简单地用等概率替换实体和关系来生成负三元组,而忽略了实体和关系替换概率的比例对实体和关系预测性能的影响。
为了提高负训练样本的质量,Type-Constraints[9]采用了约束实体范围生成负样本的策略。受生成式对抗网络(generative adversarial networks, GANs)[7]的启发,KBGAN[5]采用一些知识嵌入模型作为生成器来构造质量更好的负样本。为了获得优异的训练效率,ComplEx[16]研究了正、负样本比例的影响。研究表明,每阳性样本产生更多的阴性样本可以获得更好的结果,每阳性样本产生50个阴性样本是准确性和训练时间之间的良好权衡。
在此工作中,我们将关系替换引入到负样本生成中,并为实体和关系设置不同的替换概率,以获得更好的实体和关系预测结果。
3 The Proposed Negative Samples Generating Method
在本节中,提出了一种新的生成负样本的方法来改进知识表示模型的训练过程。在本文提出的方法中,通过替换正三元组(h;r;t)∈S中的头部实体h、尾部t或关系r来生成负样本集S’,并且每次只替换每个观察三元组中的一个项目。如何设置关联概率和实体替换概率是本文研究的重点。我们分两步解决这个问题。首先,根据知识图中实体和关系的数量设置实体替换概率和关系替换概率,然后根据关系r的所有三元组中的两个统计量设置正尾部实体替换概率:1)每个头部实体的平均尾部实体数量,2)每个尾部实体的平均头部实体数量。详细描述如下。
在许多知识表示模型中,通常采用基于边际的分数函数,以负抽样作为训练目标:
与其他损失函数认为负例为假的假设不同,这个损失函数只是假设负例不如正例有效。它使消极的例子比积极的例子得分低。
在小批量模式下,可采用随机梯度下降法(SGD)对式(3)进行优化[14]。详细的培训程序如下。首先,所有实体和关系的嵌入向量从均匀分布随机初始化。接下来,在每次迭代中,对实体和关系的嵌入向量进行规范化。然后,从集合S中抽取一小部分正事实,对于每一个正事实,相应地生成一个负三元组。将正面事实和生成的负面事实作为小批量的训练样例。然后用恒学习率梯度下降法更新小批量中实体和关系的嵌入向量。
为了改进TransE、TransH和TransR等知识图嵌入方法的训练过程,我们通过用关系替换破坏三元组来扩展负例空间。因此我们的负三重集也可以用第2节中的公式(2)来描述。然后,提出了一种新的生成负三元组的方法,并将其应用于transse、TransH和TransR三种表示模型。受TransH方法的启发,我们对正三元组中的关系、头实体或尾实体设置了不同的替换概率。