A Novel Negative Sample Generating Method for KnowledgeGraph Embedding

摘要

为了有效地提取知识图中的关系和原因，将实体和关系编码到一个连续的低维语义空间中。在负样本生成阶段，大多数知识图嵌入方法更注重替换头或尾实体以提高训练效率，很少替换关系。这些负样本生成方法对关系预测的贡献不大。本文提出了一种新的负三重组生成方法。与仅替换TransE、TransH、TransR等实体的方法相比，本文提出的方法以适当的比例替换实体和关系。在WN18和FB15K等经典数据集上的实验结果表明，该方法在关系链路预测精度上明显优于原始方法，对实体链路预测影响较小。根据实验结果，我们还发现，随着关系替换概率比例的增加，关系链接预测能力增强，实体链接预测能力减弱。

2 Related Work

在TransG[18]中，负三元组不仅通过替换头或尾实体生成，而且通过将关系r替换为从关系集r中均匀抽样的随机关系生成，即

它们只是简单地用等概率替换实体和关系来生成负三元组，而忽略了实体和关系替换概率的比例对实体和关系预测性能的影响。

为了提高负训练样本的质量，Type-Constraints[9]采用了约束实体范围生成负样本的策略。受生成式对抗网络(generative adversarial networks, GANs)[7]的启发，KBGAN[5]采用一些知识嵌入模型作为生成器来构造质量更好的负样本。为了获得优异的训练效率，ComplEx[16]研究了正、负样本比例的影响。研究表明，每阳性样本产生更多的阴性样本可以获得更好的结果，每阳性样本产生50个阴性样本是准确性和训练时间之间的良好权衡。

在此工作中，我们将关系替换引入到负样本生成中，并为实体和关系设置不同的替换概率，以获得更好的实体和关系预测结果。

3 The Proposed Negative Samples Generating Method

在本节中，提出了一种新的生成负样本的方法来改进知识表示模型的训练过程。在本文提出的方法中，通过替换正三元组(h;r;t)∈S中的头部实体h、尾部t或关系r来生成负样本集S’，并且每次只替换每个观察三元组中的一个项目。如何设置关联概率和实体替换概率是本文研究的重点。我们分两步解决这个问题。首先，根据知识图中实体和关系的数量设置实体替换概率和关系替换概率，然后根据关系r的所有三元组中的两个统计量设置正尾部实体替换概率:1)每个头部实体的平均尾部实体数量，2)每个尾部实体的平均头部实体数量。详细描述如下。

在许多知识表示模型中，通常采用基于边际的分数函数，以负抽样作为训练目标:

与其他损失函数认为负例为假的假设不同，这个损失函数只是假设负例不如正例有效。它使消极的例子比积极的例子得分低。

在小批量模式下，可采用随机梯度下降法(SGD)对式(3)进行优化[14]。详细的培训程序如下。首先，所有实体和关系的嵌入向量从均匀分布随机初始化。接下来，在每次迭代中，对实体和关系的嵌入向量进行规范化。然后，从集合S中抽取一小部分正事实，对于每一个正事实，相应地生成一个负三元组。将正面事实和生成的负面事实作为小批量的训练样例。然后用恒学习率梯度下降法更新小批量中实体和关系的嵌入向量。

为了改进TransE、TransH和TransR等知识图嵌入方法的训练过程，我们通过用关系替换破坏三元组来扩展负例空间。因此我们的负三重集也可以用第2节中的公式(2)来描述。然后，提出了一种新的生成负三元组的方法，并将其应用于transse、TransH和TransR三种表示模型。受TransH方法的启发，我们对正三元组中的关系、头实体或尾实体设置了不同的替换概率。