2020-Structure Aware Negative Sampling in Knowledge Graphs

摘要

使用对比估计学习知识图中实体和关系的低维表示是一种可扩展且有效的推断连接模式的方法。对比学习方法的一个关键方面是选择产生硬负样本的腐败分布，这迫使嵌入模型学习判别表示并找到观察数据的关键特征。虽然早期的方法要么采用过于简单的腐败分布，即统一的，容易产生无信息的负，要么采用具有挑战性优化方案的复杂的对抗性分布，但它们没有明确地纳入导致次优负的已知图结构。在本文中，我们提出了结构感知负采样(SANS)，这是一种廉价的负采样策略，通过从节点的k-hop邻域中选择负样本来利用丰富的图结构。根据经验，我们证明了SANS发现语义上有意义的否定，并且与SOTA方法竞争，同时不需要额外的参数，也不需要困难的对抗性优化。

现在的工作。在这项工作中，我们引入了结构感知负采样(SANS)，这是一种利用KG的图结构来寻找硬负例的算法。具体来说，SANS使用限制于头部或尾部实体的k-hop邻域的实体子集构建负样本。我们假设彼此相邻但没有直接关系的实体彼此相关的可能性更高，因此是负抽样的良好候选者。我们还尝试了一种基于随机游走的动态采样方案来近似节点的局部邻域。从经验上看，我们发现使用SANS的负抽样持续导致均匀抽样和复杂的生成对抗网络(Goodfellow等人，2014)(GAN)基于方法的改进，其计算成本只是一小部分，并且与其他没有添加参数的SOTA方法具有竞争力。

方法

我们基于对之前学习词嵌入的工作(Mikolov等人，2013)的观察来激励我们的方法，其中负采样在历史上已经发展起来，缺乏在KG设置中可以立即访问的图结构的丰富性。因此，我们假设用结构信息丰富负采样过程可以产生更难的负样本，这对学习有效嵌入至关重要。图1突出了我们的方法，该方法需要在第一步为每个节点构建K -hop邻域(K)，

为了构造负三元组，我们现在可以简单地从K的非零单元中采样，它代表了kg中每个节点的所有实体的子集，即。K∧1 e×e。直观地说，SANS利用实体邻域的局部性，其中负样本被定义为在关系r下没有直接联系，但可以通过最多长度为k的路径访问的实体。我们认为，这样的局部负样本更难区分，并导致嵌入模型评估的更高分数。构造K的一个重要技术细节是存在多个关系类型，这需要一个额外的维度来表示图的连通性为邻接和K -hop张量。