论文浅尝 | 从具有数值边缘属性的知识图谱中学习嵌入

论文笔记整理：朱珈徵，天津大学硕士
链接：https://www.ijcai.org/proceedings/2021/0395.pdf

动机

从遗传数据到社会网络，在越来越多的场景下与知识图谱边缘相关的数值已经被用来表示不确定性、边的重要性，甚至是带外知识。然而，传统的知识图嵌入模型并没有设计来捕获这些信息，这损害了预测能力。在这项工作中，作者们的任务是预测缺失环节的概率估计与数字增强三元知识图。作者提出了FocusE，一个知识图嵌入的附加层，以增强边相关数字文字的链接预测，它将数字边缘属性注入传统知识图嵌入体系的评分层。对公开可用的丰富数字的知识图的实验表明，作者的方法优于传统的数字不可知的基线以及最近的UKGE模型。

亮点

FocusE的亮点主要包括：

1.FocusE适用于采用标准负样本生成协议的任何现有KGE模型，并使用边数值字面值来调节真三元组的分数与其相应的负损坏之间的差值；2.通过修改损失函数，以更稀疏的困难示例为目标，利用数值文字将传统KGE模型聚焦于具有更高数值的三元组，实验表明，使用FocusE训练的模型优于数字不可知的基线，特别是在区分具有高数值属性的三元组和与低值相关的三元组时；

概念及模型

基于FocusE增强的知识图嵌入模型体系结构。附加组件充当传统计分层和损失之间的中间层。知识图嵌入模型(KGE)是用于预测实体之间缺失链接的神经结构；知识图的嵌入是通过在训练知识图上训练神经结构来学习的:输入层将训练三元组提供给检索实体和关系的嵌入查找层。在本文中，作者预测了看不见的数值增强三元组t = (s, p, o, w)的概率估计。该任务被形式化为传统链路预测的相同的学习排序问题。

基于FocusE增强的知识图嵌入模型体系结构如下：

•FocusE

FocusE是一个知识图嵌入架构的附加层，旨在用数字丰富的三元组进行链路预测。FocusE会考虑与每个链接相关联的数字文字。不管它们的语义如何，作者都是在数值强化或减弱链接存在的可能性的假设下操作的。例如，给定数值w在[0 - 1]范围内，作者假设高值识别出具有更高概率为真的三元组，低值挑选出弱或不太可能的关系，而w = 0三元组被认为是负样本。

FocusE包含一个插件层，该插件层位于传统KGE方法的计分层和损失层之间，设计用于训练期间，如上图。与传统体系结构不同，在将评分层提供给损失函数之前，作者根据与三元组相关的数值调整其输出，以获得重点评分。作者利用与三元组相关联的数值，以便在训练期间，模型将重点放在具有更高数值的三元组上。模型从训练具有高数值的三元组中学习，同时使用边缘数值来最大化分配给真实三元组的分数和分配给其损坏的分数之间的差值。这会增加模型的损失，并帮助它关注具有更高值的三元组。

设t = (s, p, o)是正的三元组。作者定义t的变体为 t_{-}=(s,p,o')或t^{-}=(s',p,o)。其中, s', o' 分别是主体或客体的变体。

设f(t)为KGE模型的打分函数：

作者使用软加非线性σ来确保f(t)返回的分数大于或等于零，而不引入过多的失真：

为了考虑与三元组相关的数值的影响，作者定义了一个调制因子是α∈R，它负责在图形结构的影响和与每个三元组相关的数值的影响之间取得平衡：

在β∈[0,1]是结构性的影响,一个调制图拓扑影响的超参数，并且w∈R是与正三元组t相关联的数值。β用于重新衡量三元组价值w。如果β= 0使用原始数值w。当β = 1时，忽略数值w，模型等效于传统KGE结构。注意，正三元组和负三元组被分配了不同的α方程。这样做是为了在三元组数值较高时降低三元组值与它们各自的错误值之间的差值。

最后，FocusE层h(t)定义为：

把上述所有这些放在一起，FocusE层h(t)然后在损失函数L中使用。这是一个修改过的，更稳定的数字版本的负对数似然标准化softmax分数：

理论分析

实验

作者评估了FocusE在链接预测任务中的预测能力。实验表明，FocusE在区分低值三元组和高值三元组方面优于传统的KGE模型及其最接近的直接竞争对手UKGE。作者采用了3个公开数据集进行实验，分别是：CN15K、NL27K、PPI5K。

作者预测每个三元组t = (s, p,o) ∈T是否是一个正的事实，其中t是一个不相交的保留测试集，只包括正的三元组。作者把这个问题看作是一个学习排序的任务:对于每一个t = (s, p,o) ∈T，作者通过一次破坏其中一方(即主体或客体)来生成合成的负t。作者预测每一个t和它的所有负t的得分。然后作者将唯一的正t与所有负N进行排序。作者报告了通过从生成的变体列表中过滤掉虚假的基本事实正数来学习排名度量，如平均秩(MR)、平均倒数秩(MRR)和n(其中n = 1,10)的命中率。

结果表明，FocusE带来了更好或非常相似的MRR，相较于传统的数字不可知的基线:FocusE增加了所有模型的MRR，它比最好的基线高出14个基点。实验表明，FocusE在CN15K上的MRR比UKGE高15个基点，在NL27K上的MRR比UKGE高19个基点，在PPI15K上的MRR比UKGE高30个基点。FocusE实现了更好的预测能力，而不需要额外的带外规则

下图显示了如果λ增加，性能就会提高。在大多数情况下，当λ > 400 epoch时，模型性能达到饱和

总结

作者证明，通过插入一个额外的层，可以使传统的KGE体系结构意识到与三元组相关的数值。这将导致模型更好地区分高值和低值三元组，而不考虑数字属性的语义，而且不需要额外的带外规则(与UKGE不同)。未来的工作将研究预测与看不见的三元组相关的数值的能力。作者还将扩展他们的方法，以支持与同一个三元组关联的多个数字属性。

OpenKG

OpenKG（中文开放知识图谱）旨在推动以中文为核心的知识图谱数据的开放、互联及众包，并促进知识图谱算法、工具及平台的开源开放。