目前,一些基于知识表示学习的补全方法没有充分考虑多步关系路径中各关系与直接关系之间的关联信息,以及头尾实体类型与直接关系之间的关联信息。 本论文对这些关联信息进行提取和利用,并提出了知识图补全的AiTransE模型。该模型利用首尾实体之间的多步关系路径中各关系的出现频率来计算与直接关系的关联程度,并利用首尾实体类型和直接关系类型进行匹配来获得它们之间的关联程度。最后,对两个关联度进行线性加权合并后引入目标函数,使模型对不同三元组给予不同的关注,提高模型知识表示学习性能。
AiTransE模型的5个部分:
(1)过滤KG中三元组中两个实体之间的路径。 (2)提取多步路径中各关系与直接关系之间的关联信息。(3)将头尾实体类型与直接关系进行匹配,得到头尾实体与直接关系关联度的评价。(4)对两种关联信息进行整合,得到三元组的关联得分。 (5)在TransE模型的基础上,加入关联评分,得到AiTransE模型。
(1)过滤KG中三元组中两个实体之间的路径
参考路径约束资源分配算法PCRA的思想来衡量路径的可靠性。 给定头实体h和路径p,路径的可靠性根据最终流经p到尾实体的资源量来测量,流向路径中e1节点的资源量的计算定义为:
对于每个直接前驱节点k属于S(e1)(即直接连接到节点e1的节点),它的资源量Rp(k)会被平均地分给它的所有后继节点SN(k)。这样做的目的是为了模拟资源在路径上的流动情况,并通过这种方式来评估路径的可靠性。
由于路径中部分实体出度较高,其所在路径的可靠性会明显降低,因此可靠性阈值设置为0.01,从实体之间存在的众多路径中获取高质量的信息并提高处理速度。
(2)提取多步路径中各关系与直接关系之间的关联信息
为了获得KG中多级关系路径中的每个关系与直接关系之间的关联程度,对过滤后得到的路径中的关联信息进行统计。计算对应于直接关系ri的路径中关系的关联度,就是使用每个关系在多步关系路径中的出现次数度量关联度。
分子表示关系在与目标关系的多步路径中出现的次数,“+1”是拉普拉斯平滑项,用于避免零概率问题。这意味着即使某个关系rj从未在多步路径中出现,分子仍会有一个值1,从而确保这个关系的关联度不为零。
分母的作用是对所有可能关系的出现次数进行归一化,确保所有关系的关联度总和为1。
(3)获取类型相关信息
Rt(r) 表示通过关系r连接的头尾实体类型集合。Et(h,t)表示实体h和t的类型的笛卡尔积所形成的所有可能类型组合的集合。
∣Rt(r)∩Et(h,t)∣是集合Rt(r) 和Et(h,t) 的交集的大小,即两者中成功匹配的类型组合的数量。
∣Rt(r)∣是集合Rt(r) 的大小,即关系r下所有可能类型组合的数量。
这个公式计算的是成功匹配的比例,匹配比例越高,表明实体类型组合的关联度越强。
(4)相关信息的加权融合
采用加权融合的方法将上述两种关联信息进行融合,来表示三元组的相关程度。 融合方法定义为:
(5)模型训练