The ́o Trouillon, Johannes Welb, Sebastian Riedel, ÉricGaussier, Guillaume Bouchard . Complex Embeddings for Simple Link Prediction. In Proceedings of the 33ndInternational Conference on Machine Learning, pages 2071– 2080 (ICML2016)
论文链接:http://proceedings.mlr.press/v48/trouillon16.pdf
在统计关系学习里,链接预测问题是自动理解大规模知识库结构的核心。为了更好得把握知识库二元关系中的对称和非对称关系,本文提出了基于复数的表示方法 ComplEx。
一些研究工作将链接预测看作是三维二元张量补全的问题,张量的每一个slice表示知识库中关于一种关系的临接矩阵。典型的做法是对表示知识库的张量进行低秩分解,用分解得到的矩阵的每一行表示知识库中的一个实体或者一种关系。最后对于一个给定的三元组 r(s,o)(注:即主语 s 和宾语 o 具有关系 r),这个三元组的 score 可以通过对于 s,r,o 的表示向量之间的多线性(multi-linear)乘积计算得到。以往工作的问题在于不能很好地处理非对称关系,因为实数向量之间的点积计算是具有交换性的,即如果实数表示下的 r(s,o) 成立,那么 r(o,s) 也必然成立,但在知识库中非对称关系的比例远多于对称关系的比例。所以本文提出了一个基于复数表示的方法,因为复数之间的埃尔米特乘积(Hermitian dot product)是不具有交换性的,具体做法如下:
每个实体和关系都用一个复数向量表示,每个三元组的 score function 定义如下:
Re(x) 表示取 x 的实部,Im(x) 表示取 x 的虚部,三元组 (s,r,o) 的 score 计算过程为关系 r 的表示向量和主语 s 的表示向量以及宾语 o 的表示向量的共轭向量的乘积,并保留最后结果的实部。最终 (s,r,o) 为真的概率通过下式得到:
以下是 ComplEx 在对称关系和非对称关系的实验结果:
从左上的图中可以看出,Complex 和 DistMult 都可以较好地捕捉对称关系的语义信息并做出正确的预测,从右上的图中可以看出 Complex 对于非对称关系语义的捕捉以及预测效果明显优于其他模型。也验证了模型用复数表示的设计思想。
下图是在 WN18 和 FB15 上的链接预测的实验结果:
模型简洁的 ComplEx 在两个数据集上都取得了不错的效果,明显好于当时表现优异的 HolE。
本文模型设计背后的数学思想是比较值得借鉴的地方。
本文作者张文,浙江大学博士在读,研究兴趣为知识图谱,表示学习,常识推理和自然语言处理。
OpenKG.CN
中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。
点击阅读原文,进入 OpenKG 博客。