网络实体对齐是指给定两个网络,把两个网络中等价的实体合并。实体对齐在很多领域都有重要应用,比如,跨平台社交网络的用户对齐可以用于用户画像、用户兴趣挖掘,跨语言知识图谱的实体对齐可以辅助机器翻译、跨语言信息检索。
传统的方法在做实体对齐任务时主要有两种思路。
一种是基于实体的标签信息,例如社交网络的用户昵称、知识图谱的实体名称。其效果在实际应用时并不理想,例如社交网络中,用户昵称存在重名、匿名和多用户名的问题;在知识图谱中,跨语言的实体名称依赖于机器翻译的效果。
另一种思路是基于人工定义特征,例如知识图谱中两个实体的类别是否一致、社交网络中两个用户的公共邻居有多少。这种方法需要人工针对具体问题仔细设计特征,但是这些特征大多数很难迁移到其他场景。
近几年,基于嵌入表示学习的方法越来越多地受到关注,给定一个网络,嵌入表示学习可以把实体映射为低维向量空间中的一个点。其中,知识图谱领域以TransE为代表,社交网络领域以Deepwalk为代表,这两种方法都是受到词嵌入的Skip-gram模型的启发而产生的。与网络实体对齐类似,自然语言处理中也存在跨语言a词对齐问题。在嵌入表示的方法提出之前,词对齐和网络实体对齐基本上处于独立发展的状态,嵌入表示的方法提出以后,两者的发展表现出很多的相似性。
基于嵌入表示的对齐模型在最开始提出的时候基本上遵循两种思路,这两种思路都基于单一网络的嵌入表示。
第一种思路是把一些预先匹配好的实体合并,从而把两个网络合并为一个网络,进而用单一网络的嵌入表示进行嵌入。这种方法在知识图谱中以JE [1](2016年CCKS)为代表,在社交网络中以IONE [2](2016年IJCAI)为代表。
第二种思路是先用单一网络的嵌入模型分别训练两个网络,然后用一些预先匹配好的实体训练一个线性变换对齐两个向量空间。这种方法在知识图谱中以MTransE [3](2017年IJCAI)为代表,在社交网络中以PALE [4](2016年IJCAI)为代表。具体实现的时候(如MTransE)用单一网络嵌入损失函数和向量映射的损失函数求和一起训练也能达到类似的效果。
此后,在这些方法的基础上研究者开始改进对齐效果。改进分为两个方向:
首先是迭代。直观来看,新发现的匹配实体能够继续促进新的匹配实体的发现,因此这个过程是一个很自然的迭代过程,IPTransE [5](2017年IJCAI)这篇论文就是基于这种想法。但是,迭代存在错误传播的问题,他们通过给迭代出的置信度低的种子更小的权重来缓解这个问题,最近,BootEA [6](2018年IJCAI)通过让已经发现的匹配实体可编辑或删除进一步缓解了错误传播。
其次是结合属性信息。只用网络的结构信息有时候无法达到很好的匹配效果,因此结合属性信息也是对齐问题的一种重要的研究方向。在知识图谱领域的代表工作有JAPE [7](2017年ISWC)、KDCoE [8](2018年IJCAI)、GCN-Align [9](2018年EMNLP),在社交网络领域的代表工作有REGAL [10](2018年CIKM)、MEgo2Vec [11](2018年CIKM)。
再近一些,2019年可以说是对齐任务模型爆炸增长的一年,新的方向和思路层出不穷,主要分为以下四个:
无监督对齐
对齐问题的设定是有一些预先匹配好的实体,但是这种设定有时无法满足,因此有不少研究者在探索如何无监督地进行实体对齐。
第一种思路是让结构和属性信息相互”监督“,从而达到不需要预先匹配实体的效果。[12](2019年AAAI)
另一种思路是基于对抗的方法对齐两个网络。让判别器区分两个网络中生成的点,直到判别器无法判别生成的点来自哪个网络,两个网络就对齐了。[13](2019 arxiv)
多视角嵌入
由于对齐问题的复杂性,单一模型的嵌入能力往往不足以对齐两个网络,因此从多种视角来对齐效果会更好。代表论文MOANA [14](2019年WWW),这篇论文提出了多层次嵌入的对齐方法,从不同颗粒度层面多角度地理解实体。ACL 2019的一篇短文[15]也有类似的动机,但是使用的方法不同,他们通过多层感知机将多种信息(属性信息、局部结构信息、全局结构信息)进行结合。MultiKE[18](2019年IJCAI)对更多的视角和更多的结合方法进行了尝试,对齐的命中率也有更大的提升。
改进现有嵌入表示模型并用于对齐
第三种是非常硬核的方向:改进现有的嵌入表示模型并用于对齐,相当于从底层改进对齐效果。代表论文是SEA [16](2019年WWW)。这篇论文指出现有的嵌入模型会让度(节点的邻居个数)相似的节点更接近,但是这一点对于对齐任务来说并不是一件好事,因此提出了用对抗训练的方法解决这个问题。判别器的目标是预测节点的度,生成器的目标是让判别器无法预测节点的度,这样最后的嵌入表示就会削弱度的影响。
超大规模对齐
大多数现有的对齐工作都是在几十万实体、至多几百万实体的数据集上进行测试,而在上亿个节点的网络对齐时,无论是从计算复杂度还是对齐效果上,都会有新的问题产生。OAG [17](2019年KDD)将两个有着上亿级别节点的网络——AMiner和微软学术进行了对齐,这项研究综合利用了LSTM、GNN、哈希等技术,能够高效处理多种类型的节点以及不同类型的信息,并且将对齐效果达到了可以应用的级别(总体F1值96.81)。
参考文献
Hao Y, Zhang Y, He S, et al. A joint embedding method for entity alignment of knowledge bases[C]//China Conference on Knowledge Graph and Semantic Computing. Springer, Singapore, 2016: 3-14.
Liu L, Cheung W K, Li X, et al. Aligning Users across Social Networks Using Network Embedding[C]//IJCAI. 2016: 1774-1780.
Chen M, Tian Y, Yang M, et al. Multilingual knowledge graph embeddings for cross-lingual knowledge alignment[J]. arXiv preprint arXiv:1611.03954, 2016.
Man T, Shen H, Liu S, et al. Predict Anchor Links across Social Networks via an Embedding Approach[C]//IJCAI. 2016, 16: 1823-1829.
Zhu H, Xie R, Liu Z, et al. Iterative Entity Alignment via Joint Knowledge Embeddings[C]//IJCAI. 2017: 4258-4264.
Sun Z, Hu W, Zhang Q, et al. Bootstrapping Entity Alignment with Knowledge Graph Embedding[C]//IJCAI. 2018: 4396-4402.
Sun Z, Hu W, Li C. Cross-lingual entity alignment via joint attribute-preserving embedding[C]//International Semantic Web Conference. Springer, Cham, 2017: 628-644.
Chen M, Tian Y, Chang K W, et al. Co-training embeddings of knowledge graphs and entity descriptions for cross-lingual entity alignment[J]. arXiv preprint arXiv:1806.06478, 2018.
Wang Z, Lv Q, Lan X, et al. Cross-lingual Knowledge Graph Alignment via Graph Convolutional Networks[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2018: 349-357.
Heimann M, Shen H, Safavi T, et al. Regal: Representation learning-based graph alignment[C]//Proceedings of the 27th ACM International Conference on Information and Knowledge Management. ACM, 2018: 117-126.
Zhang J, Chen B, Wang X, et al. MEgo2Vec: Embedding matched ego networks for user alignment across social networks[C]//Proceedings of the 27th ACM International Conference on Information and Knowledge Management. ACM, 2018: 327-336.
Trisedya B D, Qi J, Zhang R. Entity Alignment between Knowledge Graphs Using Attribute Embeddings[C]. AAAI, 2019.
Derr T, Karimi H, Liu X, et al. Deep Adversarial Network Alignment[J]. arXiv preprint arXiv:1902.10307, 2019.
Zhang S, Tong H, Maciejewski R, et al. Multilevel Network Alignment[C]//The World Wide Web Conference. ACM, 2019: 2344-2354.
Xu K, Wang L, Yu M, et al. Cross-lingual Knowledge Graph Alignment via Graph Matching Neural Network[J]. arXiv preprint arXiv:1905.11605, 2019.
Pei S, Yu L, Hoehndorf R, et al. Semi-Supervised Entity Alignment via Knowledge Graph Embedding with Awareness of Degree Difference[C]//The World Wide Web Conference. ACM, 2019: 3130-3136.
https://www.aminer.cn/oag2019
Zhang Q, Sun Z, Hu W, et al. Multi-view Knowledge Graph Embedding for Entity Alignment[J]. arXiv preprint arXiv:1906.02390, 2019.
AI Time是一群关注人工智能发展,并有思想情怀的青年人创办的圈子。AI Time旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造成为北京乃至全国人工智能知识分享的策源地和聚集地。
AI Time:论道自动机器学习与可解释机器学习
时间:6月19日15:00-17:00
地点:海淀区中关村东路搜狐大厦二楼1911(清华科技园)
本次活动我们邀请了四位大牛:美国伊利诺伊大学芝加哥分校(UIC)特聘教授Philip Yu(ACM/IEEE Fellow,原ACM TKDD主编)、美国密歇根大学Qiaozhu Mei教授(绝对的青年才俊,刚拿了WWW 最佳论文,之前还拿过ICML、WSDM最佳论文)、北京大学的王立威教授(无敌的青年才俊,ML理论方面难逢对手)、百度高级研究员李兴建。
赶快戳下方小程序进入AI Time报名通道!
学术头条
发掘科技创新的原动力
您的转发就是我们最大的动力
点击阅读原文访问AMiner官网