基于matlab的fisher线性判别及感知器判别_基于嵌入表示的网络实体对齐方法进展概述...

网络实体对齐是指给定两个网络,把两个网络中等价的实体合并。实体对齐在很多领域都有重要应用,比如,跨平台社交网络的用户对齐可以用于用户画像、用户兴趣挖掘,跨语言知识图谱的实体对齐可以辅助机器翻译、跨语言信息检索。

e0140e87137732e23c5e35250149d44e.png

传统的方法在做实体对齐任务时主要有两种思路。

一种是基于实体的标签信息,例如社交网络的用户昵称、知识图谱的实体名称。其效果在实际应用时并不理想,例如社交网络中,用户昵称存在重名、匿名和多用户名的问题;在知识图谱中,跨语言的实体名称依赖于机器翻译的效果。

另一种思路是基于人工定义特征,例如知识图谱中两个实体的类别是否一致、社交网络中两个用户的公共邻居有多少。这种方法需要人工针对具体问题仔细设计特征,但是这些特征大多数很难迁移到其他场景。

近几年,基于嵌入表示学习的方法越来越多地受到关注,给定一个网络,嵌入表示学习可以把实体映射为低维向量空间中的一个点。其中,知识图谱领域以TransE为代表,社交网络领域以Deepwalk为代表,这两种方法都是受到词嵌入的Skip-gram模型的启发而产生的。与网络实体对齐类似,自然语言处理中也存在跨语言a词对齐问题。在嵌入表示的方法提出之前,词对齐和网络实体对齐基本上处于独立发展的状态,嵌入表示的方法提出以后,两者的发展表现出很多的相似性。

c156e5bde6c3687693e508e70a384b6c.png

基于嵌入表示的对齐模型在最开始提出的时候基本上遵循两种思路,这两种思路都基于单一网络的嵌入表示。

第一种思路是把一些预先匹配好的实体合并,从而把两个网络合并为一个网络,进而用单一网络的嵌入表示进行嵌入。这种方法在知识图谱中以JE [1](2016年CCKS)为代表,在社交网络中以IONE [2](2016年IJCAI)为代表。

8765d864bf7e5025232e7c993b936a60.png

第二种思路是先用单一网络的嵌入模型分别训练两个网络,然后用一些预先匹配好的实体训练一个线性变换对齐两个向量空间。这种方法在知识图谱中以MTransE [3](2017年IJCAI)为代表,在社交网络中以PALE [4](2016年IJCAI)为代表。具体实现的时候(如MTransE)用单一网络嵌入损失函数和向量映射的损失函数求和一起训练也能达到类似的效果。

e8ea3bed20ed9d49616d69f65521c6e7.png

此后,在这些方法的基础上研究者开始改进对齐效果。改进分为两个方向:

首先是迭代。直观来看,新发现的匹配实体能够继续促进新的匹配实体的发现,因此这个过程是一个很自然的迭代过程,IPTransE [5](2017年IJCAI)这篇论文就是基于这种想法。但是,迭代存在错误传播的问题,他们通过给迭代出的置信度低的种子更小的权重来缓解这个问题,最近,BootEA [6](2018年IJCAI)通过让已经发现的匹配实体可编辑或删除进一步缓解了错误传播。

其次是结合属性信息。只用网络的结构信息有时候无法达到很好的匹配效果,因此结合属性信息也是对齐问题的一种重要的研究方向。在知识图谱领域的代表工作有JAPE [7](2017年ISWC)、KDCoE [8](2018年IJCAI)、GCN-Align [9](2018年EMNLP),在社交网络领域的代表工作有REGAL [10](2018年CIKM)、MEgo2Vec [11](2018年CIKM)。

再近一些,2019年可以说是对齐任务模型爆炸增长的一年,新的方向和思路层出不穷,主要分为以下四个:

无监督对齐

对齐问题的设定是有一些预先匹配好的实体,但是这种设定有时无法满足,因此有不少研究者在探索如何无监督地进行实体对齐。

  • 第一种思路是让结构和属性信息相互”监督“,从而达到不需要预先匹配实体的效果。[12](2019年AAAI)

  • 另一种思路是基于对抗的方法对齐两个网络。让判别器区分两个网络中生成的点,直到判别器无法判别生成的点来自哪个网络,两个网络就对齐了。[13](2019 arxiv)

多视角嵌入

由于对齐问题的复杂性,单一模型的嵌入能力往往不足以对齐两个网络,因此从多种视角来对齐效果会更好。代表论文MOANA [14](2019年WWW),这篇论文提出了多层次嵌入的对齐方法,从不同颗粒度层面多角度地理解实体。ACL 2019的一篇短文[15]也有类似的动机,但是使用的方法不同,他们通过多层感知机将多种信息(属性信息、局部结构信息、全局结构信息)进行结合。MultiKE[18](2019年IJCAI)对更多的视角和更多的结合方法进行了尝试,对齐的命中率也有更大的提升。

改进现有嵌入表示模型并用于对齐

第三种是非常硬核的方向:改进现有的嵌入表示模型并用于对齐,相当于从底层改进对齐效果。代表论文是SEA [16](2019年WWW)。这篇论文指出现有的嵌入模型会让度(节点的邻居个数)相似的节点更接近,但是这一点对于对齐任务来说并不是一件好事,因此提出了用对抗训练的方法解决这个问题。判别器的目标是预测节点的度,生成器的目标是让判别器无法预测节点的度,这样最后的嵌入表示就会削弱度的影响。

超大规模对齐

大多数现有的对齐工作都是在几十万实体、至多几百万实体的数据集上进行测试,而在上亿个节点的网络对齐时,无论是从计算复杂度还是对齐效果上,都会有新的问题产生。OAG [17](2019年KDD)将两个有着上亿级别节点的网络——AMiner和微软学术进行了对齐,这项研究综合利用了LSTM、GNN、哈希等技术,能够高效处理多种类型的节点以及不同类型的信息,并且将对齐效果达到了可以应用的级别(总体F1值96.81)。

参考文献

  1. Hao Y, Zhang Y, He S, et al. A joint embedding method for entity alignment of knowledge bases[C]//China Conference on Knowledge Graph and Semantic Computing. Springer, Singapore, 2016: 3-14.

  2. Liu L, Cheung W K, Li X, et al. Aligning Users across Social Networks Using Network Embedding[C]//IJCAI. 2016: 1774-1780.

  3. Chen M, Tian Y, Yang M, et al. Multilingual knowledge graph embeddings for cross-lingual knowledge alignment[J]. arXiv preprint arXiv:1611.03954, 2016.

  4. Man T, Shen H, Liu S, et al. Predict Anchor Links across Social Networks via an Embedding Approach[C]//IJCAI. 2016, 16: 1823-1829.

  5. Zhu H, Xie R, Liu Z, et al. Iterative Entity Alignment via Joint Knowledge Embeddings[C]//IJCAI. 2017: 4258-4264.

  6. Sun Z, Hu W, Zhang Q, et al. Bootstrapping Entity Alignment with Knowledge Graph Embedding[C]//IJCAI. 2018: 4396-4402.

  7. Sun Z, Hu W, Li C. Cross-lingual entity alignment via joint attribute-preserving embedding[C]//International Semantic Web Conference. Springer, Cham, 2017: 628-644.

  8. Chen M, Tian Y, Chang K W, et al. Co-training embeddings of knowledge graphs and entity descriptions for cross-lingual entity alignment[J]. arXiv preprint arXiv:1806.06478, 2018.

  9. Wang Z, Lv Q, Lan X, et al. Cross-lingual Knowledge Graph Alignment via Graph Convolutional Networks[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. 2018: 349-357.

  10. Heimann M, Shen H, Safavi T, et al. Regal: Representation learning-based graph alignment[C]//Proceedings of the 27th ACM International Conference on Information and Knowledge Management. ACM, 2018: 117-126.

  11. Zhang J, Chen B, Wang X, et al. MEgo2Vec: Embedding matched ego networks for user alignment across social networks[C]//Proceedings of the 27th ACM International Conference on Information and Knowledge Management. ACM, 2018: 327-336.

  12. Trisedya B D, Qi J, Zhang R. Entity Alignment between Knowledge Graphs Using Attribute Embeddings[C]. AAAI, 2019.

  13. Derr T, Karimi H, Liu X, et al. Deep Adversarial Network Alignment[J]. arXiv preprint arXiv:1902.10307, 2019.

  14. Zhang S, Tong H, Maciejewski R, et al. Multilevel Network Alignment[C]//The World Wide Web Conference. ACM, 2019: 2344-2354.

  15. Xu K, Wang L, Yu M, et al. Cross-lingual Knowledge Graph Alignment via Graph Matching Neural Network[J]. arXiv preprint arXiv:1905.11605, 2019.

  16. Pei S, Yu L, Hoehndorf R, et al. Semi-Supervised Entity Alignment via Knowledge Graph Embedding with Awareness of Degree Difference[C]//The World Wide Web Conference. ACM, 2019: 3130-3136.

  17. https://www.aminer.cn/oag2019

  18. Zhang Q, Sun Z, Hu W, et al. Multi-view Knowledge Graph Embedding for Entity Alignment[J]. arXiv preprint arXiv:1906.02390, 2019.

AI Time是一群关注人工智能发展,并有思想情怀的青年人创办的圈子。AI Time旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造成为北京乃至全国人工智能知识分享的策源地和聚集地。

AI Time:论道自动机器学习与可解释机器学习

时间:6月19日15:00-17:00

地点:海淀区中关村东路搜狐大厦二楼1911(清华科技园)

本次活动我们邀请了四位大牛:美国伊利诺伊大学芝加哥分校(UIC)特聘教授Philip Yu(ACM/IEEE Fellow,原ACM TKDD主编)、美国密歇根大学Qiaozhu Mei教授(绝对的青年才俊,刚拿了WWW 最佳论文,之前还拿过ICML、WSDM最佳论文)、北京大学的王立威教授(无敌的青年才俊,ML理论方面难逢对手)、百度高级研究员李兴建。

赶快戳下方小程序进入AI Time报名通道!

学术头条

发掘科技创新的原动力

您的转发就是我们最大的动力

点击阅读原文访问AMiner官网

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/506395.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mfc指示灯报警显示_奔驰车辆常用指示灯功能讲解

点击箭头处“蓝色字”,关注我们哦!!今天将为大家解析车辆仪表盘指示灯功能,当然,我们为大家带来的是奔驰车型的指示灯解读。奔驰在指示灯上的设计是什么风格呢?下面我们就来带大家详细解读。疲劳驾驶报警指…

java无锁消费者框架_无锁并行框架多生产者多消费者模型

下面看一下多生产多消费者的模式,下面的代码是模拟100个生产者,每个生产者生产100个事件,然后有3个消费者,同时进行消费,共消费1W个事件,下面看一下代码:这边new出了3个消费者,并把消…

win10无法连接到这个网络_电脑无法连接网络怎么办?(有线网络篇)

哈喽!各位小伙伴大家好呀!好久不见,近期真的太多小伙伴咨询网络问题了,没办法,虽然以前写过相关文章,断网、网络卡、慢、掉线的常规解决方法不过可能还不够细致,本篇就尽量把所有的问题都提出解…

LeetCode反转链表java_Leetcode 反转链表系列 图解详细过程

对于一个程序猿来说,数据结构和算法的重要性就不用我多说了吧,算法题已然成了现在大厂笔试面试的重头戏,废话少说,Leetcode 刷起来呀。说起刷 Leetcode,我建议你按 tag 刷,不然只能像无头苍蝇,东…

amd插帧技术如何开启_联想ThinkPad笔记本电脑如何开启CPU的虚拟化技术图文教程...

联想ThinkPad笔记本电脑如何开启CPU的虚拟化技术图文教程很多情况下可能我们都需要开启CPU虚拟化技术,例如我们需要打开安卓模拟器,在打开安卓模拟器的时候如果提示您需要CPU虚拟化技术,那么我们需要在主板BIOS设置中进行开启,下面…

没有内存条电脑能开机吗_换内存加固态,老电脑也能快到起飞,附纯国产内存条雷赤测评...

我在公司里用的那台电脑是品牌机,配置有点低,处理器是i3-6100,内存是4GB,硬盘是1TB的机械,这个配置日常办公是没有问题的,但是现在有一些活已经超出了这个配置的能力,加之近期的一些工作还需要在…

嵌入式编程要不要学数据结构_少儿编程要不要学?其实国家早就给出了答案……...

随着人工智能的热度不断攀升,少儿编程越来越火,逐渐成为爸妈们的热门话题。自家的孩子适不适合学习少儿编程,很多专业人士发出了各种不同的声音。这也让很多望子成龙的家长一头雾水,分不清究竟该何去何从?那么&#xf…

nrf52840 gpiote如何配置中断输入_西门子S7-200 SMART PID回路控制,配置PID向导,查看项目组件...

本篇我们继续来学习西门子S7-200 SMART的PID回路控制,首先介绍一下如何配置PID向导。在工具菜单功能区单击PID按钮打开PID回路向导对话框,选择要组态的回路,最多可组态8个回路,这里我们选择回路0。选择回路0在左侧的树视图中单击回…

java 大流量高并发_【BAT面试题】如何应对大流量、高并发??

这是一道BAT大厂的面试题所谓高并发指的是:在同时或极短时间内,有大量的请求到达服务端,每个请求都需要服务端耗费资源进行处理,并做出相应的反馈。常用的高并发处理的思路与手段从服务端视角看高并发服务端处理请求需要耗费服务端…

创建一个storageevent事件_谈谈StorageEvent

编者按:本文作者 刘观宇,360 奇舞团高级前端工程师、技术经理,W3C CSS 工作组成员。纷纷红紫已成尘,布谷声中夏令新。夹路桑麻行不尽,始知身是太平人。 ——宋.陆游 《初夏绝句》我们在开发多Tab应用时候,常…

matlab数组平方的计算自定义函数_从零开始的matlab学习笔记——(38)简单数论计算函数:取整,gcd,lcm,质数,全排列...

matlab应用——求极限,求导,求积分,解方程,概率统计,函数绘图,三维图像,拟合函数,动态图,傅里叶变换,随机数,优化问题....更多内容尽在个人专栏&a…

bootstraptable导出excel独立使用_使用 EasyPOI 优雅导出Excel模板数据(含图片)

EasyPOI功能如同名字Easy,主打的功能就是容易,让一个没接触过POI的人员可以方便的写出Excel导出,Excel模板导出,Excel导入,Word模板导出。通过简单的注解和模板语言(熟悉的表达式语法),完成以前复杂的写法。…

import pandas as pd什么意思_Pandas万花筒:让绘图变得更美观

全文共1803字,预计学习时长10分钟图源:tehrantimes流行 Python 数据分析库 Pandas 中的绘图功能一直是迅速绘制图表的首选之一。但是,其可用的可视化效果总是十分粗略,实用有余、美观不足。笔者常用 Pandas 的绘图功能快速地执行一…

jquery name选择器_jquery笔记

jQuery是一个封装好的特定的集合(方法和函数)。是一个库,封装了很多预先定义好的函数在里面。概念jQuery是一个快速,简洁的js库。j是js,query是查询,把js中的DOM操作作了封装,我们可以快速的查询使用里面的功能。jQuer…

python数据库框架_目前最受欢迎的12个Python开源框架

1 Django Django是一款用Python语言写的免费开源的 Python Web应用开发框架,它遵循模型 -视图-控制器(MVC)的架构模式。它是由非营利Django维护软件基金会(DSF)和3条款BSD许可下可用,鼓励快速发展和实用的设计。Django同时是一款在数据库功能、后台功能、…

jenkins java常用插件下载,Jenkins简单介绍以及插件入门

Jenkins是一个广泛用于持续构建的可视化web工具,就是各种项目的的“自动化”编译、打包、分发部署,将以前编译、打包、上传、部署到Tomcat中的过程交由Jenkins,Jenkins通过给定的代码地址,将代码拉取到jenkins宿主机上&#xff0c…

linux安装python3.7的步骤_Linux 安装python3.7.3

我这里使用的是Redhat6.5,centos系统本身默认安装有python2.x,版本x根据不同版本系统有所不同,可通过 python --V 或 python --version 查看系统自带的python版本 有一些系统命令时需要用到python2,不能卸载 1、安装依赖包 1&…

python画三维立体图难吗_万万没想到,Python竟能绘制出如此酷炫的三维图

作者 | Jay Alammar转载自 | 高级农民工 通常我们用 Python 绘制的都是二维平面图,但有时也需要绘制三维场景图,比如像下面这样的:这些图怎么做出来呢?今天就来分享下如何一步步绘制出三维矢量(SVG)图。 八…

php人物行走,非常震撼的纯CSS3人物行走动画

今天分享给大家的是一个用纯CSS3实现的人物行走动画,在没有使用JavaScript的情况下,用CSS3技术将人物行走的姿态描绘得非常逼真。其实动画实现的原理也是比较简单的,将人物行走时的状态分割成多张图片,然后利用CSS3的动画属性将这…

php jquery 弹窗提示框,jQuery实现消息弹出框效果

本文实例为大家分享了jQuery消息弹出框的具体代码,供大家参考,具体内容如下效果图实现代码.showMessage {padding: 5px 10px;border-radius: 5px;position: fixed;top: 45%;left: 45%;color: #ffffff;}.showMessageSuccess {background-color: #00B7EE;}…