文章目录
- 0.总结
- 1.Introduction
- 2.Preliminaries
- 2.2 Scope and Related work
- 2.2.1 Entity Linking=entity disambiguation
- 2.2.2 Entity resolution=entity matching=deduplication=record linkage
- 2.2.3 Entity resolution on KGs
- 2.2.4 EA
- 3.general框架
- 3.1 Embedding Learning Module
- 3.2 Alignment Module
- 3.3 Prediction Module
- 3.4 Extra Information Module
- 4 实验分析
- 4.1分类
- 4.2数据集
- 4.2.1 Metric
- 4.2.2 比较的方法
- 4.3 DBP15K
- 4.4 SRPRS
- 4.5 DWY100k
- 4.6 速度分析
- 4.7 无监督方法比较
- 4.8 Module-Level Evaluation
- 4.9总结
- 4.10 指导和建议
- 5. 新的数据集和未来的实验?
- 5.1 数据集的构建DBP-FB
- 5.2 实验
- 5.3 unmatchable entities
0.总结
- "An Experimental Study of State-of-the-Art Entity Alignment Approaches".
Xiang Zhao, Weixin Zeng, Jiuyang Tang, Wei Wang, Fabian Suchanek. TKDE, 2020 [paper][笔记]
- 推荐结论:
- 详尽的实验分析
- 各种组件的功能性分析(各种技术排列组合)
- 具有unmatch实体的数据集:DBP-FR
- 对模型的选择提出了建议
- 短评
- 优点:实验分析好
- 缺点:模型架构分类不清晰(不知道他指的是什么)
- 类别:
- 实体对齐
- 基于embedding的实体对齐
- 综述
- DBP-FR
- 数据集:
- 自己提出的:DBP-FR
- DWY100k:稠密,单语言,大
- DBP15k:稠密,跨语言
- SRPRS:稀疏
- 图谱
- wikidata/DBpedia/yago3/Freebase
- 规模:15K/100K–候选实体也差不多这么多
- 底层模型:
- 监督、半监督、无监督
- 关系嵌入
- transE系列
- GCN系列
- 额外信息:属性嵌入(文本嵌入)/entity name
- bootstrapping
- ER用作EA
- 速度
- GCN可扩展性好:不会在大数据集上变得特别慢
- 开源软件情况:无
- 评估质量:-
- P/R/F1
- Hits@1,Hits@10,MRR
1.Introduction
动机
- 比较:
- 不公平
- 经验估计
- 设置不同
- 只 用KG/用额外信息
- 一次对齐/迭代训练
- datasets
- 完整的实验评估:没有在所有数据集上评测的方法,难以比较
- 使用场景
- 单语言/多语言
- 稀疏/稠密
- 大规模/中等规模
- 使用场景
- 完整的实验评估:没有在所有数据集上评测的方法,难以比较
- 与真实世界数据存在差异
- 1v1:
- dataset:1v1
- 实际:1v0占大多数
- 单语言名字歧义
- dataset:同名同实体
- 实际:同名不同实体/同实体不同名
- 1v1:
- 不公平
贡献
- a general EA framwork
- 将方法分组,组内+组间评估
- 在不同场景下评估
- 新的数据集:
- 单语言
- unmatchable entity
- ambiguous entity
2.Preliminaries
2.2 Scope and Related work
- 实体对齐entity alignment
- entity resolution
- entity matching
- record linkage
- deduplication
- instance/ontology matching
- link discovery
- entity linking/entity disambigution
- 相关工作
2.2.1 Entity Linking=entity disambiguation
- mention(自然语言)->实体(KG)
- 所用信息
- words:mention附近的
- 目标实体的先验概率
- 已经消歧的实体mentions
- 背景知识(wikipedia)
- entity alignment缺失上述信息
- 实体描述的embedding(我们有)
- 给定mention的entity linking的先验分布
- 所用信息
2.2.2 Entity resolution=entity matching=deduplication=record linkage
- 输入:relational data
- 每个data有许多属性(文本信息) (我们也有)
- 相似度
- object间的
- 用distance/similarity
- names:Jaro-winkler distance
- dates:numerical distance
- 方法
- 规则
- 机器学习
- 分类:匹配与否
- 具体
- 对齐属性
- 计算属性值之间的相似度
- 聚合属性的相似度->records的相似度
2.2.3 Entity resolution on KGs
- ER
- KG+二元关系:如graph-shaped data
- 也用于instance/ontology matching methods
- graph-shaped data:
- 困难:
- textual descriptive information:文本描述中实体很少出现或仅仅只有实体名
- Open World Assumption:在KG中可能不存在实体的属性在现实中也可能存在(不完备)
- 这是和数据库的差别
- additional predefined semantics:
- 最简单:有分类
- 复杂:具备逻辑公理的本体论
- 困难:
- KG+二元关系:如graph-shaped data
2.2.4 EA
-
分类:
- Scope:
- entity alignment<-本文只考虑这个
- relation
- 类别对齐:class of taxonomies of two KGs
- 方法:有一次性执行三种任务的joint model
- Background knowledge
- OAEI:使用ontology(T-box)作为背景信息
- 本文:不适用ontology的方法
- Training
- 无监督:PARIS,SIGMa
- 有监督:基于pre-defined mappings的
- 半监督
- Scope:
-
EA with deep leaning:
- 基于graph representation learning technologies
- 建模KG结构
- 生成实体嵌入
- 基于graph representation learning technologies
-
比较
- 无监督
- PARIS
- Agreement-MakerLight(AML):使用背景信息
- ER方法
- goal相同:EA=ER–因为相同所以比较ER方法
- 无监督
-
Bechmarks:
- 语言内+DBPedia
- DBP15K
- DWY15
- 问题:现有的Bechmarks,只包含schema和instance信息。对不假设有可用的本体的EA方法来说。–所以本文不介绍本体?
- 语言内+DBPedia
-
PS:
- OAEI:推广了KG track
- 不公平
3.general框架
- Embedding
- transE
- GCN
- Alignment
- 2个向量映射到一个空间
- 训练一个相同的向量
- Transition
- Corpus-fusion
- Margin-based
- Graph matching
- Attribution refined
- Prediction:
- 相似度计算:
- cosine
- euclidean
- Manhattan distance
- 相似度计算:
- Extra information Module
- 用以增强EA
- 方法
- bootstrapping(or self-learning:
- 利用置信度高的对齐结果加入训练数据(下个iteration)
- multi-type literal information
- 属性
- 实体描述
- 实体名
- 完善KG的结构
- bootstrapping(or self-learning:
- 模块级别的比较
- 在个模块下介绍各方法如何实现该模块
- 在个模块下介绍各方法如何实现该模块
3.1 Embedding Learning Module
- TransE
- 有实体结构信息
- 有相似邻居的实体距离更接近‘
- 改变:
- MTransE:
- 训练:删除负的三元组,
- 容易过拟合
- BootEA,NAEA
- loss:margin-based loss->a limit-based objective function
- MTransE:
- GCN
- 直接在图结构上操作
- 节点级嵌入:包含邻居信息
- 可以获得几跳的实体信息
- !!:GCN忽略关系
- MuGNN:logistic loss
- 基于attention的GCN
- 给不同的邻居分不同的权重
- KECG:
- Graph attention network(GAT)+TransE获得图内结构和图内对齐信息
- RDGCN:使用DPGCNN
- loss:
- BootEA,NAEA:a limit-based objective function
- MuGNN:logistic loss
- JAPE:design new loss?
- 设计新的embedding models:
- RSNs:使用RNN建模长期关系依赖,在实体间传递语义信息
- RNN+residual learning
- Trans Edge
- new energy function:
- 目的:测量实体嵌入之间边的错误传递(embedding学习中)
- 边的嵌入:通过context compression 和projection建模
- new energy function:
- RSNs:使用RNN建模长期关系依赖,在实体间传递语义信息
3.2 Alignment Module
- 同一多个KG的embeddings
- 方法
-
margin-based function
- pos:seed entity pairs
- neg:替换pos的实体
- 作用:让两个KG的embedding–>一个向量空间
- 特例:
- GM-Align:通过最大化seed之间的匹配概率–匹配框架
- 特例:
- 使用:GNN的方法
-
corpus fusion
- 利用seed建立语料间的bridge
- eg
- BootEA and NAEA:交换seed entity pairs的实体产生新的三元组,来校准embedding到同一个空间
- Others:
- 将seed entity pairs的实体当做同一个实体对待,以此建立一个overlay 图,链接两个KG
-
transition functions:
- 设计一种transition,将KG1=M KG2,map
- 使用额外的信息:
- 实体的属性
- ->同一个空间
-
3.3 Prediction Module
- 相似度计算:
- 欧几里得
- Manh
- cos
- GM-Align:
- 对齐到原实体的目标实体具有更高的匹配概率
- CEA:
- 问题:不同的EA决策中有额外的相互依赖,导致错误的对齐
- 解决:建模collective signal,形式化为稳定匹配问题(distance measure)
3.4 Extra Information Module
- bootstrapping
- (self-learning,Iterative training)
- 上一步的预测,放入下一步的训练中
- 可信实体对的选择策略不同
- ITransE:
- threshold-based strategy
- 可以多对多
- BootEA ,NAEA,TransEdge
- a maxmum likelihood matching
- 约束:1vs 1
- ITransE:
- multi-type literal information
- statistical characteristics of attribute names:JAPE,GCN-Align,HMAN
- generate attribute embeddings:AttrE ,MultiKE
- entity names
- 作为学习实体嵌入的输入特征:GM-Align,RDGCN,HGCN
- CEA:利用实体名的语义级别和字符串级别的信息,作为individual features(个别特征?)
- KDCoE:HMAN+描述增强:编码实体描述,作为实体对齐的特征
- 问题:
- 数据集缺乏textual information,对KDCoE,MultiKE,AttrE不利
4 实验分析
4.1分类
- 组1:仅用KG结构
- 组2:+bootstrapping
- 组3:+额外信息
4.2数据集
-
Embedding数据集
- FBK15
- FBK15-237
- WN18
- WN18RR
-
传统实体对齐数据集:
- OAEI(since 2004)
-
embedding实体对齐数据集
-
DBP15K:
- 跨语言:
- zh-en,
- zh:关系三元组数:70414,关系数1701,属性三元组数:248035
- en: 关系三元组数:95142,关系数1323,属性三元组数:343218
- ja-en,
- ja:关系三元组数:77214,关系数1299,属性三元组数:248991
- en: 关系三元组数:93484,关系数1153,属性三元组数:320616
- fr-en
- fr:关系三元组数:105998,关系数903,属性三元组数:273825
- en: 关系三元组数:115722,关系数1208,属性三元组数:351094
- zh-en,
- 实体对齐连接数:15k(每对语言间)
- 度的分布:大多在1,从2-10,度越大,实体数量下降
- DBPedia
- 跨语言:
-
WK3L
-
DWY100K:
- 每个KG实体数:100k
- 单语言:
- DBP-WD,
- DBP:关系三元组数:463294,关系数330,属性三元组数:341770
- WD:关系三元组数:448774,关系数220,属性三元组数:779402
- DBP-YG
- DBP:关系三元组数:428952,关系数302,属性三元组数:383757
- YG:关系三元组数:502563,关系数31,属性三元组数:98028
- (DBP:DBPedia,YG:Yago3,WD:wikidata)
- DBP-WD,
- 每对有100k个实体对齐连接
- 度的分布:没有度为1or2的,峰值在4,之后递减
-
SRPRS
- 认为以前的数据集太稠密了(DBP,DWY),度的分布偏离现实
- 跨语言:
- EN-FR,
- EN:关系三元组数:36508,关系数221,属性三元组数:60800
- FR:关系三元组数:33532,关系数177,属性三元组数:53045
- EN-DE
- EN:关系三元组数:38363,关系数220,属性三元组数:55580
- DE:关系三元组数:37377,关系数120,属性三元组数:73753
- EN-FR,
- 单语言:
- DBP-WD,
- DBP:关系三元组数:33421,关系数253,属性三元组数:64021
- WD:关系三元组数:40159,关系数144,属性三元组数:133371
- DBP-YG
- DBP:关系三元组数:33748,关系数223,属性三元组数:58853
- YG:关系三元组数:36569,关系数30,属性三元组数:18241
- DBP-WD,
- 每种有15k个实体对齐连接
- 度的分布:很现实
- 度小的实体多(精心取样)
-
EN-FR
-
DBP-FB(An Experimental Study of State-of-the-Art Entity Alignment Approaches)
- DBP: 关系三元组数:96414,关系数407,属性三元组数:127614
- FB:关系三元组数:111974,关系数882,属性三元组数:78740
-
-
度的分布
-
EN-FR的统计
4.2.1 Metric
- 对齐质量:准确性和全面性
- MR
- MRR
- Hits@m:m=1为precision
- precision/recall/f1
- 传统方法再用
- 对齐效率:分区索引技术对候选匹配对的筛选能力和准确性
- 缩减率
- 候选对完整性
- 候选对质量
4.2.2 比较的方法
JAPE -> JAPE-Stru
GCN-Align -> GCN
- ER的方法
- Lev:Levenshtein distance
- Embed:name embedding 的cos
- embedding:用fasttext (预训练的)
- 多语言:MUSE word embedding
4.3 DBP15K
- CEA
- 输出实体对,而非排名
- 仅使用KG结构
- RSNs最好:长关系路径信息的获取–结构信息活动取得好
- MuGNN==KECG
- 共享的目标:their shared objective of completing KG
- 协调差异性
- Completing的实现
- MuGNN:
- 利用AMIE+引入规则
- KECG:
- harnesses transE
- MuGNN:
- 其他三种较差:
- MTransE和JAPE-Stru:使用TransE
- JAPE-Stru好一点:因为MTransE在不同的空间中建模KG的结构,在转移时丢失了信息
- GCN好于上面两个
- MTransE和JAPE-Stru:使用TransE
- +bootstrapping
- 最差:
- ITransE:
- 原因1:两种embedding之间的translation 造成了信息丢失
- 原因2:bootstrapping 太简单了,缺乏有效的抑制错误积累的方式
- ITransE:
- NAEA<BootEA<TransEdge
- bootstrapping策略相同
- NAEA<BootEA:使用attention–获得了邻居信息,理论上更好,但并没有
- TransEdge:最好
- edge-centric embedding:获得结构信息
- 产生了更多精确的实体embedding–>更准确地alignment
- edge-centric embedding:获得结构信息
- 最差:
- +额外信息
- 属性信息:超过了仅用结构的方法
- JAPE
- GCN-Align
- HMAN>GCN-Align>JAPE:
- HMAN考虑了关系类型(input)
- entity name information:比用属性的效果好
- RDGCN约等于HGCN>GM-Align:
- 前二者用关系去优化entity-embedding 的学习–这个在GNN模型中被忽视
- CEA:最好,有效利用和融合了可用的特征
- RDGCN约等于HGCN>GM-Align:
- 属性信息:超过了仅用结构的方法
- name-based heuristics:ER
- Embed:支持跨语言(好不了,但也不差,和基于结构的方法差不多)
- Lev:支持相近语言和单语言
- 类间比较
- CEA最好的Hits@1
- 其他的指标比较好的模型:
- TransEdge
- RDGCN
- HGCN
- 外加信息的胜利–>使用bootstraping和textual information有效
- ER:
- Embed:超过了大多没有用entity name的方法–precision上
- ER对EA有效
- 比不过其他使用entity name的方法(因为entity name有效所以Embed有效
- Embed:超过了大多没有用entity name的方法–precision上
- 语言屏障
- 组1/2:支持跨语言,egTransEdge
- 使用实体名称的方法对跨语言支持弱
- 支持相近/单语言
- eg:Lev,HGCN
4.4 SRPRS
-
稀疏的数据集
-
仅KG结构
- RSNs最好
- KECG:第二,但很接近RSNs了
- 和DBP15k不同:MuGNN效果差,因为SRPRS没有对齐的关系,因为rule transfering失效
-
+bootstrapping:TransEdge依然最好
-
+额外
- 属性:
- GCN-Align:最好:因为他合并了属性
- GCN/JAPE:
- JAPE:合并属性信息对他没有贡献?
- SRPRS中属性太少了
- entity name:效果更好
- CEA:100%,
- 属性:
-
ER:在单语言中entity name相同,所以效果都很好
- Embed:单语言、跨语言都可
- Lev :单语言/相近语言
-
单语言KG间:相同的实体有相同的名字,仅比名字就效果不错—这在相近语言中也适用
- 不一定,但大多
- 电影电视剧之类的第几季还是有区别的
-
类间
- 和DBP15k不同:实体名称的方法
- 原因
- KG 结构不怎么有效在这个数据集上。
- 实体名在单语言数据集和相近语言对的跨语言数据集上很重要(很有用)
- 原因
- 和DBP15k不同:实体名称的方法
4.5 DWY100k
- RDGCN,NAEA:占内存大
- 实验环境下跑不出来:n Intel Core i7-4790 CPU, an NVIDIA GeForce GTX TITAN X GPU and 128 GB memory
- DWY100k:
- 更丰富的KG结构信息:MuGNN和KECG效果好
- Bootstrapping:
- 进一步改进了结果
- BootEA、TransEdge:效果略低于论文
- +其他信息
- CEA:100%ground-truth
- ER
- 类似SRPRS:LEv,Embed:ground-truth–100%
4.6 速度分析
- DBP15k,SRPRS:GCN>
- GCN:快,且结果一致(不同版本间)
- ITransE,JAPE-Stru
- Others:1000-10000s
- NAEA<GM-Align:>10000s
- DWY100k:
- MuGNN,KECG,HMAN:由于内存所限不能用gpu,所以用了cpu
- 1ws内:GCN-Align,GCN,ITransE
- GM-Align:5天
- 大多10000s-100,000s
- 可伸缩性差:NAEA,RDGCN,GM-Align
4.7 无监督方法比较
-
无监督的方法
- PARIS:literal sim
- AML:ontology+KG背景信息
-
指标F1
-
PARIS/AML<CEA
- CEA:效果好,但依赖于训练数据
- 无监督虽然不用训练数据,但效果也不错
- AML>PARIS:ontology information提升了对齐的结果
- AML需要本体信息, 所以挖掘了本体信息,但只成功在 SRPRSEN-FR and SRPRSEN-DE上运行
- AML>PARIS:ontology information提升了对齐的结果
4.8 Module-Level Evaluation
-
组合不同的模块
-
embedding:
- TransE
- GCN
-
alignment:
- margin-based loss(mgn)
- corpus fusion strategy(cps)?(swap? )
-
相似度
- cos
- manh
- Euc
-
额外的信息
- ItransE的bootstrapping
- 多种信息Mul
- 语义
- 实体名称
-
组合
- GCN+mgn
- TransE+cps
-
效果
- bootstrapping:提升性能
- Embedding:GCN+MGn>TransE+Cps
- 距离:cos在TransE上好,在GCN上差
- 引入entity name后,cos都好
- 所有都用上,得到最好的效果
4.9总结
- EA vs ER
- EA:使用KG结构,图
- 只依赖于KG结构的方法
- 不擅长处理的实体类型:
- 长尾
- 邻居相似,但不是相同的实体(结构相似)
- 解决:
- +文本信息—可以用ER的方法
- 不擅长处理的实体类型:
- 只依赖于KG结构的方法
- ER用于EA:
- 很大程度依赖于文本相似性
- 仅用结构<ER<结构+entity name
- 文字相似性->实体等价性:这个可以用于EA
- EA:使用KG结构,图
- 不同数据集的影响
- EA在不同数据集上差异巨大
- 密集数据:普遍好
- 语言:单语>k跨语言
- 单语最好CEA,Lev,Embed
- 100%
- 等价实体=名字同
- 单语最好CEA,Lev,Embed
4.10 指导和建议
- 模型选择指南
- 输入信息
- 只有结构信息:从第一组和第二组中选择
- 额外信息多:第三种方法中选
- 数据规模
- 一些效果好的方法,可伸缩性差(小数据可以,大了就挂了)
- 大规模数据:简单却有效的方法:GCN-Align
- 对齐的目的
- 只关注对齐的实体:
- GNN的模型:健壮+可扩展性强(容易扩展到大数据集上)
- 还有其他任务:关系的对齐
- KG表示的方法:TransE,本质上可以学习实体和关系的表示,而且关系对齐可以帮助实体对齐
- 只关注对齐的实体:
- bootstrapping的权衡
- 有效,可以逐步增强数据集
- 问题:错误累积,耗时
- 是否用bootstrapping?依据数据集
- 数据集简单:有丰富的文字信息且密度大(多大?)
- 可以用bootstrapping
- 很难的话就算了,错误会不断积累的
- 数据集简单:有丰富的文字信息且密度大(多大?)
- 未来研究的建议
- 长尾 :
- 有研究用额外的信息
- [66] W. Zeng, X. Zhao, W. Wang, J. Tang, and Z. Tan. Degree-aware alignment for entities in tail. In SIGIR, 2020.
- 多模态EA
- 一个实体可以与多种形式的信息关联
- [39] Y. Liu, H. Li, A. Garc´ıa-Dur´an, M. Niepert, D. O˜noro-Rubio, and D. S.
Rosenblum. MMKG: multi-modal knowledge graphs. In P. Hitzler,
M. Fern´andez, K. Janowicz, A. Zaveri, A. J. G. Gray, V. L´opez, A. Haller,
and K. Hammar, editors, ESWC, volume 11503 of Lecture Notes in
Computer Science, pages 459–474. Springer, 2019.
- 开放世界
- 现在大多EA的假设:源KG的实体总能在目标KG找到一个对齐的实体
- 需要标注数据
- 长尾 :
5. 新的数据集和未来的实验?
- 新的数据集
- 目的:
- 单语言数据集中同名同实体,但实际是有歧义的
- 一个id对应一个或多个mention,但是是互相匹配的
- 现实:同名的实体但可能不是一个实体
- 在YAGO3中,34%的实体有一个由多个实体共享的名称。
- 现有的数据集中没有这种情况(不然也做不到100%)
- 现实:同名的实体但可能不是一个实体
- 一定会有对齐的实体
- 实际不一定啊
- 总之,数据集都太简单了
- 目的:
5.1 数据集的构建DBP-FB
- 实体名称的id表示–实体名称的困难
- 目标 用Freebase:id,且有同名实体
- 源:DBPedia,包含Freebase的外部链接(有答案)
- 构建
- 包含参与三元组但不参与对齐
5.2 实验
- 不存在不对齐实体的性能
- 存在无对齐实体的EA性能
- 现在的模型效果都比SRPRS差:因为结构的异构性更高
- 实体分布也差异很大,难以用结构信息
- 实体名称仍然会产生最好的结果,但比单语言数据集差
- 实体名称模糊的挑战
- 现在的模型效果都比SRPRS差:因为结构的异构性更高
5.3 unmatchable entities
- CombEA
- 召回高,精度低:因为给每一个源实体都匹配了一个目标实体
- 现在的EA都有这个问题
- 解决必有答案的问题d的策略:NIL阈值θ\thetaθ
- 距离大于 θ\thetaθ就舍弃,不能对齐