文章目录
- 0.总结
- 1.动机
- 2. 贡献+方法
- 3.应用场景
- 4.其他模型
- 5.数据集
- 6.效果
- 以下的是组内比较
BootEA: “Bootstrapping Entity Alignment with Knowledge Graph Embedding”.
Zequn Sun, Wei Hu, Qingheng Zhang, Yuzhong Qu. (IJCAI 2018) [ paper][ code]
0.总结
BootEA笔记
BootEA: “Bootstrapping Entity Alignment with Knowledge Graph Embedding”.
Zequn Sun, Wei Hu, Qingheng Zhang, Yuzhong Qu. (IJCAI 2018) [paper][code][笔记]
- 推荐结论:
- bootstrapping的策略可用,但慢
- 负采样的策略可用
- 短评
- 优点:开源
- 缺点:1v1场景,不适用于我们多对多的情形
- 类别:
- 实体对齐
- 基于embedding的实体对齐
- BootEA
- Bootstrapping
- transE系列–特定于实体对齐的embedding+swap
- 1v1:但可扩展?有排名
- 数据集:
- DWY100k
- DBP15k
- 图谱
- wikidata/DBpedia/yago3
- 规模:15k/100k
- 底层模型:
- 嵌入模块:transE系列
- 修改了loss,让正负的差异变大
- 负采样:仅使用s-近邻替换,差异性变小
- 对齐模块:使用swap策略构建统一模型
- 相似度:cos
- 损失函数:
- embedding的loss
- 全局loss(嵌入的
- 半监督
- bootstrapping
- 全局loss提升精度
- alignment editing:多轮标记有冲突选likelihood高的
- bootstrapping
- 仅关系嵌入,无额外信息
- 嵌入模块:transE系列
- 速度
- bootstrapping提升效果,但速度慢
- 开源软件情况:有个组件库code
- 评估质量:
- EN-FR:
- 在这个数据集上是最好的(几乎所有版本)
- DBP15k:
- 在使用bootstrapping的模型中仅次于TransEdge,>ITransE和NAEA
- SRPRS:在使用bootstrapping的模型中仅次于BootEdge
- DWY100:不在正文里
- EN-FR:
- 输入:2个KG的关系三元组
- 输出:实体对齐对(也有排名)
1.动机
- 传统方法使用固有的语义信息:在不同KG间的异质且独立?
- name
- logical expression
- natural language
- 失效:在三元组的符号性质下难以对齐(都是用符号表示的三元组)
- embedding:
- 单个KG多
- 特定于实体对齐的embedding少
- 缺乏足够的对齐数据(bootstrapping)
2. 贡献+方法
-
建模为分类问题
- source可分类为target中的哪一个:target范围在所有标注和未标注的实体中选
- 使用:maximize alignment likelihood:1v1–likely alignment labeling
-
目标函数:
- embedding:a limit-based objective function:embedding的
- 期望正例的得分足够小,而负例的得分足够大–才有区分度
- 优点:
- f(τ)=≤γ1andf(τ′)≥γ2f(\tau)= \leq \gamma_1 and f(\tau')\geq\gamma_2f(τ)=≤γ1andf(τ′)≥γ2 :便于区分正负例
- margin-based ranking loss:仍保留这个特征f(τ‘)−f(τ)≥γ2−γ1f(\tau‘)- f(\tau)\geq\gamma_2-\gamma_1f(τ‘)−f(τ)≥γ2−γ1
- 对齐:全局视角: a global optimal goal
- Φx(y)={1y=y^ifx被标记为y^1∣Y′∣如果x未被标记\Phi_x(y)=\begin{cases} 1_{y=\hat{y}}& if x 被标记为\hat{y}\\ \frac{1}{|Y'|}&如果x未被标记 \end{cases}Φx(y)={1y=y^∣Y′∣1ifx被标记为y^如果x未被标记
- Oa=−Σx∈XΣy∈Yϕx(y)logπ(y∣x;Θ)O_a=-\Sigma_{x\in X}\Sigma_{y\in Y}\phi_x(y)log\pi(y|x;\Theta)Oa=−Σx∈XΣy∈Yϕx(y)logπ(y∣x;Θ)
- Φx(y)={1y=y^ifx被标记为y^1∣Y′∣如果x未被标记\Phi_x(y)=\begin{cases} 1_{y=\hat{y}}& if x 被标记为\hat{y}\\ \frac{1}{|Y'|}&如果x未被标记 \end{cases}Φx(y)={1y=y^∣Y′∣1ifx被标记为y^如果x未被标记
- 联合:O=Oe+μ2⋅OaO=O_e+\mu_2\cdot O_aO=Oe+μ2⋅Oa
- embedding:a limit-based objective function:embedding的
-
负采样:–用于embedding
- 一般的负采样:随机替换头、尾实体–辨析度高
- 期望:区分度足够低,很难的负例
- ϵ−\epsilon-ϵ−truncated uniform negative sampling method:
- 只把随机采样的范围限制为s近邻:s=(1−ϵ)Ns=(1-\epsilon)Ns=(1−ϵ)N
-
对齐两个KG的方法:swap
- 对换两个KG中的实体(对齐的呼唤),来校准embedding到同一个空间
-
bootstrapping :这个的作用最大
- 这轮预测的实体对齐后,可信的对齐加入seed(训练)
- 1v1约束 max alignment likelihood
*
* 是个交叉熵其实 - 解决错误传递:加了错误的对齐,会累积错误
-
alignment editing method:降低错误累积
- conflict:不同轮打的标记不同
- 选likelihood大的重新标记:
- conflict:不同轮打的标记不同
-
a global optimal goal:保证精度:全局视角
-
-
alignment-oriented KG embeddings:2KG->1向量空间
-
额外的信息:
- 无
- 也没用属性值
3.应用场景
- 1v1:1个实体对应一个实体(不存在多对多,多对一,一对多情形)
4.其他模型
- EA:
- 传统:使用各种特征
- OWL属性的语义信息
- compatible neighbors邻居
- 属性值
- 关系的结构化信息
- 克服KG间的异构使用:
- 额外的lexicons
- 机器翻译
- wikipedia links
- MTransE:
- 跨语言实体对齐
- spatially transorming:
- 把两个独立的embedding
- 学一个M矩阵KG1=M`KG2
- IPTransE:
- 参数共享(在已经存在的alignment):不同的KG->同一的embedding空间
- 整合三个modules:
- translation-based, linear transformation and parameter sharing
- bootstrapping
- 基于局部最优距离测度:
- 依赖于对齐的精度(难),所以会积累误差
- 基于局部最优距离测度:
- 需求这些,保证精度
- 关系是对齐的
- 对齐的实体也比较多
- JAPE:
- refine KG embedding:利用关系和属性的embeddings
- 从两个KG中学一个统一的向量空间(embedding)
- 额外信息:
- 属性:
- 属性embedding
- 用以refine entity embedding
- 失效:异构,且对应是模糊不清的,属性embedding会失效
- 属性:
- refine KG embedding:利用关系和属性的embeddings
- 传统:使用各种特征
- embedding:
- non-translation model
- translational:transE系列
- one-many relations
- extra knowledge:
- PTransE:
- reverse triples
- relation path
- KR-EAR:
- categorical attributes(eg,gender
- other:
- type information
- local structure of entities
- global pattern
- PTransE:
5.数据集
-
Embedding数据集
- FBK15
- FBK15-237
- WN18
- WN18RR
-
传统实体对齐数据集:
- OAEI(since 2004)
-
embedding实体对齐数据集
-
DBP15K:
- 跨语言:
- zh-en,
- zh:关系三元组数:70414,关系数1701,属性三元组数:248035
- en: 关系三元组数:95142,关系数1323,属性三元组数:343218
- ja-en,
- ja:关系三元组数:77214,关系数1299,属性三元组数:248991
- en: 关系三元组数:93484,关系数1153,属性三元组数:320616
- fr-en
- fr:关系三元组数:105998,关系数903,属性三元组数:273825
- en: 关系三元组数:115722,关系数1208,属性三元组数:351094
- zh-en,
- 实体对齐连接数:15k(每对语言间)
- 度的分布:大多在1,从2-10,度越大,实体数量下降
- DBPedia
- 跨语言:
-
WK3L
-
DWY100K:
- 每个KG实体数:100k
- 单语言:
- DBP-WD,
- DBP:关系三元组数:463294,关系数330,属性三元组数:341770
- WD:关系三元组数:448774,关系数220,属性三元组数:779402
- DBP-YG
- DBP:关系三元组数:428952,关系数302,属性三元组数:383757
- YG:关系三元组数:502563,关系数31,属性三元组数:98028
- (DBP:DBPedia,YG:Yago3,WD:wikidata)
- DBP-WD,
- 每对有100k个实体对齐连接
- 度的分布:没有度为1or2的,峰值在4,之后递减
-
SRPRS
- 认为以前的数据集太稠密了(DBP,DWY),度的分布偏离现实
- 跨语言:
- EN-FR,
- EN:关系三元组数:36508,关系数221,属性三元组数:60800
- FR:关系三元组数:33532,关系数177,属性三元组数:53045
- EN-DE
- EN:关系三元组数:38363,关系数220,属性三元组数:55580
- DE:关系三元组数:37377,关系数120,属性三元组数:73753
- EN-FR,
- 单语言:
- DBP-WD,
- DBP:关系三元组数:33421,关系数253,属性三元组数:64021
- WD:关系三元组数:40159,关系数144,属性三元组数:133371
- DBP-YG
- DBP:关系三元组数:33748,关系数223,属性三元组数:58853
- YG:关系三元组数:36569,关系数30,属性三元组数:18241
- DBP-WD,
- 每种有15k个实体对齐连接
- 度的分布:很现实
- 度小的实体多(精心取样)
-
EN-FR
-
DBP-FB(An Experimental Study of State-of-the-Art Entity Alignment Approaches)
- DBP: 关系三元组数:96414,关系数407,属性三元组数:127614
- FB:关系三元组数:111974,关系数882,属性三元组数:78740
-
-
度的分布
6.效果
- DBP100k
- EN-FR
以下的是组内比较
组1:仅用结构
组2:用bootstrapping
组3:+其他信息
- SRPRS
- DBP15k