【实体对齐·BootEA】Bootstrapping Entity Alignment with Knowledge Graph Embedding

文章目录

  • 0.总结
  • 1.动机
  • 2. 贡献+方法
  • 3.应用场景
  • 4.其他模型
  • 5.数据集
  • 6.效果
    • 以下的是组内比较

BootEA: “Bootstrapping Entity Alignment with Knowledge Graph Embedding”.
Zequn Sun, Wei Hu, Qingheng Zhang, Yuzhong Qu. (IJCAI 2018) [ paper][ code]

0.总结

BootEA笔记

BootEA: “Bootstrapping Entity Alignment with Knowledge Graph Embedding”.
Zequn Sun, Wei Hu, Qingheng Zhang, Yuzhong Qu. (IJCAI 2018) [paper][code][笔记]

  • 推荐结论:
    • bootstrapping的策略可用,但慢
    • 负采样的策略可用
  • 短评
    • 优点:开源
    • 缺点:1v1场景,不适用于我们多对多的情形
  • 类别:
    • 实体对齐
    • 基于embedding的实体对齐
    • BootEA
    • Bootstrapping
    • transE系列–特定于实体对齐的embedding+swap
    • 1v1:但可扩展?有排名
  • 数据集:
    • DWY100k
    • DBP15k
  • 图谱
    • wikidata/DBpedia/yago3
    • 规模:15k/100k
  • 底层模型:
    • 嵌入模块:transE系列
      • 修改了loss,让正负的差异变大
      • 负采样:仅使用s-近邻替换,差异性变小
    • 对齐模块:使用swap策略构建统一模型
    • 相似度:cos
    • 损失函数:
      • embedding的loss
      • 全局loss(嵌入的
    • 半监督
      • bootstrapping
        • 全局loss提升精度
        • alignment editing:多轮标记有冲突选likelihood高的
    • 仅关系嵌入,无额外信息
  • 速度
    • bootstrapping提升效果,但速度慢
  • 开源软件情况:有个组件库code
  • 评估质量:
    • EN-FR:
      • 在这个数据集上是最好的(几乎所有版本)
    • DBP15k:
      • 在使用bootstrapping的模型中仅次于TransEdge,>ITransE和NAEA
    • SRPRS:在使用bootstrapping的模型中仅次于BootEdge
    • DWY100:不在正文里
  • 输入:2个KG的关系三元组
  • 输出:实体对齐对(也有排名)

1.动机

  • 传统方法使用固有的语义信息:在不同KG间的异质且独立?
    • name
    • logical expression
    • natural language
    • 失效:在三元组的符号性质下难以对齐(都是用符号表示的三元组)
  • embedding:
    • 单个KG多
    • 特定于实体对齐的embedding少
  • 缺乏足够的对齐数据(bootstrapping)

2. 贡献+方法

  • 建模为分类问题

    • source可分类为target中的哪一个:target范围在所有标注和未标注的实体中选
    • 使用:maximize alignment likelihood:1v1–likely alignment labeling
  • 目标函数:

    • embedding:a limit-based objective function:embedding的
      • 期望正例的得分足够小,而负例的得分足够大–才有区分度
      • 在这里插入图片描述
      • 优点:
        • f(τ)=≤γ1andf(τ′)≥γ2f(\tau)= \leq \gamma_1 and f(\tau')\geq\gamma_2f(τ)=γ1andf(τ)γ2 :便于区分正负例
        • margin-based ranking loss:仍保留这个特征f(τ‘)−f(τ)≥γ2−γ1f(\tau‘)- f(\tau)\geq\gamma_2-\gamma_1f(τ)f(τ)γ2γ1
    • 对齐:全局视角: a global optimal goal
      • Φx(y)={1y=y^ifx被标记为y^1∣Y′∣如果x未被标记\Phi_x(y)=\begin{cases} 1_{y=\hat{y}}& if x 被标记为\hat{y}\\ \frac{1}{|Y'|}&如果x未被标记 \end{cases}Φx(y)={1y=y^Y1ifxy^x
        • Oa=−Σx∈XΣy∈Yϕx(y)logπ(y∣x;Θ)O_a=-\Sigma_{x\in X}\Sigma_{y\in Y}\phi_x(y)log\pi(y|x;\Theta)Oa=ΣxXΣyYϕx(y)logπ(yx;Θ)
    • 联合:O=Oe+μ2⋅OaO=O_e+\mu_2\cdot O_aO=Oe+μ2Oa
  • 负采样:–用于embedding

    • 一般的负采样:随机替换头、尾实体–辨析度高
    • 期望:区分度足够低,很难的负例
    • ϵ−\epsilon-ϵtruncated uniform negative sampling method:
      • 只把随机采样的范围限制为s近邻:s=(1−ϵ)Ns=(1-\epsilon)Ns=(1ϵ)N
  • 对齐两个KG的方法:swap

    • 对换两个KG中的实体(对齐的呼唤),来校准embedding到同一个空间
    • 在这里插入图片描述
  • bootstrapping :这个的作用最大

    • 这轮预测的实体对齐后,可信的对齐加入seed(训练)
    • 1v1约束 max alignment likelihood
      * 在这里插入图片描述
      * 是个交叉熵其实
    • 解决错误传递:加了错误的对齐,会累积错误
      • alignment editing method:降低错误累积

        • conflict:不同轮打的标记不同
          • 选likelihood大的重新标记:在这里插入图片描述
      • a global optimal goal:保证精度:全局视角

  • alignment-oriented KG embeddings:2KG->1向量空间

  • 额外的信息:

    • 也没用属性值

3.应用场景

  • 1v1:1个实体对应一个实体(不存在多对多,多对一,一对多情形)

4.其他模型

  • EA:
    • 传统:使用各种特征
      • OWL属性的语义信息
      • compatible neighbors邻居
      • 属性值
      • 关系的结构化信息
      • 克服KG间的异构使用:
        • 额外的lexicons
        • 机器翻译
        • wikipedia links
    • MTransE:
      • 跨语言实体对齐
      • spatially transorming:
        • 把两个独立的embedding
        • 学一个M矩阵KG1=M`KG2
    • IPTransE:
      • 参数共享(在已经存在的alignment):不同的KG->同一的embedding空间
      • 整合三个modules:
        • translation-based, linear transformation and parameter sharing
      • bootstrapping
        • 基于局部最优距离测度:
          • 依赖于对齐的精度(难),所以会积累误差
      • 需求这些,保证精度
        • 关系是对齐的
        • 对齐的实体也比较多
    • JAPE:
      • refine KG embedding:利用关系和属性的embeddings
        • 从两个KG中学一个统一的向量空间(embedding)
      • 额外信息:
        • 属性:
          • 属性embedding
          • 用以refine entity embedding
          • 失效:异构,且对应是模糊不清的,属性embedding会失效
  • embedding:
    • non-translation model
    • translational:transE系列
      • one-many relations
    • extra knowledge:
      • PTransE:
        • reverse triples
        • relation path
      • KR-EAR:
        • categorical attributes(eg,gender
      • other:
        • type information
        • local structure of entities
        • global pattern

5.数据集

  • Embedding数据集

    • FBK15
    • FBK15-237
    • WN18
    • WN18RR
  • 传统实体对齐数据集:

    • OAEI(since 2004)
  • embedding实体对齐数据集

    • DBP15K:

      • 跨语言:
        • zh-en,
          • zh:关系三元组数:70414,关系数1701,属性三元组数:248035
          • en: 关系三元组数:95142,关系数1323,属性三元组数:343218
        • ja-en,
          • ja:关系三元组数:77214,关系数1299,属性三元组数:248991
          • en: 关系三元组数:93484,关系数1153,属性三元组数:320616
        • fr-en
          • fr:关系三元组数:105998,关系数903,属性三元组数:273825
          • en: 关系三元组数:115722,关系数1208,属性三元组数:351094
      • 实体对齐连接数:15k(每对语言间)
      • 度的分布:大多在1,从2-10,度越大,实体数量下降
      • DBPedia
    • WK3L

    • DWY100K:

      • 每个KG实体数:100k
      • 单语言:
        • DBP-WD,
          • DBP:关系三元组数:463294,关系数330,属性三元组数:341770
          • WD:关系三元组数:448774,关系数220,属性三元组数:779402
        • DBP-YG
          • DBP:关系三元组数:428952,关系数302,属性三元组数:383757
          • YG:关系三元组数:502563,关系数31,属性三元组数:98028
        • (DBP:DBPedia,YG:Yago3,WD:wikidata)
      • 每对有100k个实体对齐连接
      • 度的分布:没有度为1or2的,峰值在4,之后递减
    • SRPRS

      • 认为以前的数据集太稠密了(DBP,DWY),度的分布偏离现实
      • 跨语言:
        • EN-FR,
          • EN:关系三元组数:36508,关系数221,属性三元组数:60800
          • FR:关系三元组数:33532,关系数177,属性三元组数:53045
        • EN-DE
          • EN:关系三元组数:38363,关系数220,属性三元组数:55580
          • DE:关系三元组数:37377,关系数120,属性三元组数:73753
      • 单语言:
        • DBP-WD,
          • DBP:关系三元组数:33421,关系数253,属性三元组数:64021
          • WD:关系三元组数:40159,关系数144,属性三元组数:133371
        • DBP-YG
          • DBP:关系三元组数:33748,关系数223,属性三元组数:58853
          • YG:关系三元组数:36569,关系数30,属性三元组数:18241
      • 每种有15k个实体对齐连接
      • 度的分布:很现实
        • 度小的实体多(精心取样)
    • EN-FR

    • DBP-FB(An Experimental Study of State-of-the-Art Entity Alignment Approaches)

      • DBP: 关系三元组数:96414,关系数407,属性三元组数:127614
      • FB:关系三元组数:111974,关系数882,属性三元组数:78740
  • 度的分布

    在这里插入图片描述
    在这里插入图片描述

6.效果

  • DBP100k

在这里插入图片描述

  • EN-FR
    在这里插入图片描述

以下的是组内比较

组1:仅用结构
组2:用bootstrapping
组3:+其他信息

  • SRPRS
    在这里插入图片描述
  • DBP15k
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481454.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一项人工智能、化学和分子机器人的交叉研究,加速创新和药物发现,并简化复杂的化学过程自动化...

编辑 | 萝卜皮深入了解各类化学物质的最佳一般反应条件,可以加速创新和药物发现,并使复杂的化学过程自动化且易于使用,对生物医药、材料研究具有重要意义。然而,有机反应的一般条件很重要但很少见,以往识别它们的研究通…

【实体对齐·综述】An Experimental Study of State-of-the-Art Entity Alignment Approaches

文章目录0.总结1.Introduction2.Preliminaries2.2 Scope and Related work2.2.1 Entity Linkingentity disambiguation2.2.2 Entity resolutionentity matchingdeduplicationrecord linkage2.2.3 Entity resolution on KGs2.2.4 EA3.general框架3.1 Embedding Learning Module3…

汽车生产线上的工业机器人是如何工作的?

来源:宝石部落 责任编辑:朱光明 审核人:王颖十年来,随着机器人在制造业的普遍应用,我国工业机器人产业规模快速增长。2021年,我国工业机器人产量达36.6万台,比2015年增长了10倍,市场…

【实体对齐·HGCN】Jointly Learning Entity and Relation Representations for Entity Alignment

文章目录1.动机2.输入输出3.相关工作4.模型4.1 GCN4.2 approximating relation representations4.3 joint entity and relation alignmentHGCN: “Jointly Learning Entity and Relation Representations for Entity Alignment”. Yuting Wu, Xiao Liu, Yansong Feng, Zheng Wa…

Science:海马中如何实现选择性地招募神经元来巩固记忆?

来源:brainnews作者:brainnews创作团队神经元网络活性的标志是选择性地将神经元招募到活跃的集合中,形成暂时稳定的活动模式。在哺乳动物的海马体中这种神经元集合在ripples(~200Hz)振荡期间反复激活,支持空…

往年笔试题

文章目录1 概率1.1 条件概率.每天9点到10点,小明和小红在同一个车站乘坐公交车上班。小明坐101路公交车,每5分钟一班{9:00, 9:05, 9:10, …};小红坐102路公交车,每10分钟一班{9:00, 9:10, 9:20, …},问小明和小红每天相…

量子生物学的未来:量子理论如何帮助理解生命?

导语2022年诺贝尔物理学奖授予了关于量子信息科学的基础性研究。一百多年前,量子革命为我们带来了晶体管和激光,今天,基于量子信息的新技术正在让我们进入一个新的量子信息时代。事实上,已有研究表明,在生命过程中也存…

【量化投资1】

文章目录0.相关包及常识1.股票买卖收益分析2.双均线策略2.1 均线2.2 双均线2.2.1 金叉死叉的获取量化投资0.相关包及常识 股票的买入卖出:最少为一手,100股 tushare open:开盘价格,close:收盘价格 1.股票买卖收益分析 每次至少买入1手最后…

超高效人工光电神经元成真?速度比自然神经元快3万倍,研究登Nature子刊

来源:悦智网作者:Charles Q. Choi翻译:机器之心原文链接:https://spectrum.ieee.org/neuromorphic-computing-superconducting-synapseAI系统越来越受限于为实现其功能的硬件。现在,一种新的超导光子电路问世&#xff…

2022年工业机器人的5大应用行业

来源:工业机器人前言截止至2022年,在中国60%的工业机器人应用于汽车制造业,其中50%以上为焊接机器人;在发达国家,汽车工业机器人占机器人总保有量的53%以上。‍本文梳理了五大应用行…

【java spring学习1】IOC理论,spring用DI实现IOC

狂神说java spring:让java 开发更容易 IOC:控制反转 AOP:面向切面编程(业务面) 2. spring组成和扩展 2.1spring 组成 Sprint AOP ORM:对象关系映射 Context:UI界面、邮件验证等 2.4 拓展 学习路线: spring boot:构…

深度学习以最佳纳米尺度分辨率解决重叠单个分子的3D方向和2D位置,生成蛋白质图片...

编辑 | 萝卜皮偶极扩散函数 (DSF) 工程重塑了显微镜的图像,可以最大限度地提高测量偶极状发射器 3D 方向的灵敏度。然而,严重的泊松散粒噪声、重叠图像以及同时拟合高维信息(包括方向和位置)使单分子定向定位显微镜(SM…

【大数据学习-hadoop1】大数据如何处理

文章目录1. 大数据启蒙1.1 意义1.1.1 查找元素1.1.2 单机处理大数据问题1.2 历史1.3 hadoop1. 大数据启蒙 学习视频 大数据多,复杂度很重要, 内存不够,分治处理IO仍成为瓶颈,多机器并行多机器间通信也可以并行,但仍是…

自动驾驶数据之争,走向合规

报道数字经济 定义转型中国撰文 | 泰伯网 编辑 | 鹿野2015年12月,一辆百度无人车从京新高速到五环进行了最高时速达100公里的全自动行驶,将国内自动驾驶推向大众视野。当自动驾驶产业随时间沉淀驶入商业落地的下半场,百度对这场自动驾驶持久…

【推荐系统算法学习笔记1】基本架构、专有名词、构建流程

文章目录1.架构1.1 大数据框架:lambda 架构的1.2.基本概念2. 推荐模型构建流程2.1 数据2.1.1 数据来源2.1.2 数据清洗、处理2.2 特征工程2.3 算法(机器学习)来源1.架构 推荐算法架构 召回 协同过滤基于内容的基于隐语义的 排序 召回决定了推…

DeepMind专题之创始人访谈|DeepMind创始人Demis Hassabis:AI 的强大,超乎我们的想象...

来源:图灵人工智能作者:黄楠、王玥编辑:陈彩娴导读:DeepMind,位于英国伦敦,是由人工智能程序师兼神经科学家戴密斯哈萨比斯(Demis Hassabis)等人联合创立的Google旗下 前沿人工智能企业。其将机…

世界首个!Meta AI开放6亿+宏基因组蛋白质结构图谱,150亿语言模型用两周完成...

来源:ScienceAI编辑:陈萍、杜伟如今,在蛋白质结构预测领域,各大厂也出现了「百家争鸣,百家齐放」。今年,DeepMind 公布了大约 2.2 亿种蛋白质的预测结构,它几乎涵盖了 DNA 数据库中已知生物体的…

谷歌用AI研发「乒乓球机器人」,4分钟对拉300多次,还能指哪打哪!

一个人怎么练习乒乓球?或许这事你可以问问谷歌。最近,谷歌又玩新花样,这回是乒乓球机器人AI 项目,号称和人类对战时能够连续接球340次?!要知道,让解说员激动到破音的「乒乓球史上最疯狂一球」—…

【网络搜索】学习资料

文章目录1.综述2.相关技术3.课程4. 论文4.1综述召回预训练4.2 相关模型及论文5.书6. 博客6.1 电商搜索QP:Query Processor相关性1.综述 微软综述视频,较老但不过时 2.相关技术 相关技术目录 3.课程 北邮《网络搜索原理》2020 4. 论文 sigir 4.1综…

论文新鲜出炉 - 数学家张益唐攻克 Landau-Siegel 零点猜想(2022-11-05)

来源:北大大纽约校友会感谢钱朝晖师兄、贾德星师兄的分享。张益唐老师厉害,出来了!虽然还有待数学权威机构认定,但以张老师的性格,没有攻克他不会轻易公开。看了一下PDF时间戳,是昨天的:2022-11…