论文浅尝 - CIKM2020 | Relation Reflection Entity Alignment

论文笔记整理:谭亦鸣,东南大学博士生。


来源:CIKM 2020

链接:https://arxiv.org/pdf/2008.07962.pdf

研究背景与任务描述:

实体对齐旨在基于已有对齐实体标注的情况下,确定不同KG中未知的对等实体,其本质是multi-source KGs的一体化.

随着GNN在对齐工作的引入,现有模型的方法愈加复杂。作者在相关的研究中发现了两个不寻常的情况:Q1. GNN中的标准线性转换效果并不好;Q2. 许多面向预测任务的新KG embedding方法在对齐任务上的效果较差。本文将现有的实体对齐方法抽象为统一的框架:Shape-Builder & Alignment,该框架不仅解释了上述情况的原因,并且给出了对于理想转换操作的两个关键标准。作者基于此构建了一个新的GNN-based method “Relation Reflection Entity Alignment, RREA”,该方法的主要思路是利用relation reflection transformation更有效率的获取到每个实体的relation specific embedding。真实数据上的实验表明该方法是SOAT

目前的Entity Alignment方法主要分为两类:

基于翻译(Translation-based)受跨语言word embedding任务的启发,这类方法假定不同的KG的embedding空间包含相似的分布,因此KGs之间的对齐实体在各自的向量空间中具有相似的位置特性。这类方法首先使用Trans-based KG embedding方法对各KG做单独的表示学习,得到各自的entity和relation向量表示,而后使用已知的(标注的)实体对齐将其投影到统一的向量空间中。

基于GNN(GNNs-based)不同于上述方法(relation作为实体之间的转换),GNNs通过邻居节点的集合(聚集)信息,生成节点级别的embedding。

 

对于上述两个问题的分析和猜想:

Q1. GNN最初是使用标准线性变换矩阵设计的,但是许多GNN-based将其约束为单位或者对角线。过去的方法都将其视为参数规约,但是并未就此做出解释和讨论。作者尝试在GCN-Align中删去这个设置时,模型性能在Hits@1上下降了10%,因此认为其中存在某些更加本质的问题;

Q2.许多任务中(比如链接预测)都需要KG模型,许多新的KG embeddings方法被提出并在这些任务上取得了不错的效果。但是在链接预测之类任务上效果出众的模型却没有在对齐任务上展现出显著的优势,过去的工作中仅给出了“并不是所有对于链接预测有效的模型都适用于实体对齐”,但并未给出进一步的分析。

为了进一步分析两者的原因,作者提出了一个抽象实体对齐框架,名为“Shape-Builder & Alignment”。在这个框架中,Trans-based与GNN-based方法均被视为各自设置下的特例。通过这个框架,作者成功找到了上述问题的答案:

A1. 实体对齐假定了两个(KG)分布具有相似性,所以为了避免结构性的破坏,在转换之后,实体的norms以及相对距离等信息应该保持不变,因此转换矩阵被强制为正交矩阵。

A2. 许多新的KG embedding方法都遵循了一个关键的idea-“将实体的embeddings转换为relation specific的版本”。然而他们的转换矩阵并不能服从正交属性,这就是实体对齐中这些方法效果不佳的原因。

因此作者提出两个实体对齐上理想转换操作的标准:1. Relation Differentiation;2. Dimensional Isometry;基于这两个标准,作者提出一种新的转换操作 “Relation Reflection Transformation”:该操作能够沿不同关系的超平面反映entity embeddings,从而用于构建relation specific entity embeddings. 这种反映矩阵(reflection matrix)是正交的,因此能够保证转换过程中的实体及其相对距离的不变性。(作者将该转换添加到GNN模型中,得到新的实体对齐方法RREA,relation reflection entity alignment)

Shape-Builder & Alignment

下图是作者提出的统一对齐框架的过程示意图:

Shape-Builder的主要函数是将随机初始化分布约束到一个特定的分布上(称之为shape), 图2中的转换模型本质上就是shape-builder。这里的前置条件是“两个KG中获得的embeddings应当具有shape similarity”,即对等实体在向量空间中应该具有相似的相对位置。

Alignment 当shape similarity获得后,不同的shape可以通过标注的对齐实体所匹配。在图2中,映射就是对齐模型中所训练的转换矩阵W, 这个矩阵使得已标注数据差异尽可能小(通过以下公式:)

其中ei与ej是一对已知对齐,h表示对应实体的向量,为了保留转换中的不变性,W被约束为一个正交矩阵。

GNN-based方法在Shape-Builder & Alignment框架下的适用性分析:

基于GNN的实体对齐方法一般包括以下过程:

N表示实体e周围的邻,W则是l层的转换矩阵,公式2用于将实体邻居的信息聚合,而公式3用于将实体的embedding转换为一个更佳的版本。有许多的操作可以实现聚合的目的(例如normalized mean pooling或者attentional weighted summation)。

在得到embedding之后,GNN方法一般会构建如下损失使得对等实体更加接近对方,其中带有” ’ ”的为负例样本(随机替换正例样本中的实体得到)。

在AliNet中也有类似的损失函数:

可以看到,这类损失均可以拆分为两个部分:

1.对齐损失(正例)->框架中的alignment部分;

2.分离损失(负例)->框架中的shape-builder

为了进一步证明可用性,作者进行了可视化实验,在GNN-based方法作为shape-builder得到的分布中(使用AliNet),效果还是很清晰的。

为了衡量转换后向量分布的结构相似性,作者构建了一种相似性度量方法(带波浪线的实体来自某一KG,不带的来自另一KG,带有“ ’ ”的则为随机负例):

实验数据

实验使用的语料是DWY100K及DBP15K,统计信息如下:

实验结果:

表3主要对比的是初始化时使用/不使用正交矩阵约束的情况下,模型的效果。

表4则是在不同GNN方法上的消融实验结果。

表5对比了该框架下不同KG embedding方法的效果差异性。

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478798.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SQL解析在美团的应用

数据库作为核心的基础组件,是需要重点保护的对象。任何一个线上的不慎操作,都有可能给数据库带来严重的故障,从而给业务造成巨大的损失。为了避免这种损失,一般会在管理上下功夫。比如为研发人员制定数据库开发规范;新…

无内鬼,来点ICML/ACL审稿人笑话

文 | Sheryc_王苏最近,如果你的小伙伴突然没时间陪你出来玩了,请不要担心,ta可能正在与ICML/IJCAI/ACL的审稿人斗智斗勇。过去的一周里,机器学习顶会ICML、人工智能顶会IJCAI和NLP顶会ACL扎堆放出审稿人意见,有人欢喜有…

Docx:docx.opc.exceptions.PackageNotFoundError: Package not found at

Docx:docx.opc.exceptions.PackageNotFoundError: Package not found at:https://blog.csdn.net/python__reported/article/details/106318330 Docx:docx.opc.exceptions.PackageNotFoundError: Package not found at 一、报错内容二、解决方法 一、报错内容 报错&a…

LeetCode 148. 排序链表(归并排序、快速排序)

文章目录1. 题目2. 解题2.1 归并排序2.2 快速排序1. 题目 在 O(n log n) 时间复杂度和常数级空间复杂度下,对链表进行排序。 示例 1:输入: 4->2->1->3 输出: 1->2->3->4 示例 2:输入: -1->5->3->4->0 输出: -1->0->3->4-&…

论文浅尝 | 基于对抗学习的弱监督知识图谱对齐

论文笔记整理:郭凌冰,浙江大学研究助理,研究方向为知识图谱的表示学习。绝大部分现有的知识图谱对齐方法都要求足够的已对齐三元组作为监督数据,但在现实世界中,获取大量的对齐三元组的代价十分高昂。本文提出一种同时…

美团数据平台Kerberos优化实战

背景 Kerberos 是一种网络认证协议,其设计目标是通过密钥系统为客户端、服务器端的应用程序提供强大的认证服务。 作为一种可信任的第三方认证服务,Kerberos是通过传统的密码技术(如:共享密钥)执行认证服务的&#xff…

Android官方开发文档Training系列课程中文版:如何避免ANR?

原文地址:http://android.xsoftlab.net/training/articles/perf-anr.html#anr 尽管你写代码可能通过了世界上所有的性能测试,但是它还是可能会让人感觉到卡顿。当应用卡的不成样子时,系统会给你弹一个”Application Not Responding”的对话框…

预训练语言模型真的是世界模型?

文 | 子龙自GPT、BERT问世以来,预训练语言模型在NLP领域大放异彩,刷新了无数榜单,成为当前学界业界的心头爱,其主体结构——Transformer——也在逐步的运用于其他领域的任务中,常见的如与CV的跨界,也有相对…

monk js_对象检测-使用Monk AI进行文档布局分析

原文链接:https://blog.csdn.net/weixin_26752075/article/details/108494230 monk js 计算机视觉 (Computer Vision) 介绍 (Introduction) This is an article on how Object Detection can help us in predicting various regions of a document. It can be usefu…

LeetCode 2019 力扣杯全国秋季编程大赛

文章目录1. 比赛结果2. 题目解析2.1 猜数字 Easy2.2 分式化简 Esay2.3 机器人大冒险 Medium2.4 覆盖 Hard2.5 发 LeetCoin Hard1. 比赛结果 2019.9.24晚,第一次参加线上比赛 比赛排名结果:582/1541,做出了2道题。。。 我证明了:…

美团广告实时索引的设计与实现

背景 在线广告是互联网行业常见的商业变现方式。从工程角度看,广告索引的结构和实现方式直接决定了整个系统的服务性能。本文以美团的搜索广告系统为蓝本,与读者一起探讨广告系统的工程奥秘。 领域问题 广告索引需具备以下基本特性: 层次化的…

论文浅尝 - AAAI2020 | 多通道反向词典模型

论文笔记整理:朱珈徵,天津大学硕士,自然语言处理方向。链接:https://arxiv.org/pdf/1912.08441.pdf动机反向词典将一段描述作为输入,并一起输出与该描述匹配的其他词,具有重要实用价值和自然语言处理研究价…

拒绝暴力调参!推荐一个模型Debug神器!

近些年深度学习在视觉、自然语言处理、语音等各个技术方向都诞生了不少创新应用,如智能识别医疗图像中的病灶,辅助医生做病情诊断;智能判别生产线上有质量问题的产品,减轻人工质检压力;对政务、金融等流程中的证件票据…

论文浅尝 - IJCAI2020 | Mucko:基于事实的多层跨模态知识推理视觉问答

论文笔记整理:陈卓,浙江大学计算机科学与技术系,博士研究生。论文链接:https://arxiv.org/pdf/2006.09073代码:https://github.com/astro-zihao/mucko发表会议:IJCAI 2020任务定义及背景VQA(视觉…

LeetCode 40. 组合总和 II(排列组合 回溯)

1. 题目 给定一个数组 candidates 和一个目标数 target ,找出 candidates 中所有可以使数字和为 target 的组合。 candidates 中的每个数字在每个组合中只能使用一次。 说明: 所有数字(包括目标数)都是正整数。 解集不能包含重…

质量运营在智能支付业务测试中的初步实践

背景 毋庸置疑,质量是决定产品能否成功、企业能否持续发展的关键因素之一。对于“质量时代”下的互联网企业,如何在快速迭代的节奏中兼顾质量,真正落地“人人重视质量、人人创造质量、人人享受质量”,这是对QA的要求,也…

新手手册:Pytorch分布式训练

文 | 花花机器学习算法与自然语言处理单位 | SenseTime 算法研究员目录0X01 分布式并行训练概述0X02 Pytorch分布式数据并行0X03 手把手渐进式实战A. 单机单卡B. 单机多卡DPC. 多机多卡DDPD. Launch / Slurm 调度方式0X04 完整框架 Distribuuuu0X05 Reference文中所有教学代码和…

Hotel booking酒店预订——数据分析与建模

Hotel booking酒店预订——数据分析与建模:https://zhuanlan.zhihu.com/p/196757364?utm_sourcewechat_session 写文章Hotel booking酒店预订——数据分析与建模(转载翻译自kaggle)海上泊舟数据分析师数据源:https://www.science…

论文浅尝 - ICLR2020 | Pretrained Encyclopedia: 弱监督知识预训练语言模型

论文笔记整理:陈想,浙江大学博士,研究方向为自然语言处理,知识图谱。Wenhan Xiong, Jingfei Du, William Yang Wang, Veselin Stoyanov.Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model来源&…

LeetCode 216. 组合总和 III(排列组合 回溯)

1. 题目 找出所有相加之和为 n 的 k 个数的组合。组合中只允许含有 1 - 9 的正整数,并且每种组合中不存在重复的数字。 说明: 所有数字都是正整数。 解集不能包含重复的组合。 示例 1: 输入: k 3, n 7 输出: [[1,2,4]]示例 2: 输入: k 3, n 9 输出…