论文浅尝 | 基于图匹配神经网络的跨语言知识图对齐 (ACL 2019)

本文转载自公众号:PaperWeekly。作者:王文博,哈尔滨工程大学硕士生,研究方向为知识图谱、表示学习。


动机

在本篇文章之前,跨语言知识图谱对齐研究仅依赖于从单语知识图谱结构信息中获得的实体嵌入向量。并且大多数研究将实体映射到低维空间中,用低维向量对多语言知识图谱中的实体进行编码。并学习相似得分函数,根据实体映射后的低维向量表示对其进行匹配。但是又由于一些实体在不同的语言中具有不同的三元组事实,实体嵌入中编码的信息可能在不同的语言中是不同的,这使得基于传统思想的方法很可能无法完成这类实体的匹配任务。

除此之外,传统方法也没有将实体的表面结构信息编码到嵌入向量中,使得具有少量邻居的实体由于缺乏足够的结构化信息而无法匹配。故本文提出一种新颖的图匹配方法,通过两次运用图卷积神经网络(GCN)分别解决构建主题实体图时相邻实体间信息传递的问题,与构建全图表示向量时局部信息的传递问题,十分出色地完成了知识图谱中实体对齐的问题。

本文创新点如下:

  • 引入主题实体图,即指实体的局部子图,用来表示实体与其对应的上下文信息。

  • 将知识图谱中实体对齐问题转化为图匹配问题。进一步提出了一种基于图注意的解决方案,该方案首先匹配两个主题实体图中的所有实体,然后对局部匹配信息进行联合建模,得到图级匹配向量。

主题实体图

由于知识图谱中实体的上下文信息对于知识图谱对齐任务十分重要,在本文模型中引入主题实体图的结构,用来表示知识图谱中给定实体(话题实体)与它的邻居之间的关系。图二为主题图的样例。为了构建主题图,先建立与主题实体一跳相邻的邻居实体集合,用表示。然后从这个集合中任意选取两个实体对,若这个实体对在知识图谱中存在关系使其直接相连,则在主题实体图中为这个实体对保留直接相连的有向边。

注:在主题实体图中只保留边的方向,不包含边对应的关系的具体信息。只有这样才可以使得模型具有较高的效率和较好的表现结果。

 

图匹配模型

图 2 给出了本文模型在对齐英文知识图谱与中文知识图谱中实体 LebronJames 的大体过程。首先分别构建出在两个知识图谱中的主题实体图分别为 G1 和 C2。然后用提出的图匹配模型去评估两个主题实体图是在描述同一个主题实体的可能性。匹配模型具体包含以下三层:

输入表示层:这层的目的是通过 GCN 学习出现在主题实体图中的实体嵌入向量。以生成实体 v 的嵌入向量为例,具体步骤如下:

1. 首先用一个基于单词的 LSTM 将图中所有实体从名字转化成向量,进行初始化。并用符号表示实体 v 的初始化嵌入向量。

2. 对实体 v 的邻居实体进行分类,若该邻居实体通过指向实体 v 的边与 v 相连,则该实体属于集合,若该实体通过指向自己的边与实体 v 相连,则该实体属于集合

3. 通过运用一个聚合器,将指向实体 v 的所有邻居节点的表示转化成一个单独的向量,其中 k 是迭代值。该聚合器将与节点 v 直接相邻的所有节点的向量表示,作为一个全连接层神经网络的输入,并运用一个均值池化操作来捕捉邻居集合中的不同方面特征,得到向量

4. 将 k-1 轮得到的指向实体 v 的邻居集合的表示与新产生的进行连接,并将连接后的向量放入全连接网络去更新指向实体 v 的邻居集合的表示,得到

5. 用与步骤(3)步骤(4)相同的方法在由实体 v 指出的邻居集合中更新由实体 v 指出的邻居集合的表示

6. 重复步骤(3)-步骤(5)K 次,将最终的指向实体 v 的邻居集合的表示与由实体 v 指出的邻居集合的表示进行连接,作为单个实体的嵌入向量。最终得到两组实体的嵌入向量的集合分别为

节点(局部)匹配层

在本层中,如图(2)所示,作者运用一个注意匹配方法将一个主题实体图的每个实体嵌入向量与另一个主题实体图的所有实体嵌入向量分别按照从 G1 到 G2 的顺序与从 G2 到 G1 的顺序进行比较。首先计算 G1 中实体与 G2 中所有实体的 cosine 相似值。

然后,我们用这些相似点作为权重并通过对 G2 中所有实体嵌入向量加权求和的方式来计算整个图的关注向量。

通过对每一步匹配运用多角度 cosine 匹配函数计算 G1 与 G2 中所有实体的匹配向量。

其中匹配函数具体如下:

是一个用于比较两个向量的多角度 cosine 匹配函数:

其中,v1 与 v2 表示两个维度为 d 的向量,是一个可训练参数,l 是角度的数量,返回的 m 值是一个 l 维向量 m=。元素是从第 k 个角度得到的匹配值。这个匹配值是通过计算两个权重向量的 cosine 相似得到的。

符号 ° 表示对应元素相乘,Wk 表示矩阵 W 的第 k 行。Wk 控制着第 k 个角度,并为 d 维空间中不同的维度分配不同的权重。

图(全局)匹配层:这些匹配向量捕获了 G1 (G2) 中的每个实体如何被另一种语言的主题图匹配。但是这种匹配只处于局部匹配阶段,不足以对图进行全局相似性计算。例如,有的实体在 G1 与 G2 中均几乎没有邻居实体。对于这种情况,仅进行局部信息的匹配很可能会将这两个本应对齐的实体判定为两个不同的实体。

为了解决上述问题,运用另一个 GCNs 使得局部信息可以在图中进行传播。直观地说,如果每个节点都表示为自己的匹配状态,那么通过在图上设计一个具有足够大的跳数的 GCN,就能够在整个图的对之间编码全局匹配状态。将上述所得的局部匹配结果向量输入到一个全连接神经网络中,并用 max pooling 或 mean pooling 生成一个合适长度的图匹配表示。

预测层

将图匹配表示作为一个双层前馈神经网络的输入,并在其输出层运用 softmax 函数。

为了训练模型,作者运用启发式方法对每个正确对齐的实体对随机构建 20 个错误案例。也就是说首先通过对每个实体表面形式中预先训练的词的嵌入向量加和粗略生成 G1 和 G2 的实体嵌入向量。然后再粗略的在其嵌入空间中选取 10 个与实体最近的实体,10 个与实体最近的实体构建错误案例实体对。在测试过程中,当给定一个 G1 中的实体时,根据本文模型评估出的匹配可能性对 G2 中的所有实体进行可能性值的计算,并按降序对计算结果进行排序。

实验

在数据集 DBP15K 上对模型进行评估。这些数据集是通过将汉语、日语以及法语版本的 DBpedia 中的实体与英语版本的 DBpedia 中的实体进行连接得到的。每个数据集包含 1500 个内部语言连接,即在两种不同语言的知识图谱中对等实体的连接。

本实验中采用 Adam 优化器更新参数,最小批尺寸设置为 32。学习率设置为 0.001。GCN1 与 GCN2 最大跳数 K 分别设置为 2 和 3。非线性函数 σ 设置为 ReLU。聚合器的参数是通过随机初始化得到的。由于用不同的语言来表征指示图谱,本文首先用 fastText 嵌入方法对单一语言的知识图谱进行嵌入处理,并运用交叉语言词汇嵌入方法将这些嵌入向量在同一个向量空间进行对齐。用这些对齐后的向量作为 GCN1 第一层输入的初始化单词表示向量。

结果和分析

本文中运用指标 Hits@1 与 Hits@10 对模型评估,其中 Hits@k 表示与某一实体正确对齐的实体排在前 k 个的比重。在跨语言嵌入空间中选择 k 个最接近给定 G1 实体的 G2 实体,并令其中实体嵌入是单词在其表面形式中的嵌入向量之和,以此作为本实验中的 BASELINE。NodeMatching 则是将通过 GCN1 得到的两个话题实体的嵌入向量不经过匹配层直接传入预测层。

从表 1 可以看出,即使不考虑知识图谱中具有的结构化信息,BASELINE 的结果仍然超过了之前从结构化的知识图谱中主要学习了实体嵌入向量的方法得到的结果。因此可以表明在知识图谱对齐任务中,表面形式是一个重要特征。NodeMatching 又通过使用 GCN1 将知识图谱中的结构化信息编码到实体嵌入向量中,得到了比  BASELINE 更好的结果。最后 GraphMatching 又通过将话题实体的全局上下文信息考虑其中,使其超过了所有方法。

本文还分析了 GCN2 的跳数对模型的影响。从表中结果可以看出,模型会随着 GCN2 的跳数增大而获得更好的结果,直到跳数达到某个阈值 λ,在实验中作者发现当 λ=3 时模型效果最好。

为了更好地理解由于引入了图匹配层,本文的模型可以更好地处理哪种类型的实体,进而分析了本文模型正确预测而 NodeMatching 没有正确预测的实体。经过分析作者发现,图匹配层加强了模型处理在两个知识图谱中最近邻居不同的实体的匹配能力。对于这种实体来说,尽管更多的局部信息表明这两个实体不相关,但是图匹配层可以通过传播图中最相关的局部信息来缓解这种问题。

本文中提出的主题实体图只保留了关系方向,而忽略了关系标签。在实验中,作者发现将关系标签合并为不同的节点会将实体节点连接到主题图中,这不仅会影响模型的性能,还会降低模型的效率。作者认为出现上述情况可能是由于以下两点原因造成的:

  • 关系标签在数据集中被表示为抽象符号,这提供了关于关系的相当有限的知识,使得模型很难在两个知识图谱中学习它们的对齐。

  • 合并关系标签可能会显著增加主题实体图的尺寸,这需要更大的跳数和运行时间。

总结

本文通过引入图卷积神经网络,极大地提高了跨语言知识图谱中实体对齐的准确性。本文的亮点之处主要体现在以下三点:

  • 本文提出了主题实体图的构建,实现了相邻实体间的信息传递,使得由此方法得到的每个节点向量包含了其多跳邻居的信息,最大可能地保留了知识图谱的结构化信息。并成功地将实体对齐问题转化为图匹配问题。

  • 本文运用图卷积神经网络构建图匹配模型,在图匹配层运用多角度余弦匹配函数计算相似性,并通过实验论证了图匹配层在本文模型中的重要性,也说明了不仅上下文的局部信息对实体对齐效果有巨大影响,全局信息对实体对齐任务同样十分重要。

  • 本文验证了对知识图谱中关系信息的处理仅保留其方向而忽略其标签具体内容有助于提高模型的效率与准确性的结论。

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479386.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

谷歌大改Transformer注意力,速度、内存利用率都提上去了-新的 Transformer 架构——Performer

原文地址:https://www.jiqizhixin.com/articles/2020-10-28-10 Transformer 有着巨大的内存和算力需求,因为它构造了一个注意力矩阵,需求与输入呈平方关系。谷歌大脑 Krzysztof Choromanski 等人最近提出的 Performer 模型因为随机正正交特性…

一文搞懂 PyTorch 内部机制

文 | ArchWalker译者序:这篇博文是一篇非常新的介绍PyTorch内部机制的文章,作者Edward Z Yang来自于Stanford大学,是PyTorch的核心开发者之一。文章中介绍了如何阅读PyTorch源码和扩展PyTorch的技巧。目前讲PyTorch底层的文章不多&#xff0c…

美团外卖商家端视频探索之旅

背景 美团外卖至今已迅猛发展了六年,随着外卖业务量级与日俱增,单一的文字和图片已无法满足商家的需求,商家迫切需要更丰富的商品描述手段吸引用户,增加流量,进而提高下单转化率和下单量。商品视频的引入,在…

Android官方开发文档Training系列课程中文版:构建第一款安卓应用之工程创建

这节课你将会学到: - 使用Android Studio创建一个工程。 - 使用命令行工具创建一个工程。 你也应该阅读: - 安装SDK - 管理工程 安卓项目包含了包括源代码在内的所有文件。Android SDK工具使我们很轻松的创建一个包含一系列默认目录和文件的的安卓工…

LeetCode 1051. 高度检查器

文章目录1. 题目2. 解题1. 题目 学校在拍年度纪念照时,一般要求学生按照 非递减 的高度顺序排列。 请你返回至少有多少个学生没有站在正确位置数量。该人数指的是:能让所有学生以 非递减 高度排列的必要移动人数。 示例:输入:[…

论文浅尝 | 基于动态记忆的原型网络进行元学习以实现少样本事件探测

本文转载自公众号:浙大KG。 论文题目:Meta-Learning with Dynamic-Memory-Based Prototypical Network for Few-Shot Event Detection本文作者:邓淑敏,浙江大学在读博士,研究方向为低资源条件下知识图谱自动化构建关键…

字节跳动破局联邦学习:开源Fedlearner框架,广告投放增效209%

本文介绍了字节跳动联邦学习技术团队自研的联邦学习平台 Fedlearner ,分享了该平台的技术实现与落地应用体验,向读者展示了字节跳动如何联邦学习落地难题的突破点。作为分布式的机器学习范式,联邦学习能够有效解决数据孤岛问题,让…

软硬兼施极限轻量BERT!能比ALBERT再轻13倍?!

文 | Sheryc_王苏这个世界上有两种极具难度的工程:第一种是把很平常的东西做到最大,例如把语言模型扩大成能够写诗写文写代码的GPT-3;而另一种恰恰相反,是把很平常的东西做到最小。对于NLPer来说,这种“小工程”最迫在…

论文浅尝 | 基于事理图谱的脚本事件预测

论文笔记整理:邱圣广,南京大学硕士,研究方向为自然语言处理。链接:https://www.ijcai.org/proceedings/2018/0584.pdf绪论1. 脚本事件预测脚本事件预测这个任务最早是由Chambers andJurafsky于2008年提出来的,要求给定…

美团集群调度系统HULK技术演进

本文根据美团基础架构部/弹性策略团队负责人涂扬在2019 QCon(全球软件开发大会)上的演讲内容整理而成。本文涉及Kubernetes集群管理技术,美团相关的技术实践可参考此前发布的《美团点评Kubernetes集群管理实践》。 一、背景 HULK是美团的容器…

LeetCode 1079. 活字印刷(全排列回溯)

文章目录1. 题目2. 解题类似题目 78 子集、 90 子集 II1. 题目 你有一套活字字模 tiles,其中每个字模上都刻有一个字母 tiles[i]。返回你可以印出的非空字母序列的数目。 示例 1:输入:"AAB" 输出:8 解释:…

EdgeBERT:极限压缩,比ALBERT再轻13倍!树莓派上跑BERT的日子要来了?

文 | Sheryc_王苏本文首发于NLP宝藏公号【夕小瑶的卖萌屋】,疯狂暗示!这个世界上有两种极具难度的工程:第一种是把很平常的东西做到最大,例如把语言模型扩大成能够写诗写文写代码的GPT-3;而另一种恰恰相反,…

论文浅尝 | 用于开放领域的问题生成

作者 | 黄焱晖单位 | 东南大学硕士研究方向 | 自然语言处理,知识图谱Learning to AskQuestions in Open-domain Conversational Systems with Typed Decoders动机本文的问题生成用于开放领域的问题生成,与传统的问题生成不同的是,在开放领域对…

Android官方开发文档Training系列课程中文版:构建第一款安卓应用之创建用户界面

原文地址:http://android.xsoftlab.net/training/basics/firstapp/building-ui.html 在这节课中,你会创建一个xml的布局文件,它包含一个Text成员和一个Button成员。在下节课中,你会学习到当Button按下后启动并发送Text成员的内容…

字节码增强技术探索

1.字节码 1.1 什么是字节码? Java之所以可以“一次编译,到处运行”,一是因为JVM针对各种操作系统、平台都进行了定制,二是因为无论在什么平台,都可以编译生成固定格式的字节码(.class文件)供JVM…

LeetCode 1137. 第 N 个泰波那契数

文章目录1. 题目2. 解题1. 题目 泰波那契序列 Tn 定义如下: T0 0, T1 1, T2 1, 且在 n > 0 的条件下 Tn3 Tn Tn1 Tn2 给你整数 n,请返回第 n 个泰波那契数 Tn 的值。 示例 1:输入:n 4 输出:4 解释&#…

Calibration: 一个工业价值极大,学术界却鲜有研究的问题!

文 | kid丶(知乎作者)编 | 夕小瑶尽管深度学习给工业界带来了一波上线春天,但是总有很多比较难的业务,模型反复迭代后准确率依然达不到预期的产品标准,难以满足用户期望。以下为工业界常见讨(si)论(b&#…

肖仰华 | 大规模、高质量的金融知识图谱,如何自动化构建?

本文转载自公众号:恒生技术之眼。◆本文根据2019恒生技术开放日肖仰华教授演讲整理◆肖仰华:复旦大学教授、博士生导师,复旦大学知识工场实验室创始人。知识图谱(Knowledge Graph, KG)本质上是一种大规模语义网络&…

Android官方开发文档Training系列课程中文版:构建第一款安卓应用之启动另一个Activity

原文地址:http://android.xsoftlab.net/training/basics/firstapp/starting-activity.html#CreateActivity 在完成了上一节课之后,你有了一个带有输入框和按钮的单屏幕Activity。在这节课中,你将会在MyActivity中添加一些代码,以…

美团点评Kubernetes集群管理实践

背景 作为国内领先的生活服务平台,美团点评很多业务都具有非常显著、规律的”高峰“和”低谷“特征。尤其遇到节假日或促销活动,流量还会在短时间内出现爆发式的增长。这对集群中心的资源弹性和可用性有非常高的要求,同时也会使系统在支撑业务…