论文浅尝 | 基于图卷积网络的跨语言图谱实体对齐

论文笔记整理:谭亦鸣,东南大学博士生,研究兴趣:知识图谱问答



本文提出了一种基于图卷积网络的跨语言实体对齐方法,通过设计一种属性 embedding 用于 GCN 的训练,发现GCN能同时学习到特征 embedding 和属性 embedding 的信息。实验表明该方法是目前性能最好的的 GCN 对齐模型。

 

来源:IJCAI 2019

链接:

https://www.ijcai.org/proceedings/2019/0929.pdf

动机

在近期的研究工作中, GCN被用来处理一些基于图的学习问题,也有研究者提出基于该模型的跨语言知识图谱实体对齐工作。但这些工作并没有有效的利用图谱的属性信息,且对整体模型带来了负面的影响,这主要是因为对于同一实体,在不同语言上,它的属性存在较大的差异。虽然也有研究者提出异构图注意力网络,提供了节点级与语义级的注意力机制。但这个方法依然没有考虑不同属性带来的影响。

基于上述分析,作者提出利用GCN的聚合能力将属性embedding加入跨语言知识图谱对齐中。

方法

             

图1 描述了本文提出模型的主要框架和流程,待对齐的知识图谱主要提供了两个角度的信息,其一是图谱本身的图结构信息,这个部分被直接输入到GCN中, GCN包含多层网络,其卷积运算过程如以下公式:

             

其中,P是一个n×n邻接矩阵,n表示节点的数量, ,其中 I 是单位阵, 的 diagonal node degree 矩阵,H(l) 表示顶点特征矩阵,其作为第l层网络的输入。

其二,为了提高不同语言实体信息embed到统一的向量空间中的精准性,作者设计了增强的属性embedding方法,用于减少不同语言对等实体之间的差异性。

 

该方法包含以下几个部分:

1. 属性选择

首先对于实体属性出现的数量做降序排列(出现频率越高的属性对于实体的描述越准确),然后将排序后的不同语言的知识图谱属性进行相交。最后,取Top-k的相交属性用于embedding。

2. 属性加权

为了区分属性的重要性程度,通过以下公式对选定属性进行加权:

             

其中,wβ表示属性β的权重,nβ和n’β表示不同图谱中属性的数量,α表示权重系数,用于在对齐中强化属性所占的重要性。

实验

实验数据

实验使用的数据集为DBP15K,由DBpedia中生成,实验的语言对为中英双语,包含中文->英文方向,及英文->中文方向的对齐。

 

实验结果

 

评价指标使用Hits@1,Hits@10,及Hits@50进行对比,结果如下表:

            

可以看到从统计显著性上取得了的提升,但是从实际匹配准确性上看,距离可视作工具用于双语知识库问答等任务还存在明显不足。

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479229.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

面向中文自然语言处理的60余类系统开源实践项目与工业探索索引

项目介绍 面向中文自然语言处理的六十余类实践项目及学习索引,涵盖语言资源构建、社会计算、自然语言处理组件、知识图谱、事理图谱、知识抽取、情感分析、深度学习等几个学习主题。包括作者个人简介、学习心得、语言资源、工业落地系统等,是供自然语言处…

Android官方开发文档Training系列课程中文版:分享文件之分享一个文件

原文地址:http://android.xsoftlab.net/training/secure-file-sharing/share-file.html 一旦APP设置通过URI的方式共享文件,你需要响应其它APP请求这些文件的请求。响应这些请求的一种方式是,在服务端APP上提供一个文件选择接口,…

大众点评搜索基于知识图谱的深度学习排序实践

1. 引言 挑战与思路 搜索是大众点评App上用户进行信息查找的最大入口,是连接用户和信息的重要纽带。而用户搜索的方式和场景非常多样,并且由于对接业务种类多,流量差异大,为大众点评搜索(下文简称点评搜索)…

论文浅尝 \ 联合知识图谱实例和本体概念的通用表示学习

论文笔记整理:周虹廷,浙江大学研究生。研究方向:知识图谱,图表示学习等。论文链接:http://web.cs.ucla.edu/~yzsun/papers/2019_KDD_JOIE.pdf本文是发表在KDD 2019上的关于知识图谱表示学习的论文。现有知识图谱表示模…

手握顶会顶刊论文,自信满满面试算法岗竟被刷?

2020国内深度学习框架领域百花齐放。各大公司也都陆续推出了自己的框架,大大推动了深度学习的发展。深度学习俨然已经渗入到我们生活中的每个角落,给生活带来极大便利。深度学习能够针对生产生活所面临的复杂问题,给出高准确率、操作简易、成…

爬取热门网站的热榜,集中展示

爬取热门网站的热榜,集中展示;Integrate and display hot billboard or ranked topic from hot Chinese websites 抓取知乎热榜数据存入列表 #!/usr/bin/env python # encoding: utf-8__author__ HZTimport requests import re from bs4 import Beaut…

Android官方开发文档Training系列课程中文版:分享文件之请求一个共享文件

原文地址:http://android.xsoftlab.net/training/secure-file-sharing/request-file.html 当APP需要访问一个被其它APP所共享的文件时,这个APP通常需要发送一个请求给共享文件的那个APP(服务端),在大多数的情况下,这个请求会启动…

LeetCode 110. 平衡二叉树(二叉树高度)

1. 题目 给定一个二叉树,判断它是否是高度平衡的二叉树。 本题中,一棵高度平衡二叉树定义为: 一个二叉树每个节点 的左右两个子树的高度差的绝对值不超过1。 示例 1: 给定二叉树 [3,9,20,null,null,15,7]3/ \9 20/ \15 7 返回 true 。…

人物志 | 美团技术委员会前端通道主席洪磊:爱折腾的斜杠青年

洪磊,2013年加入美团,目前是美团外卖事业部终端组的负责人,也是美团技术委员会前端通道主席。在加入美团之前,洪磊的职业生涯可以用“跌宕起伏”来形容。他就读于中南财经政法大学,曾任职于雅虎中国,先后担…

论文浅尝 | 可建模语义分层的知识图谱补全方法

本文转载自公众号:PaperWeekly。论文作者:蔡健宇,中国科学技术大学,研究方向:知识图谱近些年,知识图谱(Knowledge Graph)在自然语言处理、问答系统、推荐系统等诸多领域取得了广泛且…

美团背后的商业模式是什么?后疫情时代该走向何方?

文 | King James知乎本文已获作者授权,禁止二次转载2020年的疫情,让10年前的一部剧再次进入人们的视线中,那就是《我的团长我的团》传统社区团购和各大互联网巨头都广发英雄帖招聘社区团购的团长,感觉回到了10年前那场“百团大战”…

Android官方开发文档Training系列课程中文版:分享文件之获取文件信息

原文地址:http://android.xsoftlab.net/training/secure-file-sharing/retrieve-info.html 之前的课程讲述了客户端APP试图与含有文件的URI一同运行,APP可以请求服务端APP的文件信息,包括文件的数据类型以及文件的大小。这些数据类型可以帮助…

LeetCode 783. 二叉搜索树结点最小距离(中序遍历)

1. 题目 给定一个二叉搜索树的根结点 root, 返回树中任意两节点的差的最小值。 示例:输入: root [4,2,6,1,3,null,null] 输出: 1 解释: 注意,root是树结点对象(TreeNode object),而不是数组。给定的树 [4,2,6,1,3,null,null] 可表示为下图…

Kubernetes 1.20 版本开始将弃用 Docker,是时候拥抱 Containerd 和 Podman 了!

Kubelet 中对 Docker 支持被弃用,并将在以后的版本中删除。Kubelet 使用一个名为 dockershim 的模块,该模块实现了对Docker的 CRI 支持,在此PR后续版本将删除dockershim。 Kubectl 弃用 --delete-local-data 参数。 名词解释 上面中提到两个名…

开源开放 | OpenKG 更新发布新冠概念、防控和流行病等多个知识图谱

近日,OpenKG 继续更新发布多个新冠知识图谱,其中包括哈尔滨工业大学构建的新冠概念图谱,武汉科技大学与东南大学联合构建的新冠防控图谱。同时,更新了由 IBM 中国研究院构建的流行病学图谱 V1.1。OpenKG 发布的所有新冠知识图谱都…

客户端单周发版下的多分支自动化管理与实践

背景 目前,互联网产品呈现出高频优化迭代的趋势,需求方希望尽早地看到结果,并给予及时反馈,所以技术团队需要用“小步快跑”的姿势来做产品,尽早地交付新版本。基于以上背景,美团客户端研发平台适时地推行了…

无意中发现了一位清华大佬的代码模版

对于刷题相关的文章,在之前我也推荐过不少,今天在给大家推荐一份算法刷题笔记,这份笔记与以往的刷题有所区别,作者把 Leetcode 一千多道题都进行了系统的整理,并且对于每一道题的代码,都要求 beat 100%。作…

Android官方开发文档Training系列课程中文版:通过NFC共享文件之发送文件到另一台设备

原文地址:http://android.xsoftlab.net/training/beam-files/index.html 导言 Android允许你通过Android Beam文件传输特性在两台设备之间传送大文件。这个特性拥有一个简单的API,允许用户通过简单的设备接触来启动一个传输进程。在响应端,…

LeetCode 998. 最大二叉树 II

1. 题目 向最大二叉树插入一个值; 如果该值大于根节点,则子树必须在该值的左边; 如果该值小于根节点,则该值必须在根节点的右子树 2. 解题 class Solution { public:TreeNode* insertIntoMaxTree(TreeNode* root, int val) {if(…

科大讯飞2020完整事件抽取系统(bert+数据集)

科大讯飞2020完整事件抽取系统(bert数据集) 事件抽取将非结构化文本中的事件信息展现为结构化形式,在舆情监测、文本摘要、自 动问答、事理图谱自动构建等领域有着重要应用。在真实新闻中,由于文本中可能存在句式 复杂,主被动转换&#xff0…