论文浅尝 | 面向知识图谱补全的共享嵌入神经网络模型

论文笔记整理:谭亦鸣,东南大学博士生,研究方向为跨语言知识图谱问答。


640?wx_fmt=png

来源:CIKM’2018

链接:http://delivery.acm.org/10.1145/3280000/3271704/p247-guan.pdf?ip=121.249.15.96&id=3271704&acc=ACTIVE%20SERVICE&key=BF85BBA5741FDC6E%2EEEBE655830483280%2E4D4702B0C3E38B35%2E4D4702B0C3E38B35&__acm__=1553323826_2f92f0c5be62fc57d71a8cc02bf2335b

 

Introduction

知识图谱补全(KGCknowledge graphcompletion)是一种自动建立图谱内部知识关联的工作,目标是补全图谱中缺失的三元组信息。对于这个问题,常见的方法分为基于矩阵以及基于翻译等两类。随着神经网络方法的普及,本文提出一种共享嵌入的神经网络模型用于处理KGC问题。

 

Motivation

  1. 作者认为在补全任务中,头实体,关系和尾实体三者的训练数据存在一定差异性,而现有方法没有区分头尾实体及关系预测等三个问题做明确区分。

  2. 对于同一知识图谱的头实体,关系和尾实体补全,其对应的图谱知识空间可以通用,因此在图谱表示学习部分,使用shared策略是一个较好的方式

  3. 从技术角度,使用神经网络方法可以较好的模拟推理预测的过程。


Model

640?wx_fmt=png

1 是本文所提出的KGC模型框架,作者将框架划分为以下四个部分:

  1. 三元组的批量预处理

  2. 知识图谱的Shared embeddings表示学习

  3. 独立的头尾实体及关系预测子模型训练与融合

  4. 联合损失函数构成

整个KGC的流程可以描述如下:

  1. 将训练数据中的完整三元组(知识图谱)划分批量后作为模型的输入

  2. 对于输入的三元组,分别训练得到实体(包括头尾实体)嵌入矩阵与关系嵌入矩阵(embeddings

  3. 将头尾实体及关系embeddings分别输入到三个预测模型中(头实体预测(?, r, t),关系预测(h, ?, t),尾实体预测(h, r, ?)

        预测子模型具有相似的结构如下图,模型输入关系向量与实体向量后,进入n层全连接层,得到预测向量,再经过一个sigmoid(或者softmax)层,输出预测标签向量。

640?wx_fmt=png

打分函数(Score function

以头实体预测子模型为例,其打分函数形式如下:

640?wx_fmt=png

损失函数(Loss function

            依据上述框架,对于给定的某个三元组(h, r, t),可以得到三个对应的预测标签向量Ph, Pr, Pt

            目标标签向量则可以定义为:

640?wx_fmt=png


            根据上述定义可以得到三者的平滑目标向量为:

640?wx_fmt=png


            因此,各子模型损失函数形式可以描述如下:

640?wx_fmt=png


            联合损失函数则是将三个子模型的打分函数进行相加融合得到:

640?wx_fmt=png


Experiment

本工作实验使用的数据来源于WN18以及FB15K,具体统计信息如表1所示:

640?wx_fmt=png


实体预测实验结果如下:


640?wx_fmt=png

关系预测实验结果如下:

640?wx_fmt=png


Conclusion

总的来说,本文工作在实验结果上确实表现出对以往方法性能的提升,但是对于头尾关系预测的子任务划分依据缺少较为详细的说明,故并不能明确任务划分做法的合理性,也没有不划分子模型的版本的对比测试。

 



OpenKG


开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480016.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PyTorch常用代码段合集

文 | Jack Stark知乎编 | 极市平台来源 | https://zhuanlan.zhihu.com/p/104019160导读本文是PyTorch常用代码段合集,涵盖基本配置、张量处理、模型定义与操作、数据处理、模型训练与测试等5个方面,还给出了多个值得注意的Tips,内容非常全面。…

想成长为一名实战型架构师?7大实战技能经验分享

很多同学想成为一名架构师,但是对于其中的技能掌握程度,以及编程功底的要求?设计能力的要求有哪些? 我简要从以下7点经验来谈,从技能的角度抛砖引玉。 编程基本功:数据结构和算法 1.数据结构相关的哈希表、链表、二叉…

LeetCode 70. 爬楼梯(动态规划)

题目链接:https://leetcode-cn.com/problems/climbing-stairs/ 之前在递归中讲过这个问题,现在用动态规划求解。 假设你正在爬楼梯。需要 n 阶你才能到达楼顶。 每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢? 注意&…

技术动态 | 藏经阁计划发布一年,阿里知识引擎有哪些技术突破?

本文转载自公众号:阿里技术。导读:2018年4月阿里巴巴业务平台事业部——知识图谱团队联合清华大学、浙江大学、中科院自动化所、中科院软件所、苏州大学等五家机构,联合发布藏经阁(知识引擎)研究计划。藏经阁计划依赖阿…

python中模块、函数与各个模块之间的调用

1 针对一个模块的函数调用 a : import 模块名 模块名.函数名 b: from 模块名 import 函数名 (as 别名) python调用另一个.py文件中的类和函数 同一文件夹下的调用 1.调用函数 A.py文件如下: def add(x,y): print(‘和…

模拟退火算法求解TSP问题

前言:模拟退火(simulated annealing)技术,在每一步都以一定的概率接受比当前结果更差的结果,从而有助于“跳出”局部极小。在每次迭代过程中,接受“次优解”的概率要随着时间的推移而逐渐降低,从…

一篇文章彻底搞懂“分布式事务”

在如今的分布式盛行的时代,分布式事务永远都是绕不开的一个话题,今天就谈谈分布式事务相关的一致性与实战解决方案。 01 为什么需要分布式事务 由于近十年互联网的发展非常迅速,很多网站的访问越来越大,集中式环境已经不能满足业…

C++很难学?这个ACM金牌大佬可不这么认为!

C作为一门底层可操作性很强的语言,广泛应用于游戏开发、工业和追求性能、速度的应用。比如腾讯,无论游戏,还是微信,整个鹅厂后台几乎都是 C 开发,对 C 开发者的需求非常大。但问题是C入门和精通都比较困难,…

数据结构--位图 BitMap

文章目录1. 位图2. 位图代码3. 布隆过滤器 Bloom Filter4. 总结1. 位图 我们有1千万个整数,整数的范围在1到1亿之间。如何快速查找某个整数是否在这1千万个整数中呢? 当然,这个问题可以用散列表来解决。可以使用一种特殊的散列表&#xff0…

领域应用 | 企业效益最大化的秘密:知识图谱

本文转载自公众号:TigerGraph。凡是有关系的地方都可以用知识图谱。知识图谱知识图谱是用节点和关系所组成的图谱,为真实世界的各个场景直观地建模,运用“图”这种基础性、通用性的“语言”,“高保真”地表达这个多姿多彩世界的各…

国家一级职业资格证书 计算机类有哪些

当前bai,计算机证书考试多种du多样,水平参差不齐。比较正规且得到社会zhi认可的dao计算机证书考试有以下几种:全国计算机应用软件人员水平考试、计算机等级考试、计算机及信息高新技术考试、计算机应用水平测试和各种国外著名大计算机公司组织…

阿里P8架构师谈:分布式系统全局唯一ID简介、特点、5种生成方式

什么是分布式系统唯一ID 在复杂分布式系统中,往往需要对大量的数据和消息进行唯一标识。 如在金融、电商、支付、等产品的系统中,数据日渐增长,对数据分库分表后需要有一个唯一ID来标识一条数据或消息,数据库的自增ID显然不能满足…

朴素贝叶斯算法--过滤垃圾短信

文章目录1. 基于黑名单过滤2. 基于规则过滤3. 基于概率统计过滤4. 总结上一节我们讲到,如何用位图、布隆过滤器,来 过滤重复数据。今天,我们再讲一个跟过滤相关的问题,如何过滤垃圾短信?1. 基于黑名单过滤 可以维护一…

2020深度文本匹配最新进展:精度、速度我都要!

文 | QvQ编 | 兔子酱在过去的几年里,信息检索(IR)领域见证了一系列神经排序模型的引入,这些模型多是基于表示或基于交互的,亦或二者的融合。然鹅,模型虽非常有效,尤其是基于 PLMs 的排序模型更是增加了几个数量级的计算…

开源开放 | Gowild 狗尾草“七律”知识图谱进入 OpenKG,开放 8000 万中文百科知识三元组数据...

项目网站: https://ai.gowild.cn/kgOpenKG发布地址: http://openkg.cn/dataset/7lore狗尾草科技:https://www.gowild.cn1.七律开放知识图谱简介作为人工智能技术的重要分支,知识图谱自2012年被提出并成功应用后,就获得了迅速发展,…

向量空间 Vector Space -- 推荐系统

文章目录1. 算法解析2. 基于相似用户做推荐3. 基于相似歌曲做推荐4. 总结音乐App的功能越来越强大,不仅可以自己选歌听,还可以根据你听歌的口味偏好, 给你推荐可能会喜爱的音乐,有时候,推荐的还非常适合你的口味。1. 算…

阿里P8架构师谈:分布式事务的解决方案,以及原理、总结

分布式事务是企业集成中的一个技术难点,也是每一个分布式系统架构中都会涉及到的一个东西,特别是在这几年越来越火的微服务架构中,几乎可以说是无法避免,本文就围绕分布式事务各方面与大家进行介绍。 事务 1.1 什么是事务 数据库…

美团NLP中心算法实习生内推啦!

星标/置顶小屋,带你解锁最萌最前沿的NLP、搜索与推荐技术部门介绍搜索与NLP部是美团人工智能技术研发的核心团队,致力于打造高性能、高扩展的搜索引擎和领先的自然语言处理核心技术和服务能力,依托搜索排序,NLP(自然语…

B+树 -- MySQL数据库索引

文章目录1. 定义清楚问题2. 尝试学过的数据结构解决问题3. 改造二叉查找树来解决问题4. 总结为了加速数据库中数据的查找速度,我们常对表中数据创建索引。数据库索引是如何实现的呢?底层使用的是什么数据结构和算法呢? 1. 定义清楚问题 如何…

创建python的虚拟环境(图文教程),并使用。

创建python的虚拟环境 第一步:打开anaconda命令行,即打开anaconda prompt。 base的主环境切换到虚拟环境nlp (base) C:\Users\user>conda env list 查看环境列表 (base) C:\Users\user>conda create -n nlp python 创建一个虚拟环境&#xff0…