论文浅尝 | 基于开放世界的知识图谱补全

640?wx_fmt=png

Citation: Baoxu Shi and Tim Weninger (2017). Open-World Knowledge Graph Completion 6, AAAI 2018


传统的知识库补全算法如TransE等都是基于Close world assumption 的,也是就说补全的实体必须在知识图谱内。然而事实上大规模的知识图谱是一直进化的,整个图谱并不是一成不变的。因此当遇到不存在与以前知识库中的实体或者关系如何对知识库进行补全则是一个重要的研究问题。本文提出了一个基于开放世界假设的知识补全算法,该算法可以将未出现在知识库中的实体进行补全,进而克服传统知识库补全算法的问题。

 

整个算法的框架如下图所示:

该算法分为三个部分

1、  Relationship-Dependent Content Masking

 由于本文的算法是可以抽取不在知识库中的实体,因此待抽取的实体则可能会在文本中出现。而文本中又会隐含大量的噪声和补全的三元组无关。为了去掉文本中的噪声,本文通过一个attention机制来计算文本和关系的相关程度进而获取关键词。Attention计算的公式如式1所示:

640?wx_fmt=png

其中640?wx_fmt=png表示实体在文本中的描述矩阵,矩阵中的每一行则是实体描述的编码。如我们要对<Michelle Obama,AlmaMater, ?>这个三元组进行补全。那么高权重的词则可能是P rinceton, Harvard, University虽然这些词并不是目标实体,但是他们通常会落在目标实体的附近,并对目标实体进行描述。

640?wx_fmt=png

2、  Target Fusion

Target Fusion主要的作用是对上一步中获取的信息进行进一步的提纯。在这一步中主要采用在远程监督时据有良好效果的 CNN 模型。该模型如下图所示。

640?wx_fmt=png

该模型将上文选出的关键词融合到一个表示向量中

3、  Semantic Averaging

上文只是对文本进行了编码,但是当出现实体时,模型也需要将他们进行编码。本文采用了一个非常简单的编码模型。通过实体中每个词编码的平均值来计算实体的表述。


最终模型通过一个 list-wise ranking 损失函数来计算,公式如下

该公式希望在预测head实体时 Pc 要大于 0.5 而预测 tail 实体时 Pc 要小于 0.5

640?wx_fmt=png

S 则是一个 sigmoid 函数如下所示

640?wx_fmt=png

实验:

本文在四个数据集上进行了实验

640?wx_fmt=png

在开放世界的实体预测实验中实验结果显示,本文的算法答复超过基于封闭世界假设的 DKRL,进而可以证明本文算法的有效性

640?wx_fmt=png

640?wx_fmt=png


论文笔记整理:高桓,东南大学博士,研究方向为自然语言处理。



OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

 

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480596.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

快速排序quicksort算法优化

1.基本想想 快速排序使用分治的思想 通过一趟排序将待排序列分割成两部分&#xff0c;其中一部分所有元素均比基准大&#xff0c;另一部分均比基准小 分别对这两部分元素继续进行排序&#xff0c;以达到整个序列有序 2.快排的步骤 1.选择基准 在待排序列中&#xff0c;按…

阿里P8架构师谈:Dubbo的详细介绍、设计思路、以及4大适用场景

Dubbo是什么&#xff1f; Dubbo是一个分布式服务框架&#xff0c;致力于提供高性能和透明化的RPC远程服务调用方案&#xff0c;以及SOA服务治理方案。 简单的说&#xff0c;dubbo就是个服务框架&#xff0c;如果没有分布式的需求&#xff0c;其实是不需要用的&#xff0c;只有…

巨省显存的重计算技巧在TF、Keras中的正确打开方式

一只小狐狸带你解锁 炼丹术&NLP 秘籍作者&#xff1a;苏剑林&#xff08;来自追一科技&#xff0c;人称“苏神”&#xff09;前言在前不久的文章《BERT重计算&#xff1a;用22.5%的训练时间节省5倍的显存开销&#xff08;附代码&#xff09;》中介绍了一个叫做“重计算”的…

论文浅尝 | 用可微的逻辑规则学习完成知识库推理

Citation&#xff1a;Fan Yang,Zhilin Yang, William W. Cohen. Differentiable Learning of Logical Rules for Knowledge Base Reasoning. ICLR 2017.动机本文提出了一个可微的基于知识库的逻辑规则学习模型。现在有很多人工智能和机器学习的工作在研究如何学习一阶逻辑规则&…

一点关于cloze-style问题的简谈

一个小任务&#xff1a;给出一个问题和诺干个候选句子&#xff0c;从候选句子中选出答案&#xff0c;有没有好的实现方案&#xff1f; 一个小任务&#xff1a;类似于&#xff1a;“中国最大的内陆湖是哪个&#xff1f;”给出候选句子1.”中国最大的内陆湖&#xff0c;就是青海湖…

中文词语概念上下位图谱项目

HyponymyExtraction 项目地址&#xff1a;https://github.com/liuhuanyong/HyponymyExtraction HyponymyExtraction and Graph based on KB Schema, Baike-kb and online text extract, 基于知识概念体系&#xff0c;百科知识库&#xff0c;以及在线搜索结构化方式的词语上下位…

POJ 1007 DNA排序解题

题目链接 http://poj.org/problem?id1007 C代码实现 #include<string> #include<iostream> using namespace std; struct DNAdata //定义结构体 {char name[51];double sum;DNAdata(){sum 0;} }; void swapDNA(DNAdata *a, DNAdata *b) {DNAdata tempDNA;tempDN…

DeepMatch:用于推荐广告的深度召回匹配算法库

一只小狐狸带你解锁 炼丹术&NLP 秘籍前言今天介绍一下我们的一个开源项目DeepMatch&#xff0c;提供了若干主流的深度召回匹配算法的实现&#xff0c;并支持快速导出用户和物品向量进行ANN检索。非常适合同学们进行快速实验和学习&#xff0c;解放算法工程师的双手&#xf…

史上最全Spring面试71题与答案

1.什么是spring? Spring是个java企业级应用的开源开发框架。Spring主要用来开发Java应用&#xff0c;但是有些扩展是针对构建J2EE平台的web应用。Spring框架目标是简化Java企业级应用开发&#xff0c;并通过POJO为基础的编程模型促进良好的编程习惯。 2.使用Spring框架的好处…

论文浅尝 | 近期论文精选

本文转载自公众号 PaperWeekly, 对我们近期的论文浅尝进行了精选整理并附上了相应的源码链接&#xff0c;感谢 PaperWeekly&#xff01;TheWebConf 2018■ 链接 | https://www.paperweekly.site/papers/1956■ 解读 | 花云程&#xff0c;东南大学博士&#xff0c;研究方向为自然…

海马体what where记忆推理模型

Generalisation of structural knowledge in theHippocampal-Entorhinal systemhttps://www.groundai.com/project/generalisation-of-structural-knowledge-in-the-hippocampal-entorhinal-system/海马 - 内嗅系统结构知识的泛化 实体概念信息和位置及虚拟位置信息组成记忆保存…

快速排序quicksort算法细节优化(一次申请内存/无额外内存排序)

文章目录1.只申请一次内存&#xff0c;避免多次递归调用时反复的申请和释放内存&#xff0c;提高程序运行效率2.不申请内存&#xff0c;在原数组上直接排序优化比较总结对链接中快速排序进行代码优化 https://blog.csdn.net/qq_21201267/article/details/80993672#t6 1.只申请…

在深度学习顶会ICLR 2020上,Transformer模型有什么新进展?

一只小狐狸带你解锁炼丹术&NLP秘籍大数据文摘出品来源&#xff1a;medium编译&#xff1a;一一、AndyICLR是机器学习社群最喜爱的会议平台之一。如今&#xff0c;机器学习领域的会议已成为预印本里论文质量的标志和焦点。但即使这样&#xff0c;论文的发表数量还是越来越庞…

领域应用 | 人工智能+知识图谱:如何规整海量金融大数据?

本文转载自公众号&#xff1a;恒生技术之眼。21世纪以来&#xff0c;人类社会信息资源的开发范围持续扩大&#xff0c;经济、社会信息随着经济活动加剧得到空前的开发&#xff0c;信息资源总量呈爆炸式增长&#xff0c;我们从最初的“信息匮乏”一步踏入到“信息过量”时代。个…

神经网络不应视为模型,推理过程当为机器学习问题一等公民

首发于论智关注专栏写文章神经网络不应视为模型&#xff0c;推理过程当为机器学习问题一等公民编者按&#xff1a;Microsoft Semantic Machines资深研究科学家、UC Berkeley计算机科学博士Jacob Andreas指出&#xff0c;神经网络不应视为模型&#xff0c;因为神经网络的模型和推…

2019最全BAT资深Java面试题答案合集,建议收藏~

马上进入求职招聘高峰&#xff0c;总结了一份BAT&#xff08;阿里、百度等&#xff09;资深Java相关的面试题答案合集给到大家。 该板块的各面试章节&#xff0c;后续会持续迭代更新最新一线互联网公司的面试题目&#xff0c;建议收藏该页面&#xff0c;不定期更新查看~ Java…

中国古代诗词文本挖掘项目

PoemMining 项目地址&#xff1a;https://github.com/liuhuanyong/PoemMining Chinese Classic Poem Mining Project including corpus buiding by spyder and content analysis by nlp methods, 基于爬虫与nlp的中国古代诗词文本挖掘项目 项目介绍 中国古代诗词文化无疑是…

推荐系统的价值观

一只小狐狸带你解锁炼丹术&NLP秘籍 前言 推荐系统作为满足人类不确定性需求的一种有效工具&#xff0c;是具有极大价值的&#xff0c;这种价值既体现在提升用户体验上&#xff0c;又体现在获取商业利润上。对绝大多数公司来说&#xff0c;提升用户体验的最终目标也是为了获…

POJ1003/1004/1005/1207/3299/2159/1083/3094/2388解题(刷一波水题)

POJ 1003 题目链接 http://poj.org/problem?id1003 大意&#xff1a;长度1/21/3…1/n&#xff0c;给定长度值&#xff0c;求n #include<iostream> using namespace std; int main() {float len 0,sum;int n;while(cin >> len && len ! 0){for(n2,sum0;s…

论文浅尝 | 远程监督关系抽取的生成式对抗训练

动机远程监督关系抽取方法虽然可以使用知识库对齐文本的方法得到大量标注数据&#xff0c;但是其中噪声太多&#xff0c;影响模型的训练效果。基于 bag 建模比基于句子建模能够减少噪声的影响&#xff0c;但是仍然无法克服 bag 全部是错误标注的情形。为了换机噪声标注&#xf…