论文浅尝 - ESWC2020 | YAGO 4: A Reason-able Knowledge Base

论文笔记整理:叶群,浙江大学计算机学院,知识图谱、NLP方向。


会议:ESWC 2020

链接:https://suchanek.name/work/publications/eswc-2020-yago.pdf

Introduction

YAGO是世界上最大的链接数据库之一,由德国马普研究所发布。在本篇论文中,作者发布了最新版本的YAGO 4,包含约20亿三元组和6400万实体,融合了schema.org规范的分类体系和Wikidata丰富的实例数据。

Wikidata被认为是世界上最大的知识库之一,包括了超过7000万实体。与此同时,Wikidata社区对自己的定位是信息的集合,而不是我们传统意义上的“知识”。Wikidata没有严格的语义约束,且存在一些不同来源的自相矛盾的描述。对于下游应用来说,Wikidata的分类体系过于复杂和令人费解;经典的推理机无法在Wikidata知识库上进行推理,因为其本身存在很多不一致性。

举个例子阐述Wikidata的分类体系存在的问题,实体“布达拉宫”是“touristattraction”的一个实例,而“tourist attraction”是“geographic object”的子类,“geographic object”是“geometric concept”的实例,而“geometric concept”是“mathematical concepts”的子类。所以当你在Wikidata搜索“mathematical concepts”,返回的结果有张量,多边形, … ,以及布达拉宫。

在YAGO 4中,作者采用schema.org简单且清晰的分类体系来取代Wikidata复杂且费解的分类体系。因此,YAGO 4是一个逻辑一致的知识库,可以进行基于OWL的推理。

Design

YAGO 4的建立是基于5个主要的设计思路,在这里依次阐述。

1.Concise Taxonomy

Wikidata拥有一个非常庞大的分类体系,其类别层级结构过深且混乱。同时,分类体系存在不稳定性,任何贡献者都可以在两个类别之间添加或删除“subclassOf”关系,即一次编辑就可能导致上百万个实体分类结果不同。另一方面,schema.org的分类体系稳定,维护良好,由W3C Schema.org Community Group维护。但是,schema.org的分类体系中缺少一些细粒度的类别和生物化学相关的类别。为了解决这个问题,作者手工融入了Bioschemas,一个在生命科学领域的分类体系。关于细粒度类别缺失的问题,对于top-level的类别,作者选取schema.org的类别;对于leaf-level的类别(即细粒度的类别),选取Wikidata中的类别。对于Wikidata中实例数量小于10的类别,部分类别的子类以及不符约束的类别,进行丢弃。原始的Wikidata中有240万个类别,经过清洗保留了10k个类别。

2.Legible Entities and Relations

YAGO 4以RDF格式存储。与Wikidata不同,采用了可读性更高的方式来进行URI的命名。若实体有相应的维基百科页面,以维基百科页面标题作为URI。若无维基百科页面,以该实体的英文标签和Wikidata标识符作为URI。若无英文标签,即以Wikidata标识符作为URI。

3.Well-typed Values

YAGO 4对于literal也进行了处理,使之更为规范化。比如,对于日期值,转换成xsd:dateTime, xsd:date, xsd:gYearMonth或者xsd:gYear。

4.Semantic Constraints

YAGO 4采取了一系列的语义限制,使得可以在知识库上进行逻辑推理。语义限制利用结构性约束语言(SHACL)和OWL进行建模。语义限制主要包括以下5类:Disjointness:类别之间存在互斥性;Domainand Range:每一个关系都有相应的定义域和值域;Functional Constraints:对于一个特定的关系和subject,只能有一个object;Cardinality Constraints,即限制object的最大数量。

5.Annotations for Temporal Scope

YAGO 4 对于其中的三元组添加了时间信息,通过添加schema:startDate和schema:endDate进行限制。

Knowledge Base

      作者设计了一个系统,从Wikidatadump和语义限制自动构建YAGO 4,采用Rust语言编写。YAGO 4 有 3 种版本:

1)Full:采用了Wikidata中所有数据;

2)Wikipedia:包括Wikidata中所有存在维基百科页面的实例;

3)EnglishWikipedia:包括Wikidata中所有存在英文维基百科页面的实例。统计情况如下表所示:

YAGO的网站:http://yago-knowledge.org/

YAGO 4的源代码:https://github.com/yago-naga/yago4

YAGO 4的SPARQL Endpoint:http://yago-knowledge.org/sparql/query

YAGO 4的Browser:YAGO 4在其网站的首页提供了图像化的浏览界面,其界面如下图所示:

YAGO 4的应用:YAGO之前已经成功地应用在了多个项目中,包括问答,实体识别,语义分析等。YAGO 4知识库可以进行逻辑推理,这将为很多新的应用提供可能。作者在YAGO 4上尝试了HermiT推理机,证明了其逻辑一致性。

Conclusion

本文阐述了YAGO的最新版本YAGO 4的特点和建立过程。YAGO 4的优势在于结合了Wikidata海量的知识和schema.org规范化的分类体系,且在其上可以进行逻辑推理。

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479025.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

责任链模式在Android中的应用

*本篇文章已授权微信公众号 guolin_blog (郭霖)独家发布 责任链其实在Android中出现的频率还蛮高的,事件传递就是一种责任链机制。接下来我为大家介绍在开发应用时责任链的用处: 1.触摸事件的应用。2.响应事件的应用。 何为责任…

最新版《神经网络和深度学习》中文版.pdf

获取最新版《神经网络和深度学习》最新版PDF和PPT的方法: 1.扫码关注 “Python与机器智能” 公众号2.后台回复关键词:神经网络注:此处建议复制,不然容易打错▲长按扫描关注,回复神经网络即可获取文档目录如下获取最新版…

论文浅尝 | 知识图谱的不确定性衡量

论文笔记整理:谭亦鸣,东南大学博士。来源:Knowledge and Information Systems volume 62, pages611–637(2020)链接:https://link.springer.com/article/10.1007/s10115-019-01363-0概要本文的核心工作是利用知识结构来衡量知识库…

LeetCode 709. 转换成小写字母

1. 题目 实现函数 ToLowerCase(),该函数接收一个字符串参数 str,并将该字符串中的大写字母转换成小写字母,之后返回新的字符串。 2. 解题 char tolower(char)小写比大写对应字符大32 class Solution { public:string toLowerCase(strin…

Logan:美团点评的开源移动端基础日志库

前言 Logan是美团点评集团移动端基础日志组件,这个名称是Log和An的组合,代表个体日志服务。同时Logan也是“金刚狼”大叔的名号,当然我们更希望这个产品能像金刚狼大叔一样犀利。 Logan已经稳定迭代了一年多的时间。目前美团点评绝大多数App已…

如何实现一个循环显示超长图片的控件

*本篇文章已授权微信公众号 guolin_blog (郭霖)独家发布 某次被问到如何实现一个滚筒状的控件,就是可以将一张很长的图片沿着Y轴无限旋转,如下图所示: 大概就是这个意思,当时还不知道图片可以裁剪&…

斯坦福大学——人工智能本科4年课程清单

文 | Mihail Eric编 | 大数据文摘相信每个入行人工智能的老手,对自己过往的几年学习生涯都或多或少会有一些遗憾:如果我当年先从基本概念入手就好了,如果我当年把核心算法吃的更透一点就好了……最近,一位在行业内工作了几年的斯坦…

bert模型简介、transformers中bert模型源码阅读、分类任务实战和难点总结

bert模型简介、transformers中bert模型源码阅读、分类任务实战和难点总结:https://blog.csdn.net/HUSTHY/article/details/105882989 目录 一、bert模型简介 bert与训练的流程: bert模型的输入 二、huggingface的bert源码浅析 bert提取文本词向量 BertMo…

LeetCode 476. 数字的补数(移位 异或^)

1. 题目 给定一个正整数,输出它的补数。补数是对该数的二进制表示取反。 2. 解题 先求出该数的2进制有多少位然后分别每位与1进行异或操作 class Solution { public:int findComplement(int num) {int n 1, num_copy num;while(num_copy/2){n;num_copy / 2;}wh…

论文浅尝 - ICLR 2020 | 用于文本推理的神经模块网络

论文笔记整理:邓淑敏,浙江大学在读博士,研究方向为低资源条件下知识图谱自动化构建关键技术研究。论文链接:https://openreview.net/pdf?idSygWvAVFPr Demo链接: https://demo.allennlp.org/reading-comprehension 代码链接: htt…

全栈深度学习第3期: 怎样科学管理实验数据?

一起追剧鸭简介Berkeley全栈深度学习追剧计划是由夕小瑶的卖萌屋发起的优质公开课打卡项目,通过微信群为同期追剧的小伙伴提供交流平台。关于该计划的详请见这里。1. Berkeley深度学习追剧群目前已有1000小伙伴加入,公众号后台回复口令 深度学习追剧 入群…

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

论文笔记整理:朱渝珊,浙江大学直博生。研究方向:知识图谱,快速表示学习等。论文链接:https://arxiv.org/pdf/1910.02481.pdf本文是ICLR 2020的一篇关于知识图谱中关于复杂(树状、组合)规则可微学…

上海交大张拳石:神经网络的变量交互可解释性研究

文 | Qs.Zhang张拳石知乎可解释性研究一直有两副嘴脸,一副烈火烹油繁花似锦,一副如履薄冰零丁洋里叹零丁。在2018年我开始发知乎是为了“活着”——被刷榜为王的风气屡屡打击之后,一朝中稿,倒过一口气来,终于可以跟大家…

基于TensorFlow Serving的深度学习在线预估

一、前言 随着深度学习在图像、语言、广告点击率预估等各个领域不断发展,很多团队开始探索深度学习技术在业务层面的实践与应用。而在广告CTR预估方面,新模型也是层出不穷: Wide and Deep[^1]、DeepCross Network[^2]、DeepFM[^3]、xDeepFM[^…

python库Camelot从pdf抽取表格数据以及python库camelot安装及使用中的一些注意事项

一、python库camelot安装及使用中的一些注意事项 1)camelot方法有两种解析模式:流解析(stream)、格子解析(lattice),其中格子解析能够保留表格完整的样式,对于复杂表格来说要优于流…

LeetCode 561. 数组拆分 I

1. 题目 给定长度为 2n 的数组, 你的任务是将这些数分成 n 对, 例如 (a1, b1), (a2, b2), …, (an, bn) ,使得从1 到 n 的 min(ai, bi) 总和最大。 示例 1:输入: [1,4,3,2]输出: 4 解释: n 等于 2, 最大总和为 4 min(1, 2) min(3, 4).来源:力扣&…

论文浅尝 - 计算机工程 | 知识图谱可视化查询技术综述

本文转载自公众号:计算机工程。知识图谱可视化查询技术综述王鑫, 傅强, 王林, 徐大为, 王昊奋知识图谱作为符号主义发展的产物,是人工智能技术和系统中的重要组成部分,其在百科知识、生物信息、社交网络以及网络安全等领域被广泛运用。知识图…

用VS Code直接浏览GitHub代码 | 12.1K星

文 | 金磊(发自凹非寺)源 | 量子位“看GitHub代码”这件事上,还在网页上点点点?用开发工具看代码,不香吗?于是,它来了,它来了——可以直接用VS Code方式打开GitHub代码的工具。而且在短短几天时间里&#x…

APPKIT打造稳定、灵活、高效的运营配置平台

一、背景 美团App、大众点评App都是重运营的应用。对于App里运营资源、基础配置,需要根据城市、版本、平台、渠道等不同的维度进行运营管理。如何在版本快速迭代过程中,保持运营资源能够被高效、稳定和灵活地配置,是我们团队面临的重大考验。…

Android官方开发文档Training系列课程中文版:通知用户之大视图通知

原文地址:http://android.xsoftlab.net/training/notify-user/expanded.html#big-view 通知在通知栏中以两种风格呈现:正常视图与大视图。只有在通知展开的时候才会展示大视图。这只有在通知处于通知栏顶部时或者用户点击了通知时才会出现。 大视图于A…