论文浅尝 - ESWC2020 | YAGO 4: A Reason-able Knowledge Base

论文笔记整理：叶群，浙江大学计算机学院，知识图谱、NLP方向。

会议：ESWC 2020

链接：https://suchanek.name/work/publications/eswc-2020-yago.pdf

Introduction

YAGO是世界上最大的链接数据库之一，由德国马普研究所发布。在本篇论文中，作者发布了最新版本的YAGO 4，包含约20亿三元组和6400万实体，融合了schema.org规范的分类体系和Wikidata丰富的实例数据。

Wikidata被认为是世界上最大的知识库之一，包括了超过7000万实体。与此同时，Wikidata社区对自己的定位是信息的集合，而不是我们传统意义上的“知识”。Wikidata没有严格的语义约束，且存在一些不同来源的自相矛盾的描述。对于下游应用来说，Wikidata的分类体系过于复杂和令人费解；经典的推理机无法在Wikidata知识库上进行推理，因为其本身存在很多不一致性。

举个例子阐述Wikidata的分类体系存在的问题，实体“布达拉宫”是“touristattraction”的一个实例，而“tourist attraction”是“geographic object”的子类，“geographic object”是“geometric concept”的实例，而“geometric concept”是“mathematical concepts”的子类。所以当你在Wikidata搜索“mathematical concepts”，返回的结果有张量，多边形, … ,以及布达拉宫。

在YAGO 4中，作者采用schema.org简单且清晰的分类体系来取代Wikidata复杂且费解的分类体系。因此，YAGO 4是一个逻辑一致的知识库，可以进行基于OWL的推理。

Design

YAGO 4的建立是基于5个主要的设计思路，在这里依次阐述。

1.Concise Taxonomy

Wikidata拥有一个非常庞大的分类体系，其类别层级结构过深且混乱。同时，分类体系存在不稳定性，任何贡献者都可以在两个类别之间添加或删除“subclassOf”关系，即一次编辑就可能导致上百万个实体分类结果不同。另一方面，schema.org的分类体系稳定，维护良好，由W3C Schema.org Community Group维护。但是，schema.org的分类体系中缺少一些细粒度的类别和生物化学相关的类别。为了解决这个问题，作者手工融入了Bioschemas，一个在生命科学领域的分类体系。关于细粒度类别缺失的问题，对于top-level的类别，作者选取schema.org的类别；对于leaf-level的类别（即细粒度的类别），选取Wikidata中的类别。对于Wikidata中实例数量小于10的类别，部分类别的子类以及不符约束的类别，进行丢弃。原始的Wikidata中有240万个类别，经过清洗保留了10k个类别。

2.Legible Entities and Relations

YAGO 4以RDF格式存储。与Wikidata不同，采用了可读性更高的方式来进行URI的命名。若实体有相应的维基百科页面，以维基百科页面标题作为URI。若无维基百科页面，以该实体的英文标签和Wikidata标识符作为URI。若无英文标签，即以Wikidata标识符作为URI。

3.Well-typed Values

YAGO 4对于literal也进行了处理，使之更为规范化。比如，对于日期值，转换成xsd:dateTime, xsd:date, xsd:gYearMonth或者xsd:gYear。

4.Semantic Constraints

YAGO 4采取了一系列的语义限制，使得可以在知识库上进行逻辑推理。语义限制利用结构性约束语言（SHACL）和OWL进行建模。语义限制主要包括以下5类：Disjointness：类别之间存在互斥性；Domainand Range：每一个关系都有相应的定义域和值域；Functional Constraints：对于一个特定的关系和subject，只能有一个object；Cardinality Constraints，即限制object的最大数量。

5.Annotations for Temporal Scope

YAGO 4 对于其中的三元组添加了时间信息，通过添加schema:startDate和schema:endDate进行限制。

Knowledge Base

作者设计了一个系统，从Wikidatadump和语义限制自动构建YAGO 4，采用Rust语言编写。YAGO 4 有 3 种版本：

1）Full：采用了Wikidata中所有数据；

2）Wikipedia：包括Wikidata中所有存在维基百科页面的实例；

3）EnglishWikipedia：包括Wikidata中所有存在英文维基百科页面的实例。统计情况如下表所示：