技术动态 | 知识图谱的策展

作者:Jiaoyan Chen, Senior Researcher, Department of Computer Science, University of Oxford, Research interests: Knowledge Base, Knowledge-based Learning, Machine Learning Explanation.



知识图谱在众多的领域中发挥了重要作用,比如聊天机器人,自然语言理解,常识推理,数据分析,机器学习等。然而,目前主流的常识知识图谱,如WikidataDBpedia,都存在质量管理,维护更新,一致性等方面的挑战。作为从多知识图谱的知识来源,维基百科的知识本身就存在2.8%的错误率 [1];而知识的提取、转化和创建过程也存在出现错误的可能。随着时间的推移和不同知识的融合,知识需要不断更新和维护,以确保知识的覆盖率,准确性和一致性。类似于数据策展 [8],知识图谱的策展(Knowledge GraphCuration)旨在知识图谱(知识库)的管理和维护,解决包括知识的填充(Population),知识的标准化(Canonicalization),错误知识的检测(Detection)和修复(Repair),知识的一致性(Consistency)维护等问题。

 

牛津大学知识表达和推理实验室 [2],联合伦敦图灵实验室AIDA项目组 [3]和挪威Sirius可扩展数据获取研究中心[4],提出了一些知识图谱策展方面的特定问题,并且结合各自在知识表达,推理,机器学习和语义网等方面的优势,进行了深入地研究。

 

问题一:知识图谱的文本标准化Literal Canonicalization[7]。该工作面向基于本体的知识图谱,旨在将那些通过属性任意标注的文本和对应的语义类型与实体进行关联。研究的对象类似如下三元组事实<River_Thames,passesArea, “Port  Meadow, Oxford”>。在这个例子中,宾语是一个文本”Port Meadow, Oxford”,它应该和对应的实体关联,或者成为一个新的实体(如果不存在),并且标注语义类型如ParkPlace,以使得它具有更多的语义信息,获得更大的使用价值。这样的文本在那些从维基中提取的知识图谱,如DBpediaLinkedGeoData中大量存在(事实上,我们发现Yago直接删除了这样的事实而不是对它们进行修复)。与此同时,在多个知识图谱的整合对齐时,在知识图谱演化过程中,甚至在知识贡献者编辑知识的时候,也会出现这样的问题或者有类似的需求。不同于现有的Open IE中的实体链接和聚类问题,上述文本的上下文语境存在重要差异,现有的机器学习方法很难直接应用,并且往往依赖于大量人工标注而忽略知识图谱(知识库)的本体限制。

 

在文本标注化过程中,我们采用下图所示的自动化框架,首先对文本所表示的实体进行类别标注。我们首先通过文本检索提取与文本接近的实体,和关系属性的所有对象实体。这些实体被称为上下文实体,而它们的类别(包括祖先类)则组成了用于标注的备选类。在这些上下文实体和备选类的基础上,我们进一步利用知识图谱的实体,事实和知识图谱的本体限制(如 class disjointness)进行高质量的正采样和负采样。然后我们利用一种基于自相关神经网络的语言模型训练分类器,预测出各个备选类的分数,并结合类与类之间的不相交性等本体限制进行类别标注。基于这些标注的类,我们判断是否存在关联实体,并且找出最有可能关联的实体(如果存在)。

 

640?wx_fmt=png

 

问题二:表格语义标注(Semantic Annotation for Tabular DataColNet [5]是另一项我们正在研究的方法,它能对表格的列进行自动化知识图谱类型标注。类似于谷歌利用网页表格(Web Table)对其知识图谱进行扩展 [6],我们可以利用ColNet的类型标注,及其后续其它语义信息标注,进行知识图谱填充。ColNet不依赖于表格数据的元数据,并且自动从现有的知识图谱中学习一种基于卷积的深度学习模型,对给出的列预测出层次化的类。基于列的类型标注,我们可以进一步标注表格元素对应的实体和表格列之间的语义关系,从而利用这些表格数据对知识图谱实体进行填充。

 

 

[1] Gabriel Weaver, Barbara Strickland, and Gregory Crane.2006. Quantifying the accuracy of relational statements in wikipedia: amethodology. In JCDL, Vol. 6. Citeseer, 358–358

[2] https://www.cs.ox.ac.uk/isg/krr/

[3] https://www.turing.ac.uk/research/research-projects/artificial-intelligence-data-analytics-aida

[4] https://sirius-labs.no/

[5] Jiaoyan Chen, Ernesto Jiménez-Ruiz, IanHorrocks, and Charles Sutton. "ColNet: Embedding the Semantics of WebTables for Column Type Prediction." AAAI 2019

[6] Cafarella, Michael, et al. "Ten years ofwebtables." Proceedings of the VLDB Endowment 11.12 (2018):2140-2149.

[7] Jiaoyan Chen, Ernesto Jiménez-Ruiz, IanHorrocks. “Canonicalizing Knowledge Base Literals”. International Semantic WebConference (ISWC), 2019.

[8] https://en.wikipedia.org/wiki/Data_curation

 



OpenKG


开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479794.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

21届校招薪资曝光:严重倒挂老员工!

源 | 量子位一开始&#xff0c;还以为是科技互联网公司招聘的新把式。因为就在最近&#xff0c;一张美团应届生薪资的截图&#xff0c;在各大社区和校招群里火了。仅仅算法岗、开发岗的薪资白菜价&#xff0c;就有27k15.5&#xff0c;算下来&#xff0c;年薪就有41万。虽然这两…

从Java程序员进阶到架构师,6大核心技能要领详解

“ java架构师技能将分为如下6大环节&#xff1a;数据结构和算法&#xff0c;Java高级特性&#xff0c;Java web核心&#xff0c;数据库&#xff0c;Java框架与必备工具&#xff0c;系统架构设计。 希望能真正帮助到从程序员进阶到架构师之路的朋友。 数据结构和算法 算法分…

领域应用 | ​英文抗生素药物医学知识图谱 IASO1.0 版发布 线上试用正式启动

本文转载自公众号&#xff1a;PKU自然语言处理前沿。近日&#xff0c;由北京大学互联网信息工程研发中心&#xff08;CIRE&#xff09;开发的英语医学知识图谱英文抗生素药物医学知识图谱IASO1.0发布&#xff0c;面向公众正式开放试用。IASO是利用自然语言处理与文本挖掘技术&a…

谷歌大改Transformer注意力,速度大涨,显存大降!

源 | 机器之心导读考虑到 Transformer 对于机器学习最近一段时间的影响&#xff0c;这样一个研究就显得异常引人注目了。Transformer 有着巨大的内存和算力需求&#xff0c;因为它构造了一个注意力矩阵&#xff0c;需求与输入呈平方关系。谷歌大脑 Krzysztof Choromanski 等人最…

阿里P7架构师要求:Web核心+开源框架+大型网站架构!含面试题目!

阿里P7技能&#xff08;一&#xff09;&#xff1a;数据结构和算法&#xff1a; 常用数据结构&#xff1a;链表、堆与栈、哈希表等&#xff0c;常用的排序等。 掌握&#xff1a;精通 阿里P7技能&#xff08;二&#xff09;&#xff1a;java高级 java相关的高级特性&#xff1…

LeetCode 986. 区间列表的交集

文章目录1. 题目信息2. 解题1. 题目信息 给定两个由一些闭区间组成的列表&#xff0c;每个区间列表都是成对不相交的&#xff0c;并且已经排序。 返回这两个区间列表的交集。 &#xff08;形式上&#xff0c;闭区间 [a, b]&#xff08;其中 a < b&#xff09;表示实数 x …

论文浅尝 | 学习开发知识图谱中的长期关系依赖 - ICML 2019 ​

本文转载自公众号&#xff1a;南大Websoft。 论文&#xff1a;https://arxiv.org/abs/1905.04914代码&#xff1a;https://github.com/nju-websoft/RSN背景知识图谱结构化地存储着大量现实世界中的事实。其中&#xff0c;每个事实都以三元组 (s, r, o) 的方式进行描述&#xf…

一张图看懂小米千亿美金生态链产品

小米上市近在眼前&#xff0c;最快5月初提交IPO申请&#xff0c;再到小米IPO股指不断攀升&#xff0c;估值直奔1000亿美金以上&#xff0c;小米用了7年时间&#xff0c;这在整个互联网的发展史上&#xff0c;也算是火箭般的发展速度。 今天我们一起复盘看看小米的千亿美金生态…

Pycharm使用远程服务器运行代码

pycharm下载专业版&#xff0c;然后用学生邮箱申请个激活码&#xff08;我这里申请了个账号&#xff0c;更方便&#xff09;。 连上厦大VPN&#xff0c;再用pycharm高级版可以直接连到学校的GPU服务器&#xff0c;这样平时不在学校也能调试服务器了。 厦大VPN设置 pycharm下载…

吐槽贴:用ELECTRA、ALBERT之前,你真的了解它们吗?

文 | 苏剑林单位 | 追一科技编 | 兔子酱在预训练语言模型中&#xff0c;ALBERT和ELECTRA算是继BERT之后的两个“后起之秀”。它们从不同的角度入手对BERT进行了改进&#xff0c;最终提升了效果&#xff08;至少在不少公开评测数据集上是这样&#xff09;&#xff0c;因此也赢得…

LeetCode 56. 合并区间(优先队列)

文章目录1. 题目信息2. 解题2.1 报错的答案2.2 优先队列解题1. 题目信息 给出一个区间的集合&#xff0c;请合并所有重叠的区间。 示例 1:输入: [[1,3],[2,6],[8,10],[15,18]] 输出: [[1,6],[8,10],[15,18]] 解释: 区间 [1,3] 和 [2,6] 重叠, 将它们合并为 [1,6]. 示例 2:输入…

论文浅尝 | 基于复杂查询图编码的知识库问答

论文笔记整理&#xff1a;谭亦鸣&#xff0c;东南大学博士生&#xff0c;研究方向为知识库问答。来源&#xff1a;EMNLP 2018链接&#xff1a;https://www.aclweb.org/anthology/D18-1242文章表示&#xff0c;复杂问答所面对的问题往往包含多种实体和关系&#xff08;来自知识库…

阿里Java架构师精通资料:性能优化+亿级并发架构汇总+架构选型

分布式并发架构 微服务、Docker容器的基本原理、架构设计&#xff0c;以及应用场景。 缓存&#xff1a;Redis、Memcached、CDN、本地缓存 搜索引擎的选型&#xff1a;Lucene、Solr等选型与比较 应用服务器雪崩&#xff1a;长事务、SQL超时、同步接口引起的雪崩场景&#xff…

Google Cloud TPUs支持Pytorch框架啦!

文 | Sherry在2019年PyTorch开发者大会上&#xff0c;Facebook&#xff0c;Google和Salesforce Research联合宣布启动PyTorch-TPU项目。项目的目标是在保持PyTorch的灵活性的同时让社区尽可能容易地利用云TPU提供的高性能计算。团队创建了PyTorch/XLA这个repo&#xff0c;它可以…

LeetCode 231. 2的幂 LeetCode 338. 比特位计数(2进制1的个数)

文章目录1. 题目信息2. 解题拓展&#xff1a;求一个数n的2进制有多少个1&#xff1f;LeetCode 3381. 题目信息 给定一个整数&#xff0c;编写一个函数来判断它是否是 2 的幂次方。 示例 1:输入: 1 输出: true 解释: 20 1 示例 2:输入: 16 输出: true 解释: 24 16 示例 3:输…

最全阿里架构师P系列解读:P5-P8的技能要求和薪资结构

2018年持续一整年的架构设计分享&#xff0c;2019年我希望持续分享的同时&#xff0c;能真正意义上帮助到部分读者成为一名架构师。 学习的同时请千万别&#xff1a;只见树木&#xff0c;不见森林。 所以我会让大家先俯瞰完整的森林&#xff0c;我们再从树木开始&#xff0c;…

NeurIPS’20 | 长尾问题太严重?半监督和自监督就可以有效缓解!

文 | Yuzhe Yang源 | 知乎来给大家介绍一下我们的最新工作&#xff0c;目前已被NeurIPS 2020接收&#xff1a;Rethinking the Value of Labels for Improving Class-Imbalanced Learning。这项工作主要研究一个经典而又非常实际且常见的问题&#xff1a;数据类别不平衡&#xf…

论文浅尝 | 知识图谱中的链接预测:一种基于层次约束的方法

论文笔记整理&#xff1a;张良&#xff0c;东南大学博士生&#xff0c;研究方向为知识图谱&#xff0c;自然语言处理。链接&#xff1a;https://ieeexplore.ieee.org/stamp/stamp.jsp?tp&arnumber8450054本文主要关注KG上的 Link prediction 问题&#xff0c;以往的方法在…

阿里P8架构师谈:架构设计经验汇总

架构设计更多的是实践经验总结&#xff0c;以下架构设计经验&#xff0c;我会陆续补充完整。 一&#xff1a;数据库拆分原则 阿里P8架构师谈&#xff1a;架构设计之数据库拆分六大原则 二&#xff1a;缓存选择原则 阿里P8架构师谈&#xff1a;分布式缓存的应用场景、选型比较…