梁家卿 | 百科知识图谱同步更新

本文转载自公众号知识工场



本文整理自复旦大学知识工场梁家卿博士在IJCAI 2017 会议上的论文报告,题目为《How to Keep a Knowledge Base Synchronized with Its Encyclopedia Source》,作者包括:梁家卿博士(复旦大学,上海数眼科技发展有限公司),张圣硕士(复旦大学),肖仰华教授(复旦大学,上海互联网大数据工程技术研究中心,小i机器人)



IJCAI(International Joint Conference on Artificial Intelligence,国际人工智能联合会议)是人工智能领域最顶级的学术会议之一,被中国计算机学会推荐国际学术会议列表认定为 A 类会议。该会议聚集了人工智能领域最顶尖的研究者和优秀从业者,关注研讨领域涵盖机器学习、计算可持续性、图像识别、语音技术、视频技术等,对全球人工智能行业具有巨大影响力。8月19日-8月25日,IJCAI 2017在澳大利亚墨尔本正式开启。




梁家卿:大家下午好,我的这篇文章主要讲的是如何让百科知识库和它对应的百科数据源保持同步更新。



大家都知道,知识库在很多应用中都担任着非常重要的角色。有些知识库使用百科类网站(如:维基百科)作为数据源,像DBpedia、Freebase,CN-DBpedia等。由于百科类网站的质量都很高,所以在此基础上构建的百科知识图谱质量也很高。


知识库中的知识并不是一成不变的,很多事实都会发生变化。例如,美国总统从奥巴马变成了特朗普;特朗普的职业从商人变成了总统。这样一来,知识图谱的更新就显得非常重要。如果不知道特朗普是总统,机器在阅读最新文章时,可能只会把他认为是一个普通商人发表的政治意见。还有很多新词,比如说iPhone8,你将永远不知道它是什么。


我们都知道,很多数据源(维基百科)一直是志愿者在更新的,那么我们只需要将知识库与维基百科进行同步即可。这里的关键问题在于,如何保持知识库与在线百科网站的同步更新呢?

目前传统有两种方法来进行知识库与在线百科的同步,第一种方法是下载最新的网站Dump数据,但是这个方法要求我们下载GB级的数据,然后每个周期都会生成新的Dump数据,不仅如此,还有许多的百科类网站是不会提供Dump数据的。第二个方法是爬网站,但是这个方法的工作量太大了,有太多的网页需要爬,而且还会有很多网站会封锁我们的爬虫。


知识库的更新固然重要,但也不是说库中的每个实体都需要更新,因为大多数实体都具有稳定的性质,它的关系很少会发生变化,例如,“橙子”,这是一个基本概念;“牛顿”,这是一个不会改变的历史人物。

我们真正需要更新的是一些会发生改变的实体,像一些非常热门的实体就很有可能发生改变,比如特朗普。所以一个更好的策略就是先将实体区分为稳定实体和易变实体(比如:热门实体),然后把易变实体更新即可。现在有一个关键的问题,就是如何去估算百科网站中实体的更新频率?


我们将这套策略用在了CN-DBpedia知识库中。CN-DBpedia是一个以百度百科作为数据源构建的中文百科知识库。为了解决上述的这个问题,我们在CN-DBpedia上建立了一个系统,这个系统每天只需要更新很少的热门实体即可。


接下来是具体实现细节。我们首先将这个问题定义为一个最大化问题,选择最需要更新的K个实体。一个实体是否需要更新就看在线百科网站上实体的最近更新时间是否晚于我们知识库中的上一次同步时间。

为什么要设置K值呢?这主要是由于获取资源的能力是有限的,并且很多网站也有访问次数限制。所以我们设置了每天能访问的实体次数上限K。


现在,假设我们可以预测每个实体的更新频率,那么将如何找到这些待更新的K个实体呢?

一个基本方法是对每个数据库中的实体都预测它的更新频率,然后取最大的K个。但这种做法太耗时了,并且只能对已有的数据进行更新,无法更新新词。

一个改进的方法是对互联网上的热词进行监控。因为我们认为,一个实体之所以变成热词,会有两个原因。一个是新词,比如即将发布的iPhone8。另一个是旧词,但知识发生了变化,比如说特朗普变成美国总统了。


整体框架如下:首先监控热词获得种子实体,然后同步这些种子实体。接下来通过实体的相关实体来扩展得到更多的待更新实体,最后根据这些待更新实体的优先级来进行更新。


先来看种子发现和种子同步。

我们发现一个现象,如果一个实体突然频繁地出现在互联网上,关于它的知识很可能就会发生变化。因此,我们从互联网上搜集热门新闻,热门搜索关键字和热点话题,通过分词等方法,提取出其中的热门实体,然后加以同步。


但是,每天的热门话题数量太少,所以我们需要通过扩展的方式得到更多的待更新实体。

我们遵循的一个原则是:与最近更新的实体相关的实体更可能更新。例如,特朗普成为总统后,特朗普的妻子成为第一夫人。

我们做了一个实验来验证这一原则。


优先级设置的原则是这样的,如果是一个新词,那么优先级设置为最高,如果是一个旧词,估计其上一次更新结束到当前时间内可能更新的次数,将这个次数作为优先级的指标。指标为更新频率乘以更新间隔。


接下来,就是要估计每个实体的更新频率了。最开始,我们基于这样一个基本假设:实体更新频率遵循泊松分布。但后来实验发现,这个分布并不成立。


我们把这个问题看作是一个回归问题。选择了表中的8个特征,分别使用了线性回归和随机森林回归两种来估计更新频率。



最后,实验结果表明,我们提出的随机森林回归模型取得了最好的效果。


我们将系统部署到CN-DBpedia上,设置K值为1000。结果发现,68.7%的实体中的知识都发生了改变。


最后,我们再对本文进行一下简单的总结。

首先, 许多知识库都是使用百科网站作为数据源,但是这些知识库往往不能及时更新。每个都重新构建一遍代价巨大。

第二,我们提出了一个知识库更新系统,包含了一组有效的更新策略。

第三,我们将这套策略部署到了中文知识库CN-DBpedia中,提高了知识库的时效性。

最后,这个系统每天更新一千个实体,统计发现,其中70%的实体的知识确实发生了变化。




获取完整PPT

关注“知识工场”微信公众号,回复“20170819”获取下载链接。




以上就是梁家卿博士在IJCAI为大家带来的全部内容。知识工场实验室后续将为大家带来更精彩的文章,请大家关注。

             




OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481082.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

别再搜集面经啦!小夕教你斩下NLP算法岗offer!

推完上一篇文章,订阅号和知乎后台有好多小伙伴跟小夕要面经(还有个要买简历的是什么鬼),然鹅小夕真的没有整理面经呀,真的木有时间(。 ́︿ ̀。)。不过话说回来,面经有多大用呢&#…

肖仰华 | 基于知识图谱的问答系统

本文转载自公众号知识工场。 本文整理自复旦大学知识工场肖仰华教授在VLDB 2017 会议上的论文报告,题目为《KBQA: Learning Question Answering over QA Corpora and Knowledge Bases》,作者包括:崔万云博士(现上海财经大学讲师&a…

【小夕精选】YJango 7分钟带你领略你未曾想过的线性代数+微积分

小夕很早之前就想转一些精彩的技术文章,这样哪怕没有时间写作的时候,也能把优质的干货分享给大家~然鹅,由于我也不知道是什么的原因,就不小心拖到了现在╮( ̄▽ ̄"")╭之前有不少粉丝希…

白硕 | 基于区块链的众包社区激励机制

本文整理自白硕老师在 YOCSEF 武汉专题论坛:“人工智能遇到区块链,是惊鸿一瞥还是天长地久?”的报告。 很高兴有这个机会跟大家交流。我先讲几个案例作为引子。第一个案例与知识图谱有关。这个公司做的是非常垂直的一个领域,安全教…

【小夕精选】多轮对话之对话管理(Dialog Management)

这一篇是一段时间之前小夕初入对话领域时刷到的徐阿衡小姐姐写的一篇文章,写的深入浅出,十分适合有一定基础的情况下想快速了解对话管理技术的童鞋阅读~另外顺手推一下阿衡小姐姐的订阅号「徐阿衡」,干货满满不要错过哦~这一篇想写一写对话管…

KD Tree的原理及Python实现

1. 原理篇我们用大白话讲讲KD-Tree是怎么一回事。1.1 线性查找假设数组A为[0, 6, 3, 8, 7, 4, 11],有一个元素x,我们要找到数组A中距离x最近的元素,应该如何实现呢?比较直接的想法是用数组A中的每一个元素与x作差,差的…

漆桂林 | 知识图谱的应用

本文作者为东南大学漆桂林老师,首发于知乎专栏知识图谱和智能问答 前面一篇文章“知识图谱之语义网络篇”已经提到了知识图谱的发展历史,回顾一下有以下几点: 1. 知识图谱是一种语义网络,即一个具有图结构的知识库,这里…

NLP预训练之路——从word2vec, ELMo到BERT

前言 还记得不久之前的机器阅读理解领域,微软和阿里在SQuAD上分别以R-Net和SLQA超过人类,百度在MS MARCO上凭借V-Net霸榜并在BLEU上超过人类。这些网络可以说一个比一个复杂,似乎“如何设计出一个更work的task-specific的网络"变成了NLP…

论文 | 信息检索结果Ranking的评价指标《RankDCG: Rank-Ordering Evaluation Measure》

未经允许,不得转载,谢谢~~ 一 文章简介 为什么要提出这个新的评价算法? 我们都知道ranking过程对于信息检索的结果是非常重要的,那么我们就需要有一些算法能评价ranking的结果到底如何。现有用来评价ranking的常用算法有&#xff…

肖仰华 | 基于知识图谱的用户理解

本文转载自公众号知识工场。 本文整理自肖仰华教授在三星电子中国研究院做的报告,题目为《Understanding users with knowldge graphs》。 今天,很高兴有这个机会来这里与大家交流。 前面两位老师把基于社会影响力的传播和推荐,以及跨领域的…

NLP的游戏规则从此改写?从word2vec, ELMo到BERT

前言还记得不久之前的机器阅读理解领域,微软和阿里在SQuAD上分别以R-Net和SLQA超过人类,百度在MS MARCO上凭借V-Net霸榜并在BLEU上超过人类。这些网络可以说一个比一个复杂,似乎“如何设计出一个更work的task-specific的网络"变成了NLP领…

信息检索IR评价中常见的评价指标-MAP\NDCG\ERR\P@10等

信息检索评价是对信息检索系统性能(主要满足用户信息需求的能力)进行评估的活动。通过评估可以评价不同技术的优劣,不同因素对系统的影响,从而促进本领域研究水平的不断提高。信息检索系统的目标是较少消耗情况下尽快、全面返回准…

科普 | “开放知识”的定义

OpenKG 主要关注知识图谱数据(或者称为结构化数据、语义数据、知识库)的开放,广义上 OpenKG 属于开放数据的一种。 关于“开放”的定义,比较好的参考是由国际开放知识基金会 OKFN.ORG(Open Knowledge International)给与的“开放知…

科普 | 以链接为中心的系统:Link-based Systems

硅谷教父凯文凯利在他新书《必然》中谈到了网页 2.0:“…今天的网络就是所有可以访问到的超链接文件… 但在未来的 30 年中…超链接的触手会不断延伸,把所有的比特连接起来。一个主机游戏中发生的事件会像新闻一样搜索即得。你还能寻找一段 YouTube 视频…

优云软件数据专家最佳实践:数据挖掘与运维分析

优云软件数据专家最佳实践:数据挖掘与运维分析 这份研究报告,作者是优云软件数据专家陈是维,在耗时1年时间制作的一份最佳实践,今天和大家分享下,关于《数据采矿和运维分析》,共同探讨~ 数据挖掘&#xff0…

史上最全提升GPU的tricks合集

前言 首先,如果你现在已经很熟悉tf.dataestimator了,可以把文章x掉了╮( ̄▽ ̄””)╭ 但是!如果现在还是在进行session.run(..)的话!尤其是苦恼于GPU显存都塞满了利用率却上不去的童鞋,这篇文章或…

领域应用 | 图数据库及其在恒昌的应用简介

首发于知乎专栏知识图谱和智能问答,作者为量子胖比特。 背景 历史上,多数企业级应用都运行在一个关系型数据库上(RDBMS),近年来,随着数据存储技术的飞速发展,关系型数据库在灵活性和可伸缩性方面…

训练效率低?GPU利用率上不去?快来看看别人家的tricks吧~

前言首先,如果你现在已经很熟悉tf.dataestimator了,可以把文章x掉了╮( ̄▽ ̄””)╭但是!如果现在还是在进行session.run(..)的话!尤其是苦恼于GPU显存都塞满了利用率却上不去的童鞋,这篇文章或许…

科普 | 典型的知识库/链接数据/知识图谱项目

从人工智能的概念被提出开始,构建大规模的知识库一直都是人工智能、自然语言理解等领域的核心任务之一。下面首先分别介绍了早期的知识库项目和以互联网为基础构建的新一代知识库项目。并单独介绍了典型的中文知识图谱项目。 1. 早期的知识库项目 Cyc : Cyc 是持续…

【TensorFlow】优化方法optimizer总结(SGD,Adagrad,Adadelta,Adam,Adamax,Nadam)解析(十三)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/brucewong0516/article/details/78838124 本文仅对一些常见的优化方法进行直观介绍和简单的比较,主要是一阶的梯度法,包括SGD, Momentum, Nesterov M…