本文转载自公众号知识工场。
本文整理自2017年10月19日肖仰华教授在知识图谱前沿技术课程(华东师范大学站)所做的报告,报告的题目为《知识图谱研究的回顾与展望》。
大家好,很多人在对知识图谱的研究或者落地方面都表现出了极大的兴趣,我从知识图谱综述的角度给今天的研讨会开个头。
我们先从知识图谱的概念和定义讲起。知识图谱本质上是一种大规模语义网络,它包含了各种各样的实体,概念以及语义关系。比如说C罗,他是一个实体,人物和运动员是他的基本概念,“金球奖”也是一个实体,它是一个奖项,那么C罗和金球奖之间的关系就是C罗曾经获得这个奖项。所谓知识图谱就是这样一个语义网络。
知识图谱为什么这么重要?可以从两个方面来讲,首先从它的学科体系来看,如果把知识图谱置于整个人工智能的学科框架里面来看,它有着非常清晰的学科定位。在人工智能这个非常庞大的学科体系里,知识图谱有着非常清晰的学科路径,人工智能的基本目标是希望机器能像人一样理性地思考或者行为。知识工程是人工智能学科体系的一个分支,它从上世纪五六十年代开始,到七八十年代达到顶峰,Feigenbaum是知识工程的鼻祖,做了一系列开创性的工作,在很多领域,尤其是医疗、诊断领域取得了突破性的进展。知识工程的目的是让知识能够融入到计算机系统中,使得计算机系统一定程度上可以像专家一样,利用专家的知识去做诊断和治疗等。在整个知识工程的分支下,知识表示是一个非常重要的任务,我们想要把知识应用到计算机系统中去,首先要解决知识是怎么表示的,尤其在计算机系统中是怎么表示的。大家都知道,计算机想要处理问题,首先要把逻辑表示出来,要有适当的数据结构来表达这个数据,机器才有可能去处理这个数据,所以知识表示是最关键的问题。知识工程的发展离不开知识表示,先要有知识表示,才可能有知识工程的巨大发展,所以在知识工程的体系下,一个很重要的分支是如何去表示知识。而在知识表示下有个很重要的方式,就是知识图谱。知识图谱本质上只是一种知识表示的方式,它侧重在用一种关联方式来表达实体与概念之间的语义关系。这样一来大家就能看到知识图谱在整个人工智能体系下是有很清晰的脉络的。需要强调的是,知识图谱只是知识表示的一种,并不是全部。事实上,现在整个国际学术界也一直希望能够提出有更强表达能力,更小计算复杂性的知识表示方式,很多团体都在做这方面的努力。
我们再从时间维度来看知识图谱,人工智能发展到今天,进入了大数据人工智能时代,由于大数据的出现,计算能力的升级,造就了一批新型的人工智能技术,尤其以深度学习和知识图谱为代表。从技术层次来看,狭义上讲,知识图谱本质上就是一种语义网络,是大数据时代知识表示最重要的一种方式,可以说是大数据的出现造就了知识图谱。从技术体系来看,广义上讲,知识图谱是一种技术体系,就跟深度学习一样,它不是指某一特定的模型,是指一类模型,一类技术。知识图谱某种程度上被当作是大数据时代知识工程具有代表性的一脉技术。所以从狭义和广义这两个角度来理解知识图谱,可以是一种语义网络,也可以是一种技术体系。它是典型的大数据时代的产物。
我们知道,在计算机领域,知识图谱最早是2012年5月份Google正式提出,并且发布了自己的知识图谱。Google作为互联网巨头,当时的核心诉求是搜索通往答案,就是用户搜索一个关键字,可以直接得到答案,而不是给出包含关键字的网页。为什么在知识图谱出现之前,只能返回包含关键字的网页呢?因为在知识图谱出现之前,“Obama”和“birthday”只是一个字符串而已,机器无法知道Obama是一个人,birthday是一个属性。知识图谱的出现,使得搜索引擎可以理解搜索的关键字,并返回精准的答案。这对搜索引擎是至关重要的,是搜索引擎真正意义上实现从搜索通往答案的一个必备技术。在知识图谱出现之前,搜索引擎做不到搜索通往答案的根本原因,就是缺乏像知识图谱这样能提供大量背景知识的数据库。这实际上启发了我们语言理解是需要背景知识库支撑的,知识图谱在很多场合上被用作让机器理解语言的背景知识库,它的根本意义就是能帮助机器理解语言。
机器理解语言是一件非常复杂的事情,现在最多能说自然语言处理,还谈不上自然语言理解。语言理解是有歧义的,比如说“苹果”可以指公司,也可以指水果;语言理解往往是需要上下文的;很多语言是隐式的,表达的很委婉;语言表达具有多样性等等,这些都决定了自然语言理解困难重重。
语言的理解是建立在认知的基础之上,在座的能听懂我在说什么,是因为我们有着共同的认知,有着相类似的对世界的体验和教育背景。假想一个外星人来听报告,他就不能听懂,因为我们没有共同的认知。认知的不同决定了语言理解的不同。由于体验和认知,我们积累了大量的背景知识,如今我们想要机器也具备语言认知能力,那么机器也需要具备与人类差不多的背景知识库。这个背景知识库就是知识图谱,知识图谱的历史使命是作为一个巨大的背景知识库让机器具备语言认知能力。整个语言理解就好比是冰山一角,我们看到的是表面各种各样的字符串,而实际上理解表面的字符串,需要冰山下面非常庞大的背景知识。有了知识图谱,机器看到的不再仅仅是字符串,而是可以把这些字符串映射到各种各样的实体、概念,从而建立机器自己的认知世界,就是知识图谱使能机器语言认知。
在知识图谱出现之前,已经有各种各样的知识表示,像本体、语义网、文本等等,它们都是更为庞大的知识表示形式。那为什么传统的知识表示不足以作为机器理解语言的强大背景知识呢?那是因为并不是任何知识库都可以有效地作为背景知识库。事实上,想让机器具备语言认知能力,背景知识库必须满足几个条件,第一个是规模要足够大,必须涵盖足够多的实体和概念。第二个是知识库语义关系要足够丰富,描述现实世界的语义关系是丰富多样的,知识库要涵盖常见的语义关系。第三个就是知识库表示结构要十分友好。文本是一个巨大的载体,但是文本是一个非结构化数据表现形式,机器很难处理,而知识图谱往往表达为RDF结构,是一种结构友好的表达形式,是能够被计算机有效处理的。第四,受益于大数据的多源异构性,知识图谱的质量很高,我们还可以用众包的手段来进行质量的保证。
正是因为知识图谱具有这些特性,才使知识图谱使能机器语言认知成为可能。
再来看看知识图谱的优势,首先,知识图谱规模很大,很多知识图谱动辄数千万,很多企业像google,微软都有上十亿、百亿的实体,对实体的覆盖规模是十分巨大的。
第二个就是语义关系丰富。不同的在线知识库涵盖了各种各样的语义关系,再互联到一起,就基本能涵盖我们常见的语义关系。
第三个就是质量很高。通过众包和多源校验使得知识图谱的质量非常高,CN-DBpedia还可以通过用户的反馈来校验。在大数据时代,我们可以通过很多的手段来确保知识库的质量。
第四个就是结构很友好。知识库表示出来都是一个个三元组,是RDF或者图的结构。
现在有越来越多的知识图谱出现,三月份的数据显示至少有一千种常用的知识图谱,这个数据量还在不断的增长。
到了今天,我们要重新审视一下知识图谱技术的发展。在2012年至今五年的时间里,我们看到了一系列的变革。
从两个方面来讲,一方面是应用场景,另一个方面就是技术生态。随着应用场景和技术生态的变化,整个知识图谱面临着全新的挑战,以前的技术手段在应对现在智能化大潮给我们提出的挑战的时候,已经有些力不从心,所以我们要研发一些新技术。
从应用的角度来讲,知识图谱的应用趋势越来越从通用领域走向行业领域,现在的局面是通用与行业应用百花齐放,各行各业都在讨论适合自己的知识图谱。今天展示给大家的是我们自己实验室的知识图谱,在通用领域,我们实验室有CN-DBpedia,Probase plus。CN-DBpedia是一种通用百科知识图谱。通用知识库在通用人工智能中扮演着重要的角色,是未来竞争的战略制高点,即掌握了通用人工智能技术,可以从一个战略制高点向下俯冲,这样收获领域知识图谱的成果是相对容易的。但是如果只具备领域人工智能的能力,未必可以掌握通用人工智能能力。虽然领域/行业人工智能技术更容易落地,但是从战略层面上来讲,一定要对通用人工智能予以高度的关注。领域人工智能在很多领域已经落地开花,但领域图谱的应用也不是简单的事,还具有很多挑战性的研究问题,领域知识库构建的语料往往比较稀疏,比如在某个领域提到某个事实,某类关系的样本非常少,这个时候利用关系去构建有效的抽取模型就会变的十分困难,在样本稀疏的环境下去做领域知识图谱的自动化构建仍然是件非常困难的事情。
第二个应用场景发生变化是从搜索延伸至推荐、问答等复杂任务。举个例子,图中知识图谱帮助搜索代码,如果能利用知识图谱理解搜索意图,并返回准确的代码,这样效率将大有提升。用户搜索输入关键字,机器给出答案,还可以为用户做智能推荐。将来更智能的形式就是直接问答,我们实验室研发的“小Cui问答”就是这样的问答系统。
整个知识图谱将来会在越来越复杂和多元的场景下发挥重要的作用。
再进一步就是交互方式发生变化。以前的交互方式更多是基于关键字,现在越来越多的是自然语言的处理,对话式的处理,像Google Now,Apple Siri,Amazon Alexa等等,很多大公司都在研发自然语言交互的产品,这意味着自然语言交互成为未来人机交互的主流方式。对知识图谱提出的挑战就是,对自然语言的认知到了一个新的高度,需要能够利用知识图谱帮助平台和系统更好的理解问答,上下文对话等等。
进而就是从用户提的问题来看,呈现出从简单的陈述类问题到解释类问题的变化趋势。以前用户喜欢问“what”、“who”、“when”、“where”这样简单陈述性问题,现在越来越多的问“why”、“how”。用户对系统智能性的期望越来越高,很多用户在Google上问why类问题,但是很遗憾,Google还不能进行回答,只能回答陈述类问题。随着“why”、“how”问题越来越多,解释就变的很重要,可解释是未来人工智能发展的核心诉求之一,是人机互信的前提。
再进一步就是,以前在实体之间找到一些简单关系就行了,比如王宝强的老婆是马蓉,但现在不满足于简单关系的揭示,而是希望能够推理出一些深层关系,比如王宝强离婚案,为什么王宝强会请张起淮当律师?王宝强和冯小刚是好朋友,冯小刚有个御用演员叫徐静蕾,张起淮是徐静蕾的法律顾问,所以王宝强会请张起淮当律师,这个就是深层关系推理。隐式关系发现、深层关系推理将成为智能的主要体现之一。
再从技术生态的角度来看,人工智能也发生了很大的变化。从机器学习来看,虽然深度学习发展非常迅速,并且在样本数据丰富的场景下取得了很好的效果,但是机器学习仍然存在很多问题,小样本学习、无监督学习手段有限,现有模型难以有效利用大量先验知识。再从自然语言处理角度来看,虽然自然语言处理在深度学习的推动下取得了很大的进展,但是自然语言处理离实际应用需求还很远,还只是在处理阶段,远远谈不上理解。从知识库本身来看,英文图谱积累迅速,发展得相当成熟,并且在很多应用中发挥了巨大的作用,但是其他语种的知识图谱十分缺乏。虽然现在知识图谱很多,但是大部分都侧重在简单事实,对于常识的覆盖仍然十分有限。很多知识图谱都是依赖手工构建的,如何从大规模数据里用数据挖掘的方法自动挖掘出知识图谱的手段仍然缺乏。
时至今日,对知识图谱的研究必须要进行反思,在变化下我们将面临怎样的机遇和挑战呢?
第一个挑战是知识图谱构建的有效策略和方案。知识图谱涉及的领域很多,构建的有效策略和方案显得格外重要,一个有效的策略往往可以显著地弥补模型上的不足。如何充分利用知识的跨语言特性;如何区别对待数据来源的不同结构化程度;基于概念模板的迭代式抽取;基于语义与语法混合模式的抽取都需要一个有效的策略和方案,我们初步实验下来,有效的策略和方案是可以显著提升知识图谱自动化构建的效果的。
第二个挑战是大规模常识的获取和理解。随着知识库应用越来越深入,对于智能化要求越来越高,其对于常识的需求也会越来越显著。现在大规模人工智能技术是缺乏常识理解能力的,常识缺乏是人工智能研究的重大制约瓶颈。
第三个挑战是在样本稀疏环境下的领域知识获取。很多领域知识图谱缺乏有效的样本,如何将高频知识的获取模型有效迁移到样本稀疏的低频知识,是当前知识获取领域面临的重大难题。
第四个挑战是数据驱动与知识引导深度融合的新型机器学习模型。因为不能有效利用先验知识,当前机器学习的模型效果越来越接近天花板,如何把先验知识与机器深度学习结合到一起,这是个挑战。
第五个挑战是基于知识图谱的可解释人工智能。是否能利用知识图谱去解释机器产生的结果,这个将来会越来越重要。
第六个挑战是知识获取中的人机协作机制与方法。人机边界问题,这实际上是一个非常重要的问题。
还有就是知识驱动的机器语言理解。如何利用知识帮助机器理解语言,做有效的搜索和推荐。以前的搜索和推荐是基于用户的行为,将来会越来越多的利用背景知识来开展搜索和推荐。
我们初步进行了一些工作,在知识图谱构建的策略和方案方面,充分利用知识的跨语言特性, 把其他语言的知识迁移到中文里,从而有效地构建知识库。遵循先易后难的顺序,尽量避免从零开始,可以从通用知识库导出某个领域作为种子,还可以做跨领域迁移,从邻近领域迁移。
在可解释人工智能这块,国际上已经在做很多事情。以后给出一张猫的图片,机器不仅会告诉用户这是猫,还会告诉用户是因为观察到了爪子和耳朵来推断这是猫。
机器学习模型将来必须具备解释性,用户才会相信这个模型,在这个方面,我们现在可以做可解释的推荐,比如用户搜索“三星S8”、“苹果8”,机器会推荐“华为P9”,因为机器知道用户在搜索高端手机。机器不仅给你推荐,还告诉你推荐的原因。
对于现在领域知识图谱样本都很稀疏的问题,现在有两个基本思路,一个是从高频向长尾的迁移,有些关系样本很少,但也有些关系样本很多,把样本多的关系迁移到样本比较少的关系。还有一个就是富样本向穷样本领域迁移,把人类先验知识和规则与深度学习模型有效融合在一起,从而能够有效生成自然语言模型。
在常识获取和理解上,我们已经在常识抽取、推断、判定等方面做了一些工作。
最后,套用Edward Feigenbaum的一句话“Knowledge is Power in AI”,知识在整个AI中是非常重要的,还有一句话要送给大家,卡尔•雅斯贝斯在《时代的精神状况》里提到的“即将到来的是一个终点,还是一个起点?它会不会是一个起点,其重要性相当于人最初成为人的时候,所不同的只是人现在拥有大量新获得的工具以及在一个新的、更高的水准上的经验能力?”
我的报告就到这里,谢谢大家!
获取完整PPT
关注“知识工场”微信公众号,回复“20171101”获取下载链接。
OpenKG.CN
中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
点击阅读原文,进入 OpenKG 博客。