曹羽 | 从知识工程到知识图谱全面回顾

本文转载自公众号：集智俱乐部。

文本挖掘和图形数据库 | ©ontotext

导语

知识工程是符号主义人工智能的典型代表，近年来越来越火的知识图谱，就是新一代的知识工程技术。知识工程将如何影响未来人工智能领域的发展，甚至让计算机拥有像人类一样的认知能力？

复旦大学教授、知识工场创始人肖仰华，受邀在腾讯研究院×集智俱乐部AI&Society沙龙上发表以“知识图谱与认知智能”为题的演讲，笔者受肖仰华教授讲座启发，梳理了知识工程与知识图谱的发展历程。讲座视频实录请见文末网页链接。

智能是什么？半个多世纪以来，无数科学家钻研，各个派别涌现，然而众人的眼光似乎总是聚焦在当下“胜利”的那一方。过去几年，以深度学习为代表的连接主义取得了丰硕的成果，如今提到人工智能，都默认是基于深度学习和机器学习方法，而其它研究方向似乎被众人遗忘。

随着大数据红利消耗殆尽，深度学习模型效果的天花板日益迫近，人们四处寻找新的突破口，“得知识者得天下”的声势渐长。以知识图谱为代表的符号主义被打上追光，这个蕴含大量先验知识的宝库尚未被有效挖掘。

符号主义和连接主义此消彼长几十年，未来是否会继续重复这种对立，亦或者是找到两者有机的结合，走向合作发展的道路？

知识工程是符号主义人工智能的典型代表，近年来越来越火的知识图谱，就是新一代的知识工程技术。知识工程将如何影响未来人工智能领域的发展，甚至让计算机拥有像人类一样的认知能力？本文将从历史出发，系统梳理知识工程近 40 年的发展历程，结合互联网大数据时代的技术和社会背景，展望知识工程和知识图谱的未来前景。

智能化的突破口：知识工程

一般认为，人工智能分为计算智能、感知智能和认知智能三个层次。简要来讲，计算智能即快速计算、记忆和储存能力；感知智能，即视觉、听觉、触觉等感知能力，当下十分热门的语音识别、语音合成、图像识别即是感知智能；认知智能则为理解、解释的能力。

640?wx_fmt=png

目前的智能研究旨在通过计算机模拟，让机器获得和人类相似的智慧，解决智能时代下的精准分析、智慧搜索、自然人机交互、深层关系推理等实际问题。 | © thoughtworks

落眼当下，以快速计算、存储为目标的计算智能已经基本实现。近几年，在深度学习推动下，以视觉、听觉等识别技术为目标的感知智能也取得不错的胜利果实。然而，相比于前两者，认知能力的实现难度较大。举个例子，小猫可以“识别”主人，它所用到的感知能力，一般动物都具备，而认知智能则是人独有的能力。人工智能的研究目标之一，就是希望机器将具备认知智能，能够像人一样“思考”。

这种像人一样的思考能力具体体现在：机器对数据和语言的理解、推理、解释、归纳、演绎的能力，体现在一切人类所独有的认知能力上。学界业界都希望通过计算机模拟，让机器获得和人类相似的智慧，解决智能时代下的精准分析、智慧搜索、自然人机交互、深层关系推理等实际问题。

知道了认知智能是机器智能化的关键，进一步我们要思考，如何实现认知智能——如何让机器拥有理解和解释的认知能力。

过去几年，由于大数据红利的消失，深度学习面临巨大的瓶颈，需要寻找新的突破口。以深度学习为代表的统计学习方法，严重依赖样本，只能习得数据中的信息。部分研究者已经关注到，另一个非常重要的突破方向在于——知识，特别是符号化的知识。

肖仰华教授认为，知识图谱和以知识图谱为代表的知识工程系列技术是认知智能的核心。知识工程主要包括：知识获取、知识表示和知识应用。我们可以尝试突破的方向在于知识的利用，在于对符号知识和数值模型结合的应用。而这些努力，最终结果就是使机器具备理解和解释的能力。

640?wx_fmt=png

肖仰华教授正在AI&Society第十五期沙龙上发表知识图谱主题演讲

知识工程前世今生

知识工程起源

20世纪50年代—70年代初
知识工程诞生之前的早期人工智能

那么知识图谱到底将如何助力人工智能？回顾历史总能帮助我们更好的理解未来。把时间的车轮回滚到1956年8月，在美国汉诺斯小镇宁静的达特茅斯学院中，几位心理学家、数学家、计算机科学家、信息论学家聚在一起，举办了一次长达2个月的研讨会，认真而热烈地讨论了用机器模拟人类智能的问题。他们为会议的内容起了一个响亮的名字：人工智能（artificial intelligence）。

人工智能学科自此诞生。

640?wx_fmt=png

传统知识工程代表性人物与成就

达特茅斯会议之后，参会者们相继取得了一批令人瞩目的研究成果。具有代表性的成果为：A.Newell、J.Shaw和H.Simon等人编制出逻辑机LT，它证明了38条数学定理；1960年又定义了GPS的逻辑推理架构，并且提出启发式搜索的思路；1956年， Samuel研制了一个跳棋程序，该程序具有自学习功能，可以从比赛中不断总结经验提高棋艺。还有很多令人激动的成就，这掀起人工智能发展的第一个高潮。

其中，以Newell和 Simon为代表人物的符号主义学派，最先取得丰硕成果，最著名的代表为逻辑机LT。

符号主义最核心的思想是什么呢？符号主义认为人工智能源于数理逻辑，认为智能的本质就是符号的操作和运算。符号主义在后来几大门派的较量中，曾长期一支独秀，为人工智能的发展作出重要贡献。当然，也为后来红火一时的知识工程奠定了基业。

再把时间的焦点挪到20世纪60年代—70年代初，学界还在为人工智能发展初期取得的胜利高兴不已的时候，不切实际的研发目标带来接二连三的项目失败、期望落空。过高的期望总是带来更具破坏性的失望，终于，人工智能迎来第一次寒冷的冬天。

1977
知识工程诞生

在人工智能领域经历挫折之后，研究者们不得不冷静下来，重新审视、思考未来的道路。这时候，西蒙的学生，爱德华·费根鲍姆（Edward A. Feigenbaum）站了出来。他分析传统的人工智能忽略了具体的知识，人工智能必须引进知识。

640?wx_fmt=png

爱德华·费根鲍姆（Edward Feigenbaum，1936-），美国计算机科学家，专家系统之父，知识工程奠基人，曾获得 1994 年图灵奖。他有一句名言流传甚广：“Knowledge is the power in AI”。

在费根鲍姆的带领下，专家系统诞生了。专家系统作为早期人工智能的重要分支，是一种在特定领域内具有专家水平解决问题能力的程序系统。

专家系统一般由两部分组成：知识库与推理引擎。它根据一个或者多个专家提供的知识和经验，通过模拟专家的思维过程，进行主动推理和判断，解决问题。第一个成功的专家系统DENDRAL于1968年问世。1977年，费根鲍姆将其正式命名为知识工程。

把知识融合在机器中，让机器能够利用我们人类知识、专家知识解决问题，这就是知识工程要做的事。

知识工程的兴起与发展

20世纪70年代—90年代
知识工程蓬勃发展

1977年知识工程诞生之后，这个领域还在不断往前发展，不断产生新的逻辑语言和方法。这其中有一节点比较重要。

640?wx_fmt=png

上节已经提到专家系统的是如何形成的，而专家系统究竟发展的如何呢？知识工程又是否能产业落地？美国 DEC 公司的专家配置系统 XCON给出了初步的答案，当客户订购 DEC 公司的 VAX 系列计算机时，专家配置系统 XCON 可以按照需求自动配置零部件。在投入使用的6年间，共处理八万个订单，节省了资金。

至此，人工智能逐步开始了商业应用。

比较著名的专家系统还有cyc，由Douglas Lenat在1984年设立，旨在收集生活中常识知识的本体知识库。Cyc不仅包含知识，还提供很多的推理引擎，共涉及50万条概念和500万条知识。除此之外，还有普林斯顿大学心理学教授维护的WordNet的英语字典。类似的，汉语中的《同义词词林》及其扩展版、知网（HowNet）等词典。不幸的是，随着日本五代机的幻灭，专家系统在经历了十年的黄金期后，终因无法克服人工构建成本太高，知识获取困难等弊端，逐渐没落。

1998
万维网与连接数据

万维网的出现，为知识的获取提供了极大的方便。1998年，万维网之父蒂姆·伯纳斯·李再次提出语义网。它的核心是：语义网可以直接向机器提供能用于程序处理的知识。通过将万维网上的文档转化为计算机所能理解的语义，使互联网成为信息交换媒介。但是，语义网是一个比较宏观的设想，需要“自顶向下”的设计，很难落地。

640?wx_fmt=png

语义分析与知识网络

由于自顶向下的设计落地困难，学者们将目光转移到数据本身上来，提出了连接数据的概念。连接数据希望数据不仅仅发布于语义网中，更需要建立起自身数据之间的链接从而形成一张巨大的链接数据网。其中， DBpedia项目是目前已知的第一个大规模开放域链接数据。类似的还有Wikipedia、Yago等都属于这一类结构化知识的知识库。

2012-知识图谱
知识工程新发展时期

与维基百科的同时存在的还有个 Freebase。维基百科的受众是人，而 Freebase 则强调机器可读。Freebase 有 4000 万个实体表示，在被收购后，谷歌给它起了个响亮的名字“知识图谱”。

为何传统知识工程困难重重？

在上世纪七八十年代，传统的知识工程的确解决了很多的问题，但是这些问题都有一个很鲜明的特点，它们大部分都是在规则明确、边界清晰、应用封闭的场景取得的成功。一旦涉及到开放的问题就基本不太可能实现，比如数学定理的证明，或是下棋。

传统知识工程为什么会有这么苛刻的条件呢？因为传统知识工程是一种典型的自上而下的做法，是一种严重依赖专家干预的做法。知识工程的基本目标，就是把专家的知识赋予机器，希望机器能够利用专家知识来解决问题。传统的知识工程里，首先需要有领域专家，专家能够把自己的知识表达出来；进一步，还需要有知识工程师把专家表达这个知识变成计算机能够处理的形式。

640?wx_fmt=png

如此依赖专家去表达知识、获取知识、运用知识，就会存在很多问题，一方面，这个机器背后的知识库规模很有限，另外一方面，它的质量也会存在很多的疑问，这就是为什么我们说传统的知识工程困难重重。

除了上面介绍的一些问题，传统的知识工程面临着的两个主要困难：

第一：知识获取困难
隐性知识、过程知识等难以表达。比如如何表达老中医看病用了哪些知识；不同专家可能存在主观性，例如，我国有明确治疗规范的疾病占比非常小，大部分依赖医生的主观性。
第二：知识应用困难
很多的应用，尤其是很多开放性的应用很容易超出预先设定的知识边界；还有很多应用需要常识的支撑，而整个人工智能最怕的恰恰就是常识。为什么？因为常识它难以定义、难以表达、难以表征；知识更新困难，太依赖领域专家，还有很多异常或难以处理的情况。

互联网应用催生

大数据时代知识工程

由于上节所述种种原因，知识工程到了上世纪八十年代之后就销声匿迹了。

虽然知识工程解决问题的思路极具前瞻性，但传统知识表示的规模有限，难以适应互联网时代大规模开放应用的需求。为了应对这些问题，学界和业界的知识工程研究者们试图寻找新的解决方案。

首先取得重大突破的，是谷歌。谷歌搜索是谷歌公司的核心产品服务，这类互联网的应用，主要有以下特点：