曹羽 | 从知识工程到知识图谱全面回顾

本文转载自公众号:集智俱乐部。


              

640?wx_fmt=png


文本挖掘和图形数据库 | ©ontotext



导语

知识工程是符号主义人工智能的典型代表,近年来越来越火的知识图谱,就是新一代的知识工程技术。知识工程将如何影响未来人工智能领域的发展,甚至让计算机拥有像人类一样的认知能力?


复旦大学教授、知识工场创始人肖仰华,受邀在腾讯研究院×集智俱乐部AI&Society沙龙上发表以“知识图谱与认知智能”为题的演讲,笔者受肖仰华教授讲座启发,梳理了知识工程与知识图谱的发展历程。讲座视频实录请见文末网页链接。


智能是什么?半个多世纪以来,无数科学家钻研,各个派别涌现,然而众人的眼光似乎总是聚焦在当下“胜利”的那一方。过去几年,以深度学习为代表的连接主义取得了丰硕的成果,如今提到人工智能,都默认是基于深度学习和机器学习方法,而其它研究方向似乎被众人遗忘。


随着大数据红利消耗殆尽,深度学习模型效果的天花板日益迫近,人们四处寻找新的突破口,“得知识者得天下”的声势渐长。以知识图谱为代表的符号主义被打上追光,这个蕴含大量先验知识的宝库尚未被有效挖掘。


符号主义和连接主义此消彼长几十年,未来是否会继续重复这种对立,亦或者是找到两者有机的结合,走向合作发展的道路?


知识工程是符号主义人工智能的典型代表,近年来越来越火的知识图谱,就是新一代的知识工程技术。知识工程将如何影响未来人工智能领域的发展,甚至让计算机拥有像人类一样的认知能力?本文将从历史出发,系统梳理知识工程近 40 年的发展历程,结合互联网大数据时代的技术和社会背景,展望知识工程和知识图谱的未来前景。

智能化的突破口:知识工程



一般认为,人工智能分为计算智能、感知智能和认知智能三个层次。简要来讲,计算智能即快速计算、记忆和储存能力;感知智能,即视觉、听觉、触觉等感知能力,当下十分热门的语音识别、语音合成、图像识别即是感知智能;认知智能则为理解、解释的能力。



640?wx_fmt=png


目前的智能研究旨在通过计算机模拟,让机器获得和人类相似的智慧,解决智能时代下的精准分析、智慧搜索、自然人机交互、深层关系推理等实际问题。 | © thoughtworks


落眼当下,以快速计算、存储为目标的计算智能已经基本实现。近几年,在深度学习推动下,以视觉、听觉等识别技术为目标的感知智能也取得不错的胜利果实。然而,相比于前两者,认知能力的实现难度较大。举个例子,小猫可以“识别”主人,它所用到的感知能力,一般动物都具备,而认知智能则是人独有的能力。人工智能的研究目标之一,就是希望机器将具备认知智能,能够像人一样“思考”。


这种像人一样的思考能力具体体现在:机器对数据和语言的理解、推理、解释、归纳、演绎的能力,体现在一切人类所独有的认知能力上。学界业界都希望通过计算机模拟,让机器获得和人类相似的智慧,解决智能时代下的精准分析、智慧搜索、自然人机交互、深层关系推理等实际问题。


知道了认知智能是机器智能化的关键,进一步我们要思考,如何实现认知智能——如何让机器拥有理解和解释的认知能力


过去几年,由于大数据红利的消失,深度学习面临巨大的瓶颈,需要寻找新的突破口。以深度学习为代表的统计学习方法,严重依赖样本,只能习得数据中的信息。部分研究者已经关注到,另一个非常重要的突破方向在于——知识,特别是符号化的知识。


肖仰华教授认为,知识图谱和以知识图谱为代表的知识工程系列技术是认知智能的核心。知识工程主要包括:知识获取、知识表示和知识应用。我们可以尝试突破的方向在于知识的利用,在于对符号知识和数值模型结合的应用。而这些努力,最终结果就是使机器具备理解和解释的能力。


640?wx_fmt=png

肖仰华教授正在AI&Society第十五期沙龙上发表知识图谱主题演讲



知识工程前世今生


知识工程起源



  • 20世纪50年代—70年代初

    知识工程诞生之前的早期人工智能


那么知识图谱到底将如何助力人工智能?回顾历史总能帮助我们更好的理解未来。把时间的车轮回滚到1956年8月,在美国汉诺斯小镇宁静的达特茅斯学院中,几位心理学家、数学家、计算机科学家、信息论学家聚在一起,举办了一次长达2个月的研讨会,认真而热烈地讨论了用机器模拟人类智能的问题。他们为会议的内容起了一个响亮的名字:人工智能(artificial intelligence)。


人工智能学科自此诞生。



640?wx_fmt=png


传统知识工程代表性人物与成就


达特茅斯会议之后,参会者们相继取得了一批令人瞩目的研究成果。具有代表性的成果为:A.Newell、J.Shaw和H.Simon等人编制出逻辑机LT,它证明了38条数学定理;1960年又定义了GPS的逻辑推理架构,并且提出启发式搜索的思路;1956年, Samuel研制了一个跳棋程序,该程序具有自学习功能,可以从比赛中不断总结经验提高棋艺。还有很多令人激动的成就,这掀起人工智能发展的第一个高潮。



640?wx_fmt=png


其中,以Newell和 Simon为代表人物的符号主义学派,最先取得丰硕成果,最著名的代表为逻辑机LT。


符号主义最核心的思想是什么呢?符号主义认为人工智能源于数理逻辑,认为智能的本质就是符号的操作和运算。符号主义在后来几大门派的较量中,曾长期一支独秀,为人工智能的发展作出重要贡献。当然,也为后来红火一时的知识工程奠定了基业。


再把时间的焦点挪到20世纪60年代—70年代初,学界还在为人工智能发展初期取得的胜利高兴不已的时候,不切实际的研发目标带来接二连三的项目失败、期望落空。过高的期望总是带来更具破坏性的失望,终于,人工智能迎来第一次寒冷的冬天。


  • 1977

    知识工程诞生


在人工智能领域经历挫折之后,研究者们不得不冷静下来,重新审视、思考未来的道路。这时候,西蒙的学生,爱德华·费根鲍姆(Edward A. Feigenbaum)站了出来。他分析传统的人工智能忽略了具体的知识,人工智能必须引进知识。



640?wx_fmt=png


爱德华·费根鲍姆(Edward Feigenbaum,1936-),美国计算机科学家,专家系统之父,知识工程奠基人,曾获得 1994 年图灵奖。他有一句名言流传甚广:“Knowledge is the power in AI”。


在费根鲍姆的带领下,专家系统诞生了。专家系统作为早期人工智能的重要分支,是一种在特定领域内具有专家水平解决问题能力的程序系统。


专家系统一般由两部分组成:知识库与推理引擎。它根据一个或者多个专家提供的知识和经验,通过模拟专家的思维过程,进行主动推理和判断,解决问题。第一个成功的专家系统DENDRAL于1968年问世。1977年,费根鲍姆将其正式命名为知识工程。


把知识融合在机器中,让机器能够利用我们人类知识、专家知识解决问题,这就是知识工程要做的事。

知识工程的兴起与发展



  • 20世纪70年代—90年代

    知识工程蓬勃发展


1977年知识工程诞生之后,这个领域还在不断往前发展,不断产生新的逻辑语言和方法。这其中有一节点比较重要。



640?wx_fmt=png



上节已经提到专家系统的是如何形成的,而专家系统究竟发展的如何呢?知识工程又是否能产业落地?美国 DEC 公司的专家配置系统 XCON给出了初步的答案,当客户订购  DEC 公司的 VAX 系列计算机时,专家配置系统 XCON 可以按照需求自动配置零部件。在投入使用的6年间,共处理八万个订单,节省了资金。


至此,人工智能逐步开始了商业应用。


比较著名的专家系统还有cyc,由Douglas Lenat在1984年设立,旨在收集生活中常识知识的本体知识库。Cyc不仅包含知识,还提供很多的推理引擎,共涉及50万条概念和500万条知识。除此之外,还有普林斯顿大学心理学教授维护的WordNet的英语字典。类似的,汉语中的《同义词词林》及其扩展版、知网(HowNet)等词典。不幸的是,随着日本五代机的幻灭,专家系统在经历了十年的黄金期后,终因无法克服人工构建成本太高,知识获取困难等弊端,逐渐没落。


  • 1998

    万维网与连接数据


万维网的出现,为知识的获取提供了极大的方便。1998年,万维网之父蒂姆·伯纳斯·李再次提出语义网。它的核心是:语义网可以直接向机器提供能用于程序处理的知识。通过将万维网上的文档转化为计算机所能理解的语义,使互联网成为信息交换媒介。但是,语义网是一个比较宏观的设想,需要“自顶向下”的设计,很难落地。



640?wx_fmt=png


语义分析与知识网络


由于自顶向下的设计落地困难,学者们将目光转移到数据本身上来,提出了连接数据的概念。连接数据希望数据不仅仅发布于语义网中,更需要建立起自身数据之间的链接从而形成一张巨大的链接数据网。其中, DBpedia项目是目前已知的第一个大规模开放域链接数据。类似的还有WikipediaYago等都属于这一类结构化知识的知识库。


  • 2012-知识图谱

    知识工程新发展时期


与维基百科的同时存在的还有个 Freebase。维基百科的受众是人,而 Freebase 则强调机器可读。Freebase 有 4000 万个实体表示,在被收购后,谷歌给它起了个响亮的名字“知识图谱”。

为何传统知识工程困难重重?



在上世纪七八十年代,传统的知识工程的确解决了很多的问题,但是这些问题都有一个很鲜明的特点,它们大部分都是在规则明确、边界清晰、应用封闭的场景取得的成功。一旦涉及到开放的问题就基本不太可能实现,比如数学定理的证明,或是下棋。


传统知识工程为什么会有这么苛刻的条件呢?因为传统知识工程是一种典型的自上而下的做法,是一种严重依赖专家干预的做法。知识工程的基本目标,就是把专家的知识赋予机器,希望机器能够利用专家知识来解决问题。传统的知识工程里,首先需要有领域专家,专家能够把自己的知识表达出来;进一步,还需要有知识工程师把专家表达这个知识变成计算机能够处理的形式。



640?wx_fmt=png


如此依赖专家去表达知识、获取知识、运用知识,就会存在很多问题,一方面,这个机器背后的知识库规模很有限,另外一方面,它的质量也会存在很多的疑问,这就是为什么我们说传统的知识工程困难重重。


除了上面介绍的一些问题,传统的知识工程面临着的两个主要困难:

  • 第一:知识获取困难

    隐性知识、过程知识等难以表达。比如如何表达老中医看病用了哪些知识;不同专家可能存在主观性,例如,我国有明确治疗规范的疾病占比非常小,大部分依赖医生的主观性。

  • 第二:知识应用困难

    很多的应用,尤其是很多开放性的应用很容易超出预先设定的知识边界;还有很多应用需要常识的支撑,而整个人工智能最怕的恰恰就是常识。为什么?因为常识它难以定义、难以表达、难以表征;知识更新困难,太依赖领域专家,还有很多异常或难以处理的情况。

互联网应用催生

大数据时代知识工程



由于上节所述种种原因,知识工程到了上世纪八十年代之后就销声匿迹了。


虽然知识工程解决问题的思路极具前瞻性,但传统知识表示的规模有限,难以适应互联网时代大规模开放应用的需求。为了应对这些问题,学界和业界的知识工程研究者们试图寻找新的解决方案。


首先取得重大突破的,是谷歌。谷歌搜索是谷歌公司的核心产品服务,这类互联网的应用,主要有以下特点:

  • 大规模开放性应用,永远不知道用户下一次搜索关键词是什么;

  • 精度要求不高;大部分搜索理解与回答只需要实现简单的推理,复杂推理为极少数。


在这样的诉求下,谷歌推出了自己的知识图谱,使用与语义检索,从多种来收集信息,以提高搜索质量。而知识图谱的推出,基本上宣告了知识工程进入了一个新的时代,我们称之为大数据时代的知识工程阶段。谷歌利用一个全新名称表达与传统知识表示其毅然决裂的态度。



640?wx_fmt=jpeg


Google知识图谱截取



知识图谱引领知识工程复兴




大数据时代下知识图谱的出现,有其必然性,大数据时代给知识图谱技术的发展奠定了丰富的土壤。或许你会问,知识图谱和传统的语义网络有什么本质不同么?大数据时代能给我们带来什么特别的有利条件?前沿进展的回答是——


大数据技术使得大规模获取知识成为可能,而知识图谱即为一种大规模语义网络。这样的一个知识规模上的量变带来了知识效用的质变。


我们有海量的数据、强大计算能力、群智计算以及层出不穷的模型。在这些的外力的支持下,解决了传统知识工程的一个瓶颈性问题——知识获取。我们可以利用算法实现数据驱动的大规模自动化知识获取。



640?wx_fmt=jpeg


以知识图谱为代表的符号主义声势渐长,这个蕴含大量先验知识的宝箱正被大数据技术开启。 | ©ontotext


和传统知识获取不同,以前是通过专家自上而下的获取知识,而现在是利用数据自下而上,从数据里面去挖掘知识、抽取知识。另外,众包与群智成为大规模知识获取的一条新路径。高质量的UGC内容,为自动挖掘知识提供了高质量数据源。


总的来说,知识工程在知识图谱技术引领下进入了全新阶段,叫做大数据时代知识工程阶段。肖仰华教授提出了一个简单的公式表明传统知识工程与以知识图谱为代表的新一代知识工程的联系与区别:


Small knowledge + Big data=Big knowledge


大数据知识这个词是BigKE,它将会显著提升机器认知智能水平,那么,大数据知识工程对我们人工智能最根本的意义是什么?是提升机器的认知智能水平。我们正在经历感知智能到认知智能的过渡阶段,未来最重要到技术即是实现认知智能。


大数据时代下,知识图谱又有什么独特的魅力?为什么会受到如此广泛的关注呢?

知识图谱使机器语言认知成为可能。机器想要认知语言、理解语言,需要背景知识的支持。而知识图谱富含大量的实体及概念间的关系,可以作为背景知识来支撑机器理解自然语言。


知识图谱使可解释人工智能成为可能。在人工智能发展的任何阶段,我们都需要事物的可解释性,现在的深度学习也常因为缺少可解释性受人诟病。而知识图谱中包含的概念、属性、关系是天然可拿来做解释的。 

        


640?wx_fmt=png


通过知识图谱等先验的知识去赋能机器学习,来降低机器学习对于样本的依赖,增强机器学习的能力。


知识将显著增强机器学习能力。传统的机器学习都是通过大量的样本习得知识,在大数据红利渐渐消失的情况下,逐渐遇到发展瓶颈。而通过知识图谱等先验的知识去赋能机器学习,来降低机器学习对于样本的依赖,增强机器学习的能力,或许是连接主义和符号主义在新时代下的共生发展。


除了上述的种种优势,知识图谱在一系列实际应用上也非常有用,比如搜索、精准推荐、风险识别、深化行业数据的理解与洞察等,将在各种各样的应用场景发挥作用。


信息技术革命持续进行,数据将会继续向更大规模、更多连接的方向发展,在此背景下,知识图谱将引领知识工程走上复兴的道路,推动在机器身上实现认知智能。


参考资料


[1] 肖仰华讲座:知识图谱与认知智能

[2] 集智俱乐部. 科学的极致:漫谈人工智能[M]. 人民邮电出版社 , 2015-07

[3] 尼克 . 人工智能简史[M]. 人民邮电出版社,2017

[4] 知识图谱的发展概述

肖仰华讲座回顾


讲座回顾视频地址:

https://campus.swarma.org/gcou=415





OpenKG


开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

640?wx_fmt=jpeg

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479949.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

4大JVM性能分析工具详解,及内存泄漏分析方案

谈到性能优化分析一般会涉及到: Java代码层面的,典型的循环嵌套等 还会涉及到Java JVM:内存泄漏溢出等 MySQL数据库优化:分库分表、慢查询、长事务的优化等 阿里P8架构师谈:MySQL慢查询优化、索引优化、以及表等优化…

从 0 搭建一个工业级推荐系统

推荐系统从来没像现在这样,影响着我们的生活。当你上网购物时,天猫、京东会为你推荐商品;想了解资讯,头条、知乎会为你准备感兴趣的新闻和知识;想消遣放松,抖音、快手会为你奉上让你欲罢不能的短视频。而驱…

论文浅尝 | 虚拟知识图谱:软件系统和应用案例综述

本文转载自公众号:DI数据智能。Virtual Knowledge Graphs: An Overview of Systems and Use Cases作者:Guohui Xiao, Linfang Ding, Benjamin Cogrel & Diego Calvanese供稿:Guohui Xiao编者按:Data Intelligence 发表意大利博…

LeetCode 169. 求众数(摩尔投票)

文章目录1. 题目信息2. 解题思路3. 代码3.1 排序3.2 map计数3.3 摩尔投票1. 题目信息 给定一个大小为 n 的数组,找到其中的众数。众数是指在数组中出现次数大于 ⌊ n/2 ⌋ 的元素。 你可以假设数组是非空的,并且给定的数组总是存在众数。 示例 1:输入…

阿里P8架构师谈:JVM的内存分配、运行原理、回收算法机制

不管是BAT面试,还是工作实践中的JVM调优以及参数设置,或者内存溢出检测等,都需要涉及到Java虚拟机的内存模型、内存分配,以及回收算法机制等,这些都是必考、必会技能。 JVM内存模型 JVM内存模型可以分为两个部分&…

我的BERT!改改字典,让BERT安全提速不掉分(已开源)

文 | 苏剑林编 | 小轶背景当前,大部分中文预训练模型都是以字为基本单位的,也就是说中文语句会被拆分为一个个字。中文也有一些多粒度的语言模型,比如创新工场的ZEN和字节跳动的AMBERT,但这类模型的基本单位还是字,只不…

2020年考证时间表汇总!这些证书值得拥有!

原文地址: https://zhuanlan.zhihu.com/p/100824416 2020年考证时间表汇总!这些证书值得拥有!已认证的官方帐号154 人赞同了该文章昨日之日不可留,2019年已然过去,2020年的我们不能再一成不变!快根据自身情…

征稿 | 2019年全国知识图谱与语义计算大会(CCKS2019)第二轮征稿启事

2019年全国知识图谱与语义计算大会China Conference on Knowledge Graph and Semantic Computing (CCKS 2019)2019年8月24日-27日,杭州征稿截止: 2019年5月18日全国知识图谱与语义计算大会(CCKS: China Conference on Knowledge Graph and Semantic Comp…

直通BAT必考题系列:JVM的4种垃圾回收算法、垃圾回收机制与总结

BAT必考JVM系列专题 直通BAT必考题系列:深入详解JVM内存模型与JVM参数详细配置 垃圾回收算法 1.标记清除 标记-清除算法将垃圾回收分为两个阶段:标记阶段和清除阶段。 在标记阶段首先通过根节点(GC Roots),标记所…

遗传算法及其应用实现

使用遗传算法求解函数具有最大值的点X """ Visualize Genetic Algorithm to find a maximum point in a function. """ import numpy as np import matplotlib.pyplot as pltDNA_SIZE 10 # DNA length POP_SIZE 100 # population size CROSS…

论文浅尝 | 一种嵌入效率极高的 node embedding 方式

论文笔记整理:叶群,浙江大学计算机学院,知识图谱、NLP方向。会议:WSDM 2019链接:https://dl.acm.org/citation.cfm?id3290961Motivation基于spring-electrical的模型在网络可视化中取得了非常成功的应用,一…

重要的,是那些训练中被多次遗忘的样本

文 | kid丶源 | 知乎编 | 兔子酱今天跟大家分享一篇很有意思的文章,是一篇探讨深度学习模型记忆&遗忘机制的文章,是一篇角度很新颖的题材,同时又有一定启发作用。这篇文章发表在深度学习顶会ICLR19,标题是《An empirical stud…

直通BAT必考题系列:7种JVM垃圾收集器特点,优劣势、及使用场景

直通BAT之JVM系列 直通BAT必考题系列:JVM的4种垃圾回收算法、垃圾回收机制与总结 直通BAT必考题系列:深入详解JVM内存模型与JVM参数详细配置 今天继续JVM的垃圾回收器详解,如果说垃圾收集算法是JVM内存回收的方法论,那么垃圾收集…

模拟嫁接技术

模拟嫁接技术:定义嫁接算子及策略剪接算子及策略GPOGA算法总结定义 收益和代价 对一棵生成树 T1,若将某结点的一条分枝移至另一结点作为其一条分枝后产生的生成树为 T2,考察分枝移动前后生成树的边长和的变化,则定义收益(gain)和…

HuggingFace又出炼丹神器!稀疏矩阵运算进入平民化时代!

文 | rumor酱编 | YY一提到模型加速,大家首先想到的就是蒸馏、(结构性)剪枝、量化(FP16),然而稀疏矩阵(sparse matrix)运算一直不被大家青睐。原因也很简单,一是手边没有…

章乐焱 | 用“科技”监管“科技”,知识图谱能做什么?

本文转载自公众号:恒生技术之眼。人工智能、大数据等前沿科技的爆发,推动金融科技进入了一个崭新的时代,也成为监管科技发展的重要推动力。在这个Fintech的黄金时代,前沿科技正在如何赋能监管?这方面,恒生公…

LeetCode 23. 合并K个排序链表(优先队列)

文章目录1. 题目信息2. 思路3. 代码1. 题目信息 合并 k 个排序链表,返回合并后的排序链表。请分析和描述算法的复杂度。 示例:输入: [1->4->5,1->3->4,2->6 ] 输出: 1->1->2->3->4->4->5->6来源:力扣(…

直通BAT必考题系列:JVM性能调优的6大步骤,及关键调优参数详解

JVM系列 直通BAT必考题系列:7种JVM垃圾收集器特点,优劣势、及使用场景 直通BAT必考题系列:JVM的4种垃圾回收算法、垃圾回收机制与总结 直通BAT必考题系列:深入详解JVM内存模型与JVM参数详细配置 JVM内存调优 对JVM内存的系统级…

论文浅尝 | 知识图谱三元组置信度的度量

论文笔记整理:叶橄强,浙江大学计算机学院,知识图谱和知识推理方向。https://arxiv.org/pdf/1809.09414.pdf动机在构建知识图谱的过程中,不可避免地会产生噪声和冲突。基于知识图谱的任务或应用一般默认假定知识图谱中的知识是完全…

跟小伙伴们做了个高效刷论文的小站

好久木有在知乎冒泡了,不知道还能不能出现在大家的timeline上哇QAQ正文开始之前还是先习惯性的碎碎念一下。前段时间换了研究方向,重新pick了问答和检索,为了追上相关问题的最新进展,就顾不上写文的刷了一堆paper,加上…