肖仰华 | 知识图谱研究的回顾与展望

本文转载自公众号知识工场


                                                    

本文整理自2017年10月19日肖仰华教授在知识图谱前沿技术课程(华东师范大学站)所做的报告,报告的题目为《知识图谱研究的回顾与展望》。



大家好,很多人在对知识图谱的研究或者落地方面都表现出了极大的兴趣,我从知识图谱综述的角度给今天的研讨会开个头。


我们先从知识图谱的概念和定义讲起。知识图谱本质上是一种大规模语义网络,它包含了各种各样的实体,概念以及语义关系。比如说C罗,他是一个实体,人物和运动员是他的基本概念,“金球奖”也是一个实体,它是一个奖项,那么C罗和金球奖之间的关系就是C罗曾经获得这个奖项。所谓知识图谱就是这样一个语义网络。


知识图谱为什么这么重要?可以从两个方面来讲,首先从它的学科体系来看,如果把知识图谱置于整个人工智能的学科框架里面来看,它有着非常清晰的学科定位。在人工智能这个非常庞大的学科体系里,知识图谱有着非常清晰的学科路径,人工智能的基本目标是希望机器能像人一样理性地思考或者行为。知识工程是人工智能学科体系的一个分支,它从上世纪五六十年代开始,到七八十年代达到顶峰,Feigenbaum是知识工程的鼻祖,做了一系列开创性的工作,在很多领域,尤其是医疗、诊断领域取得了突破性的进展。知识工程的目的是让知识能够融入到计算机系统中,使得计算机系统一定程度上可以像专家一样,利用专家的知识去做诊断和治疗等。在整个知识工程的分支下,知识表示是一个非常重要的任务,我们想要把知识应用到计算机系统中去,首先要解决知识是怎么表示的,尤其在计算机系统中是怎么表示的。大家都知道,计算机想要处理问题,首先要把逻辑表示出来,要有适当的数据结构来表达这个数据,机器才有可能去处理这个数据,所以知识表示是最关键的问题。知识工程的发展离不开知识表示,先要有知识表示,才可能有知识工程的巨大发展,所以在知识工程的体系下,一个很重要的分支是如何去表示知识。而在知识表示下有个很重要的方式,就是知识图谱。知识图谱本质上只是一种知识表示的方式,它侧重在用一种关联方式来表达实体与概念之间的语义关系。这样一来大家就能看到知识图谱在整个人工智能体系下是有很清晰的脉络的。需要强调的是,知识图谱只是知识表示的一种,并不是全部。事实上,现在整个国际学术界也一直希望能够提出有更强表达能力,更小计算复杂性的知识表示方式,很多团体都在做这方面的努力。


我们再从时间维度来看知识图谱,人工智能发展到今天,进入了大数据人工智能时代,由于大数据的出现,计算能力的升级,造就了一批新型的人工智能技术,尤其以深度学习和知识图谱为代表。从技术层次来看,狭义上讲,知识图谱本质上就是一种语义网络,是大数据时代知识表示最重要的一种方式,可以说是大数据的出现造就了知识图谱。从技术体系来看,广义上讲,知识图谱是一种技术体系,就跟深度学习一样,它不是指某一特定的模型,是指一类模型,一类技术。知识图谱某种程度上被当作是大数据时代知识工程具有代表性的一脉技术。所以从狭义和广义这两个角度来理解知识图谱,可以是一种语义网络,也可以是一种技术体系。它是典型的大数据时代的产物。


我们知道,在计算机领域,知识图谱最早是2012年5月份Google正式提出,并且发布了自己的知识图谱。Google作为互联网巨头,当时的核心诉求是搜索通往答案,就是用户搜索一个关键字,可以直接得到答案,而不是给出包含关键字的网页。为什么在知识图谱出现之前,只能返回包含关键字的网页呢?因为在知识图谱出现之前,“Obama”和“birthday”只是一个字符串而已,机器无法知道Obama是一个人,birthday是一个属性。知识图谱的出现,使得搜索引擎可以理解搜索的关键字,并返回精准的答案。这对搜索引擎是至关重要的,是搜索引擎真正意义上实现从搜索通往答案的一个必备技术。在知识图谱出现之前,搜索引擎做不到搜索通往答案的根本原因,就是缺乏像知识图谱这样能提供大量背景知识的数据库。这实际上启发了我们语言理解是需要背景知识库支撑的,知识图谱在很多场合上被用作让机器理解语言的背景知识库,它的根本意义就是能帮助机器理解语言。


机器理解语言是一件非常复杂的事情,现在最多能说自然语言处理,还谈不上自然语言理解。语言理解是有歧义的,比如说“苹果”可以指公司,也可以指水果;语言理解往往是需要上下文的;很多语言是隐式的,表达的很委婉;语言表达具有多样性等等,这些都决定了自然语言理解困难重重。

语言的理解是建立在认知的基础之上,在座的能听懂我在说什么,是因为我们有着共同的认知,有着相类似的对世界的体验和教育背景。假想一个外星人来听报告,他就不能听懂,因为我们没有共同的认知。认知的不同决定了语言理解的不同。由于体验和认知,我们积累了大量的背景知识,如今我们想要机器也具备语言认知能力,那么机器也需要具备与人类差不多的背景知识库。这个背景知识库就是知识图谱,知识图谱的历史使命是作为一个巨大的背景知识库让机器具备语言认知能力。整个语言理解就好比是冰山一角,我们看到的是表面各种各样的字符串,而实际上理解表面的字符串,需要冰山下面非常庞大的背景知识。有了知识图谱,机器看到的不再仅仅是字符串,而是可以把这些字符串映射到各种各样的实体、概念,从而建立机器自己的认知世界,就是知识图谱使能机器语言认知。


在知识图谱出现之前,已经有各种各样的知识表示,像本体、语义网、文本等等,它们都是更为庞大的知识表示形式。那为什么传统的知识表示不足以作为机器理解语言的强大背景知识呢?那是因为并不是任何知识库都可以有效地作为背景知识库。事实上,想让机器具备语言认知能力,背景知识库必须满足几个条件,第一个是规模要足够大,必须涵盖足够多的实体和概念。第二个是知识库语义关系要足够丰富,描述现实世界的语义关系是丰富多样的,知识库要涵盖常见的语义关系。第三个就是知识库表示结构要十分友好。文本是一个巨大的载体,但是文本是一个非结构化数据表现形式,机器很难处理,而知识图谱往往表达为RDF结构,是一种结构友好的表达形式,是能够被计算机有效处理的。第四,受益于大数据的多源异构性,知识图谱的质量很高,我们还可以用众包的手段来进行质量的保证。

正是因为知识图谱具有这些特性,才使知识图谱使能机器语言认知成为可能。


再来看看知识图谱的优势,首先,知识图谱规模很大,很多知识图谱动辄数千万,很多企业像google,微软都有上十亿、百亿的实体,对实体的覆盖规模是十分巨大的。


第二个就是语义关系丰富。不同的在线知识库涵盖了各种各样的语义关系,再互联到一起,就基本能涵盖我们常见的语义关系。


第三个就是质量很高。通过众包和多源校验使得知识图谱的质量非常高,CN-DBpedia还可以通过用户的反馈来校验。在大数据时代,我们可以通过很多的手段来确保知识库的质量。


第四个就是结构很友好。知识库表示出来都是一个个三元组,是RDF或者图的结构。


现在有越来越多的知识图谱出现,三月份的数据显示至少有一千种常用的知识图谱,这个数据量还在不断的增长。


到了今天,我们要重新审视一下知识图谱技术的发展。在2012年至今五年的时间里,我们看到了一系列的变革。

从两个方面来讲,一方面是应用场景,另一个方面就是技术生态。随着应用场景和技术生态的变化,整个知识图谱面临着全新的挑战,以前的技术手段在应对现在智能化大潮给我们提出的挑战的时候,已经有些力不从心,所以我们要研发一些新技术。


从应用的角度来讲,知识图谱的应用趋势越来越从通用领域走向行业领域,现在的局面是通用与行业应用百花齐放,各行各业都在讨论适合自己的知识图谱。今天展示给大家的是我们自己实验室的知识图谱,在通用领域,我们实验室有CN-DBpedia,Probase plus。CN-DBpedia是一种通用百科知识图谱。通用知识库在通用人工智能中扮演着重要的角色,是未来竞争的战略制高点,即掌握了通用人工智能技术,可以从一个战略制高点向下俯冲,这样收获领域知识图谱的成果是相对容易的。但是如果只具备领域人工智能的能力,未必可以掌握通用人工智能能力。虽然领域/行业人工智能技术更容易落地,但是从战略层面上来讲,一定要对通用人工智能予以高度的关注。领域人工智能在很多领域已经落地开花,但领域图谱的应用也不是简单的事,还具有很多挑战性的研究问题,领域知识库构建的语料往往比较稀疏,比如在某个领域提到某个事实,某类关系的样本非常少,这个时候利用关系去构建有效的抽取模型就会变的十分困难,在样本稀疏的环境下去做领域知识图谱的自动化构建仍然是件非常困难的事情。


第二个应用场景发生变化是从搜索延伸至推荐、问答等复杂任务。举个例子,图中知识图谱帮助搜索代码,如果能利用知识图谱理解搜索意图,并返回准确的代码,这样效率将大有提升。用户搜索输入关键字,机器给出答案,还可以为用户做智能推荐。将来更智能的形式就是直接问答,我们实验室研发的“小Cui问答”就是这样的问答系统。

整个知识图谱将来会在越来越复杂和多元的场景下发挥重要的作用。


再进一步就是交互方式发生变化。以前的交互方式更多是基于关键字,现在越来越多的是自然语言的处理,对话式的处理,像Google Now,Apple Siri,Amazon Alexa等等,很多大公司都在研发自然语言交互的产品,这意味着自然语言交互成为未来人机交互的主流方式。对知识图谱提出的挑战就是,对自然语言的认知到了一个新的高度,需要能够利用知识图谱帮助平台和系统更好的理解问答,上下文对话等等。


进而就是从用户提的问题来看,呈现出从简单的陈述类问题到解释类问题的变化趋势。以前用户喜欢问“what”、“who”、“when”、“where”这样简单陈述性问题,现在越来越多的问“why”、“how”。用户对系统智能性的期望越来越高,很多用户在Google上问why类问题,但是很遗憾,Google还不能进行回答,只能回答陈述类问题。随着“why”、“how”问题越来越多,解释就变的很重要,可解释是未来人工智能发展的核心诉求之一,是人机互信的前提。


再进一步就是,以前在实体之间找到一些简单关系就行了,比如王宝强的老婆是马蓉,但现在不满足于简单关系的揭示,而是希望能够推理出一些深层关系,比如王宝强离婚案,为什么王宝强会请张起淮当律师?王宝强和冯小刚是好朋友,冯小刚有个御用演员叫徐静蕾,张起淮是徐静蕾的法律顾问,所以王宝强会请张起淮当律师,这个就是深层关系推理。隐式关系发现、深层关系推理将成为智能的主要体现之一。


再从技术生态的角度来看,人工智能也发生了很大的变化。从机器学习来看,虽然深度学习发展非常迅速,并且在样本数据丰富的场景下取得了很好的效果,但是机器学习仍然存在很多问题,小样本学习、无监督学习手段有限,现有模型难以有效利用大量先验知识。再从自然语言处理角度来看,虽然自然语言处理在深度学习的推动下取得了很大的进展,但是自然语言处理离实际应用需求还很远,还只是在处理阶段,远远谈不上理解。从知识库本身来看,英文图谱积累迅速,发展得相当成熟,并且在很多应用中发挥了巨大的作用,但是其他语种的知识图谱十分缺乏。虽然现在知识图谱很多,但是大部分都侧重在简单事实,对于常识的覆盖仍然十分有限。很多知识图谱都是依赖手工构建的,如何从大规模数据里用数据挖掘的方法自动挖掘出知识图谱的手段仍然缺乏。


时至今日,对知识图谱的研究必须要进行反思,在变化下我们将面临怎样的机遇和挑战呢?

第一个挑战是知识图谱构建的有效策略和方案。知识图谱涉及的领域很多,构建的有效策略和方案显得格外重要,一个有效的策略往往可以显著地弥补模型上的不足。如何充分利用知识的跨语言特性;如何区别对待数据来源的不同结构化程度;基于概念模板的迭代式抽取;基于语义与语法混合模式的抽取都需要一个有效的策略和方案,我们初步实验下来,有效的策略和方案是可以显著提升知识图谱自动化构建的效果的。

第二个挑战是大规模常识的获取和理解。随着知识库应用越来越深入,对于智能化要求越来越高,其对于常识的需求也会越来越显著。现在大规模人工智能技术是缺乏常识理解能力的,常识缺乏是人工智能研究的重大制约瓶颈。

第三个挑战是在样本稀疏环境下的领域知识获取。很多领域知识图谱缺乏有效的样本,如何将高频知识的获取模型有效迁移到样本稀疏的低频知识,是当前知识获取领域面临的重大难题。


第四个挑战是数据驱动与知识引导深度融合的新型机器学习模型。因为不能有效利用先验知识,当前机器学习的模型效果越来越接近天花板,如何把先验知识与机器深度学习结合到一起,这是个挑战。

第五个挑战是基于知识图谱的可解释人工智能。是否能利用知识图谱去解释机器产生的结果,这个将来会越来越重要。

第六个挑战是知识获取中的人机协作机制与方法。人机边界问题,这实际上是一个非常重要的问题。


还有就是知识驱动的机器语言理解。如何利用知识帮助机器理解语言,做有效的搜索和推荐。以前的搜索和推荐是基于用户的行为,将来会越来越多的利用背景知识来开展搜索和推荐。


我们初步进行了一些工作,在知识图谱构建的策略和方案方面,充分利用知识的跨语言特性, 把其他语言的知识迁移到中文里,从而有效地构建知识库。遵循先易后难的顺序,尽量避免从零开始,可以从通用知识库导出某个领域作为种子,还可以做跨领域迁移,从邻近领域迁移。


在可解释人工智能这块,国际上已经在做很多事情。以后给出一张猫的图片,机器不仅会告诉用户这是猫,还会告诉用户是因为观察到了爪子和耳朵来推断这是猫。


机器学习模型将来必须具备解释性,用户才会相信这个模型,在这个方面,我们现在可以做可解释的推荐,比如用户搜索“三星S8”、“苹果8”,机器会推荐“华为P9”,因为机器知道用户在搜索高端手机。机器不仅给你推荐,还告诉你推荐的原因。


对于现在领域知识图谱样本都很稀疏的问题,现在有两个基本思路,一个是从高频向长尾的迁移,有些关系样本很少,但也有些关系样本很多,把样本多的关系迁移到样本比较少的关系。还有一个就是富样本向穷样本领域迁移,把人类先验知识和规则与深度学习模型有效融合在一起,从而能够有效生成自然语言模型。


在常识获取和理解上,我们已经在常识抽取、推断、判定等方面做了一些工作。

最后,套用Edward Feigenbaum的一句话“Knowledge is Power in AI”,知识在整个AI中是非常重要的,还有一句话要送给大家,卡尔•雅斯贝斯在《时代的精神状况》里提到的“即将到来的是一个终点,还是一个起点?它会不会是一个起点,其重要性相当于人最初成为人的时候,所不同的只是人现在拥有大量新获得的工具以及在一个新的、更高的水准上的经验能力?”

我的报告就到这里,谢谢大家!


获取完整PPT

关注“知识工场”微信公众号,回复“20171101”获取下载链接。



OpenKG.CN


中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480988.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java应用性能调优工具介绍及实践

一、背景 (1)、随着微服务架构的逐渐推广,一个大型的单个应用程序被拆分为数个微服务系统,这为研发人员的本地调试跟踪带来困难 (2)、在微服务架构中,由于业务的复杂性,常常一个业务…

Google、MS和BAT教给我的面试真谛

大家好呀,我是「小鹿鹿鹿」,我又来啦~~趁大家还有依稀印象赶紧乘热打铁~~这次聊一聊关于面试的一些小想法,希望和大家交流交流~~虽然资历尚浅,但是也面过不少…

AAAI 2018 论文 | 蚂蚁金服公开最新基于笔画的中文词向量算法

导读:词向量算法是自然语言处理领域的基础算法,在序列标注、问答系统和机器翻译等诸多任务中都发挥了重要作用。词向量算法最早由谷歌在2013年提出的word2vec,在接下来的几年里,该算法也经历不断的改进,但大多是仅适用…

甲子光年 | 为什么知识图谱终于火了?

本文转载自公众号甲子光年。如果知识是人类进步的阶梯,知识图谱就是AI进步的阶梯。作者|金丝猴编辑|甲小姐设计|孙佳栋微信|甲子光年 (ID:jazzyear)“知识图谱”相较于AI其他分支,似乎是最后一个热起来的赛…

Java多线程并发编程

一、线程池 1.1、什么是线程池 线程池是一种多线程的处理方式,利用已有线程对象继续服务新的任务(按照一定的执行策略),而不是频繁地创建销毁线程对象,由此提高服务的吞吐能力,减少CPU的闲置时间。具体组成…

Step-by-step to Transformer:深入解析工作原理(以Pytorch机器翻译为例)

大家好,我是青青山螺应如是,大家可以叫我青青,工作之余是一名独立摄影师。喜欢美食、旅行、看展,偶尔整理下NLP学习笔记,不管技术文还是生活随感,都会分享本人摄影作品,希望文艺的技术青年能够喜…

知识图谱与智能问答基础理解

什么是知识图谱? 知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的…

鲍捷 | 知识图谱从 0 级到 10 级简化版

本文转载自公众号:文因学堂。文因学以前写过几个进阶指南,可能都太难,不接地气。这里重新写一个更实事求是、更便于工程落地的版本0级:掌握正则表达式、SQL、JSON和一门支持if-then-else的高级语言 —— 是的,这些不是…

Java并发优化思路

一、并发优化 1.1、Java高并发包所采用的几个机制 (1)、CAS(乐观操作) jdk5以前采用synchronized,对共享区域进行同步操作,synchronized是重的操作,在高并发情况下,会引起线…

他与她,一个两年前的故事

“ 有没有那个Ta,值得你一生去守护”1她能力出众,业务能力无人能出其左右;他资质平庸,扮演一个很不起眼的角色;她国色天香,是整个公司上上下下关注的焦点;他其貌不扬,甚至很多人根本…

科普 | 知识图谱相关的名词解释

知识图谱(Knowledge Graph)是谷歌于2012年提出。企业通常出于商业目的去设计新的概念和名词。但每一个概念的提出都有其历史渊源和本质内涵。下面列举了知识图谱相关的几个概念,并简要阐明了它们与知识图谱的关系和区别。Knowledge Base&…

搜索引擎核心技术与算法 —— 倒排索引初体验

今天开启一个新篇章——智能搜索与NLP。本篇章将由羸弱菜鸡小Q和大家一同学习与智能搜索相关的知识和技术,希望能和大家一同学习与进步,冲鸭!!这里首先区分两个概念:搜索和检索检索:数据库时代的概念&#…

微服务设计原则和解决方案

一、微服务架构演进过程 近年来我们大家都体会到了互联网、移动互联带来的好处,作为IT从业者,在生活中时刻感受互联网好处的同时,在工作中可能感受的却是来自自互联网的一些压力,那就是我们传统企业的IT建设也是迫切需要转型&…

技术动态 | 知识可视化,连接和探究知识之间的联系!

本文转载自公众号:东湖大数据交易中心。大数据百人会线上沙龙 第八期3月1日晚八点,大数据百人会沙龙第八期主讲嘉宾——北京知珠传媒科技有限公司CEO郝庆一先生,分享他对可视化的理解,以及连接知识、探究知识之间的关系。1可视化…

潜在语义分析原理以及python实现代码!!!!

在Wiki上看到的LSA的详细介绍,感觉挺好的,遂翻译过来,有翻译不对之处还望指教。 原文地址:http://en.wikipedia.org/wiki/Latent_semantic_analysis 前言 浅层语义分析(LSA)是一种自然语言处理中用到的方法…

史上最可爱的关系抽取指南?从一条规则到十个开源项目

正文来自订阅号:AINLP正文作者:太子長琴(NLP算法工程师)小夕,我来给你出个题,看看你的反应如何?好呀好呀,你说~“梁启超有一个著名的儿子,叫梁思成;同时还有一个著名的学…

论文浅尝 | Leveraging Knowledge Bases in LSTMs

Yang, B., Mitchell, T., 2017. Leveraging Knowledge Bases in LSTMs for Improving Machine Reading. Association for Computational Linguistics, pp. 1436–1446.链接:http://www.aclweb.org/anthology/P/P17/P17-1132.pdf这篇论文是今年发表在 ACL 的一篇文章…

支付系统-对账系统

在支付系统中,资金对账在对账中心进行,将系统保存的账务流水与银行返回的清算流水和清算文件进行对账,核对系统账务数据与银行清算数据的一致性,保证支付机构各备付金银行账户每日的预计发生额与实际发生额一致。 一、清算对账系…

在线GPU分布式实验环境+企业级项目,轻松斩获offer

人工智能微专业招生简章(春季)重构专业核心培养复合型人才与斯坦福、伯克利、MIT、清华Top10名校同学成为校友一对一学习与职业规划扫码立刻加入本季招生名额仅剩200人

支付系统-系统架构

本文主要是从支付架构、支付流程分析、支付核心逻辑、支付基础服务、支付安全五个方面来详细讲述支付系统架构 (1)、架构的定义:架构一定是基于业务功能来展开的,主要是制定技术规范、框架,指导系统落地;好…