文章目录
- 知识表示
- 研究现状
- 技术发展趋势
知识表示
知识是人类在认识和改造客观世界的过程中总结出的客观事实、概念、定理和公理的集合。知识具有不同的分类方式,例如按照知识的作用范围可分为常识性知识与领域性知识。知识表示是将现实世界中存在的知识转换成计算机可识别和处理的内容,是一种描述知识的数据结构,用于对知识的一种描述或约定。知识表示在人工智能的构建中具有关键作用,通过适当的方式表示知识,形成尽可能全面的知识表达,使机器通过学习这些知识,表现出类似于人类的行为。知识表示是知识工程中一个重要的研究课题,也是知识图谱研究中知识获取、融合、建模、计算与应用的基础,如下图所示。
研究现状
知识表示方法主要分为基于符号的知识表示方法与基于表示学习的知识表示方法。
基于符号的知识表示方法分为早期知识表示方法与语义网知识表示方法。其中,早期的知识表示方法包括一阶谓词逻辑表示法、产生式规则表示法、框架表示法与语义网络表示法。
基于谓词逻辑的知识表示方法,通过命题、逻辑联结词、个体、谓词与量词等要素组成的谓词公式描述事物的对象、性质、状况和关系。一阶谓词逻辑表示法以数理逻辑为基础,表示结果较为精确,表达较为自然,形式上接近人类自然语言。但是也存在表示能力较差,只能表达确定性知识,对于过程性和非确定性知识表达有限的问题。
上世纪40年代,逻辑学家Post提出了产生式规则表示。根据知识之间具有因果关联关系的逻辑,形成了“IF-THEN”的知识表示形式,该形式是早期专家系统常用的知识表示方法之一。这种表示方法与人类的因果判断方式大致相同,直观,自然,便于推理。除此之外,产生式规则表示法知识的表达范畴较广,包括确定性知识,设置置信度的不确定性知识,启发式知识与过程性知识。但是产生式规则表示法由于具有统一的表示格式,当知识规模较大时,知识推理效率较低,容易出现组合爆炸问题。
20世纪70年代初,美国人工智能专家M.Minsky提出了一种用于表示知识的“框架理论”。来源于人们对客观世界中各种事物的认识都是以一种类似框架的架构存储在记忆中的思想,形成了框架表示法。框架是一种通用数据结构,用于存储人们过去积累的信息和经验。在框架结构中,能够借助过去经验中的概念分析和解释新的信息情况。在表达知识时,框架能够表示事物的类别、个体、属性和关系等内容。框架结构一般由“框架名-槽名-侧面-值”四部分组成,即一个框架由若干各个槽组成,其中槽用于描述所论事物某一方面的属性;一个槽由若干个侧面组成,用于描述相 应属性的一个方面,每个侧面拥有若干值。框架具有继承性、结构化、自然性等优点,但复杂的框构建成本较高,对知识库的质量要求较高,同时表达不够灵活,很难与其他的数据集相互关联使用。
1960年,认知科学家Allan M.Collins提出了语义网络(Semantic Network)的知识表示方法。语义网络是一种通过实体以及实体间语义关系表达知识的有向图。在图中,节点表示事物、属性、概念、状态、事件、情况、动作等含义,节点之间的弧表示它所连接的两个节点之间的语义关系,根据表示的知识情况需要定义弧上的标识,一般该标识是谓词逻辑中的谓词,常用的标识包括实例关系、分类关系、成员关系、属性关系、包含关系、时间关系、位置关系等。语义网络由语义基元构成,语义基元可通过三元组(节点1,弧,节点2)描述,语义网络由若干个语义基元及其之间的语义关联关系组成。语义网络表示法具有广泛的表示范围和强大的表示能力,表示形式简单直接、容易理解、符合自然。然而语义网络存在节点与边的值没有标准,完全由用户自己定义,不便于知识的共享问题、无法区分知识描述与知识实例等问题。
早期知识表示方法与语义网知识表示法通过符号显式地表示概念及其关系。事实上,许多知识具有不易符号化、隐含性等特点,因此仅通过显式表示的知识无法获得全面的知识特征。此外,语义计算是知识表示的重要目标,基于符号的知识表示方法无法有效计算实体间的语义关系,如下图所示。
技术发展趋势
知识表示作为知识抽取、融合、建模、计算、应用的基础,侧重于表达实体、概念之间的语义关联,针对知识图谱的语义增强在未来依旧是知识表示重要任务。知识表示的研究趋势和动态包括以下四个方面。
基于符号的知识表示方法由于考虑了人类的自然语言理解方式,具有严密性、自然性、通用性、知识易表达等优点,但是也存在计算效率低、无法捕捉隐含语义知识等不足。而基于表示学习的知识表示方法计算效率高却存在可靠性低,推理效果不佳等问题。因此研究基于符号逻辑与表示学习融合统一的知识表示方法有助于知识表达性能的进一步提升,也是未来的发展方向。
事理逻辑是指事件之间的演化规律和模式。已有的以实体、实体属性、实体与实体或属性之间关系为核心的知识图谱缺乏针对事件之间的演化规律与模式的知识挖掘。事实上,事理逻辑是一种非常有价值的常识知识,挖掘这种知识对认识和分析人类行为与社会发展变化规律意义重大。哈尔滨工业大学社会计算与信息检索研究中心首先提出了“事理图谱”的概念,认为事理图谱是以“事件”为核心的新一代动态知识图谱,并于2018年9月正式对外发布了基于大规模财经新闻文本的金融事理图谱。面向事件实体、事理逻辑关系,如顺承、因果、条件、上下位、组成等的事件知识表示方法是表达和丰富事理图谱的重要基础。
现实世界中,许多知识具有时间和空间属性,例如“王菲的丈夫是李亚鹏”这条知识具有潜在的时间信息;“早餐是豆浆和油条”这条知识潜在的空间信息是中国的某些地区,从时空维度拓展知识表示对许多特定领域具有较强的现实意义。德国马普研究所研制的YAGO知识库为许多知识条目增加了时间和空间维度的属性描述,丰富了知识库内容。人们关心当前事实的同时,也会关注过去和未来的知识情况以及不同空间的知识表达含义,形成融合时间或空间维度的知识表示是增强知识表达的有效方式。
当前的知识图谱主要以文本为主,事实上,跨媒体元素包括声音、图片、视频、音频等数据对于丰富和增强知识图谱的知识语义具有重要作用。2017年,国务院发布的《新一代人工智能发展规划》中,明确提出要加强跨媒体分析推理技术的研究。不同的跨媒体元素能够表达相同的语义信息,能比单一模态反映更加全面正确知识内容。建立基于跨媒体元素的统一知识表示方法对于分析挖掘跨媒体要素的语义信息,构建跨媒体知识图谱具有重要意义。