知识图谱
- 知识分类
- 陈述性知识
- 过程性知识
- 本体(Ontology)
- 知识库(Knowledge Base)
- 数据库(Database)
- 语义网
- 知识图谱
- 详细解析
- 知识图谱的生命周期
- 知识建模(知识体系构建)
- 知识获取
- 知识融合(知识集成)
- 知识存储、查询和推理(知识服务)
- 知识推理
- 知识应用
- 领域知识图谱的应用
- 金融证券领域
- 医疗领域
知识分类
陈述性知识
描述客观事物的性状和关系等静态信息,主要分
为事物、概念、命题三个层次。
- 事物指特定的事或物
- 概念是对一类事物本质特征的反映
- 命题是对事务之间关系的陈述
- 非概括性命题表示特定事物之间关系
- 概括性命题描述概念之间的普遍关系
过程性知识
描述问题如何求解等动态信息。
- 规则描述事物的因果关系
- 控制结构描述问题的求解步骤
本体(Ontology)
一套对客观世界进行描述的共享概念化体系,对特定领域中概念(对象类型)及其相互关系进行形式化表达。
共享概念化的规范,涉及概念、关系和公理三个要素。
用来进行领域建模或者推理。因此,重点是对数据的定义进行描述,而没有描述具体的实例数据。
树状结构,不同层节点之间是严格的IsA关系。
优点:可以适用于知识的推理。
缺点:无法表示概念的二义性(运动员:体育?人物?)
与此相反的有分类学(Taxonomy):
树状结构,上下位节点之间非严格的IsA关系。
优点:可以表示概念的二义性。(体育–>运动员)
缺点:不适用于推理,无法避免概念冗余(餐厅:美食?机构?地点?)
相当于蛋糕的模具。
知识库(Knowledge Base)
在对各种知识进行收集和整理的基础上,进行形式化表示,按照一定方法存储,并提供相应的知识查询手段,从而使知识有序化,是知识共享和应用的基础。
知识的编码化和数字化就形成知识库。
知识库是服从于本体控制的知识实例及其载体。
相当于蛋糕。
数据库(Database)
计算机科学家为了用电脑表示和存储计算机应用中所需要的数据所设计开发的产品。
相当于存放蛋糕的盒子。
语义网
语义网就是以Web数据的内容(即数据的语义)为核心,用机器能够理解和处理的方式链接起来的海量分布式数据库。
语义网是对现有Web增加了语义支持,它是现有万维网的延伸与变革,其目标是帮助机器在一定程度上理解Web信息的含义,使得高效的信息共享和机器智能协同成为可能。
三大关键技术:XML、RDF和Ontology
- 可扩展标记语言XML
一种标准的元数据语法规范 - 资源描述框架RDF
一种标准的元数据语义描述规范 - 本体Ontology
一种描述客观世界的概念化规范
知识图谱
知识图谱是谷歌公司用来支持从语义角度组织网络数据,从而提供智能搜索服务的知识库。从这个意义上讲,知识图谱是一种比较通用的语义知识的形式化描述框架,它用节点表示语义符号,用边表示符号之间的语义关系。
详细解析
各个具体实例数据只有在满足系统约定的“框架”约束下运用才能体现为“知识”,其中框架(Schema,或称“元知识”)就是对知识的描述和定义,知识框架和实例数据共同构成一个完整的知识系统。
在约定的框架下,对数据进行结构化,并与已有结构化数据进行关联,就形成了知识图谱。
为了将其付诸实现,知识图谱往往需要将自身的框架结构映射到某种数据库系统所支持的框架定义上,必要时可以对数据库进行专门扩展。
因此,知识是认知,图谱是载体,数据库是实现,知识图谱就是在数据库系统上利用图谱这种抽象载体表示知识这种认知内容。
知识图谱以结构化三元组的形式存储现实世界中的实体及其关系。三元组通常描述了一个特定领域中的事实,由头实体、尾实体和描述这两个实体之间的关系组成。
如:马云的国籍是中国。
- 头实体:马云
- 尾实体(有时候称属性值):中国
- 关系(有时候称属性):国籍
从图结构的角度看,实体是知识图谱中的节点,关系是连接两个节点的有向边。
知识图谱的生命周期
知识建模(知识体系构建)
指采用什么样的方式表示知识,其核心是构建一个本体对目标知识进行描述。
- 在这个本体中需要定义出知识的类别体系
- 每个类别下所属的概念和实体
- 某类概念和实体所具有的属性以及概念之间、实体之间的语义关系
- 同时也包括定义在这个本体上的一些推理规则
输入:
- 领域(医疗、金融)
- 应用场景
输出:领域知识本体
- 领域实体类别体系
- 实体属性
- 领域语义关系
- 语义关系之间的关系
关键技术:Ontology Engineering
知识获取
知识获取目标是从海量的文本数据中通过信息抽取的方式获取知识,其方法根据所处理数据源的不同而不同。
知识图谱中数据的主要来源有:结构化数据,半结构化数据,非结构化文本数据(纯文本)。
输入:
- 领域知识本体
- 海量数据:文本、垂直站点、百科
输出:领域知识
- 实体集合
- 实体关系/属性
主要技术:
- 信息抽取
- 文本挖掘
知识融合(知识集成)
任务:对不同来源、不同语言或不同结构的知识进行融合,从而对于已有知识图谱进行补充、更新和去重。
输入:
- 抽取出来的知识
- 现有知识库
- 知识本体
输出: - 统一知识库
- 知识置信度
关键技术: - Ontology Matching
- Entity Linking
知识存储、查询和推理(知识服务)
任务:研究采用何种方式将已有知识图谱进行存储。
目前大多数基于图的数据结构,存储方式主要有两种形式:RDF格式存储和图数据库。
输入:
- 大规模知识库知识
输出: - 知识库存储和查询服务
主要技术: - 知识表示
- 知识查询语言
- 存储/检索引擎
- 推理引擎
知识推理
由于处理数据的不完备性,知识图谱中肯定存在知识缺失现象(包括实体缺失、关系缺失)。我们也很难利用抽取或者融合的方法对于缺失的知识进行补齐。因此,需要采用推理的手段发现已有知识中隐含的知识。
知识应用
精准语义搜索,关系搜索,分类浏览,智能问答,推荐,推理。
领域知识图谱的应用
金融证券领域
企业风险评估,反欺诈。
医疗领域
中医药知识服务平台,Watson辅助诊断与治疗,Open PHACTS 新药物发现。