知识表示与知识图谱
- 知识支撑
- 人类理解需要
- 机器也需要
- 知识工程
- 手段:信息技术
- 特点:高效率、大容量
- 目标:获取并利用知识与信息的技术
- 例子
- 第一个专家系统:费根鲍姆
- 知识工程语言TUILI--1982--陆汝衿
- 专家系统开发环‘天马’--1987---陆汝衿
- 包括
- 知识表示
- 定义
- 对事物本身的替代---可以通过思考,不用行动,确定事物的来龙去脉前因后果
- 是本体约定(ontological commitment)的集合
- 用什么术语(terms)
羊叫羊?
- 用什么术语(terms)
- 方法
- 自然语言(最广泛,对人友好
- 符号表示方法 @符号知识表示
- 谓词逻辑
- 谓词:
- 词组,
- 用途:描述对象属性、或对象间关系
- 命题
- 谓词--用于其一个term元祖
- 表示:一个属性或objects之间的关系
- Brother(John,Fred)
- Left-of(Square1,Square2)
- 语义:在特定场景(interpretation中的真假值
- 复杂命题:通过逻辑连词构建
- 量词:全称量词和存在量词--
- 目标:无需枚举
- 谓词:
- 语义网(semantic net
- 启发idea
- 人脑记忆:信息片段的连接
- 相关概念好回忆
- 是通过语义关系连接的概念网络(语义关联)
- 表示为:相互连接的
- 节点---实体、属性、事件、值
- 边---关系
- Is-A属于一类
- instance-Of实例
- part-Of 部分
- Modifiles: on /down/up/bottom/moveto……
- 领域特定关系
- 医疗:症状、治疗、病因……
- 金融:收购、持有、母公司……
- 示例
- 启发idea
- 框架
- 思想:以框架记忆,新事物=框架+补充
- 表示
- Frame:一个典型知识---
- slot的集合---》
- 表名其与框架相关的对象
- 可以是其他frame/Procedure/slot
- 槽名(slot names
- 槽值(slot fillers
- 表名其与框架相关的对象
- 两类Frame
- 类Frame--面向对象中的Class-----subclass_of->Class Frame(父类)---可继承默认属性
- 实例--Object---instance_of->Class Frame
- Slots---variables/methods
- slot的集合---》
- Frame:一个典型知识---
- 分类
- 静态的
- 动态的
- 过程性的
- 脚本--剧本/函数
- 与框架类似
- 是描述特定上下文中原型事件的序列的结构化表示
- 一组槽---特定领域内一组事件的发生序列
- 一组紧密相关的动作
- 改变状态的框架
- 组成元素
- 进入条件
- 进入的前提
- 变量
- 角色
- 出现人物的槽
- 道具
- 出现物体的槽
- 角色
- 代码--场景
- 事件发生的顺序
- 一个时间--多个场景
- 每个场景--可以使其他脚本
- 输出--结局
- 事件发生的结果
- 进入条件
- 示例
- 语义网(semantic web--语义外
- 数据万维网
- 目标-使万维网变成全球开放知识共享平台
- 技术:语义网
- 目标
- 在web上发布结构化数据
- 在不同数据源的数据之间建立链接
- 提供了一套描述数据而设计的表示语言和工具,---用于形式化地描述一个知识领域的概念、术语和关系
- HTML--文档间关系
- 描述事物间关系
1.用URI统一资源标识符--事物的名字2.查看URI时,提供有用的信息,用RDF、SPARQL标准- RDF
- 表述对象(web sources)间关系的简单语言
- 三元组:(subject,predicate,object)主谓宾---陈述对象的知识、对象间带类别的关系
- 是通用模型,可有多种格式
XML.T-Triples,N3,Json-LD……
- RDFS(S-Schema
- RDF的扩展
- 多了术语表--描述RDF资源的属性和类别
- 结构:层次体系结构
- 类别子类别--Class,subClassOf,type
- 属性层次体系结构---Property,subPropertyOf
- 定义新术语---domain,range
- 结构:层次体系结构
- OWL--web Ontology Language本体语言
- 进一步提供了更多的术语来描述属性和类别
- 类别之间的关系--disjointness
- 基数cardinality--exactly one
- equality
- richer typing of properties
- characteristics of properties---symmetry
- 枚举类
- ……
- 进一步提供了更多的术语来描述属性和类别
- XML
- RDF
- 缺点:本身面向互联网--复杂
- 体系
- 目标
- 特征
- 每个事物有唯一的URI
- 事物间--链接关联
- 事物之间链接显式存在并拥有类型
- web上的数据的结构--显式存在
- 数据万维网
- 知识图谱---万物皆有关 @知识图谱
- 本质:语义网络(Semantic Net--
- 节点---实体、概念
- 边--实体/概念间的予以关系
- 知识图谱把不同来源、不同类型的信息链接在一起形成关系网络--提供了从关系角度去分析问题的能力
- 知识表示
- 三元组Triple(head,relation,tail)
是个概念,实际可以存在关系型数据库中--表的一行- 实体/概念:头head,尾tail
- 关系/属性:relation
- 概念
- Node
- 概念(concept
- 实体/实例entity/object/instance
- 值value
- 实体entity
- 字符串string
- 数字number
- 时间date
- 枚举(Enumerate
- 高阶三元组--嵌套
- 与时间地点相关
((美国,总统,特朗普),开始时间,2017) - 事件
- Compound Value Type (CVT)--符合值类型
- CVT是Freebase中的一种类型,用于表示每个条目由多个字段组成的数据。
A CVT is a type within Freebase, which is used to represent data where each entry consists of multiple fields. - cvt在Freebase中用于表示复杂的数据。
CVTs are used in Freebase to represent complex data.
- 与时间地点相关
- 边:关系
- 是什么
- subcalss
- type
- relation
- property/attribute
- 分类
- Taxonomic relation--分类关系,用以分类
- is-a
- hypernym-Hyponym上下位
- Non-taxonomic relation
- Taxonomic relation--分类关系,用以分类
- 是什么
- Node
- 三元组Triple(head,relation,tail)
- 缺点
- 领域限制
- 一些侧重于语言:wordNet,babeInet
- 侧重于schema:Cyc,UMBEL
- 侧重于fact:DBPedia,Yago
- 对时空属性的建模
- 对动态性的实体,如Event建模不足
- Yago3在一定程度上考虑时间和地理属性
- 完全自动构建
- 自动构建是维护和保持知识图谱质量和覆盖的核心技术
- 领域限制
- 展望
- 新的知识表示模型--本体引擎用来15年了
- 新类型的知识图
- 不再围绕实体和关系的存储--eg事件中心的KG
- 自动构建技术
- Freebase中,71%没有出生日期
- 新技术Distant Supervision,KG embedding,知识集成,(如google的Knowledge Vault
- 谓词逻辑
- 定义
- 知识获取
- 知识应用
- 知识表示