NLP复习资料
- 第16讲—知识图谱
- 第17讲-信息抽取(知识图谱生命周期中信息获取的关键技术)
国科大,宗老师《自然语言处理》课程复习笔记,个人整理,仅供参考。
第16讲—知识图谱
- 知识图谱=经典知识表示理论+语义网资源描述框架
- 经典知识表示理论:一阶谓词逻辑,语义网络(有向图描述知识系统),框架(框架名,槽,侧面,和值),脚本(与框架类似,由槽组成,用于描述过程)
- 语义网是一组描述规范:XML,RDF(用web标示符URI来表示事物),RDF schema(提供了一套建模原语,有利于组织RDF),owl(RDF的扩展)
- 狭义知识图谱:具有图结构的三元组知识库
- 知识图谱建立的生命周期:
(1) 知识建模:建立一个本体对目标进行描述,本体可以理解为知识框架
1.1人工构建知识体系:罗列要素、确定分类体系、定义属性和关系、定义约束
1.2体系复用:利用已有的知识框架进行改造,经典复用体系:DPpedia,freebase
1.3从半结构化的数据中抽取本体:信息块定位,抽取模板学习,属性名、值抽取,属性名与类别
(2)知识获取:从海量文本中抽取知识,获取信息,NELL知识获取的一个项目
(3)知识融合:不同语言,来源,结构的知识进行融合,补充更新去重已有的知识图谱
3.1难点:实体、结构、多语言差异
3.2关键技术:本体匹配,实体对齐
(4)知识存储和查询
4.1数据模型:RDF图模型(三元组),属性图模型(五元组)
4.3数据存储:表结构存储(MySQL,两个图模型都可以用表来存储),图结构存储(Neo4j)
4.3数据查询,声明式(RDF图查询:SPARQL,属性图查询:Cypher),过程式
(5)知识推理:
5.1逻辑规则推理:符号推理
5.2表示学习推理:数值推理,向量矩阵计算
(6)知识应用:语义搜索,推荐系统,关系搜索,智能问答
6.深度学习,做有智慧的AI,知识图谱,做有知识的AI
第17讲-信息抽取(知识图谱生命周期中信息获取的关键技术)
- p6从文本中抽取信息,形成结构化数据输出的技术,下文围绕信息抽取的四大主要任务展开。
- 实体识别与抽取:(7类命名实体P13)
2.1实体识别的两个子任务:边界识别和实体类别
2.1主要方法:CRF实体识别转换成序列标注问题,p17
LSTM+CRF序列标注问题,与纯种CRF的区别:采用LSTM提取的次序列特征,而不是采用人工设计的特征。 - 实体消歧:将实体指称项对应到多个真实世界实体中。两个方法:聚类和链接P27
3.1聚类:指向同一个实体的指称项聚为一类。词袋模型 建模 指称项特征,计算特征向量之间的相似度进行聚类。P29
3.2P40实体链接:给定文本找中的实体链接到知识库中对应的实体上。两个步骤实现:知识库中候选实体发现(网页超链接获取P43)+候选实体链接(相似度最高的连在一起p45;协同实体链接,多个词放在一起更有更有可能是指向某一个实体P48)
4.实体关系抽取:两种任务
4.1关系分类:p65已知两个实体,判断实体之间的关系->分类问题,基于CNN的关系分类方法P71(卷积神经网络抽取句子特征,计算特征,进行分类)
4.2实体关系联合抽取p78:给句子,识别实体以及实体之间的关系->序列标注问题(依据目标设定不同的序列,就能解决不同的问题)
4.3远程监督的关系抽取(远程监督就是没有认人为标定数据利用知识库对文本自动进行回标来获取标签数据)主要讲如何获取远程标注数据集合。介绍其中的:多示例单标签问题,p95利用分段卷积神经网络确定包的关系标签。
5.事件抽取:p107要抽取事件以及和事件相关的信息(如触发词,事件元素)P116算法和流程步骤,
几个事件关系:同指、因果、时序、上下位关系。