NLP复习资料(8)-知识图谱、信息抽取

NLP复习资料

  • 第16讲—知识图谱
  • 第17讲-信息抽取(知识图谱生命周期中信息获取的关键技术)

国科大,宗老师《自然语言处理》课程复习笔记,个人整理,仅供参考。

第16讲—知识图谱

  1. 知识图谱=经典知识表示理论+语义网资源描述框架
  2. 经典知识表示理论:一阶谓词逻辑,语义网络(有向图描述知识系统),框架(框架名,槽,侧面,和值),脚本(与框架类似,由槽组成,用于描述过程)
  3. 语义网是一组描述规范:XML,RDF(用web标示符URI来表示事物),RDF schema(提供了一套建模原语,有利于组织RDF),owl(RDF的扩展)
  4. 狭义知识图谱:具有图结构的三元组知识库
  5. 知识图谱建立的生命周期:
    (1) 知识建模:建立一个本体对目标进行描述,本体可以理解为知识框架
    1.1人工构建知识体系:罗列要素、确定分类体系、定义属性和关系、定义约束
    1.2体系复用:利用已有的知识框架进行改造,经典复用体系:DPpedia,freebase
    1.3从半结构化的数据中抽取本体:信息块定位,抽取模板学习,属性名、值抽取,属性名与类别
    (2)知识获取:从海量文本中抽取知识,获取信息,NELL知识获取的一个项目
    (3)知识融合:不同语言,来源,结构的知识进行融合,补充更新去重已有的知识图谱
    3.1难点:实体、结构、多语言差异
    3.2关键技术:本体匹配,实体对齐
    (4)知识存储和查询
    4.1数据模型:RDF图模型(三元组),属性图模型(五元组)
    4.3数据存储:表结构存储(MySQL,两个图模型都可以用表来存储),图结构存储(Neo4j)
    4.3数据查询,声明式(RDF图查询:SPARQL,属性图查询:Cypher),过程式
    (5)知识推理:
    5.1逻辑规则推理:符号推理
    5.2表示学习推理:数值推理,向量矩阵计算
    (6)知识应用:语义搜索,推荐系统,关系搜索,智能问答

6.深度学习,做有智慧的AI,知识图谱,做有知识的AI

第17讲-信息抽取(知识图谱生命周期中信息获取的关键技术)

  1. p6从文本中抽取信息,形成结构化数据输出的技术,下文围绕信息抽取的四大主要任务展开。
  2. 实体识别与抽取:(7类命名实体P13)
    2.1实体识别的两个子任务:边界识别和实体类别
    2.1主要方法:CRF实体识别转换成序列标注问题,p17
    LSTM+CRF序列标注问题,与纯种CRF的区别:采用LSTM提取的次序列特征,而不是采用人工设计的特征。
  3. 实体消歧:将实体指称项对应到多个真实世界实体中。两个方法:聚类和链接P27
    3.1聚类:指向同一个实体的指称项聚为一类。词袋模型 建模 指称项特征,计算特征向量之间的相似度进行聚类。P29
    3.2P40实体链接:给定文本找中的实体链接到知识库中对应的实体上。两个步骤实现:知识库中候选实体发现(网页超链接获取P43)+候选实体链接(相似度最高的连在一起p45;协同实体链接,多个词放在一起更有更有可能是指向某一个实体P48)
    4.实体关系抽取:两种任务
    4.1关系分类:p65已知两个实体,判断实体之间的关系->分类问题,基于CNN的关系分类方法P71(卷积神经网络抽取句子特征,计算特征,进行分类)
    4.2实体关系联合抽取p78:给句子,识别实体以及实体之间的关系->序列标注问题(依据目标设定不同的序列,就能解决不同的问题)
    4.3远程监督的关系抽取(远程监督就是没有认人为标定数据利用知识库对文本自动进行回标来获取标签数据)主要讲如何获取远程标注数据集合。介绍其中的:多示例单标签问题,p95利用分段卷积神经网络确定包的关系标签。
    5.事件抽取:p107要抽取事件以及和事件相关的信息(如触发词,事件元素)P116算法和流程步骤,
    几个事件关系:同指、因果、时序、上下位关系。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/445138.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Collection源码阅读

package java.util;import java.util.function.Predicate; import java.util.stream.Stream; import java.util.stream.StreamSupport;/*** 集合层次结构的根接口,一个集合表示一组对象,称为元素* JDK不提供任何该接口的直接实现,JDK提供实现…

socket阻塞和非阻塞的区别

读操作 对于阻塞的socket,当socket的接收缓冲区中没有数据时,read调用会一直阻塞住,直到有数据到来才返 回。当socket缓冲区中的数据量小于期望读取的数据量时,返回实际读取的字节数。当sockt的接收缓冲 区中的数据大于期望读取的字节数时,读取期望读取的字节数,返回实际读…

深度模型压缩论文(01)- Meta Filter Pruning to Accelerate Deep Convolutional Neural Networks

文章目录1.摘要和介绍1.1摘要部分2.背景和方法2.1 背景2.2 贡献2.3 方法3.实验和结果3.1 实验3.2 结果4.总结和展望4.1 总结4.2 展望本系列是在阅读深度神经网络模型小型化方面论文时的笔记!内容大部分从论文中摘取,也会有部分自己理解,有错误…

架构分享--微博架构

先来分享下大神Tim Yang的关于微博的架构设计: 这里主要从 存储和接口角度来讲 对于大流量系统的架构设计,对于写入方面是特别需要注意的,基本上现在遇到的系统都是对于主数据库的写入,然后对于从数据库实现流量的分发。 对于存…

Pytorch(7)-自己设计神经网络会遇到的问题

操作pytorch架构遇到的问题1.网络参数初始化2.查看当前可学习参数3.增加可学习的参数4.参数优化函数Adagrad5.直接修改网络梯度值6.optimizers.zero_grad()报错7.tensor.detach() 和 tensor.data 的区别1.网络参数初始化 在pytorch中,有自己默认初始化参数方式&…

Python里的OS模块常用函数说明

Python的标准库中的os模块包含普遍的操作系统功能。如果你希望你的程序能够与平台无关的话,这个模块是尤为重要的。即它允许一个程序在编写后不需要任何改动,也不会发生任何问题,就可以在Linux和Windows下运行。 下面列出了一些在os模块中比较…

深度模型压缩论文(03)- Be Your Own Teacher: Improve the Performance of Convolutional Neural Networks via Self

文章目录1.摘要和背景1.1 摘要1.2 背景2.方法和贡献2.1 方法2.1.1 训练过程2.1.2 loss介绍2.2 贡献3.实验和结果3.1 实验3.2 结果4.总结和展望4.1 总结4.2 展望主要贡献:基于网络蒸馏方法,提出了一种提升裁剪后模型的精度的方法!将训练时间大…

关系数据库——基础

数据库系统概论 四个基本概念 数据:数据库中存储的基本对象,描述一个事物的符号记录,数据和其语义不可分开说 数据库(DB):是长期储存在计算机内、有组织的、可共享的大量数据的集合。 数据库管理系统&a…

Python(27)-模块

模块、包1.模块导入的方式2.使用as给模块取一个别名(大驼峰命名法)3.从模块中导入部分工具4.从模块中导入全部工具5.模块搜索顺序6__name__7.包8.发布模块、安装模块、卸载包9.pip安装第三方模块本系列博文来自学习《Python基础视频教程》笔记整理&#…

Wow6432Node

64 位版本 Windows 中的注册表分为 32 位注册表项和 64 位注册表项。许多 32 位注册表项与其相应的 64 位注册表项同名,反之亦然。 64 位版本 Windows 包含的默认 64 位版本注册表编辑器 (Regedit.exe) 可显示 64 位和 32 位的 注册表项。WOW64 注册表重定向器为 32 位程序提供…

如何使用docker配置深度学习开发环境

文章目录1.底层驱动的安装1.1 操作系统的安装1.2 显卡驱动的安装1.3 cuda的安装2.使用docker配置深度学习开发环境2.1 docker的安装2.2 nvidia_docker的安装2.3 安装过程中的问题2.3.1 docker和nvidia_docker的版本不匹配的问题。2.3.2 解决每次运行docker命令的时候要加sudo.2…

反射全解

反射的概念 反射的引入: Object obj new Student(); 若程序运行时接收到外部传入的一个对象,该对象的编译类型是Object,但程序又需要调用该对象运行类型的方法: 1.若编译和运行类型都知道,使用 instanceof判断后&…

MachineLearning(4)-核函数与再生核希尔伯特空间

核函数与再生核希尔伯特空间1.支持向量积-核函数2.一个函数为核函数的条件3.核函数与希尔伯特空间3.1希尔伯特空间-Hilbert空间1.支持向量积-核函数 核(kernel)的概念由Aizenman et al.于1964年引入模式识别领域,原文介绍的是势函数的方法。在那之后,核…

CRegKey 注册表操作

1.简介 CRegKey提供了对系统注册表的操作方法,通过CRegKey类,可以方便的打开注册表的某个分支或子键(CRegKey::Open),可以方便的修改一个键的键值(CRegKey::SetValue),也可以查询某…

进程基础

进程的基本概念 程序顺序执行的特征: 1)顺序性:处理机严格按照程序所规定的顺序执行,每一步操作必须在下一步操作开始前执行 2)封闭性:程序在封闭的环境下运行,程序独占资源,资源的状…

用Docker容器自带的tensorflow serving部署模型对外服务

相信很多人和我一样,在试图安装tensorflow serving的时候,翻遍了网上的博客和官网文档,安装都是以失败而告终,我也是一样,这个问题折磨了我两个星期之久,都快放弃了。幸运的是在同事的建议下,我…

C资源

云风最近写了一篇博客《C语言的前世今生》。作为长期使用C语言开发网络游戏服务器的程序员,云风是有理由写这样一篇文字,不过还是感觉谈的不够深入,C语言在业界使用的现状没有怎么描写,有些意犹未尽。在这里想比较系统的谈谈个人对…

学点数学(2)-特征函数

特征函数1.数列特征方程2.矩阵特征方程3.微分方程特征方程4.积分方程特征方程特征方程是为研究相应的数学对象而引入的一些等式,这些等式描述了特定对象的特性。依据研究的对象不同,特征方程包括数列特征方程、矩阵特征方程、微分方程特征方程、积分方程…

GCC如何产生core dump

先决条件1.安装apport(automatically generate crash reports for debugging)2.修改/etc/security/limits.conf文件,使允许core dump,或者用ulimit -c unlimited设置core dump文件的大小为unlimited3.C/C的编译开关-g(…

经典的进程同步问题

经典的进程同步问题 普通版:一类进程作为生产者,生产产品,生产的产品放入一个缓冲区,消费者从缓冲区中取出产品,需要保证生产者不可以向满的缓冲区中添加产品,消费者不可以从空的缓冲区中取出产品。同一时刻…