NLP复习资料(3)-六~七章:马尔科夫模型与条件随机场、词法分析与词性标注

NLP复习资料

  • 1.第六章 马尔科夫模型与条件随机场
  • 2.第七章 词法分析与词性标注

国科大,宗老师《自然语言处理》课程复习笔记,个人整理,仅供参考。

1.第六章 马尔科夫模型与条件随机场

1.马尔科夫模型:P6系统每一时刻的状态只与前一个时刻的状态相关,状态转移独立于时间

2.隐马尔科夫模型:P13状态与观测的双重随机过程

3.HMM的三个问题:(理不理解都行,重要的是后面的应用实例要理解)
给定观测序列计算相应的概率:前向算法
计算模型的参数:(1)监督学习:有P55(2)无监督学习:期望最大法Baum-welch算法
给定观测序列计算最有可能的状态序列:(1)P40近似计算:每个时刻最有可能的状态组成的序列(2)viterbi算法P46:从第一层开始找到每个节点的最优路径,直至最后一层,然后回溯

4.HMM应用实例:P67
汉语自动分词:(观测:汉语分词结果。)计算最合适的观测序列使得其概率最大
词性标注问题:(观测:汉语分词结果,状态词性标注序列:)求解最优的状态。使得观测序列的概率最大。
观测序粗切分,切出所有可能的结果。然后汉语分词的话,依据HMM前向算法计算最大概率的切分P81。词性标注的话,依据HMMviterbi算法计算最优可能的状态序列。

5.条件随机场(一样不用太理解它讲的什么,本来就讲的不清楚)掌握由字构词法:P95每个字构成词语那么它可能的词位:开头、中间、结尾、独自成词。汉语分词问题转换成字分类问题。P103解码模型看清楚就差不多了。

2.第七章 词法分析与词性标注

1.汉语自动分词的主要问题:规范性问题P20、歧义切分字段问题P25组合型歧义,交集型歧义、未登入词识别P26

2.汉语自动分词的基本原则(记住两条要吧)P29语义无法切分不能切,词性无法切分不能切,有明显分隔符的要切,使用频率高的词不能切,过于冗长要切

3.分词与词性标注结果评价:(很重要的两个概念)正确率:正确结果与输出结果的关系。召回率:正确结果和标准答案的关系。P40

4.自动分词的基本算法:
4.1最大匹配法:要词典P48正向:一个字依次向其后扩展至最长可能成词的,就切开,再往后找最长成词切分
4.2最少分词发:要字典P51,有向无环图构建,找最短路径
4.3语言模型,n-gram第五章 生成式模型
4.4 HMM,最大概率观测序列 第六章
4.5由字构词,分类方法,第六章 判别式模型
4.6 生成式模型与判别式模型相结合:两种结合方式:
P67(c,t)+语言模型
P71插值的方法

5.未登入词的识别
人名P81:概率估计、姓名阈值、评价函数、修饰规则
地名:P88建库,没说方法
机构名:P90中心语找做左边界
双语实体自动识别欲对齐联合模型P98:英文边界确定中文,中文边界消歧英文

6.词性标注
原则:P113标准性、兼容性、可扩充性
方法:手工编写规则法p119(依据不同的上下文确定不同的词性)、P123错误驱动的机器学习方法(理念比较重要)、基于HMM词性标注(找最优的状态序列使得观测序列概率最大第六章)、统计和规则形结合(都没有例子,估计不用记)

7.分词与词性标注的技术水平:老师说到现在都没有解决好这两个问题。

8.分词与词性标注的发展方向:迁移学习P144,消歧方法继续研究P148

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/445161.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

redis——实战点赞

点赞功能随处可见,我们都知道点赞是一个非常高频的操作,redis就非常适合做这种工作。 实现效果: 分析:三种类型:给帖子点赞,给评论点赞,给回复点赞 我们只实现查看点赞数量的话,只…

network

1.网络结构 在OSI参考模型中,物理层的作用是透明的传输比特流。对等实体在一次交互作用中传送的信息单位称为协议数据单元,它包括控制信息和用户数据两部分。上下层实体之间的接口称为服务访问点(SAP),网络层的服务访问点也称为网络地址&…

NLP复习资料(4)-第八章 句法分析

NLP复习资料-第八章国科大,宗老师《自然语言处理》课程复习笔记,个人整理,仅供参考。第八章:语法理论(第三章的后续) 1.出发点chomsky的四类文法过于泛化,生成能力太强了,会生成没有…

大数据学习(10)--流计算

文章目录目录1.流计算的概述1.1 什么是流数据?1.2 批量计算和实时计算1.3 流计算的概念1.4 流计算和Hadoop1.5 流计算框架2.流计算的处理流程2.1 流计算处理基本概念2.2 数数据的实时获取2.3 数据的实时计算2.4 实时查询任务3.流计算的应用和开源框架Strom3.1 流计算…

network---written test

1、OSI(Open System Interconnect):开放系统互联,是一个七层的计算机网络模型,分别为:物理层、数据链路层、网络层、传输层、会话层、表示层和应用层。 TCP/IP(Transmission Control Protocol/…

redis——实战关注

效果: 思路:很好想,把自己的粉丝和自己关注的人都存起来(set即可),做增删改查。 package com.now.community.community.service;import com.now.community.community.entity.User; import com.now.commun…

NLP复习资料(5)-第九章 句法分析

NLP复习资料-第九章1.短语结构分析2.短语结构分析方法的评估指标3依存句法分析器设计P134依存句法分析器性能评价5短语结构与依存结构能够相互转换6汉英句法结构对比7汉语长句的层次化句法分析国科大,宗老师《自然语言处理》课程复习笔记,个人整理&#…

神经网络中的优化算法总结

在调整模型更新权重和偏差参数的方式时,你是否考虑过哪种优化算法能使模型产生更好且更快的效果?应该用梯度下降,随机梯度下降,还是Adam方法? 这篇文章介绍了不同优化算法之间的主要区别,以及如何选择最佳的…

OS --written test1

241.在提供虚拟存储的系统中,用户的逻辑地址空间主要受( )的限制。A.内存空闲块的大小 B.外存的大小 C.计算机编址范围 D.页表大小答案:C242.在分时系统中,时间片一定,( …

Java开发需要知道的HTML知识

概述 HTML(HyperText Markup Language) 不是一门编程语言,而是一种用来告知浏览器如何组织页面的标记语言。 HTML 可复杂、可简单,一切取决于开发者。它由一系列的元素组成,这些元素可以用来包围不同部分的内容,使其以某种方式呈…

OS-written test2

操作系统各大公司笔试题汇总 1、在段页式存储管理中,其虚拟地址空间是() A、一维 B、二维 C、三维 D、层次 答案:B 2、采用( )不会产…

Ubuntu18.04上安装RTX 2080Ti显卡驱动

文章目录1.安装Linux系统1.1下载Linux镜像文件1.2 制作系统盘1.3 安装Linux系统1.4 配置linux系统2.安装英伟达显卡驱动2.1 预备工作2.2 安装显卡驱动3.安装cuda4.安装cudnn1.安装Linux系统 1.1下载Linux镜像文件 根据电脑配置和自己的爱好,选择合适的Linux镜像文…

OS

操作系统笔试题及答案一 1.在下列系统中,( )是实时系统。 A.计算机激光照排系统 B.航空定票系统 C.办公自动化系统 D.计算机辅助设计系统 答案:B 2.操作系统是一种( )。 A.应用软件 B.系统软件 C&#xff…

NLP复习资料(6)-第十章 语义分析

NLP复习资料-第十章1语义理论简介2格语法4语义网络5词义消歧5语义角色标注6词向量表示7篇章分析国科大,宗老师《自然语言处理》课程复习笔记,个人整理,仅供参考。语义分析:P3解释句子或篇章的含义,主要困难&#xff08…

处理机调度与死锁

处理机调度与死锁 处理机调度的层次 高级调度 高级调度又称为作业调度或长程调度,其主要功能是根据某种算法,把外存上处于后备队列中的那些作业调入内存,也就是说,它的调度对象是作业。 1.作业和作业步 作业:一个比程…

各种卷积

从最开始的卷积层,发展至今,卷积已不再是当初的卷积,而是一个研究方向。在反卷积这篇博客中,介绍了一些常见的卷积的关系,本篇博客就是要梳理这些有趣的卷积结构。 阅读本篇博客之前,建议将这篇博客结合在一…

springboot——kaptcha

导入包&#xff1a; <dependency><groupId>com.github.penggle</groupId><artifactId>kaptcha</artifactId><version>2.3.2</version></dependency> 配置类&#xff1a; package com.now.community.community.config;import…

NLP复习资料(7)-机器翻译、文本分类、情感分析

NLP复习资料国科大&#xff0c;宗老师《自然语言处理》课程复习笔记&#xff0c;个人整理&#xff0c;仅供参考。此部分为手稿&#xff0c;高清图下载见链接&#xff1a;https://download.csdn.net/download/sinat_40624829/11662412

XMl文件解析读取

DOM方式&#xff1a; http://www.w3schools.com/dom/dom_parser.asp

redis——对项目的一些优化方案

这是我们之前项目的业务流程&#xff0c;做一下简单介绍。 登录&#xff1a; 用户输入账号、密码、验证码。我们先判断用户输入的验证码是不是我们session存的验证码&#xff0c;然后去查账号密码是否正确。 如果登录成功&#xff0c;发送给用户一张凭证&#xff08;ticket&a…