NLP复习资料(2)-三~五章:形式语言、语料库、语言模型

NLP复习资料-三~五章

  • 1.第三章:形式语言
  • 2.第四章:语料库
  • 3.第五章:语言模型

国科大,宗老师《自然语言处理》课程复习笔记,个人整理,仅供参考。

1.第三章:形式语言

1.语言描述的三种途径:穷举法、语法描述(形式语言)、自动机

2.形式语言四元组表示,最左推导,最右推导,例3-1

3.p27. L(G0)>=L(G1)>=L(G2)>=L(G3)

4.p30上下文无关文法产生语言的句子派生树、文法的二义性:有不止一棵以上的派生树(关于 鲁迅的文章-关于鲁迅 的 文章)

5.有限自动机五元组表示,P39状态变换图

6.例3.8 正则文法与有限自动机之间的转换

7p59 例3.9下推自动机的处理步骤

8.有限自动机用于英语的单词拼写检查,采用深度优先算法在自动机选择编辑距离最小路径。P64编辑距离,P69 X截取范围的确定 P

9有限状态转换机用于英语单词形态分析(不仅有状态转换还有输出:补全单词和一个+)

2.第四章:语料库

1.语料库发展的三个阶段:
20世纪50年代中期:早期、
1957-20世纪80年代:沉积时期、
20世纪80年代后:复苏发展时期(主要特征:第二代语料库相继建成、基于语料库的研究项目增多)语料库复苏的原因P15计算机迅速发展、转换生成语言学派对语料库语言的批判不都正确。

2.语料库的类型:P21同质/异质,系统/专用,单语/多语,平衡语料库(语料的代表性和平衡性),平行语料库(双语平行语料库,机器翻译),共时语料库/历时语料库

3.语料库建设中的问题:
设计时问题:静态与动态,代表性与平衡性,规模,管理与维护
开发中为题:规范问题,产权问题p36

4.典型语料库和:(记一两个吧)
宾夕法尼亚大学的中文树库,词性33类,句法23类P42
北京大学开发的CLKBp61
词汇知识库:
普林斯顿大学WordNet p78
知网HowNet p85

3.第五章:语言模型

1.基于大规模语料库,出现了自然语言的统计处理方法,那么如何计算一个句子的概率呢?依据组成句子的词语的联合概率计算?词之间不独立,不行!那就考虑在历史词的基础上考虑当前词的概率,然后连乘。参数空间太大,不行!那就只考虑前n个历史词汇。OK呀~

2.p11 n元文法,n个邻近的词构成一个词序列。P12句子n元次序列划分的例子。

3.N元文法的两个应用-音字转换、汉语分词,选择概率最大的那个作为输出就对了。

4.参数估计–n元文法中连乘的每个概率的计算,训练语料库中历史一共出现的次数为分母,历史与当前一同出现的为分子,一除,搞定。P27计算题

5.n元文法最主要的一个问题:数据稀疏,要计算语料库中没见到的情况,怎么办?–数据平滑呀,基本思想–劫富济贫。加1法p37计算题。减值法good-turingP41公式推导。Back-off方法P47基本思想。绝对减值法和线性减值法的思想。删除价值法,低阶代替高阶,线性插值

5.模型自适应:前两种方法都是线性插值多个模型:(1)缓存模型p62(2)不同类型模型p67 (3)最大熵模型p69

6.应用举例:汉语分词,
p77以词序列为基本单位,效果不好,改成词类序列为基本单位。P81语言模型和生成模型。P87的训练步骤
p93分词与词性标注一体化的方法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/445164.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

存储管理的页面置换算法

存储管理的页面置换算法 存储管理的页面置换算法在考试中常常会考到,操作系统教材中主要介绍了3种常用的页面置换算法,分别是:先进先出法(FIFO)、最佳置换法(OPT)和最近最少使用置换法&#xff…

KKT条件初步理解

最近学习的时候用到了最优化理论,但是我没有多少这方面的理论基础。于是翻了很多大神的博客把容易理解的内容记载到这篇博客中。因此这是篇汇总博客,不算是全部原创,但是基础理论,应该也都差不多吧。因才疏学浅,有纰漏…

NLP复习资料(3)-六~七章:马尔科夫模型与条件随机场、词法分析与词性标注

NLP复习资料1.第六章 马尔科夫模型与条件随机场2.第七章 词法分析与词性标注国科大,宗老师《自然语言处理》课程复习笔记,个人整理,仅供参考。1.第六章 马尔科夫模型与条件随机场 1.马尔科夫模型:P6系统每一时刻的状态只与前一个…

redis——实战点赞

点赞功能随处可见,我们都知道点赞是一个非常高频的操作,redis就非常适合做这种工作。 实现效果: 分析:三种类型:给帖子点赞,给评论点赞,给回复点赞 我们只实现查看点赞数量的话,只…

network

1.网络结构 在OSI参考模型中,物理层的作用是透明的传输比特流。对等实体在一次交互作用中传送的信息单位称为协议数据单元,它包括控制信息和用户数据两部分。上下层实体之间的接口称为服务访问点(SAP),网络层的服务访问点也称为网络地址&…

NLP复习资料(4)-第八章 句法分析

NLP复习资料-第八章国科大,宗老师《自然语言处理》课程复习笔记,个人整理,仅供参考。第八章:语法理论(第三章的后续) 1.出发点chomsky的四类文法过于泛化,生成能力太强了,会生成没有…

大数据学习(10)--流计算

文章目录目录1.流计算的概述1.1 什么是流数据?1.2 批量计算和实时计算1.3 流计算的概念1.4 流计算和Hadoop1.5 流计算框架2.流计算的处理流程2.1 流计算处理基本概念2.2 数数据的实时获取2.3 数据的实时计算2.4 实时查询任务3.流计算的应用和开源框架Strom3.1 流计算…

network---written test

1、OSI(Open System Interconnect):开放系统互联,是一个七层的计算机网络模型,分别为:物理层、数据链路层、网络层、传输层、会话层、表示层和应用层。 TCP/IP(Transmission Control Protocol/…

redis——实战关注

效果: 思路:很好想,把自己的粉丝和自己关注的人都存起来(set即可),做增删改查。 package com.now.community.community.service;import com.now.community.community.entity.User; import com.now.commun…

NLP复习资料(5)-第九章 句法分析

NLP复习资料-第九章1.短语结构分析2.短语结构分析方法的评估指标3依存句法分析器设计P134依存句法分析器性能评价5短语结构与依存结构能够相互转换6汉英句法结构对比7汉语长句的层次化句法分析国科大,宗老师《自然语言处理》课程复习笔记,个人整理&#…

神经网络中的优化算法总结

在调整模型更新权重和偏差参数的方式时,你是否考虑过哪种优化算法能使模型产生更好且更快的效果?应该用梯度下降,随机梯度下降,还是Adam方法? 这篇文章介绍了不同优化算法之间的主要区别,以及如何选择最佳的…

OS --written test1

241.在提供虚拟存储的系统中,用户的逻辑地址空间主要受( )的限制。A.内存空闲块的大小 B.外存的大小 C.计算机编址范围 D.页表大小答案:C242.在分时系统中,时间片一定,( …

Java开发需要知道的HTML知识

概述 HTML(HyperText Markup Language) 不是一门编程语言,而是一种用来告知浏览器如何组织页面的标记语言。 HTML 可复杂、可简单,一切取决于开发者。它由一系列的元素组成,这些元素可以用来包围不同部分的内容,使其以某种方式呈…

OS-written test2

操作系统各大公司笔试题汇总 1、在段页式存储管理中,其虚拟地址空间是() A、一维 B、二维 C、三维 D、层次 答案:B 2、采用( )不会产…

Ubuntu18.04上安装RTX 2080Ti显卡驱动

文章目录1.安装Linux系统1.1下载Linux镜像文件1.2 制作系统盘1.3 安装Linux系统1.4 配置linux系统2.安装英伟达显卡驱动2.1 预备工作2.2 安装显卡驱动3.安装cuda4.安装cudnn1.安装Linux系统 1.1下载Linux镜像文件 根据电脑配置和自己的爱好,选择合适的Linux镜像文…

OS

操作系统笔试题及答案一 1.在下列系统中,( )是实时系统。 A.计算机激光照排系统 B.航空定票系统 C.办公自动化系统 D.计算机辅助设计系统 答案:B 2.操作系统是一种( )。 A.应用软件 B.系统软件 C&#xff…

NLP复习资料(6)-第十章 语义分析

NLP复习资料-第十章1语义理论简介2格语法4语义网络5词义消歧5语义角色标注6词向量表示7篇章分析国科大,宗老师《自然语言处理》课程复习笔记,个人整理,仅供参考。语义分析:P3解释句子或篇章的含义,主要困难&#xff08…

处理机调度与死锁

处理机调度与死锁 处理机调度的层次 高级调度 高级调度又称为作业调度或长程调度,其主要功能是根据某种算法,把外存上处于后备队列中的那些作业调入内存,也就是说,它的调度对象是作业。 1.作业和作业步 作业:一个比程…

各种卷积

从最开始的卷积层,发展至今,卷积已不再是当初的卷积,而是一个研究方向。在反卷积这篇博客中,介绍了一些常见的卷积的关系,本篇博客就是要梳理这些有趣的卷积结构。 阅读本篇博客之前,建议将这篇博客结合在一…

springboot——kaptcha

导入包&#xff1a; <dependency><groupId>com.github.penggle</groupId><artifactId>kaptcha</artifactId><version>2.3.2</version></dependency> 配置类&#xff1a; package com.now.community.community.config;import…