NLP复习资料
- 1.第六章 马尔科夫模型与条件随机场
- 2.第七章 词法分析与词性标注
国科大,宗老师《自然语言处理》课程复习笔记,个人整理,仅供参考。
1.第六章 马尔科夫模型与条件随机场
1.马尔科夫模型:P6系统每一时刻的状态只与前一个时刻的状态相关,状态转移独立于时间
2.隐马尔科夫模型:P13状态与观测的双重随机过程
3.HMM的三个问题:(理不理解都行,重要的是后面的应用实例要理解)
给定观测序列计算相应的概率:前向算法
计算模型的参数:(1)监督学习:有P55(2)无监督学习:期望最大法Baum-welch算法
给定观测序列计算最有可能的状态序列:(1)P40近似计算:每个时刻最有可能的状态组成的序列(2)viterbi算法P46:从第一层开始找到每个节点的最优路径,直至最后一层,然后回溯
4.HMM应用实例:P67
汉语自动分词:(观测:汉语分词结果。)计算最合适的观测序列使得其概率最大
词性标注问题:(观测:汉语分词结果,状态词性标注序列:)求解最优的状态。使得观测序列的概率最大。
观测序粗切分,切出所有可能的结果。然后汉语分词的话,依据HMM前向算法计算最大概率的切分P81。词性标注的话,依据HMMviterbi算法计算最优可能的状态序列。
5.条件随机场(一样不用太理解它讲的什么,本来就讲的不清楚)掌握由字构词法:P95每个字构成词语那么它可能的词位:开头、中间、结尾、独自成词。汉语分词问题转换成字分类问题。P103解码模型看清楚就差不多了。
2.第七章 词法分析与词性标注
1.汉语自动分词的主要问题:规范性问题P20、歧义切分字段问题P25组合型歧义,交集型歧义、未登入词识别P26
2.汉语自动分词的基本原则(记住两条要吧)P29语义无法切分不能切,词性无法切分不能切,有明显分隔符的要切,使用频率高的词不能切,过于冗长要切
3.分词与词性标注结果评价:(很重要的两个概念)正确率:正确结果与输出结果的关系。召回率:正确结果和标准答案的关系。P40
4.自动分词的基本算法:
4.1最大匹配法:要词典P48正向:一个字依次向其后扩展至最长可能成词的,就切开,再往后找最长成词切分
4.2最少分词发:要字典P51,有向无环图构建,找最短路径
4.3语言模型,n-gram第五章 生成式模型
4.4 HMM,最大概率观测序列 第六章
4.5由字构词,分类方法,第六章 判别式模型
4.6 生成式模型与判别式模型相结合:两种结合方式:
P67(c,t)+语言模型
P71插值的方法
5.未登入词的识别
人名P81:概率估计、姓名阈值、评价函数、修饰规则
地名:P88建库,没说方法
机构名:P90中心语找做左边界
双语实体自动识别欲对齐联合模型P98:英文边界确定中文,中文边界消歧英文
6.词性标注
原则:P113标准性、兼容性、可扩充性
方法:手工编写规则法p119(依据不同的上下文确定不同的词性)、P123错误驱动的机器学习方法(理念比较重要)、基于HMM词性标注(找最优的状态序列使得观测序列概率最大第六章)、统计和规则形结合(都没有例子,估计不用记)
7.分词与词性标注的技术水平:老师说到现在都没有解决好这两个问题。
8.分词与词性标注的发展方向:迁移学习P144,消歧方法继续研究P148