NLP复习资料-三~五章
- 1.第三章:形式语言
- 2.第四章:语料库
- 3.第五章:语言模型
国科大,宗老师《自然语言处理》课程复习笔记,个人整理,仅供参考。
1.第三章:形式语言
1.语言描述的三种途径:穷举法、语法描述(形式语言)、自动机
2.形式语言四元组表示,最左推导,最右推导,例3-1
3.p27. L(G0)>=L(G1)>=L(G2)>=L(G3)
4.p30上下文无关文法产生语言的句子派生树、文法的二义性:有不止一棵以上的派生树(关于 鲁迅的文章-关于鲁迅 的 文章)
5.有限自动机五元组表示,P39状态变换图
6.例3.8 正则文法与有限自动机之间的转换
7p59 例3.9下推自动机的处理步骤
8.有限自动机用于英语的单词拼写检查,采用深度优先算法在自动机选择编辑距离最小路径。P64编辑距离,P69 X截取范围的确定 P
9有限状态转换机用于英语单词形态分析(不仅有状态转换还有输出:补全单词和一个+)
2.第四章:语料库
1.语料库发展的三个阶段:
20世纪50年代中期:早期、
1957-20世纪80年代:沉积时期、
20世纪80年代后:复苏发展时期(主要特征:第二代语料库相继建成、基于语料库的研究项目增多)语料库复苏的原因P15计算机迅速发展、转换生成语言学派对语料库语言的批判不都正确。
2.语料库的类型:P21同质/异质,系统/专用,单语/多语,平衡语料库(语料的代表性和平衡性),平行语料库(双语平行语料库,机器翻译),共时语料库/历时语料库
3.语料库建设中的问题:
设计时问题:静态与动态,代表性与平衡性,规模,管理与维护
开发中为题:规范问题,产权问题p36
4.典型语料库和:(记一两个吧)
宾夕法尼亚大学的中文树库,词性33类,句法23类P42
北京大学开发的CLKBp61
词汇知识库:
普林斯顿大学WordNet p78
知网HowNet p85
3.第五章:语言模型
1.基于大规模语料库,出现了自然语言的统计处理方法,那么如何计算一个句子的概率呢?依据组成句子的词语的联合概率计算?词之间不独立,不行!那就考虑在历史词的基础上考虑当前词的概率,然后连乘。参数空间太大,不行!那就只考虑前n个历史词汇。OK呀~
2.p11 n元文法,n个邻近的词构成一个词序列。P12句子n元次序列划分的例子。
3.N元文法的两个应用-音字转换、汉语分词,选择概率最大的那个作为输出就对了。
4.参数估计–n元文法中连乘的每个概率的计算,训练语料库中历史一共出现的次数为分母,历史与当前一同出现的为分子,一除,搞定。P27计算题
5.n元文法最主要的一个问题:数据稀疏,要计算语料库中没见到的情况,怎么办?–数据平滑呀,基本思想–劫富济贫。加1法p37计算题。减值法good-turingP41公式推导。Back-off方法P47基本思想。绝对减值法和线性减值法的思想。删除价值法,低阶代替高阶,线性插值
5.模型自适应:前两种方法都是线性插值多个模型:(1)缓存模型p62(2)不同类型模型p67 (3)最大熵模型p69
6.应用举例:汉语分词,
p77以词序列为基本单位,效果不好,改成词类序列为基本单位。P81语言模型和生成模型。P87的训练步骤
p93分词与词性标注一体化的方法