NLP复习资料-绪论、数学基础
- 1.绪论
- 2.数学基础
- 2.1信息论基础:
- 2.2应用实例:词汇消歧
国科大,宗老师《自然语言处理》课程复习笔记,个人整理,仅供参考。
1.绪论
1. 语言学、计算语言学、自然语言理解、自然语言处理、中文信息系统这几个概念
2. HLT人类语言技术研究内容:机器翻译、信息检索、自动文摘、问答系统、信息过滤 、信息抽取、文档分类、情感分类、文字编辑和自动校对、语言教学、文字识别、语音识别、文语转换/语音合成、说话人识别/认同/验证
3. P57基本问题:形态学问题、句法问题、语义问题、语用问题、语音学问题
4. P71 主要困哪:大量歧义现象、未知语言现象不可预测性、始终面临数据不充分性、语言知识表达的复杂性、机器翻译中映射单元不对等性
5. P77基本研究方法:理性主义(基于规则的方法),经验主义(基于统计的方法)
2.数学基础
2.1信息论基础:
熵H(X):描述随机变量的不确定度。
联合熵H(X,Y):描述两个随机变量一起的不确定度。
条件熵H(X|Y):已知一个随机变量的基础下,另一个随机变量的熵
连锁规则:H(X,Y)=H(X)+H(Y|X)
相对熵D(p||q)(KL散度):衡量两个概率分布之间的差距
交叉熵H(X,q):模型分布与真实概率分布之间的差异
困惑度PPq:用交叉熵来定义,多一个幂次P35
互信息I(X;Y)=H(X)-H(X|Y)不确定度的减少量,用于衡量两个汉字的结合程度(P40)
双字耦合度P42:用于衡量两个汉字的结合程度(更佳)
2.2应用实例:词汇消歧
贝叶斯分类器P55
最大熵消除歧义:P61只是推导了p(a|b)的概率,(并没有说明和最大熵的关系。)