NLP复习资料-第九章
- 1.短语结构分析
- 2.短语结构分析方法的评估指标
- 3依存句法分析器设计P13
- 4依存句法分析器性能评价
- 5短语结构与依存结构能够相互转换
- 6汉英句法结构对比
- 7汉语长句的层次化句法分析
国科大,宗老师《自然语言处理》课程复习笔记,个人整理,仅供参考。
1.短语结构分析
(1)基于CFG规则的分析:没法解决歧义问题。
(2)基于PCFG的分析:能够解决歧义问题,但是概率计算条件过于苛刻)
(1.1)基于CFG规则的两种方法:线图分析法、CYK方法
线图分析法: P20例子掌握了就差不多了。词性序列作为线图的边,依据规则不断构成新的弧,弧的标记为规则的左边,弧连接的词性串为规则的右边。最后将弧转换成节点,节点转换成边,就能得到句法分析树。P30(时间复杂度为Kn3Kn^3Kn3)
CYK方法: P49的例子,(识别矩阵上的操作)识别矩阵的主对角线上是词语,次对角线上是对应的词性标注,再次对角线上是依据规则约规的规则左端标记,直至,最有上角的位置标记为S,由识别矩阵就可以构造句法分析树。
(1.2)基于PCFG的分析:概率上下文无关文法
在上下文无关文法的基础上,每一条文法都有一定的出现概率,那么利用这些规则转换而成的句法分析树每个节点周围都会带有概率标记,通过概率规则,计算整棵树的概率(实际上是所有概率连乘),概率最大的树为最有可能的分析树。由于最大概率的挑选准则,使得PCFG可以克服歧义问题,但是概率模型太依靠于语料库。P64句法分析树概率计算
PCFG的三个问题(和HMM模型有的一拼)P73:
->快速计算P(W|G):内向算法:递归的算法(不会考算法吧)
->选择最佳句法结构树:viterbi算法:viterbi变量对应的最大概率,
->调整G使得P(W|G)最大:巴拉巴拉,我觉的不用记吧
基于PCFG的语法分析实例:
在CYK的基础上多了每个小格子多了概率标记,最后可以计算句法分析树的概率P103
2.短语结构分析方法的评估指标
P125精度、召回率、f-measure、P127交叉括号数(最好记一下)
P132 页的交叉括号数为0,交叉括号的的准确率为100% (不甚理解)
3依存句法分析器设计P13
2.1依存句法结构描述—有向图、依存树
2.2 分析算法:
生成式分析方法:score(x,y|参数)找打打分最高的结果作为分析结果
判别式分析方法:最大生成树模型,加权和分值最高的边的组合
决策式分析方法:移进-约归算法,arc-eager算法:左弧、右弧、移动、约归、P33实现一个句法分析器:在每个状态下依据特征决定下一步该采取的行动。通过标记数据集合得到特征集合,构造动作分析器,就是记录一系列上下文转换情况,在应用时,查找转换规则即可。
4依存句法分析器性能评价
无标记正确率(支配关系写对就行,分母是输出句子的分词数目)
带标记正确率(支配关系和支配类型都得对,分母是输出句子的分词数目)
依存正确率(不带根节点的正确率,分母是输出句子的分词数目-根的数目)
根正确率(正确根数/句子数)
完全匹配率(正确根的句子/总句子)
5短语结构与依存结构能够相互转换
短语->依存P52(中心词抽取规则,产生中心此表-)每个节点中心词抽取->非中心节点依存到中心节点上)
6汉英句法结构对比
P59至少记住两个吧
汉语功能词少;
汉语右部为中心,英语左部为中心;
汉语中省略主语的请款经常存在(他认为()是正确的)
7汉语长句的层次化句法分析
(p66分割句子-子句句法分析-分析子句之间的关系-最终得到整个句子的最大概率分析树)