NLP复习资料-第十章
- 1语义理论简介
- 2格语法
- 4语义网络
- 5词义消歧
- 5语义角色标注
- 6词向量表示
- 7篇章分析
国科大,宗老师《自然语言处理》课程复习笔记,个人整理,仅供参考。
语义分析:P3解释句子或篇章的含义,主要困难(歧义现象,不同人的理解不同,模型方法不成熟)
1语义理论简介
就是说不同的学者对于词的含义有不同的理解(至少记住两个吧)
1.词的指称(词与现实世界事物对应,复杂问题无法定义)
2.心理图像(不是所有词义都有清晰的心理图像)
3说话者意图(希望听者理解,做出反应)
4.过程语义(编程语言的含义,缺乏独立性)
5.词汇分解学派(词的意义基于语义基元,语义基元标准难定)
6.条件真理模型(不能很好描述时间场景)
7.情景语义学、模态逻辑
2格语法
格语法-语言学家搞的一套东西,老师快速地过了一遍。句子的表层表现与底层含义。
三条基本规则:P22句子由情态和命题构成,命题可以向下分
用格语法分析语义:基础有一本动词格框架和名词语义信息的词典
步骤P31,识别动词,找格框架->填充必备格->填充可选格->判断句子情态
格语法描述汉语的局限性:一个句子(动词)一个框架,汉语的无动句、流水句子、连动句很难用一个框架描述
4语义网络
语义网络:P38 概念 和 关系 组成的有向图,用来表示语义与知识。
P42事件的语义网络节点之间的关系可以使用格关系来表示
P45基于语义网络的推理:根据已知知识构建局部网络->用变量代表待求客体进行推理
P46知识图谱:描述实体与实之间的关系。关键技术:实体识别与消歧,关系识别
5词义消歧
词义消歧:多义词词义确定的过程
基本方法:
1.有监督词义消歧:互信息消歧P51:平行语料库,语义指示器的分类问题,互信息最大的方法来确定语义指示器的分类
2.贝叶斯消歧:第二章内容P55基于上下文的贝叶斯分类器的消歧方法
3.基于最大熵的消歧方法:第二章
4.基于词典的消歧:
->词典语义定义消歧
->上下文语义项
->双语词典:短语-翻译-译文中的共现次数多的组合词义作为原语言中的意义
->Yarowsky:P62一个多义词项出现一次后,该词项出现的可能性会比较大
5语义角色标注
分析句子谓语与其他成分词之间的关系
方法:
->基于短语结构分析的SRL(候选论元剪枝:P74,论元识别与标注P76)
->基于依存关系SRL(P80只有候选论元的剪除:因为它本来就是以动词为中心的)
->基于语块分析的SRL方法P84:语义角色标注问题变成序列标注问题
6词向量表示
两个主要问题:词汇如何转换成向量,向量如何语义组合。
基于文本的词汇语义表示:共现矩阵P94、神经网络P95
基于图像学习的词汇语义表示:P97图像->特征向量
基于声音学习的词汇语义特征:P98
多模态融合
下面就是老师们的一些工作,都是一些思想,不细说大致了解一下。
(1) 关联词汇作为弱监督信号得到词向量表示
(2) 多模态的词汇表示的可解释性研究:不同模态的向量,侧重词义特征不同,或具体,或抽象
(3) 融合词汇内部结构的中文句子表示模型
(4) 借鉴人类注意力分配机制的语义表示模型
(5) 研究不同类型句子在人脑的语义解码(句子->脑图像->特征提取)
7篇章分析
宗老师讲的最后一点内容:篇章分析
1.如何表示一个篇章:
词汇链:P3几个关键词串在一起,构成一篇文章的描述
事件链:P5实体抽取->词汇链上每个词最近的论元,构成事件链->判断相邻事件之间的关系
话题链:P6一系列回指构成的话题链
2.浅层篇章关系分析:P10分析两个篇章单元之间的关系,三个主要任务:关联词识别、arg抽取、两个arg之间功能类型判断。老师的基本框架:p12
(1)锚点识别:P13包括显示的关联词,和隐式的标点符号
(2) Argment提取:P16一些启发式的规则
(2)Argment 扩展,以同一个句子、前后两个句子为种子,向前后扩展
(3)Argment再标记:他们的位置是相对的p28
3.主要问题:关联词识别错误P31、句子边界识别错误P33、