NLP复习资料(5)-第九章 句法分析

NLP复习资料-第九章

  • 1.短语结构分析
  • 2.短语结构分析方法的评估指标
  • 3依存句法分析器设计P13
  • 4依存句法分析器性能评价
  • 5短语结构与依存结构能够相互转换
  • 6汉英句法结构对比
  • 7汉语长句的层次化句法分析

国科大,宗老师《自然语言处理》课程复习笔记,个人整理,仅供参考。

1.短语结构分析

(1)基于CFG规则的分析:没法解决歧义问题。

(2)基于PCFG的分析:能够解决歧义问题,但是概率计算条件过于苛刻)

(1.1)基于CFG规则的两种方法:线图分析法、CYK方法

线图分析法: P20例子掌握了就差不多了。词性序列作为线图的边,依据规则不断构成新的弧,弧的标记为规则的左边,弧连接的词性串为规则的右边。最后将弧转换成节点,节点转换成边,就能得到句法分析树。P30(时间复杂度为Kn3Kn^3Kn3

CYK方法: P49的例子,(识别矩阵上的操作)识别矩阵的主对角线上是词语,次对角线上是对应的词性标注,再次对角线上是依据规则约规的规则左端标记,直至,最有上角的位置标记为S,由识别矩阵就可以构造句法分析树。

(1.2)基于PCFG的分析:概率上下文无关文法

在上下文无关文法的基础上,每一条文法都有一定的出现概率,那么利用这些规则转换而成的句法分析树每个节点周围都会带有概率标记,通过概率规则,计算整棵树的概率(实际上是所有概率连乘),概率最大的树为最有可能的分析树。由于最大概率的挑选准则,使得PCFG可以克服歧义问题,但是概率模型太依靠于语料库。P64句法分析树概率计算

PCFG的三个问题(和HMM模型有的一拼)P73:
->快速计算P(W|G):内向算法:递归的算法(不会考算法吧)
->选择最佳句法结构树:viterbi算法:viterbi变量对应的最大概率,
->调整G使得P(W|G)最大:巴拉巴拉,我觉的不用记吧

基于PCFG的语法分析实例:
在CYK的基础上多了每个小格子多了概率标记,最后可以计算句法分析树的概率P103

2.短语结构分析方法的评估指标

P125精度、召回率、f-measure、P127交叉括号数(最好记一下)

P132 页的交叉括号数为0,交叉括号的的准确率为100% (不甚理解

3依存句法分析器设计P13

2.1依存句法结构描述—有向图、依存树

2.2 分析算法:
生成式分析方法:score(x,y|参数)找打打分最高的结果作为分析结果
判别式分析方法:最大生成树模型,加权和分值最高的边的组合
决策式分析方法:移进-约归算法,arc-eager算法:左弧、右弧、移动、约归、P33实现一个句法分析器:在每个状态下依据特征决定下一步该采取的行动。通过标记数据集合得到特征集合,构造动作分析器,就是记录一系列上下文转换情况,在应用时,查找转换规则即可。

4依存句法分析器性能评价

无标记正确率(支配关系写对就行,分母是输出句子的分词数目)

带标记正确率(支配关系和支配类型都得对,分母是输出句子的分词数目)

依存正确率(不带根节点的正确率,分母是输出句子的分词数目-根的数目)

根正确率(正确根数/句子数)

完全匹配率(正确根的句子/总句子)

5短语结构与依存结构能够相互转换

短语->依存P52(中心词抽取规则,产生中心此表-)每个节点中心词抽取->非中心节点依存到中心节点上)

6汉英句法结构对比

P59至少记住两个吧

汉语功能词少;
汉语右部为中心,英语左部为中心;
汉语中省略主语的请款经常存在(他认为()是正确的)

7汉语长句的层次化句法分析

(p66分割句子-子句句法分析-分析子句之间的关系-最终得到整个句子的最大概率分析树)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/445154.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

神经网络中的优化算法总结

在调整模型更新权重和偏差参数的方式时,你是否考虑过哪种优化算法能使模型产生更好且更快的效果?应该用梯度下降,随机梯度下降,还是Adam方法? 这篇文章介绍了不同优化算法之间的主要区别,以及如何选择最佳的…

OS --written test1

241.在提供虚拟存储的系统中,用户的逻辑地址空间主要受( )的限制。A.内存空闲块的大小 B.外存的大小 C.计算机编址范围 D.页表大小答案:C242.在分时系统中,时间片一定,( …

Java开发需要知道的HTML知识

概述 HTML(HyperText Markup Language) 不是一门编程语言,而是一种用来告知浏览器如何组织页面的标记语言。 HTML 可复杂、可简单,一切取决于开发者。它由一系列的元素组成,这些元素可以用来包围不同部分的内容,使其以某种方式呈…

OS-written test2

操作系统各大公司笔试题汇总 1、在段页式存储管理中,其虚拟地址空间是() A、一维 B、二维 C、三维 D、层次 答案:B 2、采用( )不会产…

Ubuntu18.04上安装RTX 2080Ti显卡驱动

文章目录1.安装Linux系统1.1下载Linux镜像文件1.2 制作系统盘1.3 安装Linux系统1.4 配置linux系统2.安装英伟达显卡驱动2.1 预备工作2.2 安装显卡驱动3.安装cuda4.安装cudnn1.安装Linux系统 1.1下载Linux镜像文件 根据电脑配置和自己的爱好,选择合适的Linux镜像文…

OS

操作系统笔试题及答案一 1.在下列系统中,( )是实时系统。 A.计算机激光照排系统 B.航空定票系统 C.办公自动化系统 D.计算机辅助设计系统 答案:B 2.操作系统是一种( )。 A.应用软件 B.系统软件 C&#xff…

NLP复习资料(6)-第十章 语义分析

NLP复习资料-第十章1语义理论简介2格语法4语义网络5词义消歧5语义角色标注6词向量表示7篇章分析国科大,宗老师《自然语言处理》课程复习笔记,个人整理,仅供参考。语义分析:P3解释句子或篇章的含义,主要困难&#xff08…

处理机调度与死锁

处理机调度与死锁 处理机调度的层次 高级调度 高级调度又称为作业调度或长程调度,其主要功能是根据某种算法,把外存上处于后备队列中的那些作业调入内存,也就是说,它的调度对象是作业。 1.作业和作业步 作业:一个比程…

各种卷积

从最开始的卷积层,发展至今,卷积已不再是当初的卷积,而是一个研究方向。在反卷积这篇博客中,介绍了一些常见的卷积的关系,本篇博客就是要梳理这些有趣的卷积结构。 阅读本篇博客之前,建议将这篇博客结合在一…

springboot——kaptcha

导入包&#xff1a; <dependency><groupId>com.github.penggle</groupId><artifactId>kaptcha</artifactId><version>2.3.2</version></dependency> 配置类&#xff1a; package com.now.community.community.config;import…

NLP复习资料(7)-机器翻译、文本分类、情感分析

NLP复习资料国科大&#xff0c;宗老师《自然语言处理》课程复习笔记&#xff0c;个人整理&#xff0c;仅供参考。此部分为手稿&#xff0c;高清图下载见链接&#xff1a;https://download.csdn.net/download/sinat_40624829/11662412

XMl文件解析读取

DOM方式&#xff1a; http://www.w3schools.com/dom/dom_parser.asp

redis——对项目的一些优化方案

这是我们之前项目的业务流程&#xff0c;做一下简单介绍。 登录&#xff1a; 用户输入账号、密码、验证码。我们先判断用户输入的验证码是不是我们session存的验证码&#xff0c;然后去查账号密码是否正确。 如果登录成功&#xff0c;发送给用户一张凭证&#xff08;ticket&a…

const的思考

const的思考 1、什么是const?常类型是指使用类型修饰符const说明的类型&#xff0c;常类型的变量或对象的值是不能被更新的。&#xff08;当然&#xff0c;我们可以偷梁换柱进行更新&#xff1a;&#xff09;2、为什么引入const&#xff1f;const 推出的初始目的&#xff0c;正…

深度模型压缩论文(02)- BlockSwap: Fisher-guided Block Substitution for Network Compression

文章目录1.摘要和背景1.1 摘要1.2 背景2.方法和贡献2.1 方法2.2 贡献3.实验和结果3.1 实验3.2 结果4.总结和展望4.1 总结4.2 展望本系列是在阅读深度神经网络模型小型化方面论文时的笔记&#xff01;内容大部分从论文中摘取&#xff0c;也会有部分自己理解&#xff0c;有错误的…

NLP复习资料(8)-知识图谱、信息抽取

NLP复习资料第16讲—知识图谱第17讲-信息抽取&#xff08;知识图谱生命周期中信息获取的关键技术&#xff09;国科大&#xff0c;宗老师《自然语言处理》课程复习笔记&#xff0c;个人整理&#xff0c;仅供参考。第16讲—知识图谱 知识图谱经典知识表示理论语义网资源描述框架…

Collection源码阅读

package java.util;import java.util.function.Predicate; import java.util.stream.Stream; import java.util.stream.StreamSupport;/*** 集合层次结构的根接口&#xff0c;一个集合表示一组对象&#xff0c;称为元素* JDK不提供任何该接口的直接实现&#xff0c;JDK提供实现…

socket阻塞和非阻塞的区别

读操作 对于阻塞的socket,当socket的接收缓冲区中没有数据时,read调用会一直阻塞住,直到有数据到来才返 回。当socket缓冲区中的数据量小于期望读取的数据量时,返回实际读取的字节数。当sockt的接收缓冲 区中的数据大于期望读取的字节数时,读取期望读取的字节数,返回实际读…

深度模型压缩论文(01)- Meta Filter Pruning to Accelerate Deep Convolutional Neural Networks

文章目录1.摘要和介绍1.1摘要部分2.背景和方法2.1 背景2.2 贡献2.3 方法3.实验和结果3.1 实验3.2 结果4.总结和展望4.1 总结4.2 展望本系列是在阅读深度神经网络模型小型化方面论文时的笔记&#xff01;内容大部分从论文中摘取&#xff0c;也会有部分自己理解&#xff0c;有错误…

架构分享--微博架构

先来分享下大神Tim Yang的关于微博的架构设计&#xff1a; 这里主要从 存储和接口角度来讲 对于大流量系统的架构设计&#xff0c;对于写入方面是特别需要注意的&#xff0c;基本上现在遇到的系统都是对于主数据库的写入&#xff0c;然后对于从数据库实现流量的分发。 对于存…