句法分析概述

第1关:句法分析概述

任务描述

本关任务:通过对句法分析基本概念的学习,完成相应的选择题。

相关知识

为了完成本关任务,你需要掌握:

  1. 句法分析的基础概念;

  2. 句法分析的数据集和评测方法。

句法分析简介

句法分析( syntactic parsing )是自然语言处理中的关键技术之一,它是对输入的文本句子进行分析以得到句子的句法结构的处理过程。对句法结构进行分析,一方面是语言理解的自身需求,句法分析是语言理解的重要一环,另一方面也为其它自然语言处理任务提供支持。例如句法驱动的统计机器翻译需要对源语言或目标语言(或者同时两种语言)进行句法分析。

从20世纪50年代初机器翻译课题被提出时算起,自然语言处理研究已经有60余年的历史,句法分析一直是自然语言处理前进的巨大障碍。句法分析主要有以下两个难点:

  • 歧义。自然语言区别于人工语言的一个重要特点就是它存在大量的歧义现象。人类自身可以依靠大量的先验知识有效地消除各种歧义,而机器由于在知识表示和获取方面存在严重不足,很难像人类那样进行句法消歧;

  • 搜索空间。句法分析是一个极为复杂的任务,候选树个数随句子增多呈指数级增长,搜索空间巨大。因此,必须设计出合适的解码器,以确保能够在可以容忍的时间内搜索到模型定义最优解。

图 1 句法分析的结构

句法分析( Parsing )是从单词串得到句法结构的过程,而实现该过程的工具或程序被称为句法分析器( Parser )。句法分析的种类很多,如图1所示,这里我们根据其侧重目标将其分为完全句法分析和局部句法分析两种。两者的差别在于,完全句法分析以获取整个句子的句法结构为目的;而局部句法分析只关注于局部的一些成分,例如常用的依存句法分析就是一种局部分析方法。

句法分析中所用方法可以简单地分为基于规则的方法和基于统计的方法两大类。两种方法的特点有:

  1. 基于规则的方法:处理大规模真实文本时,存在语法规则覆盖有限、系统可迁移差等问题;

  2. 基于统计的方法:最典型的是 PCFG ,本质是一套面向候选树的评价方法,给正确的句法树赋予一个较高分值不合理的句法树赋予一个较低分支,从而借用分值进行消歧。

句法分析的数据集

统计学习方法多需要语料数据的支撑,统计句法分析也不例外。相较于分词或词性注,句法分析的数据集要复杂很多,其是一种树形的标注结构,因此又称树库。

目前的树库有:

  1. 英文:英文宾州树库,前身为 ATIS 和 WSJ 树库,具有较高的一致性和标注准确率;

  2. 中文:中文宾州树库、清华树库、台湾中研院树库等。

序号标记代码标记名称
1np名词短语
2tp时间短语
3sp空间短语
4vp动词短语
5ap形容词短语
6bp区别词短语
7dp副词短语

如上表所示,不同的树库有着不同的标记体系,使用时切忌使用一种树库的句法分析器,然后用其他树库的标记体系来解释。

句法分析的任务

语义分析通常以句法分析的输出结果作为输入以便获得更多的指示信息,根据句法结构的表示形式不同,最常见的句法分析任务可以分为以下三种:

  1. 句法结构分析,作用是识别出句子中的短语结构以及短语之间的层次句法关系;

  2. 依存关系分析,又称依存句法分析,简称依存分析,作用是识别句子中词汇与词汇之间的相互依存关系;

  3. 深层文法句法分析,即利用深层文法,例如词汇化树邻接文法、词汇功能文法、组合范畴文法等,对句子进行深层的句法以及语义分析。

句法分析的评测方法

句法分析评测的主要任务是评测句法分析器生成的树结构与手工标注的树结构之间的相似程度。其主要考虑两方面的性能:满意度和效率。其中满意度是指测试句法分析器是否适合或胜任某个特定的自然语言处理任务;而效率主要用于对比句法分析器的运行时间。

目前流行的是 PARSEVAL 评测体系,主要指标有准确率(分析正确的短语个数在句法分析结果中所占比例,即分析结果中与标准句法树相匹配的短语个数占分析结果中所有短语个数的比例)、召回率(分析得到的正确短语个数占标准分析树全部短语个数的比例)、交叉括号数(分析得到的某一短语覆盖范围与标准句法分析结果的某一短语的覆盖范围存在重叠而不存在包含关系,从而构成一个交叉括号)。

作答要求

根据相关知识,按照要求完成右侧选择题任务。作答完毕,通过点击“测评”,可以验证答案的正确性。

  • 1、

    句法分析的主要难点有:

    A、

    分词

    B、

    歧义

    C、

    词性标注

    D、

    搜索空间

BD

  • 2、

    下列哪个不属于 PARSEVAL 评测体系的主要指标

    A、

    准确率

    B、

    交叉括号数

    C、

    符号数

    D、

    召回率

C

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/37264.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

应用及安全

目录 一、PAM 安全认证及配置 1.1配置 su 命令的认证 1.2PAM 配置文件结构二、账号和密码安全管理 2.1账号管理 2.2系统账号清理 2.3密码安全控制 2.4密码重设示例 2.5参考命令三、命令历史限制 3.1设置命令历史记录…

【问chatgpt】

这采用的是什么脚手架初始化的?这样问询chatgpt 从文件结构来看,这个项目很可能是使用 Express 框架初始化的。这些文件夹和命名约定常见于 Express 项目结构,特别是: controllers: 控制器文件夹,通常用于处理请求逻…

同城小商城货到付款系统源码小程序

:便捷购物新选择 🚀 一、快速便捷,同城直达 在这个快节奏的时代,时间就是金钱。你是否曾因为等待快递而焦虑不安?现在,有了“同城商城货到付款小程序”,这一切都变得不再是问题。它专注于同城…

<商务世界>《79 微课堂 <客户是核心:2 客户沟通的技巧《扬长避短进行沟通》(全文原创首发)>》

1 说明 符合表示★关键信息▲必要信息●一般信息 2 规则 等级信息★1、无准备,不沟通。▲2、做最准备充分,准备不设上限★3、掌握自己的节奏,不在他人节参中被动●4、准备充分、心态平稳、扬长避短。●5、沟通就是对消息的处理。发送、接收…

谷歌如何进行失效链接建设?

失效链接建设是一种高效的外链建设策略,通过发现并利用失效链接来提升自己网站的SEO。以下是详细的步骤: 寻找失效页面:你需要使用SEO工具,如Ahrefs,来查找与你的网站内容相关的失效页面。这些页面可能是竞争对手的失…

传神社区|数据集合集第4期|中文NLP数据集合集

自从ChatGPT等大型语言模型(Large Language Model, LLM)出现以来,其类通用人工智能(AGI)能力引发了自然语言处理(NLP)领域的新一轮研究和应用浪潮。尤其是ChatGLM、LLaMA等普通开发者都能运行的…

基于深度学习的相机内参标定

基于深度学习的相机内参标定 相机内参标定(Camera Intrinsic Calibration)是计算机视觉中的关键步骤,用于确定相机的内部参数(如焦距、主点位置、畸变系数等)。传统的标定方法依赖于已知尺寸的标定板,通常…

一文弄懂线性回归模型

1、引言 今天,我们将深入探讨机器学习中的三个关键概念:线性回归、代价函数和梯度下降。这些概念构成了许多机器学习算法的基础。起初,我决定不写一篇关于这些主题的文章,因为它们已经被广泛涉及。不过,我改变了主意&…

[图解]SysML和EA建模住宅安全系统-02-现有运营领域-块定义图

1 00:00:00,840 --> 00:00:02,440 首先我们来看画在哪里 2 00:00:02,570 --> 00:00:08,310 你看,这是图的类型,图里面内容 3 00:00:08,320 --> 00:00:10,780 这是元素类型 4 00:00:10,790 --> 00:00:14,900 这是位置,哪个包 …

Halcon 文本文件操作,形态学

一文件的读写 *******************************************************向文本文件写入字符串内容*************************************************************read_image (Image, fabrik)threshold (Image, Region, 0, 120)area_center (Region, Area, Row, Column)open_…

【前端面试题】vue2.0与vue3.0不同处大全

Vue 3.0与Vue 2.0在细节上存在多个显著的不同之处,以下是对这些区别的详细归纳和解释: 性能提升: Vue 3.0的性能相比Vue 2.x快了1.2至2倍。这主要得益于内部对虚拟DOM的完全重写,mounting和patching的提速,以及基于Pr…

嘉立创学习

1.两个设置,一般用左边那个 2.焊盘分类 基本焊盘 热风盘:也叫花焊盘(负片) 隔离焊盘:外面那圈黑色,用作隔离(负片) 钢网层:(锡膏) 阻焊层&…

【php】【mysql】【layui】 原生初级简易留言簿系统成品代码动态网站开发网页WEB浏览器端B/S结构

更多项目点击👆👆👆完整项目成品专栏 【php】【mysql】【layui】 原生初级简易留言簿系统成品代码动态网站开发网页WEB浏览器端B/S结构 获取源码方式项目说明:文件包含:项目运行环境项目运行截图 获取源码方式 加Q群…

妙解设计模式之桥接模式

桥接模式的概念 桥接模式(Bridge Pattern)是一种结构型设计模式,用于将抽象部分和实现部分分离,使它们可以独立变化。这种模式通过组合而不是继承来实现这个目标,从而提高系统的灵活性和可扩展性。 抽象部分&#xf…

如何使用C++进行文件读写操作

在C中&#xff0c;我们可以使用标准库中的 <fstream>&#xff08;文件流&#xff09;来进行文件的读写操作。以下是一些基本的文件读写操作的示例。 读取文件 cpp复制代码 #include <fstream> #include <iostream> #include <string> int main() { s…

MySQL高级-SQL优化- update 优化(尽量根据主键/索引字段进行数据更新,避免行锁升级为表锁)

文章目录 0、update 优化1、创建表2、默认是行锁3、行锁升级为表锁4、给name字段建立索引 0、update 优化 InnoDB的行锁是针对索引加的锁&#xff0c;不是针对记录加的锁&#xff0c;并且该索引不能失效&#xff0c;否则会从行锁升级为表锁。 1、创建表 create table course(…

【严正声明】鉴于CSDN的流氓行为,现已清空所有文章,资源下载分统一改为0

【严正声明】鉴于CSDN的流氓行为&#xff0c;现已清空所有文章&#xff0c;资源下载分统一改为0 鉴于CSDN的流氓行为&#xff0c;现已清空所有文章&#xff0c;资源下载分统一改为0 鉴于CSDN的流氓行为&#xff0c;现已清空所有文章&#xff0c;资源下载分统一改为0 如果你在C…

CUDA 编程

## blocksize和gridsize设置 使用deviceQuery查看GPU相关信息(下图为1080 ti)blocksize的最大值建议不要超过Maximum number of threads per block&#xff08;1024&#xff09;由于每个block里的线程需要被分为数个wrap&#xff0c;而wrap size为32&#xff08;Warp size&…

搭建企业内网pypi镜像库,让python在内网也能像互联网一样安装pip库

目录 知识点实验1.服务器安装python2.新建一个目录/mirror/pip&#xff0c;用于存储pypi文件&#xff0c;作为仓库目录3.下载python中的所需包放至仓库文件夹/mirror/pip3.1. 新建requirement.py脚本&#xff08;将清华pypi镜像库文件列表粘贴到requirement.txt文件中&#xff…

【MATLAB源码-第231期】基于matlab的polar码编码译码仿真,对比SC,SCL,BP,SCAN,SSC等译码算法误码率。

操作环境&#xff1a; MATLAB 2022a 1、算法描述 极化码&#xff08;Polar Code&#xff09; 极化码&#xff08;Polar Code&#xff09;是一种新型的信道编码技术&#xff0c;由土耳其裔教授Erdal Arıkan在2008年提出。极化码在理论上被证明能够在信道容量上达到香农极限…