句法分析概述

第1关:句法分析概述

任务描述

本关任务:通过对句法分析基本概念的学习,完成相应的选择题。

相关知识

为了完成本关任务,你需要掌握:

  1. 句法分析的基础概念;

  2. 句法分析的数据集和评测方法。

句法分析简介

句法分析( syntactic parsing )是自然语言处理中的关键技术之一,它是对输入的文本句子进行分析以得到句子的句法结构的处理过程。对句法结构进行分析,一方面是语言理解的自身需求,句法分析是语言理解的重要一环,另一方面也为其它自然语言处理任务提供支持。例如句法驱动的统计机器翻译需要对源语言或目标语言(或者同时两种语言)进行句法分析。

从20世纪50年代初机器翻译课题被提出时算起,自然语言处理研究已经有60余年的历史,句法分析一直是自然语言处理前进的巨大障碍。句法分析主要有以下两个难点:

  • 歧义。自然语言区别于人工语言的一个重要特点就是它存在大量的歧义现象。人类自身可以依靠大量的先验知识有效地消除各种歧义,而机器由于在知识表示和获取方面存在严重不足,很难像人类那样进行句法消歧;

  • 搜索空间。句法分析是一个极为复杂的任务,候选树个数随句子增多呈指数级增长,搜索空间巨大。因此,必须设计出合适的解码器,以确保能够在可以容忍的时间内搜索到模型定义最优解。

图 1 句法分析的结构

句法分析( Parsing )是从单词串得到句法结构的过程,而实现该过程的工具或程序被称为句法分析器( Parser )。句法分析的种类很多,如图1所示,这里我们根据其侧重目标将其分为完全句法分析和局部句法分析两种。两者的差别在于,完全句法分析以获取整个句子的句法结构为目的;而局部句法分析只关注于局部的一些成分,例如常用的依存句法分析就是一种局部分析方法。

句法分析中所用方法可以简单地分为基于规则的方法和基于统计的方法两大类。两种方法的特点有:

  1. 基于规则的方法:处理大规模真实文本时,存在语法规则覆盖有限、系统可迁移差等问题;

  2. 基于统计的方法:最典型的是 PCFG ,本质是一套面向候选树的评价方法,给正确的句法树赋予一个较高分值不合理的句法树赋予一个较低分支,从而借用分值进行消歧。

句法分析的数据集

统计学习方法多需要语料数据的支撑,统计句法分析也不例外。相较于分词或词性注,句法分析的数据集要复杂很多,其是一种树形的标注结构,因此又称树库。

目前的树库有:

  1. 英文:英文宾州树库,前身为 ATIS 和 WSJ 树库,具有较高的一致性和标注准确率;

  2. 中文:中文宾州树库、清华树库、台湾中研院树库等。

序号标记代码标记名称
1np名词短语
2tp时间短语
3sp空间短语
4vp动词短语
5ap形容词短语
6bp区别词短语
7dp副词短语

如上表所示,不同的树库有着不同的标记体系,使用时切忌使用一种树库的句法分析器,然后用其他树库的标记体系来解释。

句法分析的任务

语义分析通常以句法分析的输出结果作为输入以便获得更多的指示信息,根据句法结构的表示形式不同,最常见的句法分析任务可以分为以下三种:

  1. 句法结构分析,作用是识别出句子中的短语结构以及短语之间的层次句法关系;

  2. 依存关系分析,又称依存句法分析,简称依存分析,作用是识别句子中词汇与词汇之间的相互依存关系;

  3. 深层文法句法分析,即利用深层文法,例如词汇化树邻接文法、词汇功能文法、组合范畴文法等,对句子进行深层的句法以及语义分析。

句法分析的评测方法

句法分析评测的主要任务是评测句法分析器生成的树结构与手工标注的树结构之间的相似程度。其主要考虑两方面的性能:满意度和效率。其中满意度是指测试句法分析器是否适合或胜任某个特定的自然语言处理任务;而效率主要用于对比句法分析器的运行时间。

目前流行的是 PARSEVAL 评测体系,主要指标有准确率(分析正确的短语个数在句法分析结果中所占比例,即分析结果中与标准句法树相匹配的短语个数占分析结果中所有短语个数的比例)、召回率(分析得到的正确短语个数占标准分析树全部短语个数的比例)、交叉括号数(分析得到的某一短语覆盖范围与标准句法分析结果的某一短语的覆盖范围存在重叠而不存在包含关系,从而构成一个交叉括号)。

作答要求

根据相关知识,按照要求完成右侧选择题任务。作答完毕,通过点击“测评”,可以验证答案的正确性。

  • 1、

    句法分析的主要难点有:

    A、

    分词

    B、

    歧义

    C、

    词性标注

    D、

    搜索空间

BD

  • 2、

    下列哪个不属于 PARSEVAL 评测体系的主要指标

    A、

    准确率

    B、

    交叉括号数

    C、

    符号数

    D、

    召回率

C

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/37264.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【问chatgpt】

这采用的是什么脚手架初始化的?这样问询chatgpt 从文件结构来看,这个项目很可能是使用 Express 框架初始化的。这些文件夹和命名约定常见于 Express 项目结构,特别是: controllers: 控制器文件夹,通常用于处理请求逻…

同城小商城货到付款系统源码小程序

:便捷购物新选择 🚀 一、快速便捷,同城直达 在这个快节奏的时代,时间就是金钱。你是否曾因为等待快递而焦虑不安?现在,有了“同城商城货到付款小程序”,这一切都变得不再是问题。它专注于同城…

谷歌如何进行失效链接建设?

失效链接建设是一种高效的外链建设策略,通过发现并利用失效链接来提升自己网站的SEO。以下是详细的步骤: 寻找失效页面:你需要使用SEO工具,如Ahrefs,来查找与你的网站内容相关的失效页面。这些页面可能是竞争对手的失…

传神社区|数据集合集第4期|中文NLP数据集合集

自从ChatGPT等大型语言模型(Large Language Model, LLM)出现以来,其类通用人工智能(AGI)能力引发了自然语言处理(NLP)领域的新一轮研究和应用浪潮。尤其是ChatGLM、LLaMA等普通开发者都能运行的…

一文弄懂线性回归模型

1、引言 今天,我们将深入探讨机器学习中的三个关键概念:线性回归、代价函数和梯度下降。这些概念构成了许多机器学习算法的基础。起初,我决定不写一篇关于这些主题的文章,因为它们已经被广泛涉及。不过,我改变了主意&…

[图解]SysML和EA建模住宅安全系统-02-现有运营领域-块定义图

1 00:00:00,840 --> 00:00:02,440 首先我们来看画在哪里 2 00:00:02,570 --> 00:00:08,310 你看,这是图的类型,图里面内容 3 00:00:08,320 --> 00:00:10,780 这是元素类型 4 00:00:10,790 --> 00:00:14,900 这是位置,哪个包 …

Halcon 文本文件操作,形态学

一文件的读写 *******************************************************向文本文件写入字符串内容*************************************************************read_image (Image, fabrik)threshold (Image, Region, 0, 120)area_center (Region, Area, Row, Column)open_…

嘉立创学习

1.两个设置,一般用左边那个 2.焊盘分类 基本焊盘 热风盘:也叫花焊盘(负片) 隔离焊盘:外面那圈黑色,用作隔离(负片) 钢网层:(锡膏) 阻焊层&…

【php】【mysql】【layui】 原生初级简易留言簿系统成品代码动态网站开发网页WEB浏览器端B/S结构

更多项目点击👆👆👆完整项目成品专栏 【php】【mysql】【layui】 原生初级简易留言簿系统成品代码动态网站开发网页WEB浏览器端B/S结构 获取源码方式项目说明:文件包含:项目运行环境项目运行截图 获取源码方式 加Q群…

MySQL高级-SQL优化- update 优化(尽量根据主键/索引字段进行数据更新,避免行锁升级为表锁)

文章目录 0、update 优化1、创建表2、默认是行锁3、行锁升级为表锁4、给name字段建立索引 0、update 优化 InnoDB的行锁是针对索引加的锁,不是针对记录加的锁,并且该索引不能失效,否则会从行锁升级为表锁。 1、创建表 create table course(…

CUDA 编程

## blocksize和gridsize设置 使用deviceQuery查看GPU相关信息(下图为1080 ti)blocksize的最大值建议不要超过Maximum number of threads per block(1024)由于每个block里的线程需要被分为数个wrap,而wrap size为32(Warp size&…

搭建企业内网pypi镜像库,让python在内网也能像互联网一样安装pip库

目录 知识点实验1.服务器安装python2.新建一个目录/mirror/pip,用于存储pypi文件,作为仓库目录3.下载python中的所需包放至仓库文件夹/mirror/pip3.1. 新建requirement.py脚本(将清华pypi镜像库文件列表粘贴到requirement.txt文件中&#xff…

【MATLAB源码-第231期】基于matlab的polar码编码译码仿真,对比SC,SCL,BP,SCAN,SSC等译码算法误码率。

操作环境: MATLAB 2022a 1、算法描述 极化码(Polar Code) 极化码(Polar Code)是一种新型的信道编码技术,由土耳其裔教授Erdal Arıkan在2008年提出。极化码在理论上被证明能够在信道容量上达到香农极限…

成熟ICT测试系统与LabVIEW定制开发的比较

ICT(In-Circuit Test)测试系统是电子制造行业中用于电路板(PCB)组件检测的重要工具。市场上有许多成熟的ICT测试系统,如Keysight、Teradyne、SPEA等公司提供的商用解决方案。此外,LabVIEW作为一种强大的图形…

单目操作符

目录 ! --- 逻辑反操作 & --- 取地址操作符 * --- 间接访问操作符(解引用操作符) sizeof --- 操作数的类型长度(单位为字节) ~ --- 对一个数的补码二进制按位取反 前置和前置-- 后置和后置-- (类型) --- 强制类型转换…

three.js场景三元素

three.js是一个基于WebGL的轻量级、易于使用的3D库。它极大地简化了WebGL的复杂细节,降低了学习成本,同时提高了性能。 three.js的三大核心元素: 场景(Scene) 场景是一个三维空间,是所有物品的容器。可以将…

安卓速度下载v1.0.5/聚合短视频解析下载

功能特色 短视频下载与高级管理 – 支持短视频下载,为您提供一系列高级视频管理功能包括视频内容提取、智能防重复技术、视频体积压缩以及视频转换成GIF图片等; 磁-力链接下载升级 – 现支持磁力链接下载,实现边下载边播放的便捷体验&#x…

构建基于LLMs混合型大模型的先进事实性问答系统架构

1.引言 传统搜索系统基于关键字匹配,缺少对用户问题理解和答案二次处理能力。本文探索使用大语言模型(Large Language Model, LLM),通过其对自然语言理解(Natural Language Understanding,NLU)…

阿里云常用的操作

阿里云常见的产品和服务 容器服务 可以查看容器日志、监控容器cpu和内存, 日志服务 SLS 可以查看所有服务的日志, Web应用防火墙 WAF 可以查看 QPS. 阿里云查看集群: 点击 “产品和服务” 中的 容器服务,可以查看 集群列表&…

第五节:如何使用其他注解方式从IOC中获取bean(自学Spring boot 3.x的第一天)

大家好,我是网创有方,上节我们实践了通过Bean方式声明Bean配置。咱们这节通过Component和ComponentScan方式实现一个同样功能。这节实现的效果是从IOC中加载Bean对象,并且将Bean的属性打印到控制台。 第一步:创建pojo实体类studen…