德克萨斯大学奥斯汀分校自然语言处理硕士课程汉化版(第七周) - 结构化预测

结构化预测

  • 0. 写在大模型前面的话
  • 1. 词法分析
    • 1.1. 分词
    • 1.2. 词性标注
  • 2.2. 句法分析
    • 2.3. 成分句法分析
    • 2.3. 依存句法分析
  • 3. 序列标注
    • 3.1. 使用分类器进行标注
  • 4. 语义分析

0. 写在大模型前面的话

在介绍大语言模型之前,先把自然语言处理中遗漏的结构化预测补充一下,因为大模型实打实地最先干掉的行业便是自然语言处理,虽然网传各个最容易被大模型替代的行业里从来没有自然语言处理,但现实是有了大模型后,之前的所有自然语言处理技术都显得不那么有价值了。

当然,大模型本质上还是处理自然语言,但其实最大的变化便是忘掉之前的技术,一切像数据和算力看齐。

老兵不死,只是逐渐凋零。

1. 词法分析

词法分析(Lexical Analysis)是对输入文本进行预处理和基础处理的关键步骤。其主要任务是将文本分割成更小的单元(通常是词素或token),并对这些单元进行进一步处理以提取有用的信息。

以下是NLP中词法分析的主要任务和功能:

  • 分词(Tokenization):将输入文本分割成独立的词素(Token)。将连续的文本字符串切分成有意义的单词或符号。
  • 词性标注(Part-of-Speech Tagging):为每个词素分配其词性(如名词、动词、形容词等)。识别每个单词的语法类别和功能,有助于理解句子的结构和含义。
  • 词形还原(Lemmatization):将单词还原为它的词根或规范形式(如动词的原形)。减少词汇形态的多样性,将不同形式的单词归为同一个词。
  • 词干提取(Stemming):将单词简化为词干形式,一般通过删减词缀来实现。简化单词,尽量捕捉其基础形式。
  • 命名实体识别(Named Entity Recognition):识别文本中的命名实体,如人名、地名、组织名、日期等。从文本中提取有意义的实体信息。
  • 正则表达式匹配(Regex Matching):使用正则表达式从文本中提取特定模式或信息。识别和抽取符合特定模式的数据如电子邮件地址、日期等。
  • 分块(Chunking):将词性标注后的文本进行分块。例如标识出名词短语(NP)、动词短语(VP)等。为更高层次的语法分析提供基础。

1.1. 分词

分词(Tokenization)是将连续的文本字符串拆分成独立的词素(Token)的过程。分词策略在处理各种自然语言时有所不同,这是由于各个语言的词汇结构和语法规则存在显著差异。

英文分词相对来说比较直接,因为英文单词通常由空格和标点符号分隔。大多数情况下,英文句子中的空格、标点符号等自然分隔符可以有效地分隔词汇。还可以依托自然分隔符和基本规则,如撇号和连字符等特别符号处理。

中文分词相对复杂,因为汉字连续书写,不像英文单词那样有明显的分隔符(如空格)。这使得中文分词成为NLP领域中的一个重要且具有挑战性的任务。中文句子中的词汇之间没有明确的分隔符。同一个字符序列可能有不同的词汇组合方式,导致多种解析结果。处理新词、专有名词和更新快的词汇(如网络用语)。

中文分词的方法:

  1. 基于规则和字典的方法:利用预定义的词典和规则进行分词。前向最大匹配(Maximum Forward Matching, MFM),从左到右扫描,选择最长的词。逆向最大匹配(Maximum Backward Matching, MBM),从右到左扫描,选择最长的词。
  2. 统计模型:计算n-gram概率序列进行分词。利用隐马尔可夫模型结合观测概率和转移概率进行词性标注和分词。
  3. 机器学习和深度学习方法:基于Transformer的模型,如BERT,利用自注意力机制处理全局信息,适用于复杂的分词任务。
  • 前向最大匹配 Python 实现
def forward_max_match(text, dictionary):max_len = max(len(word) for word in dictionary)i = 0tokens = []while i < len(text):match = Nonefor j in range(max_len, 0, -1):if i + j <= len(text) and text[i:i+j] in dictionary:match = text[i:i+j]tokens.append(match)i += jbreakif not match:tokens.append(text[i])i += 1return tokensdictionary = {"我", "爱", "北京", "天安门"}
text = "我爱北京天安门"
tokens = forward_max_match(text, dictionary)
print(tokens)
# Output: ['我', '爱', '北京', '天安门']

1.2. 词性标注

词性标注是自然语言处理(NLP)中的一种技术,用于为给定文本中的每一个单词分配其适当的词性标签。常见的词性标签包括名词(Noun, N)、动词(Verb, V)、形容词(Adjective, Adj)、副词(Adverb, Adv)等等。这种标注在各种语言处理任务中非常重要,包括语法解析、信息抽取、机器翻译等。

词性标注方法:

  1. 基于规则的标注方法:基于一组预定义的规则(如词形变化规则)来标注词性。这种方法简单但受限于规则的定义和复杂性。
  2. 基于统计的标注方法:基于概率和统计模型,使用大规模标注数据训练模型来预测词性。如隐马尔可夫模型(HMM)、条件随机场(CRF)等。
  3. 深度学习方法:使用现代深度学习技术,如RNN和Transformers来标注词性。如BERT等预训练语言模型。

常见的标签集有以下几种:

  1. Penn Treebank标签集:这是用于英语的一个广泛采用的标签集,如NN(名词单数)、NNS(名词复数)、VB(动词原形)、VBD(动词过去式)等。
  2. Universal POS Tags:这是一个通用性更强的标签集,适用于多种语言,如NOUN(名词)、VERB(动词)、ADJ(形容词)、ADV(副词)等。
  3. ICTCLAS标签集:这是由中科院计算技术研究所开发的中文词性标注标准。

假设我们有一句话:“The quick brown fox jumps over the lazy dog.”,我们需要对其进行词性标注。下面是一个可能的标注结果:

  1. “The” - DET(限定词)
  2. “quick” - ADJ(形容词)
  3. “brown” - ADJ(形容词)
  4. “fox” - NOUN(名词)
  5. “jumps” - VERB(动词)
  6. “over” - ADP(介词)
  7. “the” - DET(限定词)
  8. “lazy” - ADJ(形容词)
  9. “dog” - NOUN(名词)

词性标注在自然语言处理中的重要性在于:

  1. 简化结构化分析:帮助其他语言处理任务理解句子的结构。
  2. 信息抽取:提高信息抽取的精度。
  3. 机器翻译:改善翻译的语法和流畅度。
  4. 命名实体识别:有助于识别专有名词和其他关键元素。

2. 句法分析

句法分析(Syntactic Parsing)是自然语言处理中的重要任务,旨在识别和解释输入文本的语法结构。句法分析的目标是生成解析树(Parse Tree),以显示句子各成分之间的关系,以及句子的整体语法结构。解析树包括成分关系(Constituency Parsing)和依存关系(Dependency Parsing)两种主要类型。

2.1. 成分句法分析

成分句法分析(Constituency Parsing),又称为短语结构分析,是自然语言处理中一个关键的技术任务。它的目标是将输入句子解析成一个语法树(Parse Tree),该树描述了句子如何根据某种句法规则结构化。

成分句法分析的目标是构建一个树状结构,用以表示句子的层级关系和组成成分。树的每一个节点表示一个句法成分,如短语、词组或词的类型(如名词短语、动词短语等)。

在这里插入图片描述

常见的成分标签:

  • S:句子(Sentence)
  • NP:名词短语(Noun Phrase)
  • VP:动词短语(Verb Phrase)
  • PP:介词短语(Prepositional Phrase)
  • DT:限定词(Determiner)
  • JJ:形容词(Adjective)
  • NN:名词(Noun)
  • VBZ:动词三单现(Verb, 3rd person singular present)

主要方法:

  1. 上下文无关文法(Context-Free Grammar, CFG):基于一组规则和词典来生成和解析句子。规则示例:S -> NP VP,NP -> DT NN,VP -> VBZ NP。使用生成递归下降解析器或CKY算法进行解析。
  2. 概率上下文无关文法(Probabilistic Context-Free Grammar, PCFG):在CFG的基础上增加规则使用的概率,用于更精细的控制和解析。通过最大似然估计或EM算法进行规则概率的训练。
  3. Chart Parsing:使用动态规划技术,如CYK算法或Earley算法,进行高效的句法树生成。可以处理模糊语法和解析数据的不确定性。
  4. 基于统计模型的解析:如斯坦福解析器(Stanford Parser),使用PCFG和其他统计方法进行解析。通过大规模语料库(如Penn Treebank)训练模型。
  5. 基于神经网络端到端解析:结合深度学习模型,直接输出解析树。如使用CRF(条件随机场)层在最后一层优化标签序列的选择。

成分句法分析在多个领域有广泛应用:

  • 机器翻译:理解源语言和目标语言的句法结构,提高翻译质量。
  • 信息抽取:解析复杂文本以提取有用信息,如实体、关系等。
  • 问答系统:理解用户输入以提供更准确的答案。
  • 情感分析:分析句子的情感倾向,由其组成成分的情感进行聚合。

2.2. 依存句法分析

依存句法分析(Dependency Parsing)是一种句法分析方法,旨在识别句子中词语之间的语法依存关系。每个词语都有一个或多个依赖词(即其修饰词),这些依存关系能揭示句子的结构和词语在句子中的作用。

两个词语之间的一种语法关系,通常表示为一个头词(Head)和一个依存词(Dependent),这是一种依存关系(Dependency Relation)
一个有根的、有向、无环图,每个节点代表句中的一个词,边表示依存关系,这样就形成了依存树(Dependency Tree)。

句子:“The quick brown fox jumps over the lazy dog.”

依存树可能如下:

   jumps├── fox│   ├── The│   ├── quick│   └── brown└── over└── dog├── the└── lazy

在这个依存树中,“jumps”是主谓关系的中心词,“fox”是主语,“dog”是宾语。

依存关系可以细分为不同类型,如:

  • 主谓关系(subject-verb):如“fox” -> “jumps”
  • 动宾关系(verb-object):如“jumps” -> “over”
  • 形容词修饰名词(adjective-noun):如“quick” -> “fox”

这些关系常用统一的标签表示,称为依存标签(Dependency Labels),例如:nsubj(名词主语)、dobj(直接宾语)、amod(形容词修饰)。

依存句法分析的方法:

  1. 基于规则的方法:转换系统(Transition-Based Systems),使用一系列操作(如SHIFT、REDUCE、LEFT-ARC、RIGHT-ARC)逐步构建依存树。优点:高效,适合实时应用。缺点:规则繁琐,容易出错,需要大量领域知识。
  2. 数据驱动的方法:图算法(Graph-Based Methods),将句法分析问题转化为图的最优生成问题,使用图算法生成依存树。
  3. 基于统计模型的解析:离散特征(如词性、词汇)和连续特征(如词嵌入)结合,使用统计模型预测依存关系。
  4. 神经网络方法:神经依存解析(Neural Dependency Parsing):对于每个词,使用神经网络预测其依存头和依存关系。

3. 序列标注

序列标注(Sequence Labeling)是一种自然语言处理任务,目标是给序列中的每个元素分配一个标签。常见的应用包括词性标注(POS tagging)、命名实体识别(NER)、分块(Chunking)、语义角色标注(Semantic Role Labeling)、句法解析(Syntactic Parsing)等。

在序列标注任务中,每个标签不仅依赖于当前元素,还可能依赖于上下文中的其他元素。这使得序列标注不同于独立的单元素标注任务。因此,合理的建模方法通常需要考虑元素之间的依赖关系。常用方法包括:隐马尔可夫模型(HMM),条件随机场(CRF)。

3.1. 使用分类器进行标注

使用分类器进行标注(Tagging with Classifiers)适用于较为独立的标注任务,在这种方法中,我们把标注任务视为分类问题,即为每个元素分配一个类别。我们可以使用各种分类器,如支持向量机(SVM)、随机森林(Random Forests)和神经网络等。

使用分类器进行标注的主要步骤:

  1. 特征提取:为序列中每个元素提取特征,这些特征可以包括词本身、词的上下文、词的形态学特征等。
  2. 训练分类器:使用带标注的数据集训练分类器,其中每个元素对应一个特定的标签。
  3. 预测标签:训练好的分类器用于预测新数据的标签。

使用分类器进行标注的优点是比较简单,容易实现,可以利用很多不同的机器学习算法。缺点是如果不考虑上下文信息,标注效果可能会受限。独立于上下文的分类器可能无法捕捉词与词之间的依赖关系。

4. 语义分析

语义分析(Semantic Analysis)旨在理解和解释语言背后的意义。语义分析不仅仅关注词语的表面形式,而是试图理解词语和句子在特定语境中的真实含义。

大语言模型直接建模语义,利用大量的文本数据,通过自监督学习来捕捉复杂的语言规律和语义信息。就像我们母语学习类似,是从实际生活中学习语义,并不需要先进行词法分析或句法分析。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/24958.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【机器学习】机器学习与医疗健康在智能诊疗中的融合应用与性能优化新探索

文章目录 引言机器学习与医疗健康的基本概念机器学习概述监督学习无监督学习强化学习 医疗健康概述疾病预测诊断辅助个性化治疗方案制定 机器学习与医疗健康的融合应用实时健康监测数据预处理特征工程 疾病预测与优化模型训练模型评估 诊断辅助与优化深度学习应用 个性化治疗方…

接口自动化Requests+Pytest基础实现

目录 1. 数据库以及数据库操作1.1 概念1.2 分类1.3 作用 2 python操作数据库的相关实现2.1 背景2.2 相关实现 3. pymysql基础3.1 整个流程3.2 案例3.3 Pymysql工具类封装 4 事务4.1 案例4.2 事务概念4.3 事务特征 5. requests库5.1 概念5.2 角色定位5.3 安装5.4 校验5.5 reques…

“中新美”三重身份,能帮SHEIN解决上市问题吗?

一家公司的海外上市之路能有多复杂&#xff1f;辗转多地的SHEIN&#xff0c;可能是当前最有话语权回答这个问题的公司。最近&#xff0c;它又有了新消息。 在上市信息多次更改后&#xff0c;伦敦正在成为SHEIN最有可能的“着陆”点。巴伦周刊援引英国天空新闻报道称&#xff0…

Python01 -分解整包数据到各个变量操作和生成器

Python 的星号表达式可以用来解决这个问题。比如&#xff0c;你在学习一门课程&#xff0c;在学期末的时候&#xff0c;你想统计下家庭作业的平均成绩&#xff0c;但是排除掉第一个和最后一个分数。如果只有四个分数&#xff0c;你可能就直接去简单的手动赋值&#xff0c;但如果…

5、搭建前端项目

5.1 使用vite vue搭建 win r 打开终端 切换到你想要搭建的盘 npm init vitelatest跟着以下步骤取名即可 cd fullStackBlognpm installnpm run dev默认在 http://localhost:5173/ 下启动了 5.2 用vscode打开项目并安装需要的插件 1、删除多余的 HelloWorld.vue 文件 2、安装…

【Vue3】理解toRef() 和 toRefs()

历史小剧场 知道可能面对的困难和痛苦&#xff0c;在死亡的恐惧中不断挣扎&#xff0c;却仍然能战胜自己&#xff0c;选择这条道路&#xff0c;这才是真正的勇气。----《明朝那些事儿》 前言 toRef 和 toRefs 是Vue3中的响应式转换工具函数 toRef: 不影响源对象的情况下&#x…

【数据结构】AVLTree实现详解

目录 一.什么是AVLTree 二.AVLTree的实现 1.树结点的定义 2.类的定义 3.插入结点 ①按二叉搜索树规则插入结点 ②更新平衡因子 更新平衡因子情况分析 ③判断是否要旋转 左单旋 右单旋 左右单旋 右左双旋 4.删除、查找和修改函数 查找结点 三.测试 1.判断是否是搜索树 …

面试题-Vue2和Vue3的区别

文章目录 1. 响应式系统2. 组合式 API (Composition API)3. Fragment (碎片)4. Teleport (传送门) 5. 性能改进6. 移除或改变的功能7. 构建工具8. TypeScript 支持 Vue 2 和 Vue 3 之间存在许多重要的区别&#xff0c;这些区别涵盖了性能、API 设计、组合式 API&#xff08;Com…

AndroidStudio无法识别连接夜神模拟器

方法一(无法从根本上解决) ①进入夜神模拟器安装路径下的bin路径(安装路径可以带有中文路径) ②打开cmd窗口,输入以下代码(一定要打开模拟器) nox_adb.exe connect 127.0.0.1:62001 方法二(根本上解决) 原因:Android Studio的adb版本与夜神模拟器的adb版本不一致 ①打开And…

技术架构的发展

技术架构的演进 主要方向&#xff1a; ​ 1.提高单位时间内的吞吐量&#xff0c;提高并发度&#xff1b; ​ 2.对应用服务代码进行解耦合&#xff0c;使得开发效率得到提高&#xff1b; ​ 3.运维成本降低&#xff1b; ​ 4.成本降低&#xff0c;如购买云厂商资源&#xf…

Cortex-M7——NVIC

Cortex-M7——NVIC 小狼http://blog.csdn.net/xiaolangyangyang 一、NVIC架构 二、中断及异常编号 三、中断屏蔽寄存器&#xff08;__disable_irq和__enable_irq操作的是PRIMASK寄存器&#xff09; 四、中断分组寄存器&#xff08;SCB->AIRCR[10:8]&#xff09; 五、NVIC寄…

常用的Linux命令,linux下文件的读、写、打开、关闭append用法

vim demoq.c打开写的.c文件 内容为 按a可以编辑页面代码。按ESC退出编辑然后按shift&#xff1a;wq保存文件并退出 Linux 系统中采用三位十进制数表示权限&#xff0c;如0755&#xff0c; 0644.7 124(可读、可写、可执行&#xff09; 5 14(可读、不可写、可执行&#xff09; …

苹果手机微信如何直接打印文件

在快节奏的工作和生活中&#xff0c;打印文件的需求无处不在。但你是否曾经遇到过这样的困扰&#xff1a;打印店价格高昂&#xff0c;让你望而却步&#xff1f;今天&#xff0c;我要给大家介绍一款神奇的微信小程序——琢贝云打印&#xff0c;让你的苹果手机微信直接变身移动打…

Docker配置Redis集群以及主从扩容与缩容

基础镜像拉取 docker run -p 6379:6379 -d redis:6.0.8 配置文件以及数据卷挂载 # 开启密码验证&#xff08;可选&#xff09; requirepass 1234 # 允许redis外地连接&#xff0c;需要注释掉绑定的IP # bind 127.0.0.1 # 关闭保护模式&#xff08;可选&#xff09; protected-m…

6.18云服务器大促盘点,错过一次,再等一年!

随着云计算技术的飞速发展&#xff0c;云服务器已成为企业和个人构建和扩展在线业务的首选平台。特别是在大型促销活动如618年中大促期间&#xff0c;云服务提供商纷纷推出极具吸引力的优惠&#xff0c;以降低用户上云的门槛。以下是对当前市场上几个主流云服务提供商的优惠活动…

德克萨斯大学奥斯汀分校自然语言处理硕士课程汉化版(第六周) - 预训练模型

预训练模型 1. 预训练模型介绍 1.1. ELMo1.2. GPT1.3. BERT 2. Seq2Seq 2.1. T52.2. BART 3. Tokenization 1. 预训练模型介绍 在预训练语言模型出现之前&#xff0c;统计语言模型&#xff08;如N-gram模型&#xff09;是主流方法。这些模型利用统计方法来预测文本中的下一个…

设计模式-外观(门面)模式(结构型)

外观模式 外观模式又称门面模式&#xff08;结构型模式&#xff09;&#xff0c;它是一个可以屏蔽系统复杂性的设计模式。俗话说没有什么问题是加一层“介质”解决不了的&#xff0c;如果有那就在加一层。在开发过程中肯定封装过Utils类&#xff0c;我认为这就是一种门面模式&…

亘古真知

目录 一&#xff0c;概述 二&#xff0c;个人面板 三&#xff0c;科技面板 四&#xff0c;手牌 五&#xff0c;回合 1&#xff0c;行动 &#xff08;1&#xff09;打造 &#xff08;2&#xff09;学习 &#xff08;3&#xff09;归档 &#xff08;4&#xff09;挖掘 …

Java——数组排序和查找

一、排序介绍 1、排序的概念 排序是将多个数据按照指定的顺序进行排列的过程。 2、排序的种类 排序可以分为两大类&#xff1a;内部排序和外部排序。 3、内部排序和外部排序 1&#xff09;内部排序 内部排序是指数据在内存中进行排序&#xff0c;适用于数据量较小的情况…

【SQLAlChemy】如何连接数据库?

使用SQLAlChemy连接数据库 导入包 首先&#xff0c;导入创建数据库引擎的包。 from sqlalchemy import create_engine编写数据库配置 SQLALCHEMY_DATABASE_URL "mysql://root:123456789127.0.0.1:3306/tortoise"字段解释&#xff1a; mysql:&#xff1a;这是数…