自然语言处理--基于HMM+维特比算法的词性标注

自然语言处理作业2--基于HMM+维特比算法的词性标注

一、理论描述

词性标注是一种自然语言处理技术,用于识别文本中每个词的词性,例如名词、动词、形容词等;

词性标注也被称为语法标注或词类消疑,是语料库语言学中将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术;

词性标注可以由人工或特定算法完成,使用机器学习方法实现词性标注是自然语言处理的研究内容。常见的词性标注算法包括隐马尔可夫模型条件随机场等;

词性标注是对文本进行语言学分析的重要工具,可以帮助计算机理解和处理自然语言文本。通过词性标注,计算机可以更准确地理解句子的结构和含义,从而实现诸如信息抽取、文本分类、句法分析等自然语言处理任务。它主要被应用于文本挖掘和NLP领域,是各类基于文本的机器学习任务(如语义分析、指代消解)的预处理步骤,是自然语言处理中一项非常重要的基础性工作。

二、算法描述

本文实现HMM+维特比算法,具体算法描述如下:

维特比算法是一种动态规划算法,通过计算每个观测节点的不同隐状态的最大概率,并记录路径,最终返回最大概率的路径

函数的输入参数包括观测序列的长度(observation_len)、隐含序列的长度(hidden_len)、初始概率(init_p)、转移概率矩阵(trans_p)和发射概率矩阵(emit_p)

函数首先创建两个二维数组max_probabilities和paths,用于存储每个观测节点的不同隐状态的最大概率和路径

然后,函数通过遍历第一个观测节点的每个隐状态,计算其最大概率,并记录路径。接着,函数遍历后续的每个观测节点,根据维特比算法的公式计算累计概率,得到每个隐状态的最大概率,并更新路径

最后,函数返回最大概率的路径

三、详细描述

以“Bear is move”为例,使用HMM+维特比算法进行词性标注的详细描述如下:

观测序列:['Bear', 'is', 'move']

隐序列:['AT', 'BEZ', 'IN', 'NN', 'VB', 'PERIOD']

输出:Bear/VB is/BEZ move/NN

初始概率:

AT

BEZ

IN

NN

VB

PERIOD

0.2

0.1

0.1

0.3

0.2

0.1

转移概率矩阵(已经进行数据平滑): 由当前词性转移到下一个词性的概率

AT

BEZ

IN

NN

VB

PERIOD

AT

2.05503381e-05

2.05503381e-05

2.05503381e-05

9.99506792e-01

2.05503381e-05

4.11006761e-04

BEZ

7.50570342e-01

3.80228137e-04

1.62357414e-01

7.14828897e-02

3.80228137e-04

1.48288973e-02

IN

6.97049170e-01

1.60895868e-05

2.13347921e-02

2.78591196e-01

1.60895868e-05

2.99266315e-03

NN

1.31783520e-02

4.59144641e-02

5.24061598e-01

1.45282693e-01

7.58865773e-03

2.63974236e-01

VB

4.33630846e-01

3.07033202e-03

3.39807212e-01

1.05462335e-01

9.28239914e-03

1.08746876e-01

PERIOD

5.33187018e-01

5.05453578e-03

3.09723331e-01

8.84543762e-02

6.35142325e-02

6.65070497e-05

发射概率矩阵(已进行数据平滑):由隐序列到观测序列的概率

Bear

is

move

AT

1.44877144e-05

1.44877144e-05

1.44877144e-05

BEZ

9.92752904e-05

9.99305073e-01

9.92752904e-05

IN

1.82083030e-04

1.82083030e-04

1.82083030e-04

NN

2.02205882e-02

1.83823529e-03

6.80147059e-02

VB

2.34042553e-01

5.31914894e-03

7.12765957e-01

PERIOD

2.04846672e-05

2.04846672e-05

2.04846672e-05

最大概率矩阵:

V0​(j)=init(jbj​(o0​) (init为初始概率,b发射概率矩阵)

Vt​(j)=max(Vt−1​(iaij​)×bj​(ot​) (a为转移概率矩阵,b为发射概率矩阵)

使用paths更新并保存j(观测状态)条路径取到最大概率时的i(隐状态),用于回溯

根据最大概率矩阵 max_probabilities,找到最后一个观测状态 "move" 对应的最大概率的隐状态,作为最终的词性标注结果

四、软件演示

五、问题和总结

  • 模型参数的选择会影响标注结果的准确性
  • 数据集较小,模型训练效果可能不够理想

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/643194.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【其他-闲谈】关于博客排行榜

今天在学习内核驱动,有个常量不知道什么意思,然后在一篇博客上找到了答案——GFP_KERNEL的作用 偶然注意到作者排行50,然后往下看了看,想知道为什么他排行这么靠前,看这文章数量,估摸着一天一篇&#xff0c…

浪花 - 查询队伍列表

一、接口设计 1. 请求参数:封装 TeamQuery package com.example.usercenter.model.dto;import com.example.usercenter.common.PageRequest; import lombok.Data;/*** author 乐小鑫* version 1.0* Date 2024-01-22-20:14*/ Data public class TeamQuery extends …

Stable Diffusion学习

参考 Stable Diffusion原理详解_stable diffusion csdn-CSDN博客 Stable Diffusion是stability.ai开源的图像生成模型,可以说Stable Diffusion的发布将AI图像生成提高到了全新高度,其效果和影响不亚于Open AI发布ChatGPT。 图像生成的发展 在Stable D…

【RT-DETR有效改进】轻量化ConvNeXtV2全卷积掩码自编码器网络

前言 大家好,我是Snu77,这里是RT-DETR有效涨点专栏。 本专栏的内容为根据ultralytics版本的RT-DETR进行改进,内容持续更新,每周更新文章数量3-10篇。 专栏以ResNet18、ResNet50为基础修改版本,同时修改内容也支持Re…

解决docker desktop 登录不上账号的问题

一、背景 点击“Sign in”,一直卡在Verifying credentials...,重试也没用。 二、解决办法 1、macOS下载并安装Proxifier 2、配置Proxifier 配置Proxies 配置rule 其中的Applications填:"Docker.app"; "Docker"; com.…

复合机器人颠覆传统上下料,实现高效精准生产

在追求高效、精准生产的现代制造业中,传统的上下料方式已经无法满足企业的需求。复合机器人的出现,为制造业带来了革命性的变革。它不仅提高了生产效率,降低了生产成本,还为企业创造了更大的竞争优势。复合机器人的广泛应用&#…

【复现】万户ezoffice协同管理平台 SQL注入漏洞_26

目录 一.概述 二 .漏洞影响 三.漏洞复现 1. 漏洞一: 四.修复建议: 五. 搜索语法: 六.免责声明 一.概述 万户ezOFFICE协同管理平台分为企业版和政务版。 解决方案由五大应用、两个支撑平台组成,分别为知识管理、工作流程、沟…

小新22-IAP,24-IAP,27-IAP(F0GG,F0GH,F0GJ)原厂Win11.22H2系统

lenovo联想小新22寸,24寸,27寸IAP原装出厂Windows11系统镜像还原包,恢复出厂开箱状态 适用型号: 联想小新27-IAP(F0GJ),小新24-IAP(F0GH),小新22-IAP(F0GG) IdeaCentre AIO 3 22IAP7,IdeaCentre AIO 3 24IAP7,IdeaCentre AIO 3 27IAP7 链接&#xff1…

网络协议与攻击模拟_06攻击模拟SYN Flood

一、SYN Flood原理 在TCP三次握手过程中, 客户端发送一个SYN包给服务器服务端接收到SYN包后,会回复SYNACK包给客户端,然后等待客户端回复ACK包。但此时客户端并不会回复ACK包,所以服务端就只能一直等待直到超时。服务端超时后会…

算法通关村番外篇-面试150题二

​ 大家好我是苏麟 , 今天开始LeetCode面试经典150题 . ​ 大纲 1. 两数之和167. 两数之和 II - 输入有序数组15. 三数之和 1. 两数之和 描述 : 给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数&#xff0…

【GitHub项目推荐--开源2D 游戏引擎】【转载】

microStudio 是一个可在浏览器中运行的游戏引擎,它拥有一套精美、设计精良、全面的工具,可以非常轻松地帮助你创建 2D 游戏。 你可以在浏览器中访问 microStudio.dev 开始搭建你的游戏,当然你可以克隆现有项目或创建新游戏并开始编码&#x…

Flink多流转换(1)—— 分流合流

目录 分流 代码示例 使用侧输出流 合流 联合(Union) 连接(Connect) 简单划分的话,多流转换可以分为“分流”和“合流”两大类 目前分流的操作一般是通过侧输出流(side output)来实现&…

Mac Idea安装后无法启动

1、起因 想安装一个新版的idea2023.3.2,结果安装完之后直接无法启动 以为是卸载不干净,下载了一个腾讯柠檬,结果将2018版也一并卸载了 好家伙,彻底没得用 2、找原因 1)查看idea报错信息 网上找了一圈,其…

Unity 适配器模式(实例详解)

文章目录 简介1. **Input Adapter 示例**2. **Component Adapter 示例**3. **网络数据解析适配器**4. **物理引擎适配**5. **跨平台服务适配** 简介 Unity中的适配器模式(Adapter Pattern)主要用于将一个类的接口转换为另一个接口,以便于原本…

ctfshow-命令执行(web53-web72)

目录 web53 web54 web55 web56 web57 web58 web59 web60 web61 web62 web63 web64 web65 web66 web67 web68 web69 web70 web71 web72 web53 …

麒麟系统—— openKylin 安装到虚拟机以及开放SSH通过工具连接

麒麟系统—— openKylin 安装到虚拟机以及开放SSH通过工具连接 1. 在VMware中安装openKylin麒麟系统步骤1:准备VMware环境步骤2:创建新的虚拟机步骤3:安装openKylin麒麟系统步骤4:调整分别率步骤5:安装SSH 2. 使用Open…

x-cmd pkg | perl - 具有强大的文本处理能力的通用脚本语言

目录 介绍首次用户技术特点竞品进一步阅读 介绍 Perl 是一种动态弱类型编程语言。Perl 内部集成了正则表达式的功能,以及巨大的第三方代码库 CPAN;在处理文本领域,是最有竞争力的一门编程语言之一 生态系统:综合 Perl 档案网络 (CPAN) 提供了超过 25,0…

flink-java使用介绍,flink,java

1、环境准备 文档:https://nightlies.apache.org/flink/flink-docs-release-1.18/zh/ 仓库:https://github.com/apache/flink 下载:https://flink.apache.org/zh/downloads/ 下载指定版本:https://archive.apache.org/dist/flink…

c语言-柔性数组

文章目录 前言一、柔性数组的介绍1.1 柔性数组的定义 二、柔性数组的使用2.1 使用说明2.2 结构体中的成员只包含一个柔性数组成员2.3 结构体中的成员包含其他成员和一个柔性数组成员 三、模拟柔性数组总结 前言 本篇文章介绍c语言中的柔性数组。 一、柔性数组的介绍 1.1 柔性…

玩客云Armbian 23.8.1 Bullseye安装PrometheusGrafana

Welcome to Armbian 23.8.1 Bullseye with bleeding edge Linux 6.4.13-edge-meson prometheus 参考Monitoring – How to install Prometheus/Grafana on arm – Raspberry PI/Rock64 | Blogs (mytinydc.com) cd /usr/local/srcwget https://github.com/prometheus/prometh…