NLP 序列标注任务核心梳理

句向量标注

  • 用 bert 生成句向量
  • 用 lstm 或 bert 承接 bert 的输出,保证模型可以学习到内容的连续性。此时 lstm 输入形状为:
    pooled_output.unsqueeze(0)
    (1, num_sentence, vector_size)

应用场景

  • 词性标注
  • 句法分析
    • 文本加标点
      • 相当于粗粒度的分词任务
        • 将不同的符号做映射
        • 根据映射完成数据的处理
  • 命名实体识别
    ner 任务
  • 中文分词
    寻找词的边界
  • 远程监督
    滚雪球思路,在语料库中,从一个实体,找新的实体,携带新实体继续循环预测找新实体

CRF

pip install torch-crf
from torchcrf import CRF
  • 限制实体的类别到类别之间的转移关系
    在这里插入图片描述
    • 模型的输出即发射矩阵
      模型可以是 bert、GRU、LSTM 等等。
    • 当模型足够好时,使用 crf 前后结果可能不大(几个百分点的提升)
      如果使用 crf 后效果不明显,则不应该使用 crf
      使用 crf 会多出大量的计算,如转移矩阵、篱笆墙解码的处理
  • CRF 核心逻辑
    • 开始转移矩阵
      开始到每个可能标签的转移概率
      label_num
    • 结束转移矩阵
      每个可能标签到结束的转移概率
      label_num
    • 状态转移矩阵
      任意两个相邻标签间的转移概率
      label_num * label_num
    • 篱笆墙解码
      • 假设每组节点平均数量为 D,B 为 beamSize
      • beam search
        • 保存n 条最高概率的路径
          仅保存一条时,称为贪婪解法
        • 仅计算高概率路径的转移概率
        • 时间复杂度 n * D * B
          B=D 时
          beam search = 维特比解码
        • 维特比解码
          • 保留从上一层全部节点,到当前层每个节点中,最高概率的一条路径
          • 时间复杂度 n * D^2
        • 暴力求解
          时间复杂度 D^n
        • 除了暴力求解,都有可能错过最优解
      • 发射矩阵
        seq_len * label_num
  • 实体标签重叠问题
    • 忽略较短的实体
    • 使用 moe 思路,分别用对应类型的 label,构建和输出 fc 和 loss,最后把所有 loss 求和
    • 用生成式模型处理
  • 有时,可以用规则进行实体识别
    正则表达式
    re.search(pattern, string)
    re.match(pattern, string)
    re.findall(pattern, string)
    re.sub(pattern, string)
    re.split(pattern, string)
    
    规则
    在这里插入图片描述
  • 输入与输出是等长的序列
    • 对序列中的每个时间步做分类
      例如在文本中时间步就是一个字或词
    • 需要对每个时间步都打上标签
  • 本质上相当于每个节点都要做一次分类,做一次 loss

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/54831.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

(done) 声音信号处理基础知识(4) (Understanding Audio Signals for ML)

来源:https://www.youtube.com/watch?vdaB9naGBVv4 模拟信号特点如下 时域连续(x轴) 振幅连续(y轴) 如下是模拟信号的一个例子: 数字信号特点如下: 一个离散值序列 数据点的值域是一系列有限的值 ADC:模拟信号到数字信号的…

【WRF运行第三期】服务器上运行WRF模型(官网案例-Hurricane Matthew)

【WRF运行第三期】运行WRF模型(官网案例-Hurricane Matthew) 官网案例-Hurricane Matthew介绍0 创建DATA文件夹1 WPS预处理1.1 解压GRIB数据(ungrib.exe)1.1.1 解压GRIB数据---GFS(Matthew案例研究数据)1.1…

vue打包exe之electron-quick-start的npm install 报错

vue打包exe之electron-quick-start的npm install 报错 1、github地址2、问题3、解决4、其他(打包exe)参考 1、github地址 https://github.com/electron/electron-quick-start2、问题 我使用的pnpm install正常安装,执行npm start提示错误 3、解决 在package.js…

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23 本期,我们对大语言模型在表情推荐, 软件安全和 自动化软件漏洞检测等方面如何应用,提供几篇最新的参考文章。 1 Semantics Preserving Emoji Recommendation with Large Language Mod…

如何正确连接和使用滑动变阻器?

滑动变阻器是可以改变电阻值的电子元件,广泛应用于各种电子设备和电路中。正确连接和使用滑动变阻器对于保证电路的正常工作和延长设备的使用寿命至关重要。以下是关于如何正确连接和使用滑动变阻器的一些建议: 了解滑动变阻器的基本原理和结构&#xf…

DERT目标检测源码流程图main.py的执行

DERT目标检测源码流程图main.py的执行 官网预测脚本 补充官网提供的预测部分的代码信息。 from PIL import Image import requests import matplotlib.pyplot as pltimport torch from torch import nn from torchvision.models import resnet50 import torchvision.transform…

大数据Flink(一百二十四):案例实践——淘宝母婴数据加速查询

文章目录 案例实践——淘宝母婴数据加速查询 一、​​​​​​​创建数据库表并导入数据 二、​​​​​​​​​​​​​​创建session集群 三、​​​​​​​​​​​​​​源表查询 四、​​​​​​​​​​​​​​指标计算 案例实践——淘宝母婴数据加速查询 随着…

新建flask项目,配置入口文件,启动项目

pycharm新建flask项目时,会提供一个创建flask项目的导向,自动设置虚拟环境,并且安装flask及其依赖而vscode新建flask项目时,需要手动设置虚拟环境并安装flask,需要在终端使用pip install flask命令来安装flask及其依赖…

无人船在海洋勘探领域的应用!

一、具体应用 海底地形测绘: 无人船可以搭载多波束测深仪等先进设备,进行高精度的海底地形测绘。这些设备能够生成详细的海底地形图,为海洋工程设计和施工提供详尽的水下地形资料。 海底资源勘探: 通过搭载磁力仪、重力仪等地…

HTML5实现唐朝服饰网站模板源码

文章目录 1.设计来源1.1 网站首页-界面效果1.2 唐装演变-界面效果1.3 唐装配色-界面效果1.4 唐装花纹-界面效果1.5 唐装文化-界面效果 2.效果和源码2.1 动态效果2.2 源代码 源码下载万套模板,程序开发,在线开发,在线沟通 作者:xcL…

UE虚幻引擎云渲染汽车动画的优势!

在汽车广告和动画制作领域,虚幻引擎(UE)结合云渲染技术正掀起一场技术革命。这项技术以其高性能、成本效益和灵活性,为创作者提供了强大的工具,以实现更加逼真和高效的汽车动画制作。 一、为什么选择UE虚幻引擎制作汽车…

2024年厦门市大数据创新应用大赛圆满收官

2024年厦门市大数据创新应用大赛圆满收官 2024年9月19日-20日,由厦门市数据管理局、厦门市公安局、厦门市生态环境局联合主办,厦门市信息中心承办的2024年厦门市大数据创新应用大赛圆满收官。 经专家评审团评审 最终决出获奖名单 决赛评审会现场 2024年…

PMI-ACP®认证考试内容将于2025年第一期考试更新

PMI敏捷管理专业人士(PMI-ACP)认证即将在2025年迎来引入中国大陆的十周年纪念。 十年时间,我们见证了敏捷实践方法普及和敏捷项目管理的“知行合一”,采用敏捷方法的中国企业团队比例的快速持续增长,中国PMI-ACP专业人…

HarmonyOS 自定义 loading 效果

大致思路 主要利用 Progress 组件 利用aboutToAppear周期函数:在创建自定义组件的新实例后,在执行其build()函数之前执行 利用aboutToDisappear函数在自定义组件析构销毁之前执行,这里主要用来清除定时器 实现效果 组件封装 components/H…

【pytorch】pytorch入门4:神经网络的卷积层

文章目录 前言一、定义概念 缩写二、性质三、代码总结参考文献 前言 使用 B站小土堆课程的笔记 一、定义概念 缩写 卷积层是神经网络中用于突出特征来进行分类任务的层。 二、性质 卷积核例子:vgg16 model 三、代码 添加库 python代码块import os import …

机器人顶刊IEEE T-RO发布无人机动态环境高效表征成果:基于粒子的动态环境连续占有地图

摘要:本研究有效提高了动态环境中障碍物建模的精度和效率。NOKOV度量动作捕捉系统助力评估动态占用地图在速度估计方面的性能。 近日,上海交通大学、荷兰代尔夫特理工研究团队在机器人顶刊IEEE T-RO上发表题为Continuous Occupancy Mapping in Dynamic …

『功能项目』鼠标悬停物品显示信息【77】

本章项目成果展示 我们打开上一篇763D模型动态UI显示的项目, 本章要做的事情是鼠标悬停在道具身上显示对应信息 首先制作一个武器Image信息面板 重命名为WeaponUI01 设为隐藏 修改脚本:RightClickItem.cs 查看挂载脚本: 运行项目 - 当鼠标悬…

个性化大语言模型:PPlug——让AI更懂你

在当今数字化转型的时代,大型语言模型(LLMs)已经成为了不可或缺的工具,它们在自然语言理解、生成和推理方面展现了非凡的能力。然而,这些模型普遍采用的是“一刀切”的方式,即对于相同的输入给予所有用户相…

HDFS分布式文件系统01-HDFS架构与SHELL操作

HDFS分布式文件系统 学习目标第一课时知识点1-文件系统的分类单机文件系统网络文件系统分布式文件系统 知识点2-HDFS架构知识点3-HDFS的特点知识点4-HDFS的文件读写流程知识点5-HDFS的健壮性 第二课时知识点1-HDFS的Shell介绍HDFS Shell的语法格式如下。HDFS Shell客户端命令中…

windows电脑C盘内存爆满怎么办?

目录 1. 下载SpaceSniffer2. 运行程序,扫描C盘3. 寻找可删除的文件 为了节省C盘的内存,将大部分的软件尽量都安装在C盘以外的磁盘中,但是在电脑的使用过程中还是会发现C盘越来越少,这是因为很多软件会默认将数据文件夹&#xff08…