1.8 NLP自然语言处理

NLP自然语言处理

更多内容,请关注:
github:https://github.com/gotonote/Autopilot-Notes.git

一、简介

seq2seq(Sequence to Sequence)是一种输入不定长序列,产生不定长序列的模型,典型的处理任务是机器翻译,输入一段不定长的源语言文字(如中文),而产生一段不定长的目标语言文字(如英文)。

seq2seq模型通常会选用编码器解码器(Encoder-Decoder)架构,编码器接受不定长输入并产生一定大小的上下文(Context),再将上下文投喂给解码器,产生不定长的输出。

在机器翻译的情况下,上下文是一个向量(通常是一个数字数组)。编码器和解码器往往都是递归神经网络RNN。如下图,上下文是浮点数的向量,将具有较高值的单元格分配更亮的颜色来可视化颜色的矢量。可以在设置模型时设置上下文向量的大小。通常为编码器RNN中隐藏单元的数量,此处可视化显示大小为 4 的向量,但在实际应用中,上下文向量的大小可能为 256、512 或 1024。

根据设计,RNN 在每个时间步长接受两个输入:一个输入(在编码器的情况下,输入句子中的一个单词)和一个隐藏状态。词向量通常是在一个大型语料库上学习得到的,这样的技术称为词嵌入(Word Embedding)。这些将单词转换为向量空间,以捕获单词的许多含义/语义信息(例如 国王 - 男人 + 女人 = 女王)。

我们需要在处理输入词之前将其转换为向量。该转换是使用词嵌入算法完成的。我们可以使用预先训练的嵌入,也可以在数据集上训练我们自己的嵌入。嵌入大小为 200 或 300 的向量是典型的,为了简单起见,我们展示了大小为 4 的向量。

二、BERT

BERT是Bidirectional Encoder Representations from Transformers的简称,该模型用Transformer模块堆叠而成,提出一种用大量未标注数据对模型进行预训练(词预测任务MLM和连续语句判断任务NSP),然后用预训练模型在目标训练集上进行微调。

(一)输入/输出表示形式

BERT采用WordPiece[1]的表示形式
图5. WordPiece

WP = TE + SE + PE

  • 两个特殊标记

    • [CLS]:起始标记,同时对应的输出向量表示分类结果(Classification)
    • [SEP]:分隔标记(Separate),分隔两个不同的句子
  • TE:词编码(词嵌入)

  • SE:段编码,指示该单词从属与那个分段(句子)

  • PE:位置编码

(二)预训练任务

用大量未标注的数据集(如维基百科等语料)来构造一系列简单的预训练任务。

(三)词预测MLM

Masked Language Model(LML),训练模型token-level的能力,使其能够关注token之间的联系。随机在语料
中挑选15%的单词进行处理,

  • 以80%的概率将这些单词替换为[MASK]特殊标记
  • 以10%的概率用词表中的随机单词替换这些单词
  • 以10%的概率保持不变
    图6. 词预测MLM

(四)连续语句判断NSP

Next Sentence Prediction(NSP),训练模型sentence-level的能力,使其能够关注两个语句之间的联系。随机在语料中抽选连续的两个语句,并以50%的概率用随机语句来替代第二个语句,让模型学习判断两个语句是不是
连续的(通常在该任务中能达到97%-98%的准确率)。
图7. 连续语句判断NSP

(五)迁移学习

BERT复用预训练模型权重之后,在目标数据集和任务上对所有权重进行微调。常见NLP任务的输入输出形式如
下图所示:
图8. 迁移学习

参考文献

[1] Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/686040.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[C# WPF] 如何给控件添加边框(Border)?

在WPF中,可以使用边框控件或者边框属性来为控件添加边框。 以下是两种常见的方法: 方法1:使用边框控件(Border) WPF中的Border控件用于为其他控件添加边框效果。它是一个容器控件,可以包含一个子元素&…

前端常见的设计模式

说到设计模式,大家想到的就是六大原则,23种模式。这么多模式,并非都要记住,但作为前端开发,对于前端出现率高的设计模式还是有必要了解并掌握的,浅浅掌握9种模式后,整理了这份文章。 六大原则&…

Linux第一个小程序-进度条

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 一、回车和换行 二、行缓冲区概念 三、倒计时 四、进度条代码 版本一: ​编辑 版本二: 总结 前言 世上有两种耀眼的光芒,一…

第七篇【传奇开心果系列】Python微项目技术点案例示例:数据可视化界面图形化经典案例

传奇开心果微博系列 系列微博目录Python微项目技术点案例示例系列 微博目录一、微项目开发背景和项目目标:二、雏形示例代码三、扩展思路介绍四、数据输入示例代码五、数据分析示例代码六、排名统计示例代码七、数据导入导出示例代码八、主题定制示例代码九、数据过…

C语言----结构体

一.结构体是什么? (1)是一种数据类型 首先我们需要知道的是结构体是一种数据类型,它本质上是用于将不同类型的数据组合在一起形成的一个新的数据类型。 (2)是变化的 当不同的类型组合在一起的时候,会产生不同的结构体,例如用c…

reDOS攻击

正则表达式回溯: 当涉及到正则表达式的回溯时,让我们来看一个具体的例子。 考虑以下正则表达式模式 ab,其中 a 表示匹配一个或多个连续的字符 "a",b 表示匹配字符 "b"。 现在,假设有一个输入字…

中医师承出师考试

一.考试内容 1.临床实践技能考核 临床实践技能考核主要涉及基本操作和临床答辩。基本操作包括中医四诊、针灸、推拿、拔罐、常见急症针灸技术应用等中医临床技术。临床答辩则包括中医基本理论知识(含中医经典有关内容)、中药的功效、应用、用法用量、使…

P1914 小书童——凯撒密码

题目背景 某蒟蒻迷上了 “小书童”,有一天登陆时忘记密码了(他没绑定邮箱 or 手机),于是便把问题抛给了神犇你。 题目描述 蒟蒻虽然忘记密码,但他还记得密码是由一个字符串组成。密码是由原文字符串(由不…

蓝桥杯第十四届电子类单片机组程序设计

目录 前言 蓝桥杯大赛历届真题(点击查看) 一、第十四届比赛题目 1.比赛原题 2.题目解读 1)任务要求 2)注意事项 二、任务实现 1.NE555读取时机的问题 1)缩短计数时间 2)实时读取 2.温度传感器读…

Linux文件操作类命令 find

作用: 实时查询,条件很多,结合shell命令统一处理 格式 find 目录 条件 【shell命令】-name或-iname找具体文件名,-iname(常用)可以忽略大小写 例子find / -iname passwd找根目录下名字正正…

<网络安全>《35 网络攻防专业课<第一课 - 网络攻防准备>》

1 主要内容 认识黑客 认识端口 常见术语与命令 网络攻击流程 VMWare虚拟环境靶机搭建 2 认识黑客 2.1 白帽、灰帽和黑帽黑客 白帽黑客是指有能力破坏电脑安全但不具恶意目的黑客。 灰帽黑客是指对于伦理和法律态度不明的黑客。 黑帽黑客经常用于区别于一般(正面…

问题:在额定电压500V以下的电路中,使用的各种用电设备,一般称为(_ _ _)用电设备 #媒体#媒体#媒体

问题:在额定电压500V以下的电路中,使用的各种用电设备,一般称为(_ _ _)用电设备 参考答案如图所示

RPA岗位介绍 - RPA实施工程师

一、RPA实施工程师 1.1 岗位概述 专业负责RPA机器人流程开发、实施工作的工程师,主要职责是依据客户需求,对RPA机器人流程进行设计、开发和部署实施工作,并最终协助项目经理完成项目的交付验收。 1.2 岗位职责 1.在RPA机器人自动流程化项目实施中,负责了解现有的客户流程,…

【dofile版本】实证研究Stata代码命令汇总

一、引言 在现代社会科学研究领域,Stata已成为欧美地区最受欢迎的计量分析软件之一。然而,许多研究人员在使用上仍显生疏 为了帮助研究人员更好地利用Stata,整理了一套Stata实证命令汇总,覆盖了从数据的初步处理到高级统计分析的…

Mysql第一关之常规用法

简介 介绍Mysql常规概念,用法。包括DDL、DCL、DML、DQL,关键字、分组、连表、函数、排序、分页等。 一、 SQL DCMQ,分别代表DDL、DCL、DML、DQL。 模糊简记为DCMQ,看起来像一个消息队列。 D:Definition 定义语句 M…

VUE面试题和详解

这里是引用 当涉及Vue.js的面试题时,以下是一些常见的问题和答案,可以帮助你准备面试: 什么是Vue.js? Vue.js是一个开源的JavaScript框架,用于构建用户界面。它采用了MVVM(Model-View-ViewModel&#xff09…

【Vue前端】vue使用笔记0基础到高手第2篇:Vue知识点介绍(附代码,已分享)

本系列文章md笔记(已分享)主要讨论vue相关知识。Vue.js是前端三大新框架:Angular.js、React.js、Vue.js之一,Vue.js目前的使用和关注程度在三大框架中稍微胜出,并且它的热度还在递增。Vue.js是一个轻巧、高性能、可组件…

[ai笔记7] google浏览器ai学习提效定制优化+常用插件推荐

欢迎来到文思源想的ai空间,这是技术老兵重学ai以及成长思考的第7篇分享! 工欲善其事必先利其器,为了ai学习的效能提升,放假期间对google浏览器做了一次系统整改,添加了一些配置和插件,这里既有一些显示、主…

在Visual Studio中搭建Dynamo Python开发环境,效率飞一般的增长

最近在学习Dynamo中Python Script的用法,发现这个东西用起来太不友好了,不支持自动缩进,不支持自动填充和提示。用过Visual Studio做二开的都知道,在引用了Revit api以后,就可以自动填充和提示了。 本来英语就不好&am…

Netty中的内置通信模式、Bootstrap和ChannelInitializer

内置通信传输模式 NIO:io.netty.channel.socket.nio 使用java.nio.channels包作为基础–基于选择器的方式Epoll:io.netty.channel.epoll由JNI驱动的epoll()和非阻塞IO.这个传输支持只有在Linux上可用的多种特性,如果SO_REUSEPORT,比NIO传输更快&#xf…