【Bert】自然语言(Language Model)入门之---Bert

every blog every motto: Although the world is full of suffering, it is full also of the overcoming of it

0. 前言

对bert进行梳理

论文: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
时间: 2018.10.11
作者: Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova

1. 正文

1.1 整体理解

Transformer的第一版时2017.6.12

bert(用到Transformer的Encoder)的第一版arxiv上的文章时间时2018.10.11

GPT1(用到Transformer的Decoder)在arxiv上没找到对应的文章,但是第一版的bert中就有把GPT1作为参考,所以GPT1的时间应该是在2018.10.11之前

动作不得不说快阿!!!
20240727155313


下图展示了三种模型的不同

bert: 双向(Transformer Encoder)

GPT1:从左到右单向(Transformer Decoder)

ELMo:单独训练从左到右从右到左,再结合(bert双向也是借鉴于此,ELMo基础单元是LSTM,这是一个比较早的东东了)

20240727155503

具体来说,bert使用Transformer的encoder部分作为基础单元进行堆叠,而GPT使用decoder部分作为基础单元进行堆叠。

20240727161515

Bert有两个版本,一个是base (12层),一个是large(24层),base的参数量是110M,large的参数量是340M。
base的作用是为了和GPT1作对比。

base:
L:12; H:768; A:12

large:
L:24; H:1024; A:16

说明: 编码器层数L,注意力头数A,隐藏层数H.

20240727165712

1.2 和GPT1的对比

和GPT1相比的话,主要有两点不同,一个是bert是双向,另一个是预训练。

其中GPT1预训练,是预测一个句子的下一个词是什么(这个在NLP中我们也称作Language Modeling(LM)),如下:
20240727174708


而bert的预训练是以下两个:

1.2.1 任务一:“完型填空”

不同于常规思路预测下一词。

上面说了bert是双向的,如果预测下一个词,那将是没有意义。所以对输入的词进行mask,即遮住,然后让模型去预测遮住的词是什么。(是不是和我们做的完形填空一样!!!),论文中将这个称为:“masked LM” (MLM)

如下,将hairy进行Mask以后去预测:

my dog is hairy → my dog is [MASK]

然后对网络的输出结果相应位置进行softmax,得到每个词的概率分布,然后取概率最大的词作为预测结果。如下图:

20240731153330

但是存在一个问题,mask15%比例比较高,这会造成某些词在微调(fine-tuning)时候没有见过,此外,微调的时候是没有mask的,为了让预训练和微调匹配,做了一些调整。

每一个句子会预测15%token,在这其中,

  • 80%的token被替换成[MASK], my dog is hairy → my dog is [MASK]
  • 10%的token被替换成随机词, my dog is hairy → my dog is apple
  • 10%的token保持不变, my dog is hairy → my dog is hairy

20240727180536

1.2.2 任务二:预测下一个句子

在NLP中的某些任务当中,需要将两个句子作为输入(如,问答系统),所以bert中的预训练添加了一个的新的训练方式----Next Sentence Prediction,下一个句子预测。

具体的是一次输入两个句子,最后有一个输入,判断是否相似。如下图:

其中, 50%的输入数据B是A的下一个句子,50%的数据B是从语料库中随机选取的。
20240728155338

1.2.3 小结

现在我们看下面这个图应该比较好理解了。

在pre-training阶段,输出的第一位是用于判断是否是下一个句子(NSP,任务二,二分类)后续输出是做
完型填空(MLM,任务一,多分类)。

20240730144910


关于输入,需要注意的是,输入的是一个序列(sequence),一个sequence可能是一个句子(sentence)也可能是两个句子(sentence,为了适应下游的问题任务)。

而一个句子setence,更准确是一段连续的文本,不是我们常规的“句子”。

20240730150924

1.3 小结

除了论文中提到的base和large,github上还有其他版本。

  • BERT-tiny, L = 2 , H = 128 L=2,H=128L=2,H=128
  • BERT-mini, L = 4 , H = 256 L=4,H=256L=4,H=256
  • BERT-small, L = 4 , H = 512 L=4,H=512L=4,H=512
  • BERT-medium, L = 8 , H = 512 L=8,H=512L=8,H=512

20240730153820

主要贡献:

  • 引入了Masked LM,使用双向LM做模型预训练。
  • 为预训练引入了新目标NSP,它可以学习句子与句子间的关系。
  • 进一步验证了更大的模型效果更好: 12 --> 24 层。
  • 为下游任务引入了很通用的求解框架,不再为任务做模型定制。
  • 刷新了多项NLP任务的记录,引爆了NLP无监督预训练技术。

1.4 关于输入

bert的是输入是一个序列(sequence,包含多个句子(sentence)),而网络的最小处理单元是一个词,就是token。关于bert中具体的分词方式我们暂时按下不表。

我们先看一个例子。 若我们一个序列是:

Sentence A: Paris is a beautiful city. 
Sentence B: I love Paris.

1.4.1 token

先将句子进行分词,转换成一个个token以后,如下:

[CLS] Paris is a beautiful city . [SEP] I love Paris . [SEP]

其中,

  • [CLS]放在序列第一个位置,用于分类(NSP,下一个句子预测)
  • [SEP]放在每个句子(sentence)结尾,用于区分句子和句子。

20240731141555

1.4.2 segment

由于我们一次会输入两个句子(sentence),所以需要区分是句子A还是句子B,所以bert中引入了segment,用于区分句子A和句子B。

  • 句子A的segment id为0
  • 句子B的segment id为1

20240731141725

1.4.3 position

由于bert的输入是一个序列,而序列的长度是有限的,所以需要将序列进行截断,而截断以后,我们无法知道每个词在句子中的位置,所以bert中引入了position,用于表示每个词在句子中的位置。

20240731141816

1.4.4 最终的输入

最终的输入是将上面的token、segment和position相加

20240731141929

1.5 分词:WordPiece

bert中的分词采用的是WorPiece,是Google在2016年提出的,它将词拆分成更小的子词,比如,将“unhappiness”拆分成“un”和“-happy”,这样就可以避免OOV问题。

具体做法:检查单词是否在词表(vocabulary)中,如果在则标记;否则,拆分成子词,

对子词继续重复前面的过程(然后检查子词是否在词表中,如果在则标记;否则,继续拆分,直到拆分出来的子词在词表中。)

Bert的词表有30k标记。

比如:

"Let us start pretraining the model."

其中pretraining不在词表中,所以会被拆分成pre##train##ing
前面的#表示这个单词为一个子词,并且它前面有其他单词。现在我们检查子词##train和##ing是否出现在词表中。因为它们正好在词表中,所以我们不需要继续拆分。

所以上述句子会被拆分成:

tokens = [let, us, start, pre, ##train, ##ing, the, model]

增加[CLS]和[SEP]后是:

tokens = [ [CLS], let, us, start, pre, ##train, ##ing, the model, [SEP] ]

1.6 预处理代码

我们的原始数据是文本,而所谓的神经网络训练本质是对数字进行数学运算。

所以我们需要将文本转换为数字,而转换的过程就是预处理。下面我们看下代码

1.6.1 步骤

本次使用的是抱脸的transformers库

pip install transformers
1. 导入库

导入库,加载预训练的模型和分词器。

from transformers import BertModel, BertTokenizer
import torch
model = BertModel.from_pretrained('bert-base-uncased')
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

离线情况下

model_path = './model_path'
bert = BertModel.from_pretrained(pretrained_model_name_or_path=model_path)

将下图中需要的文件下载到本地即可
20240731170325

2. 分词
sentence = 'I love Paris'
tokens = tokenizer.tokenize(sentence)
print(tokens)

20240731172120

3. 添加CLS、SEP
tokens = ['[CLS]'] + tokens + ['[SEP]']
print(tokens)

20240731172404

4. 添加pad

正常的bert的输入是个固定长度,如果长度超过这个固定长度进行截断,小于该固定长度添加pad。
假设固定长度是7,现在我们的tokens长度位5,所以需要添加pad

tokens = tokens + ['[PAD]'] + ['[PAD]']
tokens

20240731172416

5. mask

bert中的encoder内部是注意力机制,我们需要传入一个mask,用于区分正常词和pad。

attention_mask = [1 if i!= '[PAD]' else 0 for i in tokens]
attention_mask

20240731172622

6. 转为id

不管是中文还是英文句子都是字符,而神经网络是对数字进行训练。所以需要将字符转化为数字。
不管是中文还是英文句子都是字符,而神经网络是对数字进行训练。所以需要将字符转化为数字。
不管是中文还是英文句子都是字符,而神经网络是对数字进行训练。所以需要将字符转化为数字。

token_ids = tokenizer.convert_tokens_to_ids(tokens)
token_ids

20240731172816

本质是从一个大的字典里面找到每次词对应的id。

20240731173125

7. 转为tensor
import torch
token_ids = torch.tensor(token_ids).unsqueeze(0)
attention_mask = torch.tensor(attention_mask).unsqueeze(0)print(token_ids.shape)
print(token_ids)

我们输入是一个句子,每个句子的长度是7。
20240731173434

8. 输入模型
hidden_rep, cls_head = bert(token_ids, attention_mask=attention_mask,return_dict=False)print(hidden_rep.shape,cls_head.shape)

hidden_rep : 是bert中最后一个encoder的输出,维度是[1,7,768]
cls_head : 是cls的输出,维度是[1,768]

对于hidden_rep,1表示一个1个句子,7表示句子的长度,768表示每个词的向量维度 (一个词用一个长度为768的向量表示)

20240731173758

1.6.2 小结

我们处理的是句子,而所谓的神经网络训练本质是对数字进行加减乘除运算。所以实际输入网络的是数字。

原始的是文本,输入网络的是经过字典映射的数字。

20240801102417

1.7 关于embedding

如果看论文,会发现bert的输入是embedding,而我们上面的预处理最终的结果好像是token_ids(只是索引而已),这二者有什么关系呢?
20240801113833

在说embedding之前,我们先看下one-hot编码。

1.7.1 one-hot编码

one-hot编码是机器学习中最常用的编码方式,对于每个词,我们用长度为n的向量表示,其中n是词表的大小,向量中只有一个1,其余都是0。

比如中文有5000个词,为了方便我们简化一下,现在词典里面有5个词。[‘我’,‘是’,‘中’,‘国’,‘人’]。

'我们人’可以用如下向量表示:
我:[1 0 0 0 0 ]
是:[0 1 0 0 0 ]
人:[0 0 0 0 1 ]

看起来也比较直观,但是别忘了我们这里词典大小是5,如果5000呢?那么这个词的向量就是5000维的,如果50000呢?50000维的向量,是不是有点太大了?

这会导致我们的结果非常的稀疏!

其次,one-hot编码之间的向量是正交的,词和词之间没有关系,比如’我’和’是’之间没有关系,'中’和’国’之间也没有关系,这显然是不合理的。

所以就出现了embedding

1.7.2 embedding

embedding是一个词典,更通俗的说一个二维向量。

我们的embedding现在是(5000,768),5000表示词表大小,768表示每个词的向量维度。

啥意思?就是我们的词表里面有5000个词,每个词用一个长度为768的向量表示。

现在我们要表示,只需要根据这个词对应的索引,在5000个词中找到对应的向量即可。而这个向量是一个长度为768的向量。

768相比之前的5000小了不少。同时词和词和词之间也有有关系的。

1.7.3 代码示例

构建一个含有10个词的词表,每个词用一个长度为3的向量表示。

import torch
import torch.nn as nn# 创建 Embedding 层
num_embeddings = 10  # 词汇表大小
embedding_dim = 3    # 嵌入向量的维度
embedding_layer = nn.Embedding(num_embeddings, embedding_dim)
embedding_layer

20240801115321

我们看下词表里面的值是个啥

embedding_layer.weight

20240801115454

现在我们有词索引如下:

# 示例输入
input_indices = torch.LongTensor([1, 2, 3, 4])
print('input.shape: ',input_indices.shape)
print("Input indices:", input_indices)

20240801115154

现在我们根据对应的词到词表中查找我们的词对应的向量。

# 获取嵌入向量
output_vectors = embedding_layer(input_indices)
print('output.shape: ',output_vectors.shape)
print("Output vectors:", output_vectors)

20240801115625

这个值是从词表中来的。
20240801115726

1.7.4 bert官方部分代码

20240801120709

1.7.5 小结

embedding正式表述是词表,或是或是词典。更本质来说是一个二维向量。

通过“查表”我们获得了每一个词的向量表示。这样的表示相比one-hot编码更稠密。同时,也能表达词和词之间的关系。

开始是我们的embedding参数是随机的,通过不断的训练,含义更加准确。

1.8 小结

bert 借鉴了GPT1和ELMo,使用Transformer的encoder部分进行堆叠。

两种预训练(MLM和NSP)能够更有效的获取语义信息。

参考

  1. https://cloud.tencent.com/developer/article/2058413
  2. https://blog.csdn.net/jiaowoshouzi/article/details/89073944
  3. https://blog.csdn.net/yjw123456/article/details/120211601
  4. https://blog.csdn.net/weixin_42029738/article/details/139578563
  5. https://helloai.blog.csdn.net/article/details/120211601
  6. https://www.cnblogs.com/JuggyZhan/p/18249075
  7. https://cloud.tencent.com/developer/article/2348457
  8. https://cloud.tencent.com/developer/article/2336439
  9. https://blog.csdn.net/magicyangjay111/article/details/132665098
  10. https://www.cnblogs.com/zackstang/p/15387549.html
  11. https://blog.csdn.net/yjw123456/article/details/120232707
  12. https://people.ee.duke.edu/~lcarin/Dixin2.22.2019.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/71539.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux中使用Docker安装DIFY搭建本地支持库和Agent

Dify 是一款开源的大语言模型(LLM) 应用开发平台。它融合了后端即服务(Backend as Service)和 LLMOps 的理念,使开发者可以快速搭建生产级的生成式 AI 应用。即使你是非技术人员,也能参与到 AI 应用的定义和数据运营过程中。 然而…

开源工具推荐--思维导图、流程图等绘制

1. 前言 在工作中,经常要用到各种不同的工具,随着系统的升级,有些工具也在不断更新升级。这里收集整理一些好用的开源工具推荐,遵循以下一些基本原则:开源免费,商业工具的有效平替,轻量级&…

Ubuntu 下 nginx-1.24.0 源码分析 - ngx_create_pool函数

ngx_create_pool 声明在 src\core\ngx_palloc.h 中 ngx_pool_t *ngx_create_pool(size_t size, ngx_log_t *log); 实现在 src\core\ngx_palloc.c 中 ngx_pool_t * ngx_create_pool(size_t size, ngx_log_t *log) {ngx_pool_t *p;p ngx_memalign(NGX_POOL_ALIGNMENT, size, lo…

ac的dhcp池里option43配错导致ap无法上线问题排查过程

dhcp池里ac地址配错,导致ap无法上线问题排查过程 问题:ap手动设置ac的ip正常注册在线,但dhcp获得ip和ac地址发现无法在ac上注册成功。 组网: ac旁路结构,路由器lan口地址172.16.1.1,开dhcp服务&#xff0…

IntelliJ IDEA中Maven配置全指南

一、环境准备与基础配置 1.1 Windows 环境下载并配置 Maven 见此篇博文:环境配置 1.2 IDEA配置步骤 打开设置面板:File → Settings → Build → Build Tools → Maven 关键配置项: Maven home path E:\apache-maven-3.9.9 (…

存储区域网络(SAN)管理

存储区域网络(Storage Area Network,SAN)采用网状通道(Fibre Channel ,简称FC)技术,通过FC交换机连接存储阵列和服务器主机,建立专用于数据存储的区域网络。SAN提供了一种与现有LAN连…

使用vue-office报错TypeError: ft.createElementVNode is not a function

支持多种文件(.docx、.xlsx、.xls、.pdf、.pptx)预览的vue组件库,支持vue2/3。也支持非Vue框架的预览。 不支持.doc、.ppt(2003年及以前的版本) 官网:https://www.npmjs.com/package/vue-office/excel?activeTabreadme 官方有实…

Ubuntu部署ktransformers

准备工作 一台服务器 CPU:500G GPU:48G(NVIDIA4090) 系统:Ubuntu20.04(github的文档好像用的是22.04) 第一步:下载权重文件 1.下载hfd wget https://hf-mirror.com/hfd/hfd.s…

C++初阶——简单实现vector

目录 1、前言 2、Vector.h 3、Test.cpp 1、前言 简单实现std::vector类模板。 相较于前面的string,vector要注意: 深拷贝,因为vector的元素可能是类类型,类类型元素可以通过赋值重载,自己实现深拷贝。 迭代器失效…

全志A133 android10 适配SLM770A 4G模块

一,模块基本信息 1.官方介绍 SLM770A是美格智能最新推出的一款LTE Cat.4无线通讯模组,最大支持下行速率150Mbps及上行速率50Mbps。同时向下兼容现有的3G和2G网络,以确保即使在偏远地区也可以进行网络通信。 SLM770A模组支持分集接收和MIMO技…

微信小程序:多菜单栏设计效果

一、实现效果 二、代码 wxml 编辑前端界面,步骤 菜单逻辑: 逐步取出数组中的项,首先取出顶部菜单项,然后选中后取出选中的底部数据(左侧菜单+右侧内容),然后点击左侧菜单取出选中的左侧菜单对应的右侧内容 ①这里我的数据是全部封装到一个数组对象的,首先我的循环…

C++基础知识学习记录—string类

string实际上是C内置的一个类,内部对char *进行了封装,不用担心数组越界问题,string类中,除了上课讲解的函数外,还有很多函数可以使用,可以自行查阅文档。 构造函数原型: string(); //创建一个…

Ollama+DeepSeek+Open-WebUi

环境准备 Docker Ollama Open-WebUi Ollama 下载地址:Ollama docker安装ollama docker run -d \ -v /data/ollama/data:/root/.ollama \ -p 11434:11434 \ --name ollama ollama/ollama 下载模型 Ollama模型仓库 # 示例:安装deepseek-r1:7b doc…

设计模式--访问者模式【行为型模式】

设计模式的分类 我们都知道有 23 种设计模式,这 23 种设计模式可分为如下三类: 创建型模式(5 种):单例模式、工厂方法模式、抽象工厂模式、建造者模式、原型模式。结构型模式(7 种)&#xff1…

前端循环全解析:JS/ES/TS 循环写法与实战示例

循环是编程中控制流程的核心工具。本文将详细介绍 JavaScript、ES6 及 TypeScript 中各种循环的写法、特性,并通过实际示例帮助你掌握它们的正确使用姿势。 目录 传统三剑客 for 循环 while 循环 do...while 循环 ES6 新特性 forEach for...of for...in 数组…

数据中心储能蓄电池状态监测管理系统 组成架构介绍

安科瑞刘鸿鹏 摘要 随着数据中心对供电可靠性要求的提高,蓄电池储能系统成为关键的后备电源。本文探讨了蓄电池监测系统在数据中心储能系统中的重要性,分析了ABAT系列蓄电池在线监测系统的功能、技术特点及其应用优势。通过蓄电池监测系统的实施&#…

Mac端homebrew安装配置

拷打了一下午o3-mini-high,不如这位博主的超强帖子,10分钟结束战斗 跟随该文章即可,2025/2/19亲测可行 mac 安装HomeBrew(100%成功)_mac安装homebrew-CSDN博客文章浏览阅读10w次,点赞258次,收藏837次。一直觉得自己写…

机器学习实战(8):降维技术——主成分分析(PCA)

第8集:降维技术——主成分分析(PCA) 在机器学习中,降维(Dimensionality Reduction) 是一种重要的数据处理技术,用于减少特征维度、去除噪声并提高模型效率。主成分分析(Principal C…

windows环境下用docker搭建php开发环境dnmp

安装WSL WSL即Linux子系统,比虚拟机占用资源少,安装的前提是系统必须是win10以上。 WSL的安装比较简单,网上有很多教程,例如:WSL简介与安装流程(Windows 下的 Linux 子系统)_wsl安装-CSDN博客&…

Python网络爬虫技术详解文档

Python网络爬虫技术详解文档 目录 网络爬虫概述爬虫核心技术解析常用Python爬虫库实战案例演示反爬虫机制与应对策略爬虫法律与道德规范高级爬虫技术资源推荐与学习路径1. 网络爬虫概述 1.1 什么是网络爬虫 网络爬虫(Web Crawler)是一种按特定规则自动抓取互联网信息的程序…