自然语言处理---Transformer机制详解之BERT GPT ELMo模型的对比

自然语言处理---Transformer机制详解之BERT GPT ELMo模型的对比

news/2025/4/27 8:47:51/文章来源:https://blog.csdn.net/lichunericli/article/details/133963256

1 BERT、GPT、ELMo的不同点

关于特征提取器:
- ELMo采用两部分双层双向LSTM进行特征提取, 然后再进行特征拼接来融合语义信息.
- GPT和BERT采用Transformer进行特征提取.
- 很多NLP任务表明Transformer的特征提取能力强于LSTM, 对于ELMo而言, 采用1层静态token embedding + 2层LSTM, 提取特征的能力有限.
单/双向语言模型:
- 三者之中, 只有GPT采用单向语言模型, 而ELMo和BERT都采用双向语言模型.
- ELMo虽然被认为采用了双向语言模型, 但实际上是左右两个单向语言模型分别提取特征, 然后进行特征拼接, 这种融合特征的能力比BERT一体化的融合特征方式弱.
- 三者之中, 只有ELMo没有采用Transformer. GPT和BERT都源于Transformer架构, GPT的单向语言模型采用了经过修改后的Decoder模块, Decoder采用了look-ahead mask, 只能看到context before上文信息, 未来的信息都被mask掉了. 而BERT的双向语言模型采用了Encoder模块, Encoder只采用了padding mask, 可以同时看到context before上文信息, 以及context after下文信息.

2 BERT、GPT、ELMo的优缺点

ELMo

优点: * 从早期的Word2Vec预训练模型的最大缺点出发, 进行改进, 这一缺点就是无法解决多义词的问题. * ELMo根据上下文动态调整word embedding, 可以解决多义词的问题.
缺点: * ELMo使用LSTM提取特征的能力弱于Transformer. * ELMo使用向量拼接的方式融合上下文特征的能力弱于Transformer.

GPT

优点: * GPT使用了Transformer提取特征, 使得模型能力大幅提升.
缺点: * GPT只使用了单向Decoder, 无法融合未来的信息.

BERT:

优点: * BERT使用了双向Transformer提取特征, 使得模型能力大幅提升. * 添加了两个预训练任务, MLM + NSP的多任务方式进行模型预训练.
缺点: * 模型过于庞大, 参数量太多, 需要的数据和算力要求过高, 训练好的模型应用场景要求高. * 更适合用于语言嵌入表达, 语言理解方面的任务, 不适合用于生成式的任务.

3 小结

学习了BERT, GPT, ELMo之间的区别:

* 三者所选取的特征提取器不同.

* BERT采用的是Transformer架构中的Encoder模块.

* GPT采用的是Transformer架构中的Decoder模块.

* ELMo采用的双层双向LSTM模块.

三者所采用的语言模型单/双向不同.
- BERT采用的是最彻底的双向语言模型, 可以同时关注context before和context after.
- GPT采用的是单向语言模型, 即Transformer中的Decoder, 由于采用了mask机制, 所以未来信息context after都不可见.
- ELMo表面上被认为是双向语言模型, 但实际上是左右两个单向LSTM模型分别提取特征, 在进行简单的拼接融合.

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/115716.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

IT行业就业方向：探索未来的职业机会

IT行业就业方向：探索未来的职业机会

引言： 随着信息技术的飞速发展，IT行业已经成为了当前最具活力和发展潜力的行业之一。在这个充满机遇和挑战的时代，选择一个好的就业方向对于个人的职业发展至关重要。本文将探讨IT行业中哪些方向具有更好的就业前景，并提供一些建…

阅读更多...

云原生之深入解析如何使用Vcluster Kubernetes加速开发效率

云原生之深入解析如何使用Vcluster Kubernetes加速开发效率

一、背景为什么一个已经在使用 Kubernetes 本身方面已经很挣扎的开发人员还要处理虚拟集群呢？答案可能会让您感到惊讶，但我相信虚拟集群实际上比单独的物理集群更容易处理，并且与本地 k3d、KinD 或 minikube 部署的集群相比具有相当多的优势…

阅读更多...

node教程(二)

node教程(二)

文章目录 1.模块化1.1模块化介绍1.2模块化初体验1.3模块暴露数据(🔺)1.4引入（导入）模块 1.模块化 1.1模块化介绍 ⭐什么是模块化与模块？ 将一个复杂的程序文件依据一定规则（规范）拆分成多个文件的过程称之…

阅读更多...

python 之numpy 之随机生成数

python 之numpy 之随机生成数

文章目录 1. **生成均匀分布的随机浮点数**：2. **生成随机整数**：3. **生成标准正态分布随机数**：4. **生成正态分布随机数**：5. **生成均匀分布的随机浮点数**：6. **生成随机抽样**：7. **设置随机数种子**…

阅读更多...

Axi_Lite接口的IP核与地址与缓冲与AxiGP0

Axi_Lite接口的IP核与地址与缓冲与AxiGP0

AXI Interconnect互连内核将一个或多个 AXI 内存映射主设备连接到一个或多个内存映射从设备。 AXI_GP 接口 AXI_GP 接口是直接连接主机互联和从机互联的端口的。 AXI_HP 接口具有一个 1kB 的数据 FIFO 来做缓冲 [4]，但是 AXI_GP 接口与它不同，没…

阅读更多...

24东北大学计算机计划招生数据

24东北大学计算机计划招生数据

2.结语 24的保研名额很多，统考名额就这些，大家根据自己的情况做出选择东大计算机不好考，但是不代表考不上！加油 3.数据来源于官网官网链接

阅读更多...

从传统云架构到云原生生态体系架构的演进

从传统云架构到云原生生态体系架构的演进

文章目录概述传统云架构：虚拟化的时代云原生生态体系架构的兴起容器化和微服务架构自动化和自动伸缩基础设施即代码云原生存储和数据库云原生的影响结语概述随着科技的不断发展，云计算领域也经历了巨大的变革。这一演进的核心焦点是从传统云架构过渡…

阅读更多...

【Java集合类面试七】、 JDK7和JDK8中的HashMap有什么区别？

【Java集合类面试七】、 JDK7和JDK8中的HashMap有什么区别？

文章底部有个人公众号：热爱技术的小郑。主要分享开发知识、学习资料、毕业设计指导等。有兴趣的可以关注一下。为何分享？ 踩过的坑没必要让别人在再踩，自己复盘也能加深记忆。利己利人、所谓双赢。面试官：JDK7和JDK8中的HashMap有…

阅读更多...

pyflink 环境测试以及测试案例

pyflink 环境测试以及测试案例

1. py 的环境以来采用Anaconda环境包安装版本：https://www.anaconda.com/distribution/#download-section Python3.8.8版本：Anaconda3-2021.05-Linux-x86_64.sh 下载地址 https://repo.anaconda.com/archive/ 2. 安装 bash Anaconda3-2021.05-Linux-x…

阅读更多...

基于深度学习网络的蔬菜水果种类识别算法matlab仿真

基于深度学习网络的蔬菜水果种类识别算法matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1数据集准备 4.2构建深度学习模型 4.3模型训练 4.4模型评估 5.算法完整程序工程 1.算法运行效果图预览 2.算法运行软件版本 matlab2022a 3.部分核心程序 clc; clear; close all; wa…

阅读更多...

java基础面试题

java基础面试题

java后端面试题大全 1.java基础1.1 java中和equals的区别1.2 String、StringBuffer、StringBuilder的区别1.3 intern方法的作用及原理1.4 String不可变的含义1.5 static用法、使用位置、实例1.6 为什么静态方法不能调用非静态方法和变量1.7 异常/Exception1.7 try/catch/finall…

阅读更多...

【CNN-LSTM预测】基于卷积神经网络-长短期记忆网络的数据分类预测研究（Matlab代码实现）

【CNN-LSTM预测】基于卷积神经网络-长短期记忆网络的数据分类预测研究（Matlab代码实现）

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 ⛳️座右铭&a…

阅读更多...

递增的三元子序列

递增的三元子序列

给你一个整数数组 nums ，判断这个数组中是否存在长度为 3 的递增子序列。如果存在这样的三元组下标 (i, j, k) 且满足 i < j < k ，使得 nums[i] < nums[j] < nums[k] ，返回 true ；否则，返回 false 。示…

阅读更多...

头脑风暴之约瑟夫环问题

头脑风暴之约瑟夫环问题

一问题的引入约瑟夫问题的源头完全可以命名为“自杀游戏”。本着和谐友爱和追求本质的目的，可以把问题描述如下： 现有n个人围成一桌坐下，编号从1到n，从编号为1的人开始报数。报数也从1开始，报到m人离席&#xff0c…

阅读更多...

YOLOv5项目实战（1）— 如何去训练模型

YOLOv5项目实战（1）— 如何去训练模型

前言：Hello大家好，我是小哥谈。YOLOv5基础知识入门系列、YOLOv5源码中的参数超详细解析系列、YOLOv5入门实践系列、YOLOv5论文作图教程系列和YOLOv5算法改进系列学习完成之后，接着就进入YOLOv5项目实战系列了。🎉为了让大家能够牢固地掌握YOLOv5算法，本系列文章就通过一个…

阅读更多...

计算机算法分析与设计（18）---回溯法(介绍、子集和问题C++代码)

计算机算法分析与设计（18）---回溯法(介绍、子集和问题C++代码)

文章目录一、回溯法介绍二、子集和问题2.1 知识概述2.2 代码编写一、回溯法介绍 1. 回溯法（back tracking）是一种选优搜索法，又称为试探法，有“通用的解题法”之称，按选优条件向前搜索，以达到目标。但当探…

阅读更多...

AIGC笔记--基于DDPM实现图片生成

AIGC笔记--基于DDPM实现图片生成

目录 1--扩散模型 2--训练过程 3--损失函数 4--生成过程 5--参考 1--扩散模型完整代码：ljf69/DDPM 扩散模型包含两个过程，前向扩散过程和反向生成过程。前向扩散过程对一张图像逐渐添加高斯噪声，直至图像变为随机噪声。反向生成过程…

阅读更多...

C语言求 3*3 矩阵对角线之和

C语言求 3*3 矩阵对角线之和

完整代码： // 求 3*3 矩阵对角线之和 #include<stdio.h>int main() {int n3;int arr[3][3];// 输入矩阵printf("请输入矩阵的元素:\n");for (int i 0; i < n; i){for (int j 0; j < n; j){scanf("%d", &arr[i][j]);}}int su…

阅读更多...

Elasticsearch 写入优化，从 3000 到 8000/s，让你的 ES 飞起来

Elasticsearch 写入优化，从 3000 到 8000/s，让你的 ES 飞起来

背景基于elasticsearch-5.6.0 机器配置：3个云ecs节点，16G,4核，机械硬盘优化前，写入速度平均3000条/s，一遇到压测，写入速度骤降，甚至es直接频率gc、oom等；优化后，写入速…

阅读更多...

Python+requests+pytest+excel+allure 接口自动化测试实战

Python+requests+pytest+excel+allure 接口自动化测试实战

定义： Unittest是Python标准库中自带的单元测试框架，Unittest有时候也被称为PyUnit，就像JUnit是Java语言的标准单元测试框架一样，Unittest则是Python语言的标准单元测试框架。 Pytest是Python的另一个第三方单元测试库。它的目的…

阅读更多...

最新文章