【Transformer】深入理解Transformer模型2——深入认识理解（上）

【Transformer】深入理解Transformer模型2——深入认识理解（上）

news/2025/4/26 4:26:54/文章来源:https://blog.csdn.net/m0_56367027/article/details/135308837

前言

Transformer模型出自论文：《Attention is All You Need》 2017年

近年来，在自然语言处理领域和图像处理领域，Transformer模型都受到了极为广泛的关注，很多模型中都用到了Transformer或者是Transformer模型的变体，而且对于很多任务，使用加了Transformer的模型可以获得更好的效果，这也证明了Transformer模型的有效性。

由于Transformer模型内容较多，想要深入理解该模型并不容易，所以我分了大概3~4篇博客来介绍Transformer模型，第一篇（也就是本篇博客）主要介绍Transformer模型的整体架构，对模型有一个初步的认识和了解；第二篇是看了b站李宏毅老师的Transformer模型讲解之后，做的知识总结（内容比较多，可能会分成两篇博客）；第三篇从代码的角度来理解Transformer模型。

目前我只完成了前两篇论文，地址如下，之后完成第三篇会进行更新。

第一篇：【Transformer】深入理解Transformer模型1——初步认识了解-CSDN博客

第二篇：【Transformer】深入理解Transformer模型2——深入认识理解（上）-CSDN博客

第三篇：【Transformer】深入理解Transformer模型2——深入认识理解（下）-CSDN博客

第四篇：

深入认识理解（上）

自注意力机制(self-attention)：可以用于transformer、BERT等

对于输入的向量集合，其输出考虑了一整个sequence的信息，输出的label个数等于输入的向量个数。

self-attention可以和fully connected交替使用，即：self-attention可以处理整个sequence的资讯，fully connected专注于处理某一个位置的资讯。

由a产生b1的过程：

（1）根据a1，找到序列a中与a1相关的向量。要做self-attention的目的就是要考虑整个sequence，但我们又不希望把整个sequence所有的资讯包含在一个windows里面。所以我们有一个很重要的机制：找出很长的sequence里面到底哪些部分是重要的，哪些部分与判断a1是哪个label是有关系的。两个向量之间的关联度用ɑ来表示。

（2）根据注意力得分ɑ’抽取出sequence里面重要的子句。

self-attention的整体操作如下图所示：

多头自注意力机制(Multi-head self-attention)：翻译任务、语音识别任务等使用较多的head会取得较好的效果。

理解：不同的q代表不同种类的相关性，所以需要使用多个q来表示多个不同种类的相关性。

！！！注意：self-attention中是没有位置信息的，所以如果对所要完成的任务而言，位置信息很重要，那就要把位置信息塞进去，通过positional encoding的方法。

位置编码(positional encoding)：

原理：为每一个位置设置一个位置向量(positional vector)ei，其中i表示位置，然后把ei加到ai上即可，这样就结束了。这样就可以把位置信息告知self-attention。

self-attention VS CNN 论文On the Relationship between Self-Attention and Concolutional Layers(https://arxiv.org/abs/1911.03584)中有严格的数学推到证明。

CNN是self-attention的特例，只要设定合适的参数，self-attention可以做到和CNN一样的效果。

CNN只考虑receptive field中的资讯，而self-attention考虑整张图片的资讯。self-attention中的receptive field就好像是机器自己学出来的，而CNN中的receptive field是人为设定的。

self-attention VS RNN

以上就是本篇博客的内容了，李宏毅老师视频的干货不少，分两篇博客写吧还是~

另外提一下我最近发现的一个wps word的优点：在视频截图右边的空白部分，画一个文本框，在里面写对应图片的笔记标注，还挺好用的，清晰，而且方便对应图看笔记，不用再上下翻了~hh

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/587825.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

OpenCV实战 -- 维生素药片的检测记数

OpenCV实战 -- 维生素药片的检测记数

文章目录检测记数原图经过操作开始进行消除粘连性--形态学变换总结实现方法1. 读取图片：2. 形态学处理：3. 二值化：4. 提取轮廓：5. 轮廓筛选和计数： 分水岭算法：逐行解释在基于距离变换的分水岭算法中&…

阅读更多...

关于链表的一些问题

关于链表的一些问题

求链表的中间节点可以定义两个指针，一个一次走两步一个一次走一步，当走的快的走到NULL时，走的慢的就是链表的中间节点。（此法求出的偶数个节点的链表的中间节点是它中间的第二个） 求倒数第K个节点也可以定义两个指…

阅读更多...

9 权限与特权

9 权限与特权

一，访问级别权限和特权共同决定了对API对象（例如窗口和会话）的访问级别。权限和特权是两个不同的概念。权限定义了执行某些操作的能力，例如设置属性。特权是根据角色类型授予的权限集合。请注意，在创建（例如 screen_create_()）或销毁（例如 screen_destroy_()）对…

阅读更多...

PowerShell Instal 一键部署gitea

PowerShell Instal 一键部署gitea

gitea 前言 Gitea 是一个轻量级的 DevOps 平台软件。从开发计划到产品成型的整个软件生命周期，他都能够高效而轻松的帮助团队和开发者。包括 Git 托管、代码审查、团队协作、软件包注册和 CI/CD。它与 GitHub、Bitbucket 和 GitLab 等比较类似。 Gitea 最初是从 Gogs 分支而来…

阅读更多...

【动态规划】673. 最长递增子序列的个数

【动态规划】673. 最长递增子序列的个数

673. 最长递增子序列的个数解题思路本题改造最长递增子序列但是最长子序列的长度不止一个dp数组代表以nums[i]结尾的最长子序列长度count[i]代表以nums[i]结尾的最长子序列的个数那么当nums[i]大于前面的元素nums[j]的时候，计算dp[i]和dp[j] 1的大小&#xff0…

阅读更多...

新手快速上手掌握基础排序＜一＞

新手快速上手掌握基础排序＜一＞

目录引言一：两数互换排序 1.画图分析 2.代码实现二：三数换交换排序 1.例题举例 2.代码实现 3.再比如四数互换排序，也可以使用两数互换的方法来实现 ，但最好使用基础的排序方法(冒泡法，选择法) 三&#xf…

阅读更多...

PointNet人工智能深度学习简明图解

PointNet人工智能深度学习简明图解

PointNet 是一种深度网络架构，它使用点云来实现从对象分类、零件分割到场景语义解析等应用。它于 2017 年实现，是第一个直接将点云作为 3D 识别任务输入的架构。本文的想法是使用 Pytorch 实现 PointNet 的分类模型，并可视化其转换以了解模…

阅读更多...

一个WebSocket的自定义hook

一个WebSocket的自定义hook

一个WebSocket的自定义hook 自己封装了一个WebSocket的hook,代码如下： import { useEffect, useRef } from "react";const WS_URL wss://xxx // 服务地址const useSocket () > {const socketRef useRef<WebSocket>()let heartTimer 0; // …

阅读更多...

【python】爬取百度热搜排行榜Top50+可视化【附源码】【送数据分析书籍】

【python】爬取百度热搜排行榜Top50+可视化【附源码】【送数据分析书籍】

一、导入必要的模块： 这篇博客将介绍如何使用Python编写一个爬虫程序，从斗鱼直播网站上获取图片信息并保存到本地。我们将使用requests模块发送HTTP请求和接收响应，以及os模块处理文件和目录操作。如果出现模块报错进入控制台输入&#xff…

阅读更多...

第82讲：MySQL Binlog日志的滚动

第82讲：MySQL Binlog日志的滚动

MySQL Binlog日志的滚动 MySQL Binlog日志滚动指的就是产生一个新的Binlog日志，然后进行记录，因为如果都在一个Binlog中记录，查询是非常慢的，检索的效率也很低。 Binlog日志滚动有三种方法： 重启MySQL 数据库一般不重…

阅读更多...

android开发调用百度地图api实现加载地图和定位

android开发调用百度地图api实现加载地图和定位

目录一.踩的一些坑以及解决方法 1.权限声明不要少 2.地图初始化 3.定位问题 （1）监听器注册 （2）定位监听器类MyLocationListener的实现 （3）定位功能的调用 4.android studio连接真机调试问题二.…

阅读更多...

Spring Boot应用整合Prometheus

Spring Boot应用整合Prometheus

Spring Boot Actuator 提供了一组用于监控和管理 Spring Boot 应用程序的端点，而 Prometheus 是一个开源的监控和告警工具。通过将这两者结合起来，您可以实时监控您的应用程序的性能指标，并通过 Prometheus 提供的丰富的查询语言来分析和可视…

阅读更多...

MySQL：索引

MySQL：索引

MySQL官方对索引的定义为: 索引 (Index) 是帮助MySQL高效获取数据的数据结构。提取句子主干，就可以得到索引的本质:索引是数据结构。 1. 什么是索引，索引的作用索引是一种用于快速查询和检索数据的数据结构，帮助mysql提高查询效率的数据…

阅读更多...

ros2查看launch文件内需要提供的参数（接口）：

ros2查看launch文件内需要提供的参数（接口）：

格式：ros2 launch --show-args 包名称 launch文件名称例如： ros2 launch --show-args ros_gz_sim gz_sim.python.py

阅读更多...

行人重识别优化：Pose-Guided Feature Alignment for Occluded Person Re-Identification

行人重识别优化：Pose-Guided Feature Alignment for Occluded Person Re-Identification

文章记录了ICCV2019的一篇优化遮挡行人重识别论文的知识点：Pose-Guided Feature Alignment for Occluded Person Re-Identification 论文地址： https://yu-wu.net/pdf/ICCV2019_Occluded-reID.pdf Partial Feature Branch分支: PCB结构，将…

阅读更多...

精致旅游网ROXANDREA 网页设计 html模板

精致旅游网ROXANDREA 网页设计 html模板

一、需求分析旅游网站通常具有多种功能，以下是一些常见的旅游网站功能： 酒店预订：旅游网站可以提供酒店预订服务，让用户搜索并预订符合其需求和预算的酒店房间。机票预订：用户可以通过旅游网站搜索、比较和预订机票…

阅读更多...

JavaScript 工具库 | PrefixFree给CSS自动添加浏览器前缀

JavaScript 工具库 | PrefixFree给CSS自动添加浏览器前缀

新版的CSS拥有多个新属性，而标准有没有统一，有的浏览器厂商为了吸引更多的开发者和用户，已经加入了最新的CSS属性支持，这其中包含了很多炫酷的功能，但是我们在使用的时候，不得不在属性前面添加这些浏览器的…

阅读更多...

毕业设计之开题报告

毕业设计之开题报告

终于轮到我来写开题报告了，呃呃呃呃呃，目前有点难产了。想做的东西是关于区块链的后端设计实现，但是因为是完全原创之前没有类似的项目能去参考，所以其实有点慌的。框架梳理这是我们开题报告的要求： 包括题目研究的…

阅读更多...

Django框架：入门指南与常用命令

Django框架：入门指南与常用命令

引言： 在当今的Web开发世界中，Django无疑是一个备受瞩目的框架。它以其强大的功能和易用性，吸引着越来越多的开发者。这篇博客将为你提供一个关于Django的概览，以及一些常用的命令，帮助你快速上手。一、Django简介&…

阅读更多...

GPT技术：人工智能的语言革命

GPT技术：人工智能的语言革命

在人工智能的领域中，自然语言处理（NLP）一直是一个极具挑战性的研究领域。随着技术的进步，一个名为GPT（Generative Pre-trained Transformer）的模型出现在了公众的视野中，它不仅改变了我们与机器…

阅读更多...

最新文章