Transformer+vit原理分析

目录

一、Transformer的核心思想

1. 自注意力机制(Self-Attention)

2. 多头注意力(Multi-Head Attention)

二、Transformer的架构

1. 整体结构

2. 编码器层(Encoder Layer)

3. 解码器层(Decoder Layer)

三、关键技术与细节

1. 位置编码(Positional Encoding)

2. 掩码机制(Masking)

3. 前馈神经网络(FFN)

四、训练与优化

1. 损失函数

2. 优化技巧

五、Transformer的应用与变体

1. 经典应用

2. 变体模型

六、Transformer的优势与局限

1. 优势

2. 局限

七、vision transformer

1.Vision Transformer的核心思想

2.ViT架构的关键组件

(1) 图像分块与嵌入(Patch Embedding)

(2) 位置编码(Positional Encoding)

(3) Transformer Encoder

(4) 分类头(Classification Head)

3. 数据处理与训练流程

4. MindSpore实现特点

5. ViT与传统CNN的对比

6.关键代码片段(简化版)


Transformer 模型是2017年由Google提出的一种革命性的深度学习架构(但不是一种AI框架,区别于Tensorflow,可以理解为一种算法),主要用于序列到序列(Seq2Seq)任务(如机器翻译、文本生成等)。它的核心创新在于完全摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN),转而依赖自注意力机制(Self-Attention)捕捉序列中元素之间的全局依赖关系。Transformer通过自注意力机制彻底改变了序列建模方式,成为现代NLP的基石。其设计启发了BERT、GPT等划时代模型,并扩展到了计算机视觉、语音处理等领域。

一、Transformer的核心思想

1. 自注意力机制(Self-Attention)
  • 目标:为序列中的每个位置(如单词)分配不同的权重,表示该位置对其他位置的依赖程度。
  • 输入:三个向量(Query, Key, Value),均来自同一输入序列的线性变换。
  • 计算步骤

1. 相似度计算:通过Query和Key的点积计算每对位置之间的相关性。

2. 缩放(Scaling):除以根号下维度(),防止点积值过大导致梯度消失。

3. Softmax归一化:得到权重矩阵(注意力分数)。

4. 加权求和:用权重矩阵对Value向量加权求和,得到最终输出。

公式

2. 多头注意力(Multi-Head Attention)
  • 动机:单次注意力可能只关注局部信息,多头机制允许模型同时关注不同子空间的信息。
  • 实现:将Q、K、V分别拆分到多个头(如8个头),每个头独立计算注意力,最后拼接结果并通过线性层融合。

二、Transformer的架构

1. 整体结构
  • 编码器(Encoder):由N个相同层堆叠而成(原论文N=6)。

解码器(Decoder):同样由N个层堆叠,每个层比编码器多一个交叉注意力(Cross-Attention)模块。

2. 编码器层(Encoder Layer)

每层包含两个子模块:

1. 多头自注意力(Multi-Head Self-Attention):处理输入序列的内部依赖。

2. 前馈神经网络(Feed-Forward Network, FFN):两层全连接层(中间用ReLU激活)。

残差连接(Residual Connection)层归一化(Layer Normalization)应用于每个子模块后。

3. 解码器层(Decoder Layer)

每层包含三个子模块:

1. 掩码多头自注意力(Masked Multi-Head Self-Attention):防止解码时看到未来信息。

2. 交叉注意力(Cross-Attention):将解码器的Query与编码器的Key、Value交互。

3. 前馈神经网络(FFN)

  • 同样使用残差连接和层归一化。

三、关键技术与细节

1. 位置编码(Positional Encoding)
  • 问题:Transformer没有RNN/CNN的顺序处理能力,需显式注入位置信息。
  • 方法:使用正弦和余弦函数生成位置编码,与输入向量相加。

2. 掩码机制(Masking)
  • 解码器自注意力掩码:掩盖未来位置,确保预测第t步时只能看到前t-1步的信息。
  • 填充掩码(Padding Mask):忽略无效的填充位置(如补齐序列的0)。

3. 前馈神经网络(FFN)
  • 结构:两层全连接,中间维度扩大(如输入维度512 → 中间2048 → 输出512)。

公式:

四、训练与优化

1. 损失函数
  • 交叉熵损失(Cross-Entropy Loss),用于分类任务(如预测下一个词)。

2. 优化技巧
  • 学习率预热(Learning Rate Warmup):逐步增加学习率,避免初始阶段不稳定。
  • 标签平滑(Label Smoothing):防止模型对标签过于自信,提升泛化能力。

五、Transformer的应用与变体

1. 经典应用
  • 机器翻译(原始论文任务)。
  • BERT:仅用编码器,通过掩码语言模型预训练。
  • GPT系列:仅用解码器,自回归生成文本。

2. 变体模型
  • Vision Transformer(ViT):将图像分块后输入Transformer。
  • Longformer:改进注意力机制,处理长序列。
  • T5:统一的文本到文本框架。

六、Transformer的优势与局限

1. 优势
  • 并行计算效率高(相比RNN)。
  • 长距离依赖捕捉能力强。
  • 灵活适应多种任务(如文本、图像、语音)。

2. 局限
  • 计算复杂度与序列长度平方成正比(O(n²))。
  • 对位置编码的依赖较强,可能影响泛化。

七、vision transformer

1.Vision Transformer的核心思想

ViT将图像处理任务转化为类似自然语言处理(NLP)的序列建模问题,通过Transformer Encoder结构替代传统的卷积神经网络(CNN)。核心思想如下:

  • 图像分块(Patch Embedding):将输入图像分割为固定大小的图像块(如16x16像素),每个块被展平为一个向量,作为Transformer的输入序列。
  • 位置编码(Positional Encoding):由于Transformer本身不具备空间位置感知能力,需为每个图像块添加位置编码,以保留图像的空间信息。
  • 类标记(Class Token):在输入序列前添加一个可学习的类标记(Class Token),用于最终分类任务。

2.ViT架构的关键组件

(1) 图像分块与嵌入(Patch Embedding)
  • 输入图像(如224x224)被划分为多个固定大小的块(如16x16),每个块展平为向量(如16x16x3=768维)。
  • 通过线性投影(`nn.Dense`)将每个块映射到嵌入空间,生成Patch Embeddings
  • 示例操作:
  # MindSpore中的分块与嵌入实现
  self.patch_embedding = nn.Conv2d(in_channels, embed_dim, kernel_size=patch_size, stride=patch_size, has_bias=True)

(2) 位置编码(Positional Encoding)
  • 为每个图像块添加位置编码,编码方式可以是可学习的参数(`nn.Embedding`)或预定义的固定编码。
  • 位置编码与Patch Embeddings相加,形成最终的输入序列。

(3) Transformer Encoder
  • 由多个Multi-Head Self-Attention层和Feed-Forward Network(FFN)堆叠而成。
  • Self-Attention:通过计算序列内各元素间的相关性,捕捉全局依赖关系。
  • Layer NormalizationLN -- 层标准化)残差连接:确保训练稳定性和梯度流动。
  • MindSpore中可以使用`nn.TransformerEncoderLayer`实现单层Transformer。

(4) 分类头(Classification Head)
  • 取类标记对应的输出向量,通过多层感知机(MLP)进行分类。
  self.classifier = nn.Dense(embed_dim, num_classes)

3. 数据处理与训练流程
  • 图像预处理:标准化(如ImageNet均值/方差)、调整大小、分块。
  • 数据增强:随机裁剪、翻转、颜色扰动等(使用MindSpore的`transforms`模块)。
  • 训练优化:使用交叉熵损失函数、AdamW优化器,支持分布式训练和混合精度加速。

4. MindSpore实现特点
  • 动态图模式(PyNative):灵活调试模型结构。
  • 混合精度训练:通过`model.train`的`amp_level`参数加速训练。
  • 分布式训练支持:结合`set_auto_parallel_context`实现多卡并行。

5. ViT与传统CNN的对比

6.关键代码片段(简化版)

VisionTransformer模块实现

import mindspore.nn as nnclass VisionTransformer(nn.Cell):def __init__(self, image_size=224, patch_size=16, num_classes=1000, embed_dim=768, depth=12):super().__init__()
        num_patches = (image_size // patch_size) ** 2
        self.patch_embedding = nn.Conv2d(3, embed_dim, kernel_size=patch_size, stride=patch_size, has_bias=True)
        self.cls_token = Parameter(initializer('normal', (1, 1, embed_dim)))
        self.pos_embed = Parameter(initializer('normal', (1, num_patches + 1, embed_dim)))
        self.transformer = nn.TransformerEncoder(depth, embed_dim, num_heads=12)
        self.classifier = nn.Dense(embed_dim, num_classes)def construct(self, x):
        x = self.patch_embedding(x)  # 分块嵌入
        x = x.flatten(2).transpose(0, 2, 1)
        cls_token = self.cls_token.tile((x.shape[0], 1, 1))
        x = ops.concat((cls_token, x), axis=1)  # 添加类标记
        x += self.pos_embed  # 位置编码
        x = self.transformer(x)  # Transformer编码
        x = x[:, 0]  # 提取类标记输出
        x = self.classifier(x)return x

参考文档Vision Transformer图像分类 — MindSpore master 文档

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/894180.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

WPS mathtype间距太大、显示不全、公式一键改格式/大小

1、间距太大 用mathtype后行距变大的原因 mathtype行距变大到底怎么解决-MathType中文网 段落设置固定值 2、显示不全 设置格式: 打开MathType编辑器点击菜单栏中的"格式(Format)"选择"间距(Spacing)"在弹出的对话框中调整"分数间距(F…

C# 添加、替换、提取、或删除Excel中的图片

在Excel中插入与数据相关的图片,能将关键数据或信息以更直观的方式呈现出来,使文档更加美观。此外,对于已有图片,你有事可能需要更新图片以确保信息的准确性,或者将Excel 中的图片单独保存,用于资料归档、备…

Python练习(2)

今日题单 吃鱼还是吃肉 PTA | 程序设计类实验辅助教学平台 降价提醒机器人PTA | 程序设计类实验辅助教学平台 幸运彩票 PTA | 程序设计类实验辅助教学平台 猜帽子游戏 PTA | 程序设计类实验辅助教学平台 谁管谁叫爹 PTA | 程序设计类实验辅助教学平台 就不告诉你 PTA | 程…

Formality:黑盒(black box)

相关阅读 Formalityhttps://blog.csdn.net/weixin_45791458/category_12841971.html?spm1001.2014.3001.5482 简介 在使用Formality时,黑盒(black box)的概念很重要,指的是一个其功能未知的设计。黑盒通常用于设计中不可综合的组件,包括RAM…

开源2+1链动模式AI智能名片S2B2C商城小程序:利用用户争强好胜心理促进分享行为的策略研究

摘要:随着互联网技术的快速发展和社交媒体的普及,用户分享行为在企业营销中的作用日益凸显。本文旨在探讨如何利用用户的争强好胜心理,通过开源21链动模式AI智能名片S2B2C商城小程序(以下简称“小程序”)促进用户分享行…

八股学习 微服务篇

微服务篇 常见面试内容Spring Cloud 常见组件注册中心Ribbon负载均衡策略服务雪崩 常见面试内容 Spring Cloud 常见组件 Spring Cloud有5个常见组件: Eureka/Nacos:注册中心;Ribbon:负载均衡;Feign:远程调用;Hystrix/Sentinel:服…

Synology 群辉NAS安装(6)安装mssql

Synology 群辉NAS安装(6)安装mssql 写在前面mssql 2019:成功安装说明,这个最终成功了 mssql 2022没有成功1. pull image2.启动mssql docker container 远程连接 写在前面 mssq是一个重要节点。 这是因为我对mysql没有一丝好感。虽然接触了许…

mysql_init和mysql_real_connect的形象化认识

解析总结 1. mysql_init 的作用 mysql_init 用于初始化一个 MYSQL 结构体,为后续数据库连接和操作做准备。该结构体存储连接配置及状态信息,是 MySQL C API 的核心句柄。 示例: MYSQL *conn mysql_init(NULL); // 初始化连接句柄2. mysql_…

qt-QtQuick笔记之常见项目类简要介绍

qt-QtQuick笔记之常见项目类简要介绍 code review! 文章目录 qt-QtQuick笔记之常见项目类简要介绍1.QQuickItem2.QQuickRectangle3.QQuickImage4.QQuickText5.QQuickBorderImage6.QQuickTextInput7.QQuickButton8.QQuickSwitch9.QQuickListView10.QQuickGridView11.QQuickPopu…

0 基础学运维:解锁 K8s 云计算运维工程师成长密码

前言:作为一个过来人,我曾站在技术的门槛之外,连电脑运行内存和内存空间都傻傻分不清,完完全全的零基础。但如今,我已成长为一名资深的k8s云计算运维工程师。回顾这段历程,我深知踏上这条技术之路的艰辛与不…

Spring Boot - 数据库集成06 - 集成ElasticSearch

Spring boot 集成 ElasticSearch 文章目录 Spring boot 集成 ElasticSearch一:前置工作1:项目搭建和依赖导入2:客户端连接相关构建3:实体类相关注解配置说明 二:客户端client相关操作说明1:检索流程1.1&…

联想拯救者R720笔记本外接显示屏方法,显示屏是2K屏27英寸

晚上23点10分前下单,第二天上午显示屏送到,检查外包装没拆封过。这个屏幕左下方有几个按键,按一按就开屏幕、按一按就关闭屏幕,按一按方便节省时间,也支持阅读等模式。 显示屏是 :AOC 27英寸 2K高清 100Hz…

什么是线性化PDF?

线性化PDF是一种特殊的PDF文件组织方式。 总体而言,PDF是一种极为优雅且设计精良的格式。PDF由大量PDF对象构成,这些对象用于创建页面。相关信息存储在一棵二叉树中,该二叉树同时记录文件中每个对象的位置。因此,打开文件时只需加…

你的连接不是专用连接

当你打开网站看到如下提示,说明SSL证书到期了。 攻击者可能试图www窃取你的信息(例如、密码、消息或信用卡)。详细了解此警告 NET::ERR_CERT_DATE_INVALID 此服务器无法证明它是WWW ;它的安全证书已于2天前到期。这可能是错误配置或攻击者…

51单片机开发:定时器中断

目标:利用定时器中断,每隔1s开启/熄灭LED1灯。 外部中断结构图如下图所示,要使用定时器中断T0,须开启TE0、ET0。: 系统中断号如下图所示:定时器0的中断号为1。 定时器0的工作方式1原理图如下图所示&#x…

【电工基础】1.电能来源,触电伤害,触电预防,触电急救

一。电能来源 1.电能来源 发电-》输电-》变电-》配电 2.分配电 一类负荷 如果供电中断会造成生命危险,造成国民经济的重大损失,损坏生产的重要设备以致使生产长期不能恢复或产生大量废品,破坏复杂的工艺过程,以及破坏大…

简易计算器(c++ 实现)

前言 本文将用 c 实现一个终端计算器: 能进行加减乘除、取余乘方运算读取命令行输入,输出计算结果当输入表达式存在语法错误时,报告错误,但程序应能继续运行当输出 ‘q’ 时,退出计算器 【简单演示】 【源码位置】…

python-leetcode-从前序与中序遍历序列构造二叉树

105. 从前序与中序遍历序列构造二叉树 - 力扣(LeetCode) # Definition for a binary tree node. # class TreeNode: # def __init__(self, val0, leftNone, rightNone): # self.val val # self.left left # self.right r…

NLP深度学习 DAY4:Word2Vec详解:两种模式(CBOW与Skip-gram)

用稀疏向量表示文本,即所谓的词袋模型在 NLP 有着悠久的历史。正如上文中介绍的,早在 2001年就开始使用密集向量表示词或词嵌入。Mikolov等人在2013年提出的创新技术是通过去除隐藏层,逼近目标,进而使这些单词嵌入的训练更加高效。…

vscode+WSL2(ubuntu22.04)+pytorch+conda+cuda+cudnn安装系列

最近在家过年闲的没事,于是研究起深度学习开发工具链的配置和安装,之前欲与天公试比高,尝试在win上用vscodecuda11.6vs2019的cl编译器搭建cuda c编程环境,最后惨败,沦为笑柄,痛定思痛,这次直接和…