ViT（Vision Transformer详解）

ViT（Vision Transformer详解）

news/2025/7/7 6:12:35/文章来源:https://blog.csdn.net/weixin_60535956/article/details/142757478

Transformer作为前沿的深度学习框架，带有多模态的特性，对于不同类型的输入数据，不管是文本还是图像均可进行处理，而ViT则是对于Transformer中的视觉方面（也就是输入数据为图像）的衍生物（因Transformer对应视觉领域应用受限而提出的）。因而ViT在计算机视觉领域或者遥感领域的图像处理有着较为广泛的应用。

ViT的关键概念

Transformer架构

Transformer最初用于自然语言处理（NLP）来处理序列数据，比如文本。在ViT中，同样的架构被应用于视觉任务，将图像数据作为序列来处理。

ViT的组成部分包括：多头自注意、多层感知器、快捷连接、层归一化、位置编码和网络拓扑，在视觉识别中起着关键作用。

图像作为补丁处理

与传统卷积神经网络（CNN）将整个图像作为输入不同，ViT将图像划分为多个固定大小的小块（如16x16像素），并将每个小块作为输入序列的一部分进行处理。这些图像块就像NLP中的词嵌入一样，通过Transformer进行建模。

无需卷积操作

ViT的创新在于，它不依赖于卷积操作（传统的CNN依赖卷积核来提取图像特征），而是使用Transformer的自注意力机制来学习全局的图像特征关系。

自注意力机制

自注意力机制通过捕捉图像各部分之间的关系，允许模型对整个图像有更全面的理解，而不受局部感受野的限制。

大规模数据训练

ViT的一个重要特性是其性能与数据规模高度相关。要让ViT达到或者超过CNN的效果，通常需要大规模的训练数据（例如在JFT-300M数据集上预训练）。

ViT的优点

全局特征提取能力强：与CNN不同，ViT通过自注意力机制可以捕捉图像全局的信息，适合处理大规模图像任务。
更具可扩展性：在大型数据集上，ViT可以比传统的CNN更有效地利用数据资源，尤其在高性能计算环境下展现出很好的可扩展性。

总结来说，ViT的出现为计算机视觉任务提供了一种不依赖卷积的全新模型架构，尤其在大数据集上展现了强大的性能。

在Vision Transformer (ViT) 中，patch（图像块）是指将输入图像划分成多个小的、固定大小的子图像块。这些图像块是ViT处理图像的基本单元，类似于在自然语言处理（NLP）任务中将文本分成单词或词嵌入。

ViT 相较于传统的Transformer能够更好地捕捉局部特征信息，同时保留传统Transformer对于长依赖关系捕捉的能力，此外，ViT通过添加局部聚合的模块，使得模型对于局部信息较传统结构得到进一步地增强。

Patch的具体概念

划分图像

ViT并不像传统的卷积神经网络（CNN）那样直接处理整张图像。相反，它将图像分割成多个相同大小的图像块（patch）。例如，如果输入图像的尺寸为224x224像素，ViT可能会将其划分成16x16像素的patch，这样整张图像就变成了一个14x14的网格，总共有196个patch。

每个patch的处理

每个patch被视为一个独立的输入单元，相当于NLP中的“词”。这些patch会被展平（flatten）成一维向量，然后通过一个线性嵌入层将其映射到特定维度的特征向量空间中。最终，这些特征向量会被送入Transformer模型进行进一步的处理。

为什么要使用patch？

Transformer模型本质上是处理序列数据的，而图像是一种二维数据格式。为了让Transformer能够处理图像，ViT通过将图像转化为多个patch序列，将二维问题转化为序列问题，从而可以利用Transformer模型中的自注意力机制来建模不同图像块之间的关系。

Patch的大小

Patch的大小（例如16x16）是一个超参数，它会影响模型的性能。如果patch太大，可能会丢失局部的细节信息；如果patch太小，序列的长度会增加，导致计算复杂度变高。因此，选择合适的patch大小非常关键。

Patch的工作流程总结：

输入图像（如224x224像素） → 划分为多个patch（如16x16像素） → 每个patch展平成一维向量 → 嵌入到固定的特征空间 → 作为Transformer的输入序列进行处理。

通过这种方式，ViT能够将图像作为序列数据进行处理，利用Transformer的自注意力机制来理解图像中的全局和局部信息。

参考文献：

《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》

《A Survey on Vision Transformer》

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/881280.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

MATLAB - 浮动基座机器人的逆运动学

MATLAB - 浮动基座机器人的逆运动学

系列文章目录前言本例演示如何解决以浮动底座为模型的机器人的逆运动学问题。浮动底座机器人可以在空间中自由平移和旋转，具有六个自由度。浮动基座机器人的逆运动学问题适用于空间应用，即使用安装在浮动和致动基座上的机械臂在空间操纵物体&#xff0…

阅读更多...

ubuntu添加 SSH 密钥到 GitHub

ubuntu添加 SSH 密钥到 GitHub

好的，以下是详细的步骤，帮助你在 Ubuntu 上生成并添加 SSH 密钥到 GitHub： 1. 检查是否已有 SSH 密钥首先，检查你是否已经有 SSH 密钥： ls -al ~/.ssh如果看到 id_rsa 或 id_ed25519 文件，则表示你已有…

阅读更多...

kubernetes笔记（七）

kubernetes笔记（七）

一、service管理 1.clusterIP 1）创建服务 # 资源对象模板 [rootmaster ~]# kubectl create service clusterip mysvc --tcp80:80 --dry-runclient -o yaml [rootmaster ~]# vim mysvc.yaml --- kind: Service apiVersion: v1 metadata:name: mysvc spec:type: Cl…

阅读更多...

从编程视角看生命、爱、自由、生活的排列顺序

从编程视角看生命、爱、自由、生活的排列顺序

从编程视角看生命、爱、自由、生活的排列顺序离开大学校园，踏入大厂成为一名算法工程师后，我常以编程思维看待生活中的事物。在思考生命、爱、自由和生活的排列顺序时，发现从编程角度分析这些概念会有独特见解。一、生命——程序的核心代…

阅读更多...

k8s 中的金丝雀发布(灰度发布)

k8s 中的金丝雀发布(灰度发布)

目录 1 什么是金丝雀发布 2 Canary 发布方式 3 Canary 两种发布方式实操 3.1 准备工作 3.1.1 将 nginx 命名两个版本 v1 与 v2 3.1.2 暴露端口并指定微服务类型 3.1.3 进入 pod 修改默认发布文件 3.1.4 测试 service 是否正常 3.2 基于权重的灰度发布 3.2.1 创建 Igress 资源类…

阅读更多...

数据分析 | 热度编码和标签编码

数据分析 | 热度编码和标签编码

热度编码（One-Hot Encoding）和标签编码（Label Encoding）是两种常用的将分类变量转换为数值型变量的方法。下面是对这两种编码方式的详细解释及Python代码示例。 1. 热度编码（One-Hot Encoding） 定义&…

阅读更多...

MS SQL Server 实战统计与汇总重复记录

MS SQL Server 实战统计与汇总重复记录

目录需求范例运行环境数据样本设计功能实现上传EXCEL文件到数据库分组统计 SQL 语句分组汇总 SQL 语句 having 语句过滤最终统计结果小结需求在日常的数据管理应用中，统计和汇总重复记录的情况是经常遇到的一个问题，然后我们会根据统…

阅读更多...

谢希仁计算机网络（四）—— 网络层

谢希仁计算机网络（四）—— 网络层

计算机网络（四）—— 网络层（1、2）：网络层概述、网络层提供的两种服务计算机网络（四）—— 网络层（1、2）：网络层概述、网络层提供的两种服务_以下属于网络层范…

阅读更多...

IntelliJ IDEA 2024.2 新特性概览

IntelliJ IDEA 2024.2 新特性概览

文章目录 1、重点特性:1.1 改进的 Spring Data JPA 支持1.2 改进的 cron 表达式支持1.3 使用 GraalJS 作为 HTTP 客户端的执行引擎1.4 更快的编码时间1.5 K2 模式下的 Kotlin 性能和稳定性改进 2、用户体验2.1 改进的全行代码补全2.2 新 UI 成为所有用户的默认界面2.3 Search E…

阅读更多...

传感器模块编程实践(二)W5500 SPI转以太网模块简介及驱动源码

传感器模块编程实践(二)W5500 SPI转以太网模块简介及驱动源码

文章目录一.概要二.W5500芯片介绍W5500通讯协议介绍三.W5500模块介绍四.W5500模块原理图五.W5500以太网模通讯实验六.CubeMX工程源代码下载七.小结一.概要我们介绍过单片机的以太网系统一般是由：单片机MACPHYRJ45。有些单片机比如STM32F407VET6芯片内部自带MAC…

阅读更多...

深度学习：GAN图像生成

深度学习：GAN图像生成

GAN的诞生背景诞生： 2014年由Ian Goodfellow提出创新性： 无监督学习：GAN 提供了一种新的方法来进行无监督学习，即不需要对训练数据进行标注就可以学习到数据的潜在分布。对抗训练：通过引入对抗机制，G…

阅读更多...

pygame--超级马里奥（万字详细版）

pygame--超级马里奥（万字详细版）

超级马里奥点我下载https://github.com/marblexu/PythonSuperMario 1.游戏介绍小时候的经典游戏，代码参考了github上的项目Mario-Level-1，使用pygame来实现，从中学习到了横版过关游戏实现中的一些处理方法。原项目实现了超级玛丽的第一个小…

阅读更多...

iSTFT 完美重构的条件详解

iSTFT 完美重构的条件详解

目录引言1. 短时傅里叶变换（STFT）与逆变换（iSTFT）概述2. 完美重构的条件3. 数学推导4. 实现要点5. 示例代码6. 总结引言在数字信号处理领域，短时傅里叶变换（Short-Time Fourier Transform，简…

阅读更多...

鸿蒙next开发者第一课02.DevEcoStudio的使用-习题

鸿蒙next开发者第一课02.DevEcoStudio的使用-习题

【习题】DevEco Studio的使用通过/及格分80/ 满分100 判断题 1. 如果代码中涉及到一些网络、数据库、传感器等功能的开发，均可使用预览器进行预览。F 正确(True)错误(False) 预览器不能进行传感器等特殊功能的开发,需要使用真机开发 2. module.json5文件中的…

阅读更多...

SpringBoot中使用Redis实现排行榜功能，并考虑到当用户积分相同时，要求按最后更新时间升序

SpringBoot中使用Redis实现排行榜功能，并考虑到当用户积分相同时，要求按最后更新时间升序

Redis 实现排行榜主要依赖于其有序集合zset（Sorted Set）数据结构。 zset中可以存储不重复的元素集合，并为每个元素关联一个浮点数分数（score），Redis 会根据这个分数自动对集合中的元素进行排序。可以使用 …

阅读更多...

栈与队列面试题(Java数据结构)

栈与队列面试题(Java数据结构)

前言： 这里举两个典型的例子，实际上该类型的面试题是不确定的！ 用栈实现队列： 232. 用栈实现队列 - 力扣（LeetCode） 方法一：双栈思路将一个栈当作输入栈，用于压入 push 传入的数…

阅读更多...

淘宝/天猫平台淘宝商品评论 API 技术文档分享

淘宝/天猫平台淘宝商品评论 API 技术文档分享

一、获得淘宝商品评论 API 的步骤与配置注册淘宝开放平台账号： 访问淘宝开放平台官网，注册并登录账号（私信博主获得测试详情）。完成企业或个人实名认证，确保账号具备开发应用的资质。创建应用： 在淘宝开…

阅读更多...

初始爬虫12（反爬与反反爬）

初始爬虫12（反爬与反反爬）

学到这里，已经可以开始实战项目了，多去爬虫，了解熟悉反爬，然后自己总结出一套方法怎么做。 1.服务器反爬的原因服务器反爬的原因总结： 1.爬虫占总PV较高，浪费资源 2.资源被批量抓走，丧失竞争力…

阅读更多...

动态规划10：174. 地下城游戏

动态规划10：174. 地下城游戏

动态规划解题步骤： 1.确定状态表示：dp[i]是什么 2.确定状态转移方程：dp[i]等于什么 3.初始化：确保状态转移方程不越界 4.确定填表顺序：根据状态转移方程即可确定填表顺序 5.确定返回值题目链接：174.…

阅读更多...

小米路由器ax1500+DDNS+公网IP+花生壳实现远程访问

小米路由器ax1500+DDNS+公网IP+花生壳实现远程访问

有远程办公的需求，以及一些其他东西。为什么写？ ax1500路由器好像没搜到相关信息。以及其中有一点坑。前置公网ip Xiaomi路由器 AX1500 MiWiFi 稳定版 1.0.54 实现流程花生壳申请壳域名https://console.hsk.oray.com/ 这里需要为域名实名认证 …

阅读更多...

最新文章