ViT的若干细节

ViT的若干细节

news/2025/7/4 0:15:49/文章来源:https://blog.csdn.net/transformer_WSZ/article/details/136436067

之前只看了ViT的大概结构，具体的模型细节和代码实现知之甚少。随着ViT逐渐成为CV领域的backbone，有必要重新审视下。

ViT

patch -> token

为了将图片处理成序列格式，很自然地想到将图片分割成一个个patch，再把patch处理成token。

patch

假设图片大小为 $224 \times 224 \times 3$ (即 $\times W \times C$ )，每个patch大小为 $16 \times 16 \times 3$ ，那么序列长度就是 $196$ ，序列的形状是 $196 \times 768$ 。

如何将大小为 $16 \times 16 \times 3$ 的patch，映射为 $768$ 维的token？源码是直接将其reshape

在reshape之后，还需要过一层 $768 \times 768$ 的embedding层。因为reshape后的 $768$ 维向量是参数无关的，不参与梯度更新，过完embedding层，即拥有了token embedding的语义信息。

处理成patch的好处

减少计算量：如果按照pixel维度计算self-attention，那复杂度大大增加。patch size越大，复杂度越低。stable diffusion也是这个思路，在latent space进行扩散，而不是pixel
减少图像冗余信息：图像是有大量冗余信息的，处理成patch不影响图片语义信息

position embedding

论文采用的是可学习式位置编码，跟bert类似，初始化一个可学习的1-d参数向量

其它的位置编码方案结果对比：
pos

个人感觉2-d位置编码更make sense，它保留了patch之间的空间位置关系，跟CNN类似。直接粗暴地拉平成一维序列，则丢弃了这种空间信息。

实验结果

exp

在相同的数据集JFT-300M上预训练后，ViT在所有的下游任务上，都超过了BiT。值得注意的是，准确率上提升不大，但训练时间大为缩短。

可能是基于Transformer架构的VIT，和卷积神经网络相比，更适合做切分均匀的矩阵计算，这样我们就能把参数均匀切到不同卡上做分布式训练，更好利用GPU算力，提升训练效率。

但transformer架构有个独门绝技，那就是大力出奇迹。数据量越大，模型参数越多，任务效果就越好。下图就是证明：

exp

ViT学习到空间局部性了吗？

local

可以看到，每个patch除了跟自己最相似外，其与周围的patch相关性高于距离较远的patch。这就说明ViT通过位置编码，已经学到了一定的空间局部性。

总结

ViT证明了Transformer架构在CV领域的可行性，以后Transformer将大一统各领域。NLP的成功经验非常有潜力迁移到CV领域，比如scaling law，大数据+大模型的范式将开拓出CV的新一片天地。
- 大数据+大模型真的是既无脑又有效，通过这种方式让Transformer自己去学习到特定领域的归纳偏置。可以说Transformer下限比CNN低，但上限又是CNN无法企及的。

参考

再读VIT，还有多少细节是你不知道的

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/717051.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Mysql整理-主从复制

Mysql整理-主从复制

MySQL的主从复制是一种常见的数据复制和分布式数据共享方法。在这种架构中，一个MySQL服务器充当主（master）服务器，而一个或多个其他MySQL服务器充当从（slave）服务器。数据从主服务器复制到从服务器，实现数据的分布和备份。这种设置主要用于数据备份、读取扩展、灾难恢复…

阅读更多...

Python系列（20）—— 循环语句

Python系列（20）—— 循环语句

Python中的循环控制语句一、引言在Python编程中，循环是重复执行一段代码直到满足特定条件的基本结构。Python提供了多种循环控制语句，如For 和While ，以及用于控制循环流程的辅助语句，如Break、Continue和Pass。这些语句的组合…

阅读更多...

SpringBoot缓存

SpringBoot缓存

目录缓存支持缓存集成 redis缓存集成缓存支持 Spring 框架只提供抽象，不提供具体的缓存存储，底层需要依赖第三方存储组件，如果当前应用没有注册CacheManager 或者 CacheResolver 实例，Spring Boot 会按以下缓存组件的顺序来…

阅读更多...

[蓝桥杯 2020 省 B1] 整数拼接

[蓝桥杯 2020 省 B1] 整数拼接

一、题目描述 P8712 [蓝桥杯 2020 省 B1] 整数拼接二、题目简析我们选两个数 a a a 和 b b b，用 f ( a , b ) f(a, b) f(a,b) 表示 a a a 在前、 b b b 在后的拼接，即 f ( a , b ) a ∗ 1 0 b . s i z e b f(a, b) a * 10^{b.size} b f(a,…

阅读更多...

Linux学习：初始Linux

Linux学习：初始Linux

目录 1. 引子：1.1 简述：操作系统1.2 学习工具 2. Linux操作系统中的一些基础概念与指令2.1 简单指令2.2 ls指令与文件2.3 cd指令与目录2.4 文件目录的新建与删除指令2.5 补充指令1：2.6 文件编辑与拷贝剪切2.7 文件的查看2.8 时间相关指令2.9 …

阅读更多...

洛谷P1256 显示图像

洛谷P1256 显示图像

广搜练手题题目链接思路打印每个数与其最近的 1 1 1的曼哈顿距离，显然广搜，存储每一个 1 1 1，针对每一个 1 1 1开始广搜，逐层更新，每轮后更新的为两轮之中的最小曼哈顿距离 ACcode #include<bits/stdc.h>…

阅读更多...

波动数列（蓝桥杯）

波动数列（蓝桥杯）

问题描述： 观察如下数列： 1 3 0 2 -1 1 -2 … 这个数列中后一项总是比前一项增加 2 或者减少 3。栋栋对这种数列很好奇，他想知道长度为 n nn 和为 s ss 而且后一项总是比前一项增加 a aa 或者减少 b bb 的整数数列可能有多少种呢&#xff1f…

阅读更多...

非专业程序员常用vscode插件

非专业程序员常用vscode插件

牙叔教程简单易懂我常用的脚本语言是js, python. AutoHotkey v2 Language Support vscode-autohotkey-debug 由于工作有写重复, 要用到autohotkey, 所以装这个插件 Black Formatter 格式化python代码 Bookmarks 书签 change-case 命名方式: 小驼峰, 下划线, 等命名风格转…

阅读更多...

【网站项目】202物流管理系统

【网站项目】202物流管理系统

🙊作者简介：拥有多年开发工作经验，分享技术代码帮助学生学习，独立完成自己的项目或者毕业设计。代码可以私聊博主获取。🌹赠送计算机毕业设计600个选题excel文件，帮助大学选题。赠送开题报告模板&#xff…

阅读更多...

不会代码的时候，如何使用Jmeter完成接口测试

不会代码的时候，如何使用Jmeter完成接口测试

1.接口测试简介接口测试是测试系统组件间接口的一种测试。接口测试主要用于检测外部系统与系统之间以及内部各个子系统之间的交互点。测试的重点是要检查数据的交换，传递和控制管理过程，以及系统间的相互逻辑依赖关系等。 2.接口测试流程接口测试的…

阅读更多...

【贪玩巴斯】VisualStudio+Github联合工作指令

【贪玩巴斯】VisualStudio+Github联合工作指令

实现在本地VisualStudio进行代码改写，同时上传Github和项目组成员实时更新代码。格式指令： alt z ctrl shift p后输入 wordwrap —— 进行格式排盘（在一页中能够完全显示，代码会自动换行） git pull origin mast…

阅读更多...

2024.3.1 小项目

2024.3.1 小项目

1、机械臂 #include <myhead.h> #define SER_IP "192.168.125.32" //服务器端IP #define SER_PORT 8888 //服务器端端口号#define CLI_IP "192.168.68.148" //客户端IP #define CLI_PORT 9999 /…

阅读更多...

串的BF算法（朴素查找算法）

串的BF算法（朴素查找算法）

串的模式匹配：在主串str的pos位置查找子串sub，找到返回下标，没有找到返回-1。 1.BF算法思想相等则继续比较，不相等则回退；回退是i退到刚才位置的下一个（i-j1）;j退到0；利用子串是否…

阅读更多...

Python matplotlib

Python matplotlib

目录 1、安装 matplotlib 2、绘制折线图修改标签文字和线条粗细校正图形 3、绘制散点图绘制单点绘制一系列点自动计算数据删除数据点的轮廓自定义颜色使用颜色映射自动保存图表 4、随机漫步创建 RandomWalk() 类选择方向绘制随机漫步图给点着色 …

阅读更多...

最简单的ubuntu远程桌面方法

最简单的ubuntu远程桌面方法

最简单的ubuntu远程桌面方法部署环境：Ubuntu 20.04 LTS 现在最常用的远程控制Linux系统的方法是通过XRDP、VNC等，但是安装配置过程繁琐复杂，经常出现各种问题导致连接失败，另外一方面延迟较高，操作卡顿。经过我坚…

阅读更多...

【Java项目介绍和界面搭建】拼图小游戏——键盘、鼠标事件

【Java项目介绍和界面搭建】拼图小游戏——键盘、鼠标事件

🍬 博主介绍👨‍🎓 博主介绍：大家好，我是 hacker-routing ，很高兴认识大家~ ✨主攻领域：【渗透领域】【应急响应】【Java】【VulnHub靶场复现】【面试分析】 🎉点赞➕评论➕收藏 …

阅读更多...

DDS数据分发服务——提升汽车领域数据传输效率

DDS数据分发服务——提升汽车领域数据传输效率

1.引言随着智能化技术的快速发展，汽车行业正经历着一场革命性的变革。如今的分布式系统变得越来越复杂且庞大，对网络通信基数要求在功能和性能层面越来越高。数据分发服务（DDS）作为一项先进的数据传输解决方案，在汽车…

阅读更多...

2369. 检查数组是否存在有效划分（动态规划）

2369. 检查数组是否存在有效划分（动态规划）

2024-3-1 文章目录 [2369. 检查数组是否存在有效划分](https://leetcode.cn/problems/check-if-there-is-a-valid-partition-for-the-array/)思路：代码： 2369. 检查数组是否存在有效划分思路： 1.状态定义:f[i]代表考虑将[0,i]是否能被有效划…

阅读更多...

电脑要用多少V的电源？电脑电源输入电压是市电

电脑要用多少V的电源？电脑电源输入电压是市电

台式电源的输出电压是多少？ 电脑电源输出一般有三种不同的电压，分别是： 12V、5V、3.3V。电脑电源负责给电脑配件供电，如CPU、主板、内存条、硬盘、显卡等，是电脑的重要组成部分。工作电流根据不同的硬件及其使用状…

阅读更多...

LeetCode15：三数之和

LeetCode15：三数之和

题目描述给你一个整数数组 nums ，判断是否存在三元组 [nums[i], nums[j], nums[k]] 满足 i ! j、i ! k 且 j ! k ，同时还满足 nums[i] nums[j] nums[k] 0 。请你返回所有和为 0 且不重复的三元组。注意：答案中不可以包含重复的三元组…

阅读更多...

最新文章