李沐——论文阅读——VIT(VIsionTransformer)

李沐——论文阅读——VIT(VIsionTransformer)

news/2025/4/26 19:11:25/文章来源:https://blog.csdn.net/xiao_ZHEDA/article/details/134014041

一、终极结论：

如果在足够多的数据上面去做预训练，那么，我们也可以不用卷积神经网络，而是直接用自然语言处理那边搬过来的 Transformer，也能够把视觉问题解决的很好

（tips：paperswithcode.com——查看各个机器学习领域的State of art）

二、标题信息：

一张图像 == 很多16*16大小的单词序列

三、摘要:

在NLP中无论是Bert,GPT还是T5,其中的transformer已经成为了标配，但是，计算机视觉中tranformer用得还有限，即使是使用了transformer，也只是在整个model的一个stage中用到了自注意力机制。而VIT会告诉你，这些都不用，直接照搬NLP的model就可以了

四、引言：

首先，transformer的应用，使得GPT那些大模型还没有性能饱和，

其次，直接用原始像素的话太大了，不可行，而已有的工作呢，比如，有把网络中间的feature map作为transformer的输入的，也有分横轴、纵轴作为transformer的输入的（这个的硬件加速没有实现，所以很难做大模型）

之后，就是VIT的工作，就是将图像看作1个个16*16大小的“单词序列”，直接输入到NLP的model中即可

最后，结果显示，只要预训练的数据够多，就能够取得比原来卷积神经网络更好的效果

五、结论：

反正，就是这个VIT能够把分类任务做得很好，然后，在图像分割等视觉也应该能够做得很好（挖坑），并提出了一些展望什么的。

六、相关工作：

和introduction中的前期工作相似，多了一个利用图像生成（imageGPT）进行图像分类，当时只是达到72%的正确率，但是，后来何凯明团队提出的MAE却能够利用图像生成在各个图像任务上面取得很好的效果

七、主题：VIT模型的结构

主要就是这个patch embedding的部分，整个transformer Encoder就是重复了L次的上面右图的结构,同时，这个视频也讲到整个 “前向流程”——包括1D的位置编码。。。参见视频即可，需要用的时候再去了解

（对了，这里明白了一个新的点，就是消融实验，一般放到附录中，有点像单一变量原则）

八、实验部分：

就是展示了这个VIT的正确率情况等等。。。反正就是表现得非常nice,还有它里面每一层特征学到的结果，还有改用自监督的方式训练得到的结果正确率只有80%。。。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/123244.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

STM32F10xx 存储器和总线架构

STM32F10xx 存储器和总线架构

一、系统架构在小容量、中容量和大容量产品中，主系统由以下部分构成： 四个驱动单元 ： Cotex-M3内核、DCode总线（D-bus）和系统总线（S-bus） 通用DMA1和通用DMA2 四个被动单元内部SRAM 内部…

阅读更多...

UE5使用Dash插件实现程序化地形场景制作

UE5使用Dash插件实现程序化地形场景制作

目录 0 dash下载后激活 1 初步使用 2 导入bridge的资产路径 3 练习成果 4 参考链接 0 dash下载后激活 1 初步使用 Dash插件点击蓝色的A，可以使用。通过输入不同提示命令，来激活不同的功能。 2 导入bridge的资产路径这里需要注意是UAsserts…

阅读更多...

react中通过props实现父子组件间通信

react中通过props实现父子组件间通信

一、父组件向子组件传值在React中，无论是函数式组件还是类组件，都可以通过props实现父组件向子组件传值。以下是具体的示例说明： 1. 函数式组件通过props传值： // 父组件 function ParentComponent() {const message "H…

阅读更多...

NCCL后端

NCCL后端

"NCCL" 代表 "NVIDIA Collective Communications Library"，"NVIDIA 集体通信库"，它是一种由 NVIDIA 开发的用于高性能计算的通信库。NCCL 专门设计用于加速 GPU 群集之间的通信，以便在并行计算和深度学习等领域…

阅读更多...

mysql-面试50题-4

mysql-面试50题-4

一、查询数据 ymysql-面试50题-2-CSDN博客二、问题 31.查询课程编号为 01 且课程成绩在 80 分以上的学生的学号和姓名 mysql> select student.sid,student.sname -> from student,sc -> where cid"01" -> and score>80 -> a…

阅读更多...

39 深度学习（三）：tensorflow.data模块的使用（基础，可跳）

39 深度学习（三）：tensorflow.data模块的使用（基础，可跳）

文章目录 data模块的使用基础api的介绍csv文件tfrecord data模块的使用在训练的过程中，当数据量一大的时候，我们纯读取一个文件，然后每次训练都调用相同的文件，然后进行处理是很不科学的，或者说，当我们需…

阅读更多...

ES6.8集群配置注意点

ES6.8集群配置注意点

x-pack配置当启用xpack.security.enabled时，确保集群中的所有节点都配置了此项，并确保所有节点都已重启。如果只有部分节点启用安全性，那么集群可能会遇到问题。设置密码使用elasticsearch-setup-passwords工具设置密码时，确保…

阅读更多...

springboot 配置文件加载顺序

springboot 配置文件加载顺序

SpringBoot中配置文件的加载顺序是怎样的? 优先级从高到低，高优先级的配置覆盖低优先级的配置，所有配置会形成互补配置。 1.命令行参数。所有的配置都可以在命令行上进行指定; 2.Java系统属性(System.getProperties0) ; 3.操作系统环境变量 4.jar包外…

阅读更多...

一、Docker Compose——什么是 Docker Compose

一、Docker Compose——什么是 Docker Compose

Docker Compose 是一个用来定义和运行多容器 Docker 应用程序的工具，他的方便之处就是可以使用 YAML 文件来配置将要运行的 Docker 容器，然后使用一条命令即可创建并启动配置好的 Docker 容器了；相比手动输入命令的繁琐，Docker Co…

阅读更多...

stable-diffusion-webui环境部署

stable-diffusion-webui环境部署

stable-diffusion-webui环境部署 1. 环境创建2. 安装依赖库3.下载底模4. 获取lora参数文件5.运行代码6. 报错信息报错1报错2 1. 环境创建创建虚拟环境 conda create -n env_stable python3.10.0进入虚拟环境 conda activate env_stableclone源码 git clone https://github.com…

阅读更多...

Unity地面交互效果——1、局部UV采样和混合轨迹

Unity地面交互效果——1、局部UV采样和混合轨迹

大家好，我是阿赵。这期开始，打算介绍一下地面交互的一些做法。比如： Unity引擎制作沙地实时凹陷网格的脚印效果或者： Unity引擎制作雪地效果这些效果的实现，需要基于一些基础的知识。所以这一篇先介绍一下简单…

阅读更多...

Python网络爬虫介绍

Python网络爬虫介绍

视频版教程：一天掌握python爬虫【基础篇】涵盖 requests、beautifulsoup、selenium 什么是网络爬虫？ 网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者）&#xff…

阅读更多...

【5G PHY】5G SS/PBCH块介绍（二）

【5G PHY】5G SS/PBCH块介绍（二）

博主未授权任何人或组织机构转载博主任何原创文章，感谢各位对原创的支持！ 博主链接本人就职于国际知名终端厂商，负责modem芯片研发。在5G早期负责终端数据业务层、核心网相关的开发工作，目前牵头6G算力网络技术标准研究。博客…

阅读更多...

Linux服务器部署Spring Boot项目的一些shell命令脚本

Linux服务器部署Spring Boot项目的一些shell命令脚本

1.启动jar包的命令（根据jar包数量创建，并指定相对应的jar包） nohup java -server -Xms64m -Xmx128m -jar 项目jar包的名称.jar --spring.profiles.activeprod > 记录jar包的日志.log 2>&1 &可以写在start.sh文件里&#xff08…

阅读更多...

visual studio 启用C++11

visual studio 启用C++11

用C11取决于你所使用的编译器和开发环境。以下是一些常见的编译器和相应的启用C11的方法： GCC (GNU Compiler Collection): 对于 GCC，你可以在编译时使用 -stdc11 或更高的标志来启用C11支持。例如： g -stdc11 yourfile.cpp -o yourprogramCl…

阅读更多...

STM32 TIM（四）编码器接口

STM32 TIM（四）编码器接口

STM32 TIM（四）编码器接口编码器接口简介 Encoder Interface 编码器接口编码器接口可接收增量（正交）编码器的信号，根据编码器旋转产生的正交信号脉冲，自动控制CNT自增或自减，从而指示编码器的…

阅读更多...

MySQL的数据库操作、数据类型、表操作

MySQL的数据库操作、数据类型、表操作

目录一、数据库操作 （1）、显示数据库 （2）、创建数据库 （3）、删除数据库 （4）、使用数据库二、常用数据类型 （1）、数值类型 （2&#xff0…

阅读更多...

uniapp 在 Android Studio 模拟器中运行项目

uniapp 在 Android Studio 模拟器中运行项目

在开发App时，无论是使用 Flutter 还是 React native，还是使用uni-app 开发跨端App时，总是需要运行调试。一般调试分为两种。第一：真机调试第二：模拟器调试真机调试的好处是可以看到更好的效果，缺点就是…

阅读更多...

基于物联网云平台的分布式光伏监控系统的设计与实现

基于物联网云平台的分布式光伏监控系统的设计与实现

贾丽丽安科瑞电气股份有限公司上海嘉定 201801 摘要：针对国内光伏发电监控系统的研究现状，文中提出了基于云平台的光伏发电监控体系。构建基于B/S架构的数据实时采集与推送，以SSH(strutsspringhibernate)作为Web开发框架，开发基…

阅读更多...

07 MIT线性代数-求解Ax=0：主变量，特解 pivot variables, special solutions

07 MIT线性代数-求解Ax=0：主变量，特解 pivot variables, special solutions

前面定义了矩阵的列空间和零空间，那么如何求得这些子空间呢？ 1. 计算零空间 Nullspace A的零空间即满足Ax0的所有x构成的向量空间对于矩阵A进行“行操作”并不会改变Axb的解，因此也不会改变零空间 unchanged 第一步消元: echelon 阶梯型 …

阅读更多...

最新文章