论文1--ViT

论文1--ViT

news/2025/7/13 3:39:00/文章来源:https://blog.csdn.net/weixin_53389235/article/details/140063472

Vision Transformer (ViT)

论文：https://arxiv.org/abs/2010.11929
代码：GitHub - google-research/vision_transformer

1.背景

（1）transformer在NLP很强，但在CV的应用还非常有限，在此之前只有目标检测中的DETR大规模使用了transformer，其他领域很少，而纯transformer结构的网络则是没有。

（2）transform的模型很有优势，有并行计算、全局视野和灵活的堆叠的优点。

2.研究成果

实现了纯transformer结构完成图像分类任务，完成的很不错。在足够大的数据集上训练后，ViT可以拿到和CNN的SOTA不相上下的结果。

3.研究意义

展示了在计算机视觉中使用纯transformer结构的可能。

4.论文结构

vit结构是因为看到transformer在nlp很好用，transformer的scale能力强，就想在cv上用，使用的时候做了最小的改动，简单来说就是把图片切分重排，当做输入。实际上只用到了transformer的Encode。

5.attention注意力机制

定义：对不同的隐藏层会有不同的权重，这个权重是通过相似度计算得到的。

优点：并行计算和全局视野

6.self attention

输入是一个序列

nlp：word转换成vector当做输入

cv：image转换成sequence当做输入

Q，K，V的获得，本质是输入的线性变换，采用矩阵乘法计算，通过nn.Linear实现。

q：查询

k：键值

v：价值

可以联想以前的kv键值对，只是多了一个q查询。Q，K，V是三个矩阵。

7.MultiHead attention

定义：有多个Wq，Wk，Wv，上述操作重复多次，结果concat到一起。

目的：给注意力提供多种可能性

以上就是transform网络的主要内容。

8.图像的输入

图片切分，每一个小片就叫一个patches，编号，拉平，降维，输入到transform网络就可以了。其中把每个patches拉平经过liner把维度变小做为输入向量。其中图片是二维或者三维的，拉平就是把图片乘开，例如32x32x3就是他的拉平维度也就是向量。

9.位置编码

位置进行编码的原因：图片切分重排后失去了位置信息，transform的内部运算没有考虑空间信息，所以需要把位置信息编码重新传进网络。ViT使用了一个可学习的vector来编码，编码victor和原本的输入向量直接相加组成输入。

10.图像分类

将经过处理的向量输入模型进行训练，实现对图像的分类。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/863964.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【轻量化】YOLOv8 更换骨干网络之 MobileNetv4 | 《号称最强轻量化网络》

【轻量化】YOLOv8 更换骨干网络之 MobileNetv4 | 《号称最强轻量化网络》

论文地址：https://arxiv.org/pdf/2404.10518 代码地址：https://github.com/tensorflow/models/blob/master/official/vision/modeling/backbones/mobilenet.py 文章速览文章摘要 MobileNetV4引入了一个名为Universal Inverted Bottleneck (UIB) 的新搜索模块，这个模块融合…

阅读更多...

2024年网络安全技术全景扫描：新趋势与新挑战

2024年网络安全技术全景扫描：新趋势与新挑战

**# 2024年网络安全技术全景扫描：新趋势与新挑战随着技术的飞速发展，网络安全领域在2024年迎来了新的变革。从人工智能的深入应用到零信任模型的广泛采纳，再到云环境、太空网络以及量子信息技术的兴起，这些新兴技术正在重塑网络…

阅读更多...

民用无人机企业招标投标需要资质证书详解

民用无人机企业招标投标需要资质证书详解

一、基础资质在民用无人机企业的招标投标过程中，基础资质是首要考虑的因素。这些资质通常包括企业注册资质、税务登记证、组织机构代码证等。 1.1 企业注册资质企业应具备合法的注册资质，即营业执照。该执照应包含企业名称、注册地址、法定代表人、…

阅读更多...

在Ubuntu 14.04上安装和配置Magento的方法

在Ubuntu 14.04上安装和配置Magento的方法

前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。简介 Magento 是最流行的电子商务网站内容管理系统。它被小型企业和大型企业公司广泛使用，并且可以通过成千上万的扩展和主…

阅读更多...

谈谈华为国产系列

谈谈华为国产系列

目前借着华为发布会，谈谈华为的软件系列 1.鸿蒙系统鸿蒙是手机系统，兼容安卓软件，目前华为借助国内软件公司，适配鸿蒙，即将纯血。鸿蒙系统借助这一波互联网兴起，没有遇到之前各种系统的麻烦之中&#xf…

阅读更多...

idea集成uglifycss压缩混淆css

idea集成uglifycss压缩混淆css

Uglifycss介绍 https://www.npmjs.com/package/uglifycss 命令行 $ uglifycss [options] [filename] [...] > output 选项： --max-line-len n每个字符添加一个换行符（大约）; 表示无换行符，并且是默认值n0 --expand-vars扩…

阅读更多...

【Linux】性能分析器 perf 详解（二）：list、record、report、top

【Linux】性能分析器 perf 详解（二）：list、record、report、top

上一篇：【Linux】性能分析器 perf 详解（一） 1、perf命令列表 annotate 读取perf.data（由perf record生成）并结合源代码展示详细的性能分析结果，包括CPU执行热点、函数调用栈等信息。archive 使用perf.data文件中找到的带构建标识符的对象文件创建归档文件，便于后续对这…

阅读更多...

考研数学｜《660》一刷的错题，二刷还错，怎么能做对？

考研数学｜《660》一刷的错题，二刷还错，怎么能做对？

660这本习题册的难度不小，它不仅考察你对知识点的掌握程度，还考察你的解题思路和方法。很多题目会同时涉及多个知识点，而且对概念的挖掘非常深入，甚至在一些容易出错的地方还设置了陷阱，这对于基础不扎实的同学来说&am…

阅读更多...

商城积分系统的代码实现（下）-- 积分订单的退款与结算

商城积分系统的代码实现（下）-- 积分订单的退款与结算

一、接着上文用户在消耗积分的时候，需要根据一定的逻辑，除了扣减账户的当前余额，还需要依次消费积分订单的余额。 private void updatePointsOrderByUse(Integer schoolId, Long userId, String pointsType, int usingPoints) {List<Po…

阅读更多...

Web攻防基础篇-文件上传漏洞

Web攻防基础篇-文件上传漏洞

文件解析安全问题上，格式解析是一对一的（不能jpg解析php），换句话来说有解析错误配置或后缀解析漏洞时才能实现格式差异解析。文件上传漏洞程序或系统未对上传文件作全面的限制，导致用户可以上传某些非法文件&#…

阅读更多...

换热器材质的选择

换热器材质的选择

一、换热器材质的选择选择烟气换热器的材质是一个涉及多个因素的综合考量过程。 1、根据烟气成分烟气成分是一个重要的考虑因素。烟气中可能含有酸性物质和腐蚀性物质，如HCl、SO2等。这些物质对换热器的材质具有腐蚀性，因此所选材料应能够长期承受这些…

阅读更多...

【数据结构】数据结构前置知识

【数据结构】数据结构前置知识

这里写目录标题基本概念与术语数据数据元素数据项数据对象数据结构逻辑结构和物理结构物理结构顺序存储结构链式存储结构逻辑结构集合结构线性结构树形结构图形结构算法时间复杂度和空间复杂度大O的渐进表示法时间复杂度常数阶线性阶对数阶平方阶常见时间复杂度空间复杂度…

阅读更多...

Jetson系列机载电脑创建热点模式配置方法

Jetson系列机载电脑创建热点模式配置方法

Jetson nano为例—— 创建热点模式配置方法 1.1、新建一个 WiFi 在屏幕右上角找到网络图标，点击后选择“Edit Connections”选项，进入选择网络连接页面，然后点击左下角加号，新建一个连接，类型选择 WiFi 后点击 “cre…

阅读更多...

在TkinterGUI界面显示WIFI网络(ESP32s3)摄像头画面

在TkinterGUI界面显示WIFI网络(ESP32s3)摄像头画面

本实验结合了之前写过的两篇文章Python调用摄像头，实时显示视频在Tkinter界面以及ESP32 S3搭载OV2640摄像头释放热点（AP）工作模式–Arduino程序，当然如果手头有其他可以获得网络摄像头的URL即用于访问摄像头视频流的网络地址&…

阅读更多...

【笔记】从零开始做一个精灵龙女-拆uv阶段

【笔记】从零开始做一个精灵龙女-拆uv阶段

目录先回顾一下拆uv的基础流程吧肩部盔甲分UV示例手环UV部分腰带UV部分其它也差不多，需要删掉一半的就先提前删掉一半，然后把不需要的被遮挡的面也删掉龙角UV 胸甲UV 侧边碎发UV 马尾UV 脸部/耳朵UV 特殊情况：如果要删一半再…

阅读更多...

MacOS 安装 Maven 并配置环境变量

MacOS 安装 Maven 并配置环境变量

一、简介 Maven 是一款基于 Java 平台的项目管理和整合工具，用来构建项目的。也就是清理、编译、测试、运行、打包、安装整个过程都交给 Maven 管理，整个过程就是构建。二、安装 Java JDK Maven 依赖 Java JDK，如果本机没有安装过 Java 的…

阅读更多...

Web后端开发之前后端交互

Web后端开发之前后端交互

http协议 http ● 超文本传输协议 （HyperText Transfer Protocol）服务器传输超文本到本地浏览器的传送协议是互联网上应用最为流行的一种网络协议,用于定义客户端浏览器和服务器之间交换数据的过程。 HTTP是一个基于TCP/IP通信协议来传递数据. HTT…

阅读更多...

智慧校园-办公管理系统总体概述

智慧校园-办公管理系统总体概述

智慧校园行政办公系统是专为高校及教育机构定制的数字化办公解决方案，它整合了众多办公应用与服务，旨在全面提升校园行政管理的效率与便捷性，推动信息的自由流动，实现绿色无纸化办公环境。该系统作为一个综合平台，将日…

阅读更多...

大数据面试题之Spark(5)

大数据面试题之Spark(5)

Spark SQL与DataFrame的使用? Sparksql自定义函数?怎么创建DataFrame? HashPartitioner和RangePartitioner的实现 Spark的水塘抽样 DAGScheduler、TaskScheduler、SchedulerBackend实现原理介绍下Sparkclient提交application后，接下来的流程? Spark的几种…

阅读更多...

VMware中的三种虚拟网络模式

VMware中的三种虚拟网络模式

虚拟机网络模式 1 主机网络环境2 VMware中的三种虚拟网络模式2.1 桥接模式2.2 NAT模式2.3 仅主机模式 3 网络模式选择及配置NAT模式3.1 VMware虚拟网络配置3.2 虚拟机选择网络模式3.3 Windows主机网络配置 4 配置静态IP 虚拟机联网方式为桥接模式，这种模式下&#x…

阅读更多...

最新文章