Vision Transfomer系列第二节---Tricks测试

目录

  • 学习式和固定式位置编码测试
  • dropout的作用测试
  • block深度的作用测试
  • embeding维度大小的作用测试
  • 多头的作用测试
  • Overlap Patch的作用

学习式和固定式位置编码测试

主要测试无位置编码\可学习位置编码和固定式位置编码的训练效果:
其中固定式位置编码采用之前博客的正余弦位置编码
无位置编码:

# input = input + self.pos_embed.to(input)

train: epoch=30, loss=0.523701012134552

可学习位置编码:

self.pos_embed = nn.Parameter(torch.zeros(1, num_patches + 1, embed_dim))

train: epoch=31, loss=0.4830354154109955

固定式位置编码:

self.pos_embed = posemb_sincos_1d(len=num_patches + 1, dim=embed_dim,temperature=1000).unsqueeze(0)

train: epoch=30, loss=0.5667092204093933

目测位置编码好像没什么大作用???谁呢解释下

dropout的作用测试

这里主要测试attension矩阵后的dropout层.
该dropout层可以使得attension矩阵行方向随机赋0,其他除以drop概率,可以用于缓解 Vision Transformer 中的过拟合问题.

下面测试下dropout=0/0.25/0.5/0.75的训练效果.
dropout=0:

train: epoch=45, loss=0.3784039616584778
val: epoch=45, loss=0.24934779107570648, accuracy=0.9

dropout=0.25:

train: epoch=45, loss=0.38590484857559204
val: epoch=45, loss=0.24613243341445923, accuracy=0.906

dropout=0.5:

train: epoch=45, loss=0.48613107204437256
val: epoch=45, loss=0.30928316712379456, accuracy=0.876

dropout=0.75:

train: epoch=45, loss=0.4950393736362457
val: epoch=45, loss=0.36618882417678833, accuracy=0.852

初步来看一定程度地dropout有利于模型收敛,但是过大就会使得其反,因此我后面开始取p=0.1

block深度的作用测试

block作为transfomer类模型的核心组件,block的重复次数是一个超参数,直接影响到模型的深度和表达能力.
下面测试下depth分别为1/3/6/12/24的训练效果.
为了对比方便,下面我都用tensorboard可视化,为了训练快一点batch为8.
depth=1:
在这里插入图片描述
depth=3:
在这里插入图片描述
depth=6:

在这里插入图片描述
depth=12:
在这里插入图片描述

实验可知:block的重复次数过低会导致模型的表达能力不够;
过高会导致训练很慢,和过拟合(验证损失更早地上升),而且当表达能力足够后准确率并不会上升太多.因此后面开始我取depth=6

embeding维度大小的作用测试

在VIT中embeding维度可以理解为每一个图像块的编码维度
embeding维度大小和block的重复次数类似,可以直接影响到模型的表达能力.
下面测试下embeding dim分别为12/48/192/768的训练效果.
embeding dim=12:
在这里插入图片描述

embeding dim=48:
在这里插入图片描述

embeding dim=192:
在这里插入图片描述

embeding dim=768:

实验可知:embeding dim过小会导致模型的表达能力不够,具体表现为训练集损失下不去;
过大会导致训练很慢,而且当表达能力足够后准确率并不会上升太多.考虑到速度,因此后面开始我取embeding dim=192.

多头的作用测试

Multi-Head Attention的原理是通过将模型分为多个头,形成多个子空间,让模型关注不同方面的信息。每个头独立进行注意力运算,得到一个注意力权重矩阵。注意力矩阵完成不同块之间的交互,然后每个头之间通过cat和全连接进行交互.
下面测试下head_num分别为1/4/12/36的训练效果.

head_num=1
在这里插入图片描述

head_num=4
在这里插入图片描述

head_num=12
在这里插入图片描述
head_num=36
在这里插入图片描述

实验可知,适当的head_num可以提高模型的拟合能力,但是不是越多越好,需要根据任务的复杂情况和embeding维度去调整.本处实验其实效果不明显,可能是任务过于简单的原因.
在后面,我将会令head_num为4

Overlap Patch的作用

Overlap Patch指的是在切分图像为小块时,允许相邻的小块之间有重叠。这种重叠可以提高图像块之间的信息交互,可能会影响模型的性能和效果。这种trick在很多transfomer网络如EfficientViT,SwimTransfomer中都有应用.
非Overlap Patch:
卷积核大小是16,stride取16,padding取0,输入为224x224时,输出为14x14
在这里插入图片描述
Overlap Patch:
卷积核大小是20,stride取16,padding取2,输入为224x224时,输出也为14x14,但是相邻图像块之间有2圈像素的交集.
在这里插入图片描述
本处实验其实效果不明显

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/699461.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第十一天-Excel的操作

目录 1.xlrd-Excel的读模块 安装 使用 获取工作簿 读取工作簿的内容 xlsxwriter-Excel的写模块 安装 使用 生成图表 add_series参数 图表的样式 demo:生成图表 Excel的操作在python中有多个模块,为了能够快速使用,选择了相对简单…

【More Effective C++】条款7:不要重载、||和,操作符

真假值表达式: 一旦真假值确定,即使表达式中有尚未计算的部分,也不会计算表达式的计算总是从左向右计算 不能重载的 && 和 || 的理由: 所有的表达式都需要计算不确定函数调用顺序 int rangeCheck(int index, int lowe…

【Docker】初学者 Docker 基础操作指南:从拉取镜像到运行、停止、删除容器

在现代软件开发和部署中,容器化技术已经成为一种常见的方式,它能够提供一种轻量级、可移植和可扩展的应用程序打包和部署解决方案。Docker 是目前最流行的容器化平台之一,它提供了一整套工具和技术,使得容器的创建、运行和管理变得…

想设计智能手环,我需要设计哪种电路?

随着电子技术的高速发展,可穿戴设备逐渐火爆,其中之一是智能手环,作为现代可穿戴技术的热门产品之一,它集成了多种功能,如健康检测、运动跟踪、通知提醒等,为了实现这些功能,需要用上哪些电路模…

模板注入 [WesternCTF2018]shrine1

打开题目 直接查看源代码 发现注册了一个名为FLAG的config,这里可能有flag, 存在flask-jinja2模板注入, 并且存在黑名单过滤 输入shrine/{{7*7}}验证成功 通过url_for()与globals()函数,绕过黑名单 /shrine/{{url_for.__globa…

Android 输入法框架简介

每种平台都有自己的输入法框架. GNU/Linux 桌面环境有多种输入法框架, 比如 ibus, fcitx 等. 但是 Android 操作系统只有一种, 是统一提供的输入法框架. 相关链接: 《ibus 源代码阅读 (1)》 https://blog.csdn.net/secext2022/article/details/136099328https://developer.and…

人工智能有可能替代人来吗 ?

人工智能在不断发展的过程中,确实有可能在某些领域替代人类工作。这种替代并不是指完全取代人类,而是指在特定任务或领域中,人工智能可以表现出比人类更高效、更精准的能力。 以下是人工智能可能替代人类工作的几个方面: 重复性任…

2024年 最新python调用ChatGPT实战教程

2024年 最新python调用ChatGPT实战教程 文章目录 2024年 最新python调用ChatGPT实战教程一、前言二、具体分析1、简版程序2、多轮对话3、流式输出4、返回消耗的token 一、前言 这个之前经常用到,简单记录一下,注意目前chatgpt 更新了,这个是最新版的&am…

MIT-BEVFusion系列九--CUDA-BEVFusion部署4 c++解析pytorch导出的tensor数据

目录 创建流打印 engine 信息打印结果内部流程 启动计时功能加载变换矩阵并更新数据(重要)内部实现 该系列文章与qwe一同创作,喜欢的话不妨点个赞。 在create_core方法结束后,我们的视角回到了main.cpp中。继续来看接下来的流程。…

挑战杯 基于大数据的时间序列股价预测分析与可视化 - lstm

文章目录 1 前言2 时间序列的由来2.1 四种模型的名称: 3 数据预览4 理论公式4.1 协方差4.2 相关系数4.3 scikit-learn计算相关性 5 金融数据的时序分析5.1 数据概况5.2 序列变化情况计算 最后 1 前言 🔥 优质竞赛项目系列,今天要分享的是 &…

CSV数据导入到ClickHouse数据库

问题描述:手头上有一个数据量较大的CSV文件,希望导入到指定的ClickHouse数据中,ClickHouse部署在服务器中。 解决方案:通常来说,数据量较少的CSV文件可以直接通过DBeaver软件的可视化界面导入数据。 若数据量较大&…

解释C++中的模板元编程

C中的模板元编程(Template Metaprogramming,TMP)是一种利用模板实现在编译时进行计算和代码生成的技术。这意味着你可以在编译时执行那些通常在运行时进行的操作,如条件判断、循环以及函数调用。模板元编程可以用来生成高度优化和…

【操作系统】14.I/O设备怎么分配和回收?

5.2 I/O设备怎么分配和回收? 5.2.1 I/O核心子系统 I/O调度 设备保护 假脱机技术(SPOOLing技术) ​ 输入井和输出井 ​ 输入进程和输出进程 ​ 输入缓冲区和输出缓冲区 设备分配与回收 ​ 设备分配应考虑的因素 ​ 静态分配与动态分配 ​ 设备…

MessageSource学习

简介 MessageSource 是 Spring 框架中的一个接口,它负责提供对国际化(i18n)和本地化(l10n)消息的支持。MessageSource 接口定义了一组方法,允许应用程序根据指定的消息代码和参数来获取本地化的消息字符串…

Runaway Queries 管理:提升 TiDB 稳定性的智能引擎

在数字化系统扮演重要角色的今天,数据库稳定性成为企业关注的核心问题。对于重要计算机系统而言,突发的性能下降可能对业务造成不可估量的损失。为了稳定数据库性能,用户可以从管理流程入手规范变更的测试,或者利用产品手段减少预…

3DIoUMatch: Leveraging IoU Prediction for Semi-Supervised 3D Object Detection

3DIoUMatch: Leveraging IoU Prediction for Semi-Supervised 3D Object Detection 论文链接:https://arxiv.org/pdf/2012.04355.pdf 代码链接:https://github.com/yezhen17/3DIoUMatch 作者单位:Stanford University等 发表平台:…

【JavaEE】_Servlet程序的编写方法

目录 1. 创建项目 2. 引入依赖 3. 创建目录结构 3.1 在main目录下创建一个webapp目录 3.2 在webapp目录下创建一个WEB-INF目录 3.3 在WEB-INF目录下创建一个web.xml文件 3.4 在web.xml中进行代码编写 4. 编写代码 4.1 在java目录下创建类 4.2 打印"hello world&…

无人机精准定位技术,GPS差分技术基础,RTK原理技术详解

差分GPS的基本原理 差分GPS(Differential GPS,简称DGPS)的基本原理是利用一个或多个已知精确坐标的基准站,与用户(移动站)同时接收相同的GPS卫星信号。由于GPS定位时会受到诸如卫星星历误差、卫星钟差、大…

uniapp离线打包(使用Android studio打包)

一、准备工作 安装HbuilderX,记住版本号下载对应HbuilderX版本的Android离线SDK,如我使用3.6.18版本打包,则对应应下载3.6.18版本的SDK(官网不提供旧版本的SDK,有些需要自己找)官网下载地址:ht…

基于Java+SpringBoot+Vue.js前后端分离水果购物商城系统设计和实现 可行性分析

博主介绍:黄菊华老师《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者,CSDN博客专家,在线教育专家,CSDN钻石讲师;专注大学生毕业设计教育和辅导。 所有项目都配有从入门到精通的基础知识视频课程&#xff…