NesT : 嵌套层次Transformer

        探讨了在不重叠的图像块上嵌套基本局部变换的思想,并以分层的方式对它们进行聚合。发现块聚合功能在实现跨块非局部信息通信中起着至关重要的作用。

        这个观察结果引导我们设计一个简化的体系结构,它需要在原始视觉转换器上进行少量的代码更改。所提出的明智选择的设计有三个好处:(1)NesT收敛速度更快,需要更少的训练数据,以在ImageNet和像CIFAR这样的小数据集上实现良好的泛化;(2)当将我们的关键思想扩展到图像生成时,NesT带来了一个强大的解码器,比以前基于变压器的生成器快8倍;(3)通过设计中的这种嵌套层次结构将特征学习和抽象过程解耦,可以构建一种新的方法(称为GradCAT),用于可视化地解释学习到的模型。


1. 引言

        缺乏归纳偏差,如局部性和平移等方差,是ViT模型数据效率低下的一个解释。Transformer模型以一种可变形的卷积方式学习局部行为:底层局部关注周围像素,顶层倾向于长期依赖。另一方面,高分辨率图像中像素对之间的全局自关注在计算上是昂贵的。减少自注意力范围是提高模型训练计算效率的一种方法。这些类型的见解与具有局部自注意力和层次transformer的最新结构一致,而不是整体的全局自注意力,它们对局部图像补丁进行关注。为了促进补丁间的信息交流,提出了专门的设计,如“光晕操作”和“移位窗口”。这些都是基于修改自注意力机制,并且在复杂的体系结构中经常产生。另一方面,设计目标保持原有的关注,引入聚合功能的设计,提高数据的准确性和效率,同时带来可解释性的好处。

        NesT模型通过堆叠规范Transformer Blocks来单独处理不重叠的图像块。跨块自注意力是通过分层嵌套这些Transformer 并将它们与建议的聚合函数连接来实现的。图1说明了整个体系结构和生成它的简单伪代码。

(左)嵌套变压器层次结构的NesT示意图;(右)生成架构的简单伪代码。每个节点t1处理一个图像块。在层次之间进行块聚合(这里的num hierarchy= 3),实现图像(feature map)平面上的跨块通信。

        将分层嵌套的 Transformer 与所提出的块聚合函数集成可以优于以前复杂的(局部)自注意力变体,从而大大简化了体系结构并提高了数据效率。

        NesT通过显著简化的架构设计实现了令人印象深刻的ImageNet分类精度。与流行的卷积架构相比,NesT在小数据集上实现了匹配的精度。当将这一思想从分类扩展到图像生成时,NesT可以被重新用于强大的解码器,该解码器可以获得比卷积架构更好的性能,同时具有相当的速度。

        提出了一种名为GradCAT的新方法,通过遍历其树状结构来解释NesT的推理过程。这提供了一种新的视觉可解释性,解释了聚合局部变形器如何选择性地处理来自语义图像补丁的局部视觉线索。

2. 相关工作

        基于Vision Transformer 的模型面临的一个挑战是数据效率。虽然原始的ViT在预训练时使用数亿张图像时性能优于卷积网络,但这种数据需求并不总是实际可行的。数据高效的ViT(DeiT)(Touvron et al 2021a,b)试图通过引入来自卷积网络的 教师蒸馏 来解决这个问题。尽管这种方法很有前景,但它增加了监督训练的复杂性,并且在数据高效基准测试(Hassani et al 2021; Chen et al 2021)上的现有报告性能仍然显著低于卷积网络。

        由于ViT已显示出在图像分类以外的视觉任务上的改进,之前的工作研究了其在生成建模、视频理解、分割和检测、可解释性等方面的适用性。

3. 提出的方法

3.1 主要架构

        总体设计是堆叠规范 transformer 层,对每个图像块独立进行局部自注意力,然后分层嵌套。通过在每两个层次之间提出的块聚合来实现空间相邻块之间处理信息的耦合。

        整体层次结构可由两个关键超参数确定:补丁大小S × S和块层次数T_d。每个层次结构中的所有块共享一组参数。


        首先,给定一个形状为H × W × 3的图像作为输入,其中H是高度,W是宽度,3代表RGB三个颜色通道。该模型将图像分割成大小为S × S的图像块(或称为“patches”)。每个这样的图像块都被线性投影(即,通过一个线性层转换)到一个R^d 维的嵌入向量中,其中R^d 表示 d 维实数空间。

        接下来,所有的这些嵌入向量被组织成块(blocks),并展平以生成一个输入张量X,其形状为 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/44123.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

雷池WAF动态防护功能初体验

一、 介绍 大名鼎鼎的雷池WAF最近新上了个名为 动态防护 的功能 所谓动态防护,是在用户浏览到的网页内容不变的情况下,将网页赋予动态特性,即使是静态页面,也会具有动态的随机性。 说白了就是给你网站的 html 和 js 代码加上加密…

短链接妙用 - 数据统计

可能很多运营工作者都不太知道短链接是什么,那我们先来说说运营日常工作关心的是什么,说完你就懂了。 首先,推广自己的产品是每个公司必不可少的环节,而且会定期分析人群、转化率等等来制定新的推广方案,或者调整自己…

百望云应邀参加全球数字经济大会,获评“北京市通用人工智能产业创新伙伴”

在全球数字化和信息化的浪潮中,数字经济成为了推动经济发展的新动力。大模型、人工智能等前沿技术,在经济模式转变、应用场景创新等领域展现了强大的变革能力。 近日,由中华人民共和国国务院批准,工业和信息化部、商务部、国家互联…

备考无忧,张驰课堂与刷题共筑六西格玛考试坚实后盾

刷题对考中质协(中国质量协会)的六西格玛绿带和黑带考试具有显著的帮助,主要体现在以下几个方面: 一、巩固知识点 加深理解:刷题可以帮助考生更深入地理解和记忆六西格玛管理的相关知识点。通过反复练习,…

宝塔面板运行Admin.net框架

准备 宝塔安装 .netcore安装 Admin.net框架发布 宝塔面板设置 完结撒花 1.准备 服务器/虚拟机一台 系统Windows server / Ubuntu20.04(本贴使用的是Ubuntu20.04版本系统) Admin.net开发框架 先安装好服务器系统,这里就不做安装过程描述了&…

替你测试过了,这些国产大模型都很强,快来试试哪款适合你

替你测试过了,这些国产大模型都很强,快来试试哪款适合你 💡🔥 大家好,我是猫头虎,科技自媒体博主。今天我将为大家介绍几款顶尖的国产AI大模型,它们各有所长,看看哪一款更适合你的需…

Leetcode104.求二叉树的最大深度

题目描述 递归法 class Solution {public int maxDepth(TreeNode root) {if (root null) { //帮助下面的else语句判空return 0;} else {int leftHeight maxDepth(root.left);int rightHeight maxDepth(root.right);/*** 要注意的点* 1. 这个return是写在else语句里面的&am…

简要讲解Xilinx SRIO IP(高速收发器二十八)

1、初识串行RapidIO(SRIO) SRIO是串行RapidIO的简写,其实现代比较常用的高速接口协议,比如SRIO、PCIE、JESD204B等都是基于SERDES开发的,均属于高速串行总线。 在此之前有对应的并行总线,比如RapidIO、PCI、…

【嵌入式 | 数据校验】BBC校验(异或校验)

文章目录 一、BCC校验介绍二、工作原理三、BCC校验的优缺点四、适用场景五、示例 一、BCC校验介绍 BCC (Block Check Character)是一种数据校验方法,通常用于检测和校验数据传输中的错误。其核心是将一个数据块里的所有字节按位异或(XOR)&am…

提升Selenium在Chrome上的HTML5视频捕获效果的五个方法

在使用Selenium进行网页自动化测试时,捕获HTML5视频是一个常见的需求。然而,许多开发者发现,在使用Chrome浏览器时,视频捕获效果并不理想,经常出现视频背景为空白的问题。本文将概述五种方法,帮助提升Selen…

人工智能(AI)在医疗行业的应用前景

人工智能(AI)在医疗行业的应用前景十分广阔,有望彻底改变医疗行业的各个方面。需要注意的是,AI在医疗领域的应用也存在一些潜在的风险和挑战,例如算法偏见、数据隐私和安全、伦理问题等。在开发和应用AI医疗产品时&…

8.6结构体函数参数

代码 #include <iostream> using namespace std; #include <string>//结构体函数参数//定义学生结构体 struct student {string name;int age;int score; };//打印学生信息的函数 //1、值传递 void printStudent1(struct student s) {cout << "子函数1…

Google Earth Engine(GEE)——获取点的地表温度LST并展示经纬度何时间

结果 函数: getRegion(geometry, scale, crs, crsTransform) Output an array of values for each [pixel, band, image] tuple in an ImageCollection. The output contains rows of id, lon, lat, time, and all bands for each image that intersects each pixel in the …

【ai_agent】从零写一个agent框架(四)用rust制作一个python的虚拟运行环境。

前言 为了增加框架的扩展性和适用性&#xff0c;我们要能够在流程节点中运行python脚本。 这个时候需要考虑几个问题&#xff1a; 1 为什么是python&#xff1f; 思考&#xff1a;老实说我并不喜欢python&#xff0c;我更倾向于lua这种短小轻快的脚本。在我之前写的规则引擎…

【黑龙江等保测评流程——医院篇】

黑龙江作为东北地区的重要城市&#xff0c;随着我国医疗产业信息化水平的不断提高&#xff0c;医院等保评估工作也越来越重要。等保测试就是根据国家有关的法律、法规、标准&#xff0c;对医院信息系统所做的一次全面的安全检测和评价。以下将对黑龙江医院的等保测评程序进行具…

三品PLM管理系统软件:制造企业工程变更管理的革新者

在当今快速变化的市场环境中&#xff0c;制造企业面临着前所未有的挑战。客户需求的不断变化、供应链的波动、设计过程中的不确定性以及产品生命周期的缩短&#xff0c;都要求企业能够迅速响应并适应这些变化。工程变更管理作为企业响应市场变化、提升产品竞争力的关键环节&…

RSA加密算法因N强度不足破解实例

已知如下RSA密文和公钥信息&#xff0c;要求解密得到明文。 ----------------------- ciphertext&#xff08;HEX&#xff09; 94808F954A8AF9B9 N&#xff08;HEX&#xff09; C6EAD137492B4631 e&#xff08;HEX&#xff09; 10001 ------------------------ 分析过…

Docker-搭建部署Jenkins(保姆篇)

文章目录 Jenkins部署拉取镜像启动容器查看初始密码关闭CSRF Jenkins页面使用解决插件下载缓慢访问jenkins页面推荐插件安装创建一个管理员账号实例配置页面展示 更多相关内容可查看 Jenkins部署 拉取镜像 如果想拉取对应版本请指明版本号 docker pull jenkins/jenkins:lts-…

springboot轻松音乐-计算机毕业设计源码48092

目 录 摘要 1 绪论 1.1研究背景与意义 1.2研究现状 1.3论文结构与章节安排 2 基于微信小程序的轻松音乐系统分析 2.1 可行性分析 2.1.1 技术可行性分析 2.1.2 经济可行性分析 2.1.3 法律可行性分析 2.2 系统功能分析 2.2.1 功能性分析 2.3 系统用例分析 2.4 系统…

持久化存储与设备环境查询的最佳实践

ArkUI框架中的PersistentStorage和Environment 在ArkUI框架中&#xff0c;持久化存储和设备环境查询是应用开发中不可或缺的两个重要功能。在本文中&#xff0c;我们将深入了解框架提供的PersistentStorage和Environment&#xff0c;它们的用途、限制条件以及在应用开发中的使…