【AI系统】MobileFormer

MobileFormer

在本文中,将介绍一种新的网络-MobileFormer,它实现了 Transformer 全局特征与 CNN 局部特征的融合,在较低的成本内,创造一个高效的网络。通过本节,让大家去了解如何将 CNN 与 Transformer 更好的结合起来,同时实现模型的轻量化。

MobileFormer

MobileFormer:一种通过双线桥将 MobileNet 和 Transformer 并行的结构。这种方式融合了 MobileNet 局部性表达能力和 Transformer 全局表达能力的优点,这个桥能将局部性和全局性双向融合。和现有 Transformer 不同,Mobile-Former 使用很少的 tokens(例如 6 个或者更少)随机初始化学习全局先验,计算量更小。

并行结构

Mobile-Former 将 MobileNet 和 Transformer 并行化,并通过双向交叉注意力连接(下见图)。Mobile(指 MobileNet)采用图像作为输入( X ∈ R H W × 3 X\in R^{HW \times 3} XRHW×3),并应用反向瓶颈块提取局部特征。Former(指 Transformers)将可学习的参数(或 tokens)作为输入,表示为 Z ∈ R M × d Z\in R^{M\times d} ZRM×d,其中 M 和 d 分别是 tokens 的数量和维度,这些 tokens 随机初始化。与视觉 Transformer(ViT)不同,其中 tokens 将局部图像 patch 线性化,Former 的 tokens 明显较少(M≤6),每个代表图像的全局先验知识。这使得计算成本大大降低。

在这里插入图片描述

低成本双线桥

Mobile 和 Former 通过双线桥将局部和全局特征双向融合。这两个方向分别表示为 Mobile→Former 和 Mobile←Former。我们提出了一种轻量级的交叉注意力模型,其中映射( W Q W^{Q} WQ, W K W^{K} WK, W V W^{V} WV)从 Mobile 中移除,以节省计算,但在 Former 中保留。在通道数较少的 Mobile 瓶颈处计算交叉注意力。具体而言,从局部特征图 X 到全局 tokens Z 的轻量级交叉注意力计算如下:

A X − > Z = [ A t t n ( z i ~ W i Q , x i ~ , x i ~ ) ] i = 1 : h W o (1) A_{X->Z} = [Attn(\widetilde{z_{i}}W_{i}^{Q},\widetilde{x_{i}},\widetilde{x_{i}})]_{i=1:h}W^{o}\tag{1} AX>Z=[Attn(zi WiQ,xi ,xi )]i=1:hWo(1)

其中局部特征 X 和全局 tokens Z 被拆分进入 h 个头,即 X = [ x 1 ~ . . . x h ~ ] , Z = [ z 1 ~ . . . z h ~ ] X=[\widetilde{x_{1}}...\widetilde{x_{h}}],Z=[\widetilde{z_{1}}...\widetilde{z_{h}}] X=[x1 ...xh ],Z=[z1 ...zh ] 表示多头注意力。第 i 个头的拆分 z 1 ~ ∈ R M × d h \widetilde{z_{1}}\in R^{M \times \frac {d}{h} } z1 RM×hd 与第 i 个 token z 1 ~ ∈ R d \widetilde{z_{1}}\in R^{d} z1 Rd 不同。 W i Q W_{i}^{Q} WiQ 是第 i 个头的查询映射矩阵。 W O W^{O} WO 用于将多个头组合在一起。Attn(Q,K,V)是查询 Q、键 K 和值 V 的标准注意力函数,即:

s o f t m a x ( Q K T d k ) softmax(\frac{QK^{T}}{\sqrt{d_{k}}}) softmax(dk QKT)

其中 [ . ] 1 : h [.]_{1:h} [.]1:h 表示将 h 个元素 concat 到一起。需要注意的是,键和值的映射矩阵从 Mobile 中移除,而查询的映射矩阵 W i Q W_{i}^{Q} WiQ 在 Former 中保留。类似地从全局到局部的交叉注意力计算如下:

A Z − > X = [ A t t n ( x i ~ , z i ~ ⊙ W i K , z i ~ ⊙ W i V ) ] i = 1 : h (2) A_{Z->X} = [Attn(\widetilde{x_{i}},\widetilde{z_{i}}\odot W_{i}^{K},\widetilde{z_{i}}\odot W_{i}^{V})]_{i=1:h}\tag{2} AZ>X=[Attn(xi ,zi WiK,zi WiV)]i=1:h(2)

其中 W i K W_{i}^{K} WiK W i V W_{i}^{V} WiV 分别是 Former 中键和值的映射矩阵。而查询的映射矩阵从 Mobile 中移除。

Mobile-Former 块

Mobile-Former 由 Mobile-Former 块组成。每个块包含四部分:Mobile 子块、Former 子块以及双向交叉注意力 Mobile←Former 和 Mobile→Former(如下图所示)。

在这里插入图片描述

输入和输出:Mobile-Former 块有两个输入:(a) 局部特征图 X ∈ R H W × C X\in R^{HW\times C} XRHW×C,为 C 通道、高度 H 和宽度 W,以及(b) 全局 tokens Z ∈ R M × d Z\in R^{M\times d} ZRM×d,其中 M 和 d 是分别是 tokens 的数量和维度,M 和 d 在所有块中一样。Mobile-Former 块输出更新的局部特征图 X X X 和全局 tokens Z Z Z,用作下一个块的输入。

Mobile 子块:如上图所示,Mobile 子块将特征图 X X X 作为输入,并将其输出作为 Mobile←Former 的输入。这和反向瓶颈块略有不同,其用动态 ReLU 替换 ReLU 作为激活函数。不同于原始的动态 ReLU,在平均池化特征图上应用两个 MLP 以生成参数。我们从 Former 的第一个全局 tokens 的输出 z 1 ′ z'_{1} z1 应用两个 MLP 层(上图中的θ)保存平均池化。其中所有块的 depth-wise 卷积的核大小为 3×3。

class Mobile(nn.Module):def __init__(self, in_channel, expand_size, out_channel, token_demension, kernel_size=3, stride=1, k=2):super(Mobile, self).__init__()self.in_channel, self.expand_size, self.out_channel = in_channel, expand_size, out_channelself.token_demension, self.kernel_size, self.stride, self.k = token_demension, kernel_size, stride, kif stride == 2:self.strided_conv = nn.Sequential(nn.Conv2d(self.in_channel, self.expand_size, kernel_size=3, stride=2, padding=int(self.kernel_size // 2), groups=self.in_channel).cuda(),nn.BatchNorm2d(self.expand_size).cuda(),nn.ReLU6(inplace=True).cuda())self.conv1 = nn.Conv2d(self.expand_size, self.in_channel, kernel_size=1, stride=1).cuda()self.bn1 = nn.BatchNorm2d(self.in_channel).cuda()self.ac1 = DynamicReLU(self.in_channel, self.token_demension, k=self.k).cuda()      self.conv2 = nn.Conv2d(self.in_channel, self.expand_size, kernel_size=3, stride=1, padding=1, groups=self.in_channel).cuda()self.bn2 = nn.BatchNorm2d(self.expand_size).cuda()self.ac2 = DynamicReLU(self.expand_size, self.token_demension, k=self.k).cuda()          self.conv3 = nn.Conv2d(self.expand_size, self.out_channel, kernel_size=1, stride=1).cuda()self.bn3 = nn.BatchNorm2d(self.out_channel).cuda()else:self.conv1 = nn.Conv2d(self.in_channel, self.expand_size, kernel_size=1, stride=1).cuda()self.bn1 = nn.BatchNorm2d(self.expand_size).cuda()self.ac1 = DynamicReLU(self.expand_size, self.token_demension, k=self.k).cuda()      self.conv2 = nn.Conv2d(self.expand_size, self.expand_size, kernel_size=3, stride=1, padding=1, groups=self.expand_size).cuda()self.bn2 = nn.BatchNorm2d(self.expand_size).cuda()self.ac2 = DynamicReLU(self.expand_size, self.token_demension, k=self.k).cuda()          self.conv3 = nn.Conv2d(self.expand_size, self.out_channel, kernel_size=1, stride=1).cuda()self.bn3 = nn.BatchNorm2d(self.out_channel).cuda()def forward(self, x, first_token):if self.stride == 2:x = self.strided_conv(x)x = self.bn1(self.conv1(x))x = self.ac1(x, first_token)x = self.bn2(self.conv2(x))x = self.ac2(x, first_token)return self.bn3(self.conv3(x))

Former 子块:Former 子块是一个标准的 Transformer 块,包括一个多头注意力(MHA)和一个前馈网络(FFN)。在 FFN 中,膨胀率为 2(代替 4)。使用 post 层归一化。Former 在 Mobile→Former 和 Mobile←Former 之间处理(见上图)。

class Former(nn.Module):def __init__(self, head, d_model, expand_ratio=2):super(Former, self).__init__()self.d_model = d_modelself.expand_ratio = expand_ratioself.eps = 1e-10self.head = headassert self.d_model % self.head == 0self.d_per_head = self.d_model // self.headself.QVK = MLP([self.d_model, self.d_model * 3], bn=False).cuda()self.Q_to_heads = MLP([self.d_model, self.d_model], bn=False).cuda()self.K_to_heads = MLP([self.d_model, self.d_model], bn=False).cuda()self.V_to_heads = MLP([self.d_model, self.d_model], bn=False).cuda()self.heads_to_o = MLP([self.d_model, self.d_model], bn=False).cuda()self.norm = nn.LayerNorm(self.d_model).cuda()self.mlp = MLP([self.d_model, self.expand_ratio * self.d_model, self.d_model], bn=False).cuda()self.mlp_norm = nn.LayerNorm(self.d_model).cuda()def forward(self, x):QVK = self.QVK(x)Q = QVK[:, :, 0: self.d_model]Q = rearrange(self.Q_to_heads(Q), 'n m ( d h ) -> n m d h', h=self.head)  K = QVK[:, :, self.d_model: 2 * self.d_model]K = rearrange(self.K_to_heads(K), 'n m ( d h ) -> n m d h', h=self.head)   V = QVK[:, :, 2 * self.d_model: 3 * self.d_model]V = rearrange(self.V_to_heads(V), 'n m ( d h ) -> n m d h', h=self.head)  scores = torch.einsum('nqdh, nkdh -> nhqk', Q, K) / (np.sqrt(self.d_per_head) + self.eps)   scores_map = F.softmax(scores, dim=-1)v_heads = torch.einsum('nkdh, nhqk -> nhqd', V, scores_map) v_heads = rearrange(v_heads, 'n h q d -> n q ( h d )')attout = self.heads_to_o(v_heads)attout = self.norm(attout)  attout = self.mlp(attout)attout = self.mlp_norm(attout)  return attout  

Mobile→Former:文章提出的轻量级交叉注意力(式 1)用于将局部特征 X 融合到全局特征 tokens Z。与标准注意力相比,映射矩阵的键 W K W^{K} WK 和值 W V W^{V} WV(在局部特征 X 上)被移除以节省计算(见上图)。


class Mobile_Former(nn.Module):'''局部特征 -> 全局特征'''def __init__(self, d_model, in_channel):super(Mobile_Former, self).__init__()self.d_model, self.in_channel = d_model, in_channelself.project_Q = nn.Linear(self.d_model, self.in_channel).cuda()self.unproject = nn.Linear(self.in_channel, self.d_model).cuda()self.eps = 1e-10self.shortcut = nn.Sequential().cuda()def forward(self, local_feature, x):_, c, _, _ = local_feature.shapelocal_feature = rearrange(local_feature, 'n c h w -> n ( h w ) c')   project_Q = self.project_Q(x)   scores = torch.einsum('nmc , nlc -> nml', project_Q, local_feature) * (c ** -0.5)scores_map = F.softmax(scores, dim=-1)  fushion = torch.einsum('nml, nlc -> nmc', scores_map, local_feature)unproject = self.unproject(fushion) return unproject + self.shortcut(x)

Mobile-Former:这里的交叉注意力(式 2)与 Mobile→Former 的方向相反,其将全局 tokens 融入本地特征。局部特征是查询,全局 tokens 是键和值。因此,我们保留键 W K W^{K} WK 和值 W V W^{V} WV 中的映射矩阵,但移除查询 W Q W^{Q} WQ 的映射矩阵以节省计算,如上图所示。

计算复杂度:Mobile-Former 块的四个核心部分具有不同的计算成本。给定输入大小为 H W × C HW\times C HW×C 的特征图,以及尺寸为 d 的 M 个全局 tokens,Mobile 占据了大部分的计算量 O ( H W C 2 ) O(HWC^{2}) O(HWC2)。Former 和双线桥是重量级的,占据不到总计算成本的 20%。具体而言,Former 的自注意力和 FFN 具有复杂度 O ( M 2 d + M d 2 ) O(M^{2}d+Md^{2}) O(M2d+Md2)。Mobile→Former 和 Mobile←Former 共享交叉注意力的复杂度 O ( M H W C + M d C ) O(MHWC+MdC) O(MHWC+MdC)

class Former_Mobile(nn.Module):'''全局特征 -> 局部特征'''def __init__(self, d_model, in_channel):super(Former_Mobile, self).__init__()self.d_model, self.in_channel = d_model, in_channelself.project_KV = MLP([self.d_model, 2 * self.in_channel], bn=False).cuda()self.shortcut = nn.Sequential().cuda()def forward(self, x, global_feature):res = self.shortcut(x)n, c, h, w = x.shapeproject_kv = self.project_KV(global_feature)K = project_kv[:, :, 0 : c]  V = project_kv[:, :, c : ]  x = rearrange(x, 'n c h w -> n ( h w ) c') scores = torch.einsum('nqc, nkc -> nqk', x, K) scores_map = F.softmax(scores, dim=-1) v_agg = torch.einsum('nqk, nkc -> nqc', scores_map, V)  feature = rearrange(v_agg, 'n ( h w ) c -> n c h w', h=h)return feature + res

网络结构

一个 Mobile-Former 架构,图像大小为 224×224,294M FLOPs,以不同的输入分辨率堆叠 11 个 Mobile-Former 块。所有块都有 6 个维度为 192 的全局 tokens。它以一个 3×3 的卷积作为 stem 和第一阶段的轻量瓶颈块,首先膨胀,然后通过 3×3 depth-wise 卷积和 point-wise 卷积压缩通道数。第 2-5 阶段包括 Mobile-Former 块。每个阶段的下采样,表示为 Mobile-Former 分类头在局部特征应用平均池化,首先和全局 tokens concat 到一起,然后经过两个全连接层,中间是 h-swish 激活函数。Mobile-Former 有七种模型,计算成本从 26M 到 508M FLOPs。它们的结构相似,但宽度和高度不同。

class MobileFormerBlock(nn.Module):def __init__(self, in_channel, expand_size, out_channel, d_model, stride=1, k=2, head=8, expand_ratio=2):super(MobileFormerBlock, self).__init__()self.in_channel, self.expand_size, self.out_channel = in_channel, expand_size, out_channelself.d_model, self.stride, self.k, self.head, self.expand_ratio = d_model, stride, k, head, expand_ratioself.mobile = Mobile(self.in_channel, self.expand_size, self.out_channel, self.d_model, kernel_size=3, stride=self.stride, k=self.k).cuda()self.former = Former(self.head, self.d_model, expand_ratio=self.expand_ratio).cuda()self.mobile_former = Mobile_Former(self.d_model, self.in_channel).cuda()self.former_mobile = Former_Mobile(self.d_model, self.out_channel).cuda()def forward(self, local_feature, global_feature):z_hidden = self.mobile_former(local_feature, global_feature)z_out = self.former(z_hidden)x_hidden = self.mobile(local_feature, z_out[:, 0, :])x_out = self.former_mobile(x_hidden, z_out)return x_out, z_out

如果您想了解更多AI知识,与AI专业人士交流,请立即访问昇腾社区官方网站https://www.hiascend.com/或者深入研读《AI系统:原理与架构》一书,这里汇聚了海量的AI学习资源和实践课程,为您的AI技术成长提供强劲动力。不仅如此,您还有机会投身于全国昇腾AI创新大赛和昇腾AI开发者创享日等盛事,发现AI世界的无限奥秘~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/63183.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

决策树:ID3、C4.5和CART特征选择方式

1 前言 该文章主要目的是记录ID3、C4.5和CART特征选择方式,这里只对决策树进行简单介绍。 决策树(Decision Tree)算法是一种有监督学习算法,它利用分类的思想,根据数据的特征构建数学模型,从而达到数据的筛…

【3D AIGC】Img-to-3D、Text-to-3D、稀疏重建(2024年文章汇总)

文章目录 1. Wonderworld:拓展图片边界,生成3D场景2. 3DTopia-XL:扩散模型辅助生成3. 3DGS-Enhancer: 通过视图一致2D Diffusion,提升无界3D Gaussian Splatting (NlPs2024 Spotlight)4. L3DG:Latent 3D Gaussian Diff…

三款电容麦的对比

纸面参数 第一款麦克风 灵敏度: -36 dB 2 dB(0 dB1V/Pa at 1 kHz) 灵敏度较低,需要更高的增益来拾取同样的音量。频率响应: 40 Hz - 18 kHz 响应范围较窄,尤其在高频区域。等效噪音级: ≤18 dB(A计权) 噪…

运行 GreatSQL 时为什么要求关闭透明大页

在大部分运维规范中,一般都会要求在运行 GreatSQL/MySQL 的环境中要关闭透明大页,那么到底什么是透明大页,为什么要关闭,打开有什么风险吗? 在此之前,我也是有点懵的,本文试着回答这个疑问&…

JUnit介绍:单元测试

1、什么是单元测试 单元测试是针对最小的功能单元编写测试代码(Java 程序最小的功能单元是方法)单元测试就是针对单个Java方法的测试。 2、为什么要使用单元测试 确保单个方法运行正常; 如果修改了代码,只需要确保其对应的单元…

Elasticsearch:使用硬件加速的 SIMD 指令实现超快 BBQ

作者:来自 Elastic Chris Hegarty 我们如何使用硬件加速 SIMD(Single Instruction Multiple Data - 单指令多数据)指令优化 BBQ 中的向量比较。 随着我们继续致力于让 Elasticsearch 和 Apache Lucene 成为存储和搜索向量数据的最佳场所&…

青龙面板添加任务执行自己的脚本文件(非订阅) 保姆级图文

目录 效果预览脚本存放的位置创建任务cron规则字段含义:常见的特殊字符: 可能你的脚本需要安装依赖总结 欢迎关注 『青龙面板』 专栏,持续更新中 欢迎关注 『青龙面板』 专栏,持续更新中 效果预览 你的python脚本 print(123)运行…

flink的安装配置(详细版本)

Standalone集群模式安装部署 conda deactivate 退出 base环境 Flink支持多种安装模式。 local(本地)——本地模式 standalone——独立模式,Flink自带集群,开发测试环境使用 standaloneHA—独立集群高可用模式,Fli…

Linux Cgroup学习笔记

文章目录 Cgroup(Control Group)引言简介Cgroup v1通用接口文件blkio子系统cpu子系统cpuacct子系统cpuset子系统devices子系统freezer子系统hugetlb子系统memory子系统net_cls子系统net_prio子系统perf_event子系统pids子系统misc子系统 Cgroup V2基础操作组织进程和线程popula…

JVM, JRE 和 JDK

JRE: Java Runtime Environment, Java 运行环境. JDK: Java Development Kit, Java 开发工具包. JRE JVM 核心类库 运行工具 JDK JVM 核心类库 开发工具 JVM: Java Virtual Machine, Java 虚拟机. 核心类库: Java 已经写好的东西, 直接拿来用即可. 开发工具: 包括 …

用于LiDAR测量的1.58um单芯片MOPA(一)

--翻译自M. Faugeron、M. Krakowski1等人2014年的文章 1.简介 如今,人们对高功率半导体器件的兴趣日益浓厚,这些器件主要用于遥测、激光雷达系统或自由空间通信等应用。与固态激光器相比,半导体器件更紧凑且功耗更低,这在低功率供…

前端框架的选择与反思:在简约与复杂之间寻找平衡

在当今互联网时代,前端开发已经成为web应用构建中不可或缺的一环。从最初的静态HTML页面,到如今复杂的单页应用(SPA),前端技术的发展让我们见证了Web应用的蓬勃发展。然而,伴随着技术的进步,一个…

吴恩达:《State of AI report》展现2024的主要趋势和突破(二)

万字长文,2024AI行业的科研角力 ©作者|Zhongmei 来源|神州问学 前言 吴恩达的网站在十月中旬发表了一篇名为《A Year of Contending Forces》的文章,该文章是围绕着一个名为《State of AI Report - 2024》的年度报告的总结和点评。该报告由Nathan…

【k8s 深入学习之 event 聚合】event count累记聚合(采用 Patch),Message 聚合形成聚合 event(采用Create)

参考 15.深入k8s:Event事件处理及其源码分析 - luozhiyun - 博客园event 模块总览 EventRecorder:是事件生成者,k8s组件通过调用它的方法来生成事件;EventBroadcaster:事件广播器,负责消费EventRecorder产生的事件,然后分发给broadcasterWatcher;broadcasterWatcher:用…

40分钟学 Go 语言高并发:分布式锁实现

分布式锁实现 一、概述 分布式锁是分布式系统中的一个重要组件,用于协调分布式环境下的资源访问和并发控制。我们将从锁设计、死锁预防、性能优化和容错处理四个维度深入学习。 学习目标 维度重点内容掌握程度锁设计基于Redis/etcd的锁实现原理必须掌握死锁预防…

今日分享开源酷炫大数据可视化大屏html模板

前言 虽然目前已有很多开源在线制作可视化大屏项目 但有时候为了项目赶工期上线,直接利用现成的可视化大屏html模板,配合开源低代码平台Microi吾码的接口引擎,半小时以内就能做一个成品 先上图 代码也非常简单,利用Microi吾码接口…

白鲸开源即将在Doris Summit Asia 2024展示新议题!

一年一度的 Apache Doris 峰会再次启航,Doris Summit Asia 2024 现已开启报名,将于 2024 年 12 月 14 日在深圳正式举办。此次峰会,将对实时极速、存算分离、湖仓一体、半结构化数据分析、向量索引、异步物化视图等诸多特性进行全方位解读&am…

vscode插件 live-server配置https

背景:前端有时候需要在本地搭建https环境测试某些内容(如https下访问http资源,下载) 步骤: 1.vscode集成开发软件(应该所有前端开发同学都安装了,我用webstorm,vscode备用) 2.vscode安装live…

Mac环境下brew安装LNMP

安装不同版本PHP 在Mac环境下同时运行多个版本的PHP,同Linux环境一样,都是将后台运行的php-fpm设置为不同的端口号,下面将已php7.2 和 php7.4为例 添加 tap 目的:homebrew仅保留最近的php版本,可能没有你需要的版本…

代发考试战报:12月近几日通过,题库已经更新至12月5号

代发考试战报:12月近几日通过,题库已经更新至12月5号,考试大约会遇到几个新题,就算遇到的新题全错,也不影响考试通过,HCIA-PM 12月2号上海通过,售前L3 H19-435 HCSP-Storage 存储 上海通过&…