patch成为了ALL You Need?挑战ViT、MLP-Mixer的简单模型来了

71454a296dbd4bd974c446b30f658f57.png

文 | 机器之心编辑部
源 | 机器之心

ViT(Vision Transformer)等视觉模型的强大性能,是来自于 Transformer,还是被忽略的 patch?有研究者提出了简单 ConvMixer 模型进行证明,直接将 patch 作为输入,实验表明,ConvMixer 性能优于 ResNet 等经典视觉模型,并且在类似的参数计数和数据集大小方面也优于 ViT、MLP-Mixer 及其一些变体。

近年来,深度学习系统中的卷积神经网络在处理计算机视觉任务中,一直占据主要地位。但最近,基于 Transformer 模型的架构,例如 ViT(Vision Transformer)架构(Dosovitskiy 等人,2020 年),在许多任务中都表现出了引人注目的性能,它们通常优于经典卷积网络,尤其是在大型数据集上表现更佳。

我们可以假设,Transformer 成为视觉领域的主导架构只是时间问题,就像它们在 NLP 领域中一样。然而,为了将 Transformer 应用于图像领域,信息的表示方法必须改变:因为如果在每像素级别上应用 Transformer 中的自注意力层,它的计算成本将与每张图像的像素数成二次方扩展,所以折衷的方法是首先将图像分成多个 patch,再将这些 patch 线性嵌入 ,最后将 transformer 直接应用于此 patch 集合。

我们不禁会问:像 ViT 这种架构强大的性能是来自 Transformer ,还是至少部分是由于使用 patch 作为输入表示实现的?

在本文中,研究者为后者提供了一些证据:具体而言,该研究提出了 ConvMixer,这是一个极其简单的模型,在思想上与 ViT 和更基本的 MLP-Mixer 相似,这些模型直接将 patch 作为输入进行操作,分离空间和通道维度的混合,并在整个网络中保持相同的大小和分辨率。然而,相比之下,该研究提出的 ConvMixer 仅使用标准卷积来实现混合步骤。尽管它很简单,但研究表明,除了优于 ResNet 等经典视觉模型之外,ConvMixer 在类似的参数计数和数据集大小方面也优于 ViT、MLP-Mixer 及其一些变体。

09eae7b9c2a2234c22f043f9a5cdb7b0.png

论文地址:
https://openreview.net/pdf?id=TVHS5Y4dNvM

Github地址:
https://github.com/tmp-iclr/convmixer

特斯拉 AI 高级总监 Andrej Karpathy 在其个人社交网站推特上感叹道:我被新的 ConvMixer 架构震撼了。

9af6832bd5cdfb98b00d418d8b1de0d2.png

有网友认为:「这项研究具有很重要的理论意义,因为它挑战了 ViT 有效性的原因。」

c0d7cc33be0a0761a697784652bd5f3a.png

还有网友表示:「作为消融实验,我认为很有趣。我不认为这篇论文的目的是表达『 ConvMixer 是一个好的架构,值得研究者使用』,而是『这个简单的架构有效的帮助我们缩小了其他模型最有价值的特性范围』。」

6339bf74c74f9d313c50b930619e0e78.png

80942b3bc6a0c0cd58b5dda837d1e403.png一个简单的模型:ConvMixerc4c5bc8b640e99804d510cc3471ac26e.png

ConvMixer 由一个 patch 嵌入层和一个简单的全卷积块的重复应用组成。该研究保持 patch 嵌入的空间结构,如下图 2 所示。patch 大小为 p 和嵌入维度为 h 的 patch 嵌入可以实现具有 c_in 输入通道、h 个输出通道、内核大小 p 和步长 p 的卷积:

f42382714289f9cd6631a56b6fb33002.png

ConvMixer 块本身由 depthwise 卷积(即组数等于通道数 h 的分组卷积)和 pointwise(即内核大小为 1 × 1)卷积组成。每个卷积之后是一个激活函数和激活后的 BatchNorm:

e6e417cd9ec23d591da85361ab0e42d1.png

在 ConvMixer 块的多次应用之后,执行全局池化以获得大小为 h 的特征向量,并将其传递给 softmax 分类器。

设计参数:ConvMixer 的实例化取决于四个参数:(1)宽度或隐藏维度 h(即 patch 嵌入的维度),(2)深度 d,或 ConvMixer 层的重复次数,(3 ) 控制模型内部分辨率的 patch 大小 p, (4) 深度卷积层的内核大小 k。研究者根据它们的隐藏维度和深度命名 ConvMixers,如 ConvMixer-h/d。他们将原始输入大小 n 除以 patch 大小 p 作为内部分辨率;但是请注意,ConvMixers 支持可变大小的输入。

动机:ConvMixer 架构基于混合思想。具体地,该研究选择了 depthwise 卷积来混合空间位置,选择 pointwise 卷积来混合通道位置。先前工作的一个关键思想是 MLP 和自注意力可以混合较远的空间位置,即它们可以具有任意大的感受野。因此,该研究使用较大的内核卷积来混合较远的空间位置。

c2a37b1ff2cef7897630597452a6c584.png实验结果123c111678707103a3093f50b653bfa4.png

研究者首先在 CIFAR-10 上执行了小规模的实验,其中 ConvMixers 仅使用 0.7M 的参数实现了 96% 以上的准确率,验证了卷积归纳偏置的数据高效性。

此外,研究者不使用任何预训练或额外数据,在 ImageNet-1k 分类数据集上对 ConvMixers 进行了评估。他们将 ConvMixer 添加到 timm 框架中,并使用近乎标准的设置进行训练,包括默认 timm 增强、RandAugment、mixup、CutMix、随机删除(random erasing)和梯度标准裁剪。

研究者还使用了 AdamW 优化器和一个简单的 triangular 学习速度时间表。由于计算受限,他们没有在 ImageNet 上进行超参数调整,并较竞品模型训练了更少的 epoch。

结果如下表 1 所示。参数量为 52M 的 ConvMixer-1536/20 在 ImageNet 上实现了 81.4% 的 top-1 准确率,参数量为 21M 的 ConvMixer-768/32 实现了 80.2% 的 top-1 准确率。更宽的 ConvMixers 在训练 epoch 更少时出现收敛,但需要内存和计算。当卷积核更大时表现也很好:当卷积核大小从 K = 9 降至 K = 3 时,ConvMixer-1536/20 的准确率大约降了 1%。当 patch 更小时,ConvMixers 的表现明显更好。因此,研究者认为,更大的 patch 需要更深的 ConvMixers。他们使用 ReLU 训练了一个模型,以证明 GELU 是不必要的。

ConvMixers 模型和训练设置与 DeiT 非常相似。在最近的各向同性模型中,研究者认为 DeiT 和 ResMLP 是最公平的竞品模型,并且使用相同的过程训练了 ResNet(它的原始结果已经过时了)。从表 1 和下图 1 可以看到,ConvMixer 在给定的参数预算下实现了具有竞争力的结果:ConvMixer-1536/20 在使用明显更少参数的情况下,优于 ResNet-152 和 ResMLP-B24,并能够与 DeiT-B 竞争。不仅如此,ConvMixer-768/32 仅使用 ResNet-152 的 1/3 参数,就实现了与之相似的准确率。

2d74388d951a217674cdbb0b7f0d6013.png

但是,ConvMixers 的推理速度较竞品模型慢得多,这可能因为它们的 patch 更小。超参数调整和优化可以缩小这一差距,具体参见下表 2:

f0ab0ad440aa7535dd5d7bc7553dd698.png

2b147439e4c311ad644c3f70a41adff6.png后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

937fedbef1f43542182f029f201eb7e9.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478000.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OpenKG开源系列 | 轻量级知识图谱抽取开源工具OpenUE

OpenKG地址:http://openkg.cn/tool/openueGitHub地址:https://github.com/openkg-org/openueGitee地址:https://gitee.com/openkg/openueOpenUE网站:http://openue.openkg.cn论文地址:https://aclanthology.org/2020.e…

通俗理解kaggle比赛大杀器xgboost

原文链接 通俗理解kaggle比赛大杀器xgboost 说明:若出现部分图片无法正常显示而影响阅读,请以此处的文章为准:xgboost 题库版。 时间:二零一九年三月二十五日。 0 前言 xgboost一直在竞赛江湖里被传为神器,比如时不时某…

LeetCode 690. 员工的重要性(图的DFSBFS)

文章目录1. 题目2. 解题2.1 DFS2.2 BFS1. 题目 给定一个保存员工信息的数据结构,它包含了员工唯一的id,重要度 和 直系下属的id。 比如,员工1是员工2的领导,员工2是员工3的领导。他们相应的重要度为15, 10, 5。那么员工1的数据结…

论文浅尝 | LGESQL: 结合线性有向图以及普通有向图的自然语言转换SQL语句模型...

LGESQL: Line Graph Enhanced Text-to-SQL Model with Mixed Local and Non-Local Relations笔记整理:郭心南来源:ACL2021链接:https://arxiv.org/abs/2106.01093Github地址:https://github.com/rhythmcao/text2sql-lgesql概述本文…

召回粗排精排-级联漏斗(上)

文 | 水哥源 | 知乎saying1. 把点击多的item曝光提升是推荐模型的基本能力,也是基本要求。后验不好的曝光提高也可能是好模型,后验好的曝光不提高,可以开除推荐模型了2. 在起量阶段,各路item需要争宠,谁能最快博取精排…

美团Android资源混淆保护实践

前言 Android应用中的APK安全性一直遭人诟病,市面上充斥着各种被破解或者汉化的应用,破解者可以非常简单的通过破解工具就能对一个APK进行反编译、破解、汉化等等,这样就可以修改原有代码的逻辑、添加新代码、添加或修改资源、或者更有甚者植…

搞不懂,为啥现在什么公司都在考算法???

昨天在知乎上刷到一个热门问题:程序员需要达到什么水平才能顺利拿到 20k 无压力?其中一个最热门的回答是:“其实,无论你是前端还是后端、想进大厂还是拿高薪,算法都一定很重要。”为什么,算法会如此重要?不…

OpenKG开源系列 | 中文高中地理知识图谱CKGG(南京大学)

OpenKG地址:http://openkg.cn/dataset/ckggGitHub地址:https://github.com/nju-websoft/CKGG数据地址:https://doi.org/10.5281/zenodo.4668711论文地址:https://doi.org/10.1007/978-3-030-88361-4_25开放许可协议:CC…

LeetCode 892. 三维形体的表面积(数学)

1. 题目 在 N * N 的网格上,我们放置一些 1 * 1 * 1 的立方体。 每个值 v grid[i][j] 表示 v 个正方体叠放在对应单元格 (i, j) 上。 请你返回最终形体的表面积。 示例 1: 输入:[[2]] 输出:10示例 2: 输入&#x…

淘宝数据,数据处理,时间序列分析,获客分析,购买路径分析

-- 创建数据库 create database taobao; use taobao; desc use_behaviour;-- 创建表格 create table use_behaviour( user_id int(9), item_id int(9), category_id int(9), behaviour_type varchar(5), timestamps int(14));-- 查询已导入多少条 select count(*) from use_…

谁说发 paper 一定要追快打新?2021年,研究 word2vec 也能中顶会!

文 | jxyxiangyu前言“小夕,小夕,你关注的任务sota又被刷新了!”“什么?!”还在跑实验的小夕默默流下了辛酸泪不得不说nlp领域的发展真的太快了,炼丹师们不光要时刻关注前沿热点,还要快速做出实…

论文浅尝 | Multilingual LAMA: 探索多语言预训练语言模型中的知识

笔记整理:谭亦鸣,东南大学博士生来源:EACL‘21链接:https://aclanthology.org/2021.eacl-main.284.pdf概述本文关注将语言模型(LM)视作一个知识库,然后用于解决例如句子填空这样的NLP任务&#…

LeetCode 860. 柠檬水找零(贪心)

1. 题目 在柠檬水摊上,每一杯柠檬水的售价为 5 美元。 顾客排队购买你的产品,(按账单 bills 支付的顺序)一次购买一杯。 每位顾客只买一杯柠檬水,然后向你付 5 美元、10 美元或 20 美元。你必须给每个顾客正确找零&…

召回粗排精排-级联漏斗(下)

文 | 水哥源 | 知乎saying召回区分主路和旁路,主路的作用是个性化向上管理,而旁路的作用是查缺补漏。推荐系统的前几个操作可能就决定了整个系统的走向,在初期一定要三思而后行。做自媒体,打广告,漏斗的入口有多大很重…

学术联赛 | 运用知识图谱技术,赋能多领域应用 ——“未来杯”AI学术联赛总决赛暨颁奖典礼圆满落幕...

本文转载自公众号:AI学习社。由北京大学软件工程国家工程研究中心主办,华为终端有限公司及中软国际教育科技集团全程战略支持,STEER TECH科技平台、北京乐智元素科技有限公司、艾肯文化传媒(北京)有限公司、AI TIME承办…

LeetCode 1013. 将数组分成和相等的三个部分

1. 题目 给定一个整数数组 A&#xff0c;只有我们可以将其划分为三个和相等的非空部分时才返回 true&#xff0c;否则返回 false。 形式上&#xff0c;如果我们可以找出索引 i1 < j 且满足 (A[0] A[1] … A[i] A[i1] A[i2] … A[j-1] A[j] A[j-1] … A[A.lengt…

谷歌 | 多任务学习,如何挑选有效的辅助任务?只需一个公式!

文 | 小伟编 | 小轶前言说到多任务学习&#xff0c;大家都不陌生&#xff0c;不管是在学术界还是工业界都已经有了很多成熟的探索与应用。在理想的多任务学习中&#xff0c;各个任务对彼此应当是有益的&#xff0c;所有任务相互促进&#xff0c;从而达到超过单任务学习的效果。…

LeetCode 888. 公平的糖果交换(哈希set)

文章目录1. 题目2. 解题2.1 暴力查找2.2 哈希set1. 题目 爱丽丝和鲍勃有不同大小的糖果棒&#xff1a;A[i] 是爱丽丝拥有的第 i 块糖的大小&#xff0c;B[j] 是鲍勃拥有的第 j 块糖的大小。 因为他们是朋友&#xff0c;所以他们想交换一个糖果棒&#xff0c;这样交换后&#…

OpenKG开源系列 | 面向知识的推理问答编程语言KoPL(清华大学)

OpenKG地址&#xff1a;http://openkg.cn/tool/koplGitHub地址&#xff1a;https://github.com/THU-KEG/KoPL网站地址&#xff1a;https://kopl.xlore.cn开放许可协议&#xff1a;MIT License贡献者&#xff1a;清华大学&#xff08;曹书林、史佳欣、姚子俊、吕鑫、聂麟骁、逄凡…

前端组件化开发实践

前言 一位计算机前辈曾说过&#xff1a; Controlling complexity is the essence of computer programming.随着前端开发复杂度的日益提升&#xff0c;组件化开发应运而生&#xff0c;并随着 FIS、React 等优秀框架的出现遍地开花。这一过程同样发生在美团&#xff0c;面临业务…