新一代大核卷积反超ViT和ConvNet!同参数量下性能、精度、速度完胜

大核卷积网络是CNN的一种变体,也是深度学习领域的一种重要技术,它使用较大的卷积核来处理图像数据,以提高模型对视觉信息的理解和处理能力。

这种类型的网络能够捕捉到更多的空间信息,因为它的大步长和大感受野可以一次性覆盖图像的更多区域。比如美团提出的PeLK网络,内核大小可以达到101x101,同参数量下性能反超 ViT,目前已被CVPR 2024收录。

更值得一提的,大核卷积网络不仅在性能上有所提升,在ImageNet分类等任务上,也展现出了优于ViT和ConvNet架构的效果。比如腾讯+港中文提出的UniRepLKNet,只用ImageNet-22K预训练,精度和速度SOTA,ImageNet达到88%。

当然效果惊人的成果远不止这些,我这次挑选了10个大核卷积网络最新创新方案,开源的项目代码都有,供有论文需求的同学参考学习。

论文原文以及开源代码需要的同学看文末

PeLK: Parameter-efficient Large Kernel ConvNets with Peripheral Convolution

方法:论文提出了外围卷积,通过参数共享有效减少了密集网格卷积 90% 以上的参数数量,并设法将内核尺寸扩大到极大。在此基础上,作者提出了参数高效的大核网络(PeLK)。

创新点:

  • 密集网格卷积(Dense Grid Convolution)相较于条纹卷积(Stripe Convolution)具有持续的优势,无论是在多种核大小下还是在不同的任务中,密集网格卷积都能够表现出更好的性能。

  • 引入人类外周视觉机制(Peripheral Vision)的概念来提高大核卷积网络的参数效率,通过参数共享有效地减少了密集网格卷积的参数数量,并且能够将卷积的复杂性从O(K^2)降低到O(log K)。

UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio, Video, Point Cloud, Time-Series and Image Recognition

方法:论文探索了大卷积核的卷积神经网络(ConvNet)的架构设计和在多模态领域的通用感知能力,填补了现有大卷积核ConvNet的架构设计不足和在非视觉领域的应用研究空白,通过提出四个架构准则设计了UniRepLKNet,并在图像识别、时间序列预测和音频识别等任务上取得了领先的性能,验证了大卷积核的重要性和ConvNet的通用感知能力。

创新点:

  • 大核ConvNet架构设计:
    • 提出了四个关于大核ConvNet设计的指导原则,其中核心原则是利用大核与小核的本质区别,即大核可以在不加深网络的情况下实现更广阔的感受野。

    • 根据这些指导原则,提出的大核ConvNet在图像识别任务中取得了领先的性能,相比于其他强大的竞争模型,具有更好的性能和更高的速度。

  • 大核ConvNet在多模态领域的普适感知能力:
    • 发现大核ConvNet在原本不擅长的领域具有出色的性能表现。通过特定的模态相关预处理方法,该模型在时间序列预测和音频识别任务上实现了业界领先的性能,即使没有进行模态特定的架构定制化。

    • 证明了大核ConvNet在多模态任务中的卓越性能,为ConvNet在新领域的应用开辟了新的可能性。

LSKNet: Large Selective Kernel Network for Remote Sensing Object Detection

方法:论文主要介绍了一种用于遥感目标检测的新方法,即大型选择性核网络(LSKNet)。LSKNet的整体架构基于最近流行的结构,并使用了重复的构建块。作者通过定义Rc作为期望选择RF区域与GT边界框区域的比例来研究每个目标类别的感受野范围。

创新点:

  • 作者首次尝试将大核卷积应用于遥感目标检测,并研究了其在这一领域的重要性。通过将大核卷积分解为两个深度卷积核,作者提出了一种适用于遥感的LSKNet架构,能够充分利用遥感图像的特点,实现对不同对象类型的广泛和可适应的上下文理解。

  • 作者提出了一种空间选择机制,用于在不同尺度上从大卷积核中选择特征图。通过通道平均池化和通道最大池化,作者有效地提取了特征之间的空间关系,并使用卷积层将池化特征转换为空间注意力图。然后,通过相应的空间选择掩码,对分解的大核卷积特征进行加权并融合,以获得最终的关注特征。

Shift-ConvNets: Small Convolutional Kernel with Large Kernel Effects

方法:论文提出了一种新的操作符,通过正则卷积实现大卷积核效果,从而在广泛的设备范围内实现了CNN的最新进展。论文还提出了一种新的剪枝操作,通过粗粒度剪枝实现了稀疏组卷积。同时,论文还提出了一种基于偏移操作的算子来改进卷积操作,并将其应用于改进的模块结构中。

创新点:

  • 通过使用shift-wise操作,作者实现了使用标准卷积进行大卷积核效果,并通过剪枝得到了稀疏组卷积。这一方法能够将大卷积核的效果与标准CNN的先进性结合起来,拓展了CNN的应用领域。

  • 作者提出了一种新的shift-wise操作方法,通过将输入特征进行分组和位移,模拟多个卷积核尺寸,从而创建多个输出分支。然后,将这些输出分支合并为一个单一的分支。这种方法能够在保持整体网络结构不变的同时,不断优化数据流形的依赖关系。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“大核卷积”获取全部论文+代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/27494.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++语法08 数据类型之间的强制转换

目录 强制类型转换 强制类型转换格式 整型转换成浮点型 整型转换成浮点型其他写法 训练:糖果奖励 糖果奖励参考代码 浮点型转换成整型 浮点型转换成整型其他写法 训练:分离小数 分离小数参考代码 强制类型转换 强制类型转换,就是把…

如何应对生活中的不确定性:仁者安仁,知者利仁。

有较高自尊水平的人,接近于孔子说的:仁者。 ——— 有着稳定的高自尊,无论外在环境如何变化,对其影响都不大,他能够愉快地生活。 相反:一个人处于低自尊状态,就会活得很痛苦,对自己…

基于MCU平台的HMI开发的性能优化与实战(上)

随着汽车座舱智能化的不断演进,车内显示设备的数量显著增加,从传统的仪表盘和中控屏扩展至空调控制、扶手、副驾驶区域以及抬头显示(HUD)等多样化的显示单元。为了有效支持这些功能单元,同时控制整车成本,越…

手机在网状态-手机在网状态查询-手机在网站状态接口

查询手机号在网状态,返回正常使用、停机、未启用/在网但不可用、不在网(销号/未启用/异常)、预销户等多种状态 直连三大运营商,实时更新,可查询实时在网状态 高准确率-实时更新,准确率99.99% 接口地址&…

54.Python-web框架-Django-免费模板django-datta-able

1.Datta Able Django介绍 Detta Able Djiango是什么 Datta Able Django 是一个由AppSeed提供的开源Django管理面板,基于现代设计,为开发者提供了一流的功能和优雅的界面。它源自CodedThemes的高风格化Bootstrap 4模板——Datta Able Bootstrap Lite&…

python-基础篇-文件和异常

文章目录 文件和异常读写文本文件读写二进制文件读写JSON文件 文件和异常 实际开发中常常会遇到对数据进行持久化操作的场景,而实现数据持久化最直接简单的方式就是将数据保存到文件中。说到“文件”这个词,可能需要先科普一下关于文件系统的知识&#…

什么是快乐?

什么是快乐? What is Happiness? 1. 快乐不是追求外在的物质,而是内心的平静与满足。当我们学会感恩,懂得珍惜眼前的一切,心中自然会充满喜悦。快乐并非来自拥有更多,而是感受到已经拥有的足够。每一天都怀抱感激之情…

qt如何在linux平台上设置编译生成windows程序文件,跨平台?

在开始前刚好我有一些资料,是我根据网友给的问题精心整理了一份「qt的资料从专业入门到高级教程」, 点个关注在评论区回复“888”之后私信回复“888”,全部无偿共享给大家!!!QT本来目标就是跨平台&#xf…

Commons-Collections篇-CC4链分析

前言 因为 CommonsCollections4 除 4.0 的其他版本去掉了 InvokerTransformer 继承 Serializable,导致该方法无法序列化。 同时 CommonsCollections 4的版本 TransformingComparator 继承了 Serializable接口,而CommonsCollections 3里是没有的&#xf…

hrm人力管理系统源码(从招聘到薪酬的全过程人力管控系统)

一、项目介绍 一款全源码可二开,可基于云部署、私有部署的企业级数字化人力资源管理系统,涵盖了招聘、人事、考勤、绩效、社保、酬薪六大模块,解决了从人事招聘到酬薪计算的全周期人力资源管理,符合当下大中小型企业组织架构管理运…

Stringboot

一、概述 springboot是spring家族中的一个全新框架,用来简化spring程序的创建和开发过程。在以往我们通过SpringMVCSpringMybatis框架进行开发的时候,我们需要配置web.xml,spring配置,mybatis配置,然后整合在一起&…

django.db.utils.NotSupportedError: MySQL 8 or later is required (found 5.7.33).

django.db.utils.NotSupportedError: MySQL 8 or later is required (found 5.7.33). 一、原因分析 在新版的Django默认需要MySQL 8或更高版本,才能运行。 二、解决办法 1、升级mysql数据库版本 只需要将mysql版本升级到8.0,即可解决,当然这…

基于esp8266_点灯blinker_智能家居

文章目录 一 实现思路1 项目简介2 项目构成3 代码实现4 外壳部分 二 效果展示UI图片 一 实现思路 摘要:esp8266,mixly,点灯blinker,物联网,智能家居,3donecut 1 项目简介 1 项目效果 通过手机blinker app…

宝藏速成秘籍(3)选择排序法

一、前言 1.1、概念 选择排序法(Selection Sort)是一种简单直观的排序算法。它的基本思想是:每次从待排序的数组中选择最小(或最大)的元素,将其放在已排序部分的末尾,直到所有元素都排序完毕。…

Unet心电信号分割方法(Pytorch)

心血管疾病是一种常见病,严重影响人们的健康及日常生活。 近年来随着人们生活习惯的不断变化,心血管疾病对人们影响愈加明显,发病率呈现出逐年攀升的趋势,心血管疾病是中国城乡居民死亡的首要原因。心电图ECG已被广泛用于研究心跳…

光学雨量监测站:科技赋能,精准监测降水过程

TH-YJ3随着科技的不断进步,光学雨量监测站作为一种先进的降水监测设备,正逐渐在气象、水文、农业等领域发挥重要作用。光学雨量监测站以其高精度、高可靠性、实时性强的特点,为降水数据的收集和分析提供了强有力的支持,为相关领域…

Nginx负载均衡之长连接负载均衡

当客户端通过浏览器访问 HTTP 服务器时,HTTP 请求会通过 TCP 协议与 HTTP 服务器建立一条访问通道,当本次访问数据传输完毕后,该 TCP 连接会立即被断开,由于这个连接存在的时间很短,所以 HTTP 连接也被称为短连接。 …

Lua实现自定义函数面向对象编程

本文目录 1、引言2、原理3、实例4、层析验证 文章对应视频教程: 暂无,可以关注我的B站账号等待更新。 点击图片或链接访问我的B站主页~~~ 1、引言 在现代软件开发中,面向对象编程(OOP)已经成为一种广泛使用的编程范式…

俄罗斯Yandex推广投放如何开户?Yandex广告开户和代运营推广流程详解_俄罗斯_受众_搜索引擎

在俄罗斯进行Yandex广告推广是一种有效的在线营销方式,特别是针对俄罗斯市场。Yandex是俄罗斯最受欢迎的搜索引擎,类似于Google在全球范围内的地位。以下是通过Yandex广告推广的一般步骤,以及如何通过上海上弦进行广告开户和代运营。 1. Yan…

怎么图片转excel表格?推荐三个方法

怎么图片转excel表格?在信息化高速发展的今天,图片转Excel表格的需求日益凸显,尤其是在职场办公中,这一需求更是显得尤为迫切。为了满足广大用户的需求,市面上涌现出了众多图片转Excel的软件。今天,就为大家…