CV界,卷积神经网络真的干不过Transformer了吗?

一、 CNN及其优势和局限性

其他答主回答的角度和内容非常全面,答主也从自己的角度谈谈这个问题。我们不妨先看一下CNN的结构。CNN依靠卷积拥有感受野,具有了时移不变性。
在这里插入图片描述

1.1 CNN的局限性

可以看到随着卷积层的增加,feature maps上的一个像素点就包含更多的信息。这种感受野的增长依靠于卷积核大小和层数,因此,如果卷积核不算很大,层级不够多,那么其在处理有长距离依赖上的图像效果可能并不好。同样,如果最后不处理到只剩一个像素,那么feature maps上的任何一个像素点都不能处理全局信息。这就是CNN体系上的一个局限性。

1.2 CNN的优势

尽管CNN有着其局限性,但很显然,这个局限性在某些情况下就会转为其优势。CNN的全局信息处理能力不足,但其局部特征提取能力非常强大,这种局部特征提取的能力在处理图像中的细节和纹理等局部特征上更为有效。
同时,卷积操作有助于减小参数量,因为卷积核的参数被共享,意味着同一个卷积核可以在整个输入图像的不同位置上进行特征提取。这种参数共享减少了网络的参数量,降低了过拟合的风险,并且使得模型更具有泛化能力。相比于全连接和transformer,参数量是明显减小的。

人类对外界的认知一般是从局部到全局、从片面到全面,类似的,在机器识别图像时也没有必要把整张图像按像素全部都连接到神经网络中,在图像中也是局部周边的像素联系比较紧密,而距离较远的像素则相关性较弱,因此可以采用局部连接的模式(将图像分块连接,这样能大大减少模型的参数),如下图所示:
在这里插入图片描述

标题二、 Transformer及其优势和局限性

Transformer本来是NLP领域的革命性模型,随着其在多个benchmark上达到sota的效果,首先是NLP领域刮起了Transformer结构的旋风。随后Transformer开始打破壁垒,进入CV领域。
我们先看ViT的结构图:
在这里插入图片描述
ViT方法实现细节

如上图所示,整个模型我们可以将其分为4个部分,假设输入图像选择为256x256x3;

  1. Linear Projection of Flattened Patches(将CV任务图片转换为与NLP任务类似的序列Patches)
  2. Extra Learnable[class] Embedding And Position Embedding
  3. Transformer Encoder MLP Head部分结构

我们可以看到,图像被处理成了多个patch,而这些patch经过映射之后再被送入到Multi-Head Attention的结构里面,我们再看Multi-Head Attention的结构:
在这里插入图片描述

2.1 Transformer的局限性

很明显,本来一个a,要经过三个矩阵的处理,变成q, k, v,参数量明显上涨。然后两两计算qkv,这无疑带来了巨大的计算量。这就引出了Transformer在参数量和计算量上的局限性,需要比较多的计算资源,这也是为什么会出现“Money is All you need”的这么一个讽刺文章了。如果图片比较大,CNN也许能轻松处理,但是Transformer就不一定了,所以才引出了后面的Swin Transformer,但是始终还会有高于CNN的计算量。因此,Transformer想要处理高分辨率的图像也还是比较有难度的。由于参数量的增多,这对数据量提出了比较高的要求,在数据较少的情况下可能并不奏效。

2.2 Transformer的优势

和CNN一样,Transformer的局限性也可以转换成其优势,就是能够有全局信息和处理长距离依赖的能力,并且在足够的数据和计算资源下,可以达到非常出色的效果,这个在各种论文的结果上都可以得到验证。

Transformer的优势在NLP领域更是体现的淋漓尽致,也带来了预训练模型的潮流。而继承于Transformer Decoder的GPT,在自回归生成上又做到了让人眼前一亮的效果,而后GPT又经过强化学习,微调等技巧,诞生出了现在的大模型,现在已经进化到多模态的版本,能用图像交互了,目前尚不知道自回归会不会在CV领域闯出来,大家可以多多关注CV领域未来的发展方向。

三、 CNN和Transformer的互补

实际上,CNN和Transformer并不是水火不容的关系,想起来本科操作系统和编译原理老师都说过的一句话:没有过时的技术,只是看什么样的应用场景,某些场景下,老技术也能焕发光彩。像另一位答主所说的,先用CNN提取特征,再用Transformer做后处理是比较合理的做法。先利用CNN的局部特征提取能力和参数共享特性,将一些图像先进行一个提取,降低像素量,再用Transformer的高级抽象特征处理能力,计算全局信息,再利用全局信息去做特定的任务,这是一个较为可行的方案。
也有不少论文是将Transformer和CNN融合使用的。比如TransUNet:

在这里插入图片描述
就是用上了这种思路,对医学图像进行分割,达到了不错的效果。
还有一种思路是不管什么尺度,都用CNN+Transformer处理,例如发表在MICCAI(CCF B)的UTNet:
在这里插入图片描述
在Encoder部分除了第一层,其他层都用卷积再加Transformer的方式进行处理。

因此,哪怕在学术界,也不能说Transformer可以完全取代CNN,完全不需要用二极管思维去看待任何一项技术。在工业界就更不用说了,像各位大佬所说的,Transformer在落地上有着比较大的困难,总不能要求所有设备都搭载着高性能的GPU进行计算。

总结

上述一系列的分享,相信大家也会有了自己的看法,在这里答主再重复一下自己的结论,其实也就是没有免费的午餐原理,没有一个技术或者算法可以通用地解决所有问题,当其在一个任务上表现得好的时候,通常在另一个任务也许会不尽人意。粗暴地想用谁取代谁,都不是一个合理的思想,归根结底还是要对不同技术进行分析和理解,取长补短,相得益彰,这也是一系列论文给我们证明的结论。希望大家如果觉得答主分

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/809798.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

3.00 版本来了!DolphinDB V2.00.12 V3.00.0 正式发布!

一文带你了解 DolphinDB 全新版本升级! 本次更新后,3.00.0版本将成为 DolphinDB 的最新版,2.00.12版本变更为稳定版,此前发布的1.30.23版本将成为1.30系列的最后一个版本。接下来,带大家一起看看 DolphinDB V2.00.12 …

【Linux系统编程】第一弹---背景介绍

✨个人主页: 熬夜学编程的小林 💗系列专栏: 【C语言详解】 【数据结构详解】【C详解】【Linux系统编程】 目录 1、Linux 背景介绍 1.1、发展史 1.1.1、UNIX发展的历史 1.1.2、Linux发展历史 2、开源精神 3、Linux内核官网 4、企业应用…

windows下安装yolov8环境(详细图文教程)

目录 一:前言 二:安装yolov8 一:前言 最近看了 YOLO 的发展史,发现在机器视觉领域的应用非常广泛,f刚好最近一直在做机器视觉的工作,特此记录下搭建yolov的环境。我们使用的版本是yolov8的就用这个作为演…

带计步跑步功能,余额宝、早起打卡与积分商城金融众筹一体化平台

检测自动增加步数 Bug问题: 无 测试环境: PHP5.6Mysql5.6 源码简介: 袋鼠投资理财,本程序有技步跑步功能,余额宝功能,早起打卡,积分商城,抽奖功能等各方面为一体的综合理财项目。 功能列表: 袋鼠投资理财&#xf…

实体抽取全解析:技术与实战

目录 一、前言二、实体抽取技术概览基于规则的实体抽取基于统计的实体抽取基于深度学习的实体抽取 三、实体抽取的发展历程早期的实体抽取方法基于规则和词典的方法基于特征的机器学习方法 深度学习时代的实体抽取从传统模型到神经网络序列标注模型的兴起预训练语言模型的革命 …

C#互联网区域医学检验中心云LIS系统源码

云LIS联通四级(市、县、乡、村)检验服务网构建互联网检验服务新体系落地检验资源区域共享建设。云LIS系统是一种基于云计算技术的区域实验室信息管理系统,它的主要功能是管理实验室中的各种信息数据,包括样品数据、检测结果、仪器…

Linux使用命令发送get或post请求

在linux服务器直接发送get或者post请求可以使用curl命令和wget命令。 curl命令: curl http://localhost:8080/应用/接口号 输入此命令之后会直接将响应结果展示到服务器上,如: 输入命令:curl -i curl -i http://localhost:…

RabbitMQ消息模型之Fanout消息模型

Fanout消息模型 * 广播模型:* 一个交换机绑定多个队列* 每个队列都有一个消费者* 每个消费者消费自己队列中的消息,每个队列的信息是一样的生产者 package com.example.demo02.mq.fanout;import com.example.demo02.mq.util.ConnectionUtils; impor…

神策sdk埋点

一,提出数据需求 首先要把数据需求提出来,先落地成一个标准的文档。数据需求是由业务或者产品去做,然后设计数据采集方案是基于我们的数据需求,首先要满足数据需求,其次在数据在设计完成之后要进行评审。/基于需求设计…

【PyQt5】环境配置

PyQt5 环境配置 一、前言1.1 PyQt5介绍1.2 PyCharm集成Pyqt5 二、pyqt5安装三、PyQt5-tools工具包安装四、常用工具环境配置4.1、环境变量配置4。2、验证是否安装成功 五、pycharm中设置Qt工具(Qt Designer、PyUIC、PyRcc)5.1、配置Qt Designer5.2、配置…

gitee上传出现git did not exit cleanly (exit code 1)的错误

在最后push的时候出现下面的结果: 出现这个错误的原因有好多种,目前介绍博主遇到的两种: 在第一次进行push操作的时候,需要输入用户名和密码,如果输入错误,则最后可能会出现上述报错 解决方法:…

centos7安装 on-my-zsh

如下👇 yum install -y zsh chsh -s /bin/zsh yum install -y git sh -c "$(curl -fsSL https://raw.githubusercontent.com/robbyrussell/oh-my-zsh/master/tools/install.sh)" 重启即可生效啦~

Python爬虫怎么挣钱?6个Python爬虫赚钱方式,搞搞副业不是问题

1.最典型的就是找爬虫外包活儿 网络爬虫最通常的的挣钱方式通过外包网站,做中小规模的爬虫项目,向甲方提供数据抓取,数据结构化,数据清洗等服务。新入行的程序员大多都会先尝试这个方向,直接靠技术手段挣钱&#xff0…

Oladance、南卡、Cleer开放式耳机好不好用?深度测评剖析实力王!

​近期,不少朋友都在询问如何挑选适合自己的开放式耳机。面对市场上众多品牌的开放式耳机,它们在音质、舒适度和性能上都有所差异,挑选一款合适的耳机对于音乐爱好者来说尤为重要。购买到品质不达标的耳机可能会影响音乐体验,甚至…

sonar搭建(linux系统)

前景 静态代码扫描是CI/CD中重要的一环,可以在代码提交到代码仓库之后,在CI/CD流程中加入代码扫描步骤,从而及时地对代码进行质量的检查。这可以有效地降低后期维护成本,优化产品质量,提高产品交付速度。同时&#xf…

浅尝一下ECS(Entity Component System)(学习笔记)

参考文章:浅谈Unity ECS(一)Uniy ECS基础概念介绍:面向未来的ECS - 知乎 (zhihu.com) 视频链接:【青幻译制】GDC讲座系列之三 守望先锋的游戏架构和网络代码_哔哩哔哩_bilibili 云风的 BLOG: 浅谈《守望先锋》中的 E…

保证线程安全的10个小技巧分享

对于从事后端开发的同学来说,线程安全问题是我们每天都需要考虑的问题。 线程安全问题通俗的讲:主要是在多线程的环境下,不同线程同时读和写公共资源(临界资源),导致的数据异常问题。 比如:变…

家居网购项目(一)

文章目录 1.前置知识1.项目开发阶段2.Java经典三层架构3.项目具体分层(包方案)4.MVC 2.开发环境搭建1.新建普通javaweb项目,导入jar包2.创建项目结构3.搭建前端页面 3.会员注册前端js校验1.需求分析2.代码login.html 3.结果4.调试阶段1.验证信…

LeetCode 题目:两个总和

LeetCode 题目:两个总和 描述: 编写一个函数,输入为一个整数数组nums和一个目标整数target,要求找到数组中两个数的和等于target,并返回这两个数的索引。 函数定义: def two_sum(nums: List[int], targe…

Java多线程开发——基础篇

目录 1.基本概念 2.创建线程方式 2.1直接建立线程 2.2实现Runnable接口 3.3实现Callable接口 3.4 了解Future接口 Future模式主要角色及其作用 3.5实例化FutureTask类 3.实现线程安全 3.1定义 3.2不安全原因 3.3解决方案 3.4volatile与synchronized区别 4.极端情…