[2020-CVPR] Dynamic Region-Aware Convolution 论文简析

[2020-CVPR] Dynamic Region-Aware Convolution 论文简析

论文地址:https://arxiv.org/abs/2003.12243
参考代码地址(非官方):https://github.com/shallowtoil/DRConv-PyTorch

代码笔者自己试了一下,应该是可以的,但是没做到文中的性能,欢迎讨论。

本文设计了一种新型动态区域感知卷积(DRConv),根据图像的信息将图像划分为多个区域,并为每个区域单独生成定制的卷积核。有强大的语义表示能力并且保持了平移不变性,本文还具体设计了此种卷积的反向传播方式,根据总体的梯度进行参数更新,实现了端到端的训练,该卷积在多项任务上具有极其优异的性能。

DRConv针对的问题是常规卷积同一个通道中所有卷积核共享参数,无法对图像的不同的语义区域进行有针对性的卷积操作,所以标准卷积只能通过增加通道数来提取更多的视觉元素,这无疑会大幅增加计算的开销。而本文提出的DRConv会根据图像中不同的语义信息划分不同的区域,然后针对每个语义区域定制不同的卷积核进行卷积,即不同区域间的卷积核的参数是不共享的、定制化的,这使得DRConv比标准卷积在建模语义信息的多样性上表现更好。即DRConv将通道维度上的卷积核个数的增加转换为了空间维度上可学习的区域划分,这不仅提高了卷积的表示能力,并且保持了标准卷积的计算量和平移不变形。
作者还针对这个过程中的argmax函数无法反向传播求梯度的问题提出了用softmax在反向传播是近似代替argmax(hardmax)的解决方案。

实验部分,作者将DRConv替换掉MobileNet等网络的一些卷积层,在分类、人脸识别、检测和分割任务上都取得了比较好的效果。

在这里插入图片描述

DRConv的具体结构如图所示,我们先对输入图像使用标准卷积来得到guided feature。根据guided feature,将空间维度划分为若干区域。如图所示,guided mask中相同颜色的像素表示同一块区域。在每个共享区域中,我们使用filter generator模块来生成一个卷积核去执行2维的卷积操作。这样需要优化的参数主要在filter generator模块中,并且这些参数的数量与图像本身的大小没有关系。因此,除了大幅提升模型的性能外,DRConv相较于局部卷积来说参数的数量也大大下降了,与标准卷积的参数量相当。

标准卷积在空间域卷积核都使用权值共享。问题是计算不够高效,并且优化困难。
局部卷积在不同的像素位置使用不同的权值在空间维度上使用多卷积核的方法来利用语义信息的多样性,如此比标准卷积在提取空间特征是更加高效。但问题一是大大增加了参数量,而是是破坏了卷积的平移不变性。而且其在不同的样本之间还是共享卷积核的,这使它对于每个样本各自的特定特征不够敏感。

具体来说,作者设计了一个可学习的guided mask模块,来根据输入图像的特点将空间维度划分为多个区域,将图像划分成不同的区域,在不同的区域上使用不同的卷积。区域内卷积是通用的,不同区域卷积不通用。GGG 是生成卷积的模块,有多少个区域,就生成多少个卷积核 WiW_iWi 。在每个区域内部只有一个共享的卷积核。不同样本的不同区域的卷积核会根据输入的相应特征动态生成,这能够使我们更加高效地关注于它们的关键特征。

Method

标准卷积:
Yu,v,o=∑c=1CXu,v,o∗Wc(o)Y_{u,v,o}=\sum_{c=1}^CX_{u,v,o}*W_c^{(o)} Yu,v,o=c=1CXu,v,oWc(o)
局部卷积:
Yu,v,o=∑c=1CXu,v,o∗W(u,v,c)(o)Y_{u,v,o}=\sum_{c=1}^CX_{u,v,o}*W_{(u,v,c)}^{(o)} Yu,v,o=c=1CXu,v,oW(u,v,c)(o)
DRConv:
Yu,v,g=∑c=1CXu,v,o∗W(t,c)(o)Y_{u,v,g}=\sum_{c=1}^CX_{u,v,o}*W_{(t,c)}^{(o)} Yu,v,g=c=1CXu,v,oW(t,c)(o)
可概括为两步,两个主要模块:learnable guided mask模块和filter generator模块,前者决定哪个分类起被分配到哪个块,后者决定根据输入特征生成相关的卷积核

learnable guided mask

该模块根据相应的损失函数进行参数更新,所以可以适应不同的图像输入产生不同的分块

具体来说,对于一个k*k的DRConv(k是卷积核尺寸),m个区域。我们先使用k*k的标准卷积来生成m个通道的guided feature,

对于空间域中每个位置,有:
Mu,v=argmax(Fu,v0^,Fu,v1^,...,Fu,vm−1^)M_{u,v}=argmax(\hat{F_{u,v}^0},\hat{F_{u,v}^1},...,\hat{F_{u,v}^{m-1}}) Mu,v=argmax(Fu,v0^,Fu,v1^,...,Fu,vm1^)
M是guided mask(U*V),F是guided feature在(u,v)处的特征向量,有m个元素(U*V*m),该argmax取的是索引(M是个索引,取值在0到m-1之间)

为了使该模块可学习,需要有梯度来更新参数,但是guided feature,argmax并没有梯度,为此,本文设计了一种得到guided feature近似梯度的方法。

前向传播

我们已经根据上式得到了guided mask,有每个位置(u,v)的卷积核如下:
W^u,v=WMu,v,Mu,v∈[0,m−1]=W∗Mu,v\hat{W}_{u,v}=W_{M_{u,v}},\ \ \ \ \ \ \ \ \ \ \ M_{u,v}\in[0,m-1]=W*M_{u,v} W^u,v=WMu,v,           Mu,v[0,m1]=WMu,v

WMu,vW_{M_{u,v}}WMu,v 是由filter generator模块G生成的m个卷积核之一,Mu,vM_{u,v}Mu,v是guided feature FFF位置(u,v)通道维度中最大值的索引。这样,m个卷积核会与所有的位置建立相关关系,整个空间域的所有像素会被分成m组。各组中的像素使用同样的滤波器,他们具有相似的语义,因为他们是通过具有平移不变性的标准卷积将他们的信息转换到guided feature 上的。

注意:前向传播时是one hot的hardmax

在这里插入图片描述

反向传播

Mu,vM_{u,v}Mu,v 的one-hot形式,如 Mu,v=2M_{u,v}=2Mu,v=2, m=5m=5m=5,则其one-hot形式:(0,0,1,0,0)(0, 0, 1, 0, 0)(0,0,1,0,0) 作softmax得到 F^\hat{F}F^

因为argmax是hardmax,没法求导,所以这里在反向传播的时候使用了softmax来近似代替。

filter generator

该模块功能主要体现在针对不同输入图像,抓住其独有特征。

具体做法如上图右侧所示:先经过一个自适应的池化层将 U∗V∗CU*V*CUVC 的图像降采样到 k∗k∗Ck*k*CkkC ,再经过两个 1∗11*111 的卷积得到 mmm 个卷积核。

experiments

分类检测分割均有提升,表就不放了,有兴趣请自行查看原文。

可以看到模型规模越小,本文方法提升越明显,这是因为DRConv在空间维上提高了语义表达能力,对于表达能力较弱的小模型,帮助更为明显。
在这里插入图片描述
在这里插入图片描述

不同层的可视化,可以看到有比较明显的按照语义进行区域划分的效果。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/532868.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java activity模式_Activity的启动模式

Android系统采用任务栈的方式来管理Activity实例。栈是后进先出的数据结构。通常一个应用程序对应一个任务栈,默认情况下,每启动一个Activity都会入栈,处于栈顶位置。用户操作的永远都是栈顶的Activity。Activity可以层叠摆放,每启…

Python 中的可执行对象 eval,exec 和 compile与其在深度学习训练中的应用实例

Python 中的可执行对象 eval,exec 和 compile 与其在深度学习训练中的应用实例 eval 计算指定表达式的值。也就是说它要执行的python代码只能是单个表达式(注意eval不支持任何形式的赋值操作),而不能是复杂的代码逻辑。 eval(s…

php写简单接口_php写接口的日常

php写接口的日常/*评论列表*/public function commentListW(){$base new Base();$info $base->getUserByToken();$shop_id $info[shop_id];$page $this->data[page]?:1;$pagesize $this->data[pagesize]?:C(ROLLPAGE);$search $this->data[search];$and &…

mmdetection 使用笔记 01: 安装与简单的推理demo

mmdetection 使用笔记 01: 安装与简单的推理demo mmdetection是来自商汤和港中文联合实验室openmmlab推出的目标检测工具包,与其同系列的还有基础视觉包mmcv,图像分类mmclassification,还有mmaction,mmaction2等等。 今天第一次…

php无限评论回复_php实现无限级评论功能_后端开发

php去除数组的键名的方法_后端开发在php中可以使用“array_values()”函数去除数组的键名,该函数返回包含数组中所有的值的数组,其语法是“array_values(array)”,其参数“array”表示规定的数组,返回值是包含数组中所有的值的数组…

错误类型、混淆矩阵及目标检测常用评价指标

目标检测常用评价指标 本文主要参考陈恺大佬在B站商汤账号的介绍mmdetection的视频。 检测结果的正确/错误类型 真阳性(Ture Positive):算法检测到了某类物体(Positive),而实际图中也确实有这个物体&…

php显示json,PHP解决JSON中文显示问题

PHP如何解决JSON中文显示问题&#xff1f;本文主要介绍了PHP JSON格式的中文显示问题解决方法&#xff0c;本文总结了3种解决中文显示\u开头字符问题的方法。希望对大家有所帮助。返回json数据中文显示的问题解决方法一&#xff1a;<?php function Notice(){include ./incl…

使用yolov5训练自己的目标检测数据集

使用yolov5训练自己的目标检测数据集 yolov4出来后不久&#xff0c;又出现了yolov5&#xff0c;没有论文。虽然作者没有放上和yolov4的直接测试对比&#xff0c;但在COCO数据集的测试效果还是很可观的。很多人考虑到YOLOv5的创新性不足&#xff0c;对算法是否能够进化&#xf…

php的integer,PHP整型 integer

整数是一个没有小数的数字。整数规则:整数必须至少有一个数字 (0-9)整数不能包含逗号或空格整数是没有小数点的整数可以是正数或负数整型可以用三种格式来指定&#xff1a;十进制&#xff0c; 十六进制( 以 0x 为前缀)或八进制(前缀为 0)。在以下实例中我们将测试不同的数字。 …

einops和einsum:直接操作张量的利器

einops和einsum&#xff1a;直接操作张量的利器 einops和einsum是Vision Transformer的代码实现里出现的两个操作tensor维度和指定tensor计算的神器&#xff0c;在卷积神经网络里不多见&#xff0c;本文将介绍简单介绍一下这两样工具&#xff0c;方便大家更好地理解Vision Tra…

php的filter input,php中filter_input函数用法分析

本文实例分析了php中filter_input函数用法。分享给大家供大家参考。具体分析如下&#xff1a;在 php5.2 中,内置了filter 模块,用于变量的验证和过滤,过滤变量等操作&#xff0c;这里我们看下如何直接过滤用户输入的内容.fliter 模块对应的 filter_input 函数使用起来非常的简单…

COCO 数据集格式及mmdetection中的转换方法

COCO 数据集格式及mmdetection中的转换方法 COCO格式 CV中的目标检测任务不同于分类&#xff0c;其标签的形式稍为复杂&#xff0c;有几种常用检测数据集格式&#xff0c;本文将简要介绍最为常见的COCO数据集的格式。 完整的官方样例可自行查阅&#xff0c;以下是几项关键的…

php获取h1,jQuery获取h1-h6标题元素值方法实例

本文主要介绍了jQuery实现获取h1-h6标题元素值的方法,涉及$(":header")选择器操作h1-h6元素及事件响应相关技巧,需要的朋友可以参考下&#xff0c;希望能帮助到大家。1、问题背景&#xff1a;查找到h1-h6&#xff0c;并遍历它们&#xff0c;打印出内容2、实现代码&am…

在导入NVIDIA的apex库时报错 ImportError cannot import name ‘UnencryptedCookieSessionFactoryConfig‘ from

在导入NVIDIA的apex库时报错 ImportError: cannot import name ‘UnencryptedCookieSessionFactoryConfig’ from ‘pyramid.session’ (unknown location) 报错 在使用NVIDIA的apex库时报错 ImportError: cannot import name ‘UnencryptedCookieSessionFactoryConfig’ fro…

php怎么取request,PHP-如何在Guzzle中获取Request对象?

我需要使用Guzzle检查数据库中的很多项目.例如,项目数量为2000-5000.将其全部加载到单个数组中太多了,因此我想将其分成多个块&#xff1a;SELECT * FROM items LIMIT100.当最后一个项目发送到Guzzle时,则请求下一个100个项目.在“已满”处理程序中,我应该知道哪个项目得到了响…

[2021-CVPR] Jigsaw Clustering for Unsupervised Visual Representation Learning 论文简析及关键代码简析

[2021-CVPR] Jigsaw Clustering for Unsupervised Visual Representation Learning 论文简析及关键代码简析 论文&#xff1a;https://arxiv.org/abs/2104.00323 代码&#xff1a;https://github.com/dvlab-research/JigsawClustering 总结 本文提出了一种单批次&#xff0…

java jps都卡死,java长时间运行后,jps失效

在部署完应用后&#xff0c;原本jps使用的好好的&#xff0c;能正确的查询到自己正在运行的java程序。但&#xff0c;过了一段时间后&#xff0c;再使用jps来查看运行的应用时&#xff0c;自己运行的程序都看不到&#xff0c;但是自己也没有关闭这些程序啊&#xff01;然而使用…

指针(*)、取地址()、解引用(*)与引用()

指针(*)、取地址(&)、解引用(*)与引用(&) C 提供了两种指针运算符&#xff0c;一种是取地址运算符 &&#xff0c;一种是间接寻址运算符 *。 指针是一个包含了另一个变量地址的变量&#xff0c;您可以把一个包含了另一个变量地址的变量说成是"指向"另一…

matlab电类,985电气研二,有发过考研经验贴 电气电力类的有

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼clc;clear;p[2.259;2.257;2.256;2.254;2.252;2.248;2.247;2.245;2.244;2.243;2.239;2.238;2.236;2.235;2.234;2.231;2.229;2.228;2.226;2.225;2.221;2.220;2.219;2.217;2.216;2.211;2.209;2.208;2.207;2.206;2.202;2.201;2.199;2.1…

matlab legend 分块,matlab legend 分块!

matlab legend 分块&#xff01;(2013-03-26 18:07:38)%%%压差clc;clear all;figure(55);set (gcf,Position,[116 123 275 210],color,w);P[25 26 27 28 29 30 31 32 33 34 35];%理论q0.00006*pi*28*P*10^(6)*0.03^3/(12*0.028448*5);q1110.00006*pi*28*P*10^(6)*0.03^3/(12*0.…