圆形的CNN卷积核?华中大清华康奈尔提出圆形卷积,进一步提升卷积结构性能!...

文 | 小马
编 | 极市平台

写在前面

目前正常卷积的感受野大多都是一个矩形的,因为矩形更有利于储存和计算数据的方便。但是,人类视觉系统的感受野更像是一个圆形的。因此,作者就提出,能不能将CNN卷积核的感受野也变成圆形呢?作者通过一系列实验,发现了圆形的卷积核确实比方形的卷积效果会更好。基于此,作者在本文中提出了一种卷积核大小可变的并且聚合了方形和圆形特点的集成卷积核。作者在模型训练结束后,采用了一种重参数的方法对模型的结构和参数进行修改,使得模型在inference的时候并没有引入额外的参数量和计算量。最终作者在分类任务的三个数据集ImageNet、CIFAR-10、CIFAR-100上进行了测试,发现了新的卷积核能够有比较大的性能提升(在MobileNetV3-Small上提高了5.20%的top-1准确率,在MobileNetV3-Large上提高了2.16%的top-1准确率)。

人的视野范围是什么形状的?其实人眼的感受野也不是圆形的,而是一个椭圆形的。类似下面的这样:

▲图片来自学习强国app慕课中的“高维看世界”

好奇之后会不会有工作进行了提出一个椭圆形的卷积核。除此之外,人眼的感知除了“上下左右”,还有“前后”。之后会不会有人提出一个带深度的卷积核(比如椭球形状的卷积核)。目前的卷积在通道维度上都是进行非常充分的建模,导致在通道维度上的建模很多时候是冗余的(这一点Involution[1]中也有提到),所以说不定用一个带“深度”信息的卷积核,只对相邻通道信息进行建模,反而能够提升模型的泛化能力。

论文题目
Integrating Circle Kernels into Convolutional Neural Networks

论文链接
https://arxiv.org/abs/2107.02451

Arxiv访问慢的小伙伴也可以在 【夕小瑶的卖萌屋】订阅号后台回复关键词 【0716】 下载论文PDF~

1. Motivation

从LeNet开始,矩形的卷积核一直都是CNN的标配。在这期间也有一些工作研究了可变形的卷积,但是,虽然可变形的卷积能够提高模型的performance,但是不可避免的引入了额外的参数和计算量。

因此,受人眼视觉系统感受野的启发,作者就想能不能提出一个圆形的卷积操作,相比于矩形的卷积,圆形的卷积核主要有以下几个优点:

1) 圆形卷积核的感受野和生物视觉的感受野更加相似;

2) 卷积核的感受野通常应该是各个方向都是对称的,这样可以适应全局或者局部输入特征在不同方向上的信息变化,圆形卷积核具备这个性质,但是矩形卷积核只在固定的几个方向是对称的;

3)之前也有工作表明,矩形卷积核的有效感受野更加接近圆形的高斯分布,因此,为什么不直接用一个圆形的卷积核呢?

在构造圆形卷积核时,由于感受野上的一些点通常不在网格上,因此作者采用双线性插值进行逼近,并提取了相应的变换矩阵。

最终,作者并没有采用了单独的圆形卷积,而是采用一种圆形和方形集成的卷积,并在训练过程中采用自适应的卷积核大小(也就是说,每个集成的卷积核都有一对方核和圆核。这两个核共享权值矩阵,但有不同的变换矩阵 )。

最终作者在分类任务的三个数据集ImageNet,CIFAR-10,CIFAR-100上做了实验,在不同baseline结构上,方形和圆形集成的卷积核相比于baseline都有明显的性能提升。

2. 方法

2.1.  圆形卷积核 VS 方形卷积核

▲圆形卷积核(b)和方形卷积核(a)如上图所示

对于一个3x3的方形卷积,可以用下面的公式表示(对感受野内的特征进行加权求和):

对于半径为1的圆形卷积,可以被建模成下面的公式:

由于圆核的接受场包含不是整数的位置,所以作者使用了双线性插值获取相应的采样值:

因此,将上面的两个公式进行结合,我们就可以得到下面统一的圆形卷积核的公式:

(注意,这里的圆形的卷积核的公式看上去比较复杂,但其实由于乘法的结合律,这里的矩阵和其实是可以合成一个新的矩阵的,所以在测试的时候其实并不会引入新的计算量和参数量)

(另外,再通俗的解释一下,这里的圆形卷积计算其实方形卷积计算是一样的,都是对感受野内特征信息进行加权求和;不同的是,方形的卷积核的特征信息都可以轻松的获得,但是圆形感受野内的信息由于位置往往不是整数,所以需要用双线性插值的方法,计算相应位置的特征值)

2.2. 集成圆形卷积核和方形卷积核

在本文中,作者并没有单独的使用圆形或者方形的卷积,而是对这两个卷积进行了集成。

每个集成的卷积核都有两种感受野(圆形和方形)。训练时,每层的所有卷积核都随机选择的圆形或者方形的卷积核进行训练。所以,一个集成核的感受野是一个伯努利随机变量,集成核的输出卷积结构可以被表示成:

由于每一层都有两种卷积方式,并且在训练的时候,每一层的卷积都会随机选择这两种卷积中的任意一种,所以对于L层,就有种不同的子网络结构。(这一步随机选择也是大大提高了模型的学习空间

2.3. 可学习大小的卷积核

不同感受野大小的圆形和方形卷积核如上图所示。在训练时,作者采用了一个可学习的参数动态控制了卷积核感受野的大小。

方形卷积核的感受野为,圆形卷积核的感受野为。由于在训练过程中,卷积核的形状是随机选择的,所以训练过程的感受野大小也符合伯努利分布

2.4. 测试时重参数

卷积的过程可以用下面的公式表示:

上面也提到了在训练完成后其实是一个固定的矩阵,由于乘法的结合律,其实是可以将矩阵的参数和的参数进行合并(类似两个FC变成一个FC)。可以在推理之前保存由转换矩阵重参数后的新权重,模型就不再需要根据测试的偏移量逐点进行特征映射。

3.5. Integrated Kernels

对于一个正常的卷积,他的所有参数都是静态,可以被表示成:

带有自适应参数的卷积可以被表示成:

其中表示动态自适应的参数。

本文的训练的网络结构如上图所示,本文模型的输出结果可以被表示成:

其中是一个多重伯努利分布,因为每一层的卷积过程都是随机的,每一层随机从N种卷积方式里选择一种,对于L层,就有种不同的组合方式。

3.实验

3.1. Circle Kernels VS Square Kernels

如上图所示,感受野越大,圆形卷积的感受野就更像一个圆形

如上表所示,作者在WRNCifar和DenseNetCifar上做了实验。随着卷积核大小的增加,圆核比方核的优势变得更加显著,表明了圆核的优越性。

3.2.  Comparison on CIFAR Datasets

XXX-Int-SC-F表示具有固定大小的方形和圆核,XXX-Int-SC-L表示具有可学习大小的方形和圆核。

可以看出,在没有数据增强的情况下,方核和圆核的方法相较于baseline都有性能的提升,并且可学习大小的集成核在性能上表现最好。

3.3.  Comparison on ImageNet

在ImageNet上,作者基于MobileNet和ResNet进行了实验。可以看出,圆核的方法会比方核的性能要更好。总体来说,可以学习的圆核和方核在性能上表现会更好一些。

3.4. Ablation Studies

作者进一步探究了不同核的数量对实验结果的影响。在没有数据增强的情况下,随着集成核数量的增加,模型性能表现出不断增长的趋势。在有数据增强的情况下,圆核并没有展现出性能的提升。

3.5. 可视化

可以看出圆核的可视化结果明显比方核会更加精细、更容易区分物体、更加关注在图片的主体内容上。

4. 总结

基于人类的视觉感知原理,作者提出了一种更接近人类视觉感受的卷积核——圆形卷积核,作者也通过实验证明了,在没有数据增强的情况下,圆形卷积核的表现确实比方形卷积核要好。但是有了数据增强之后,圆形卷积核的性能并没有提升,反而下降了。更重要的一点是,没有数据增强集成核的性能也没有比用了数据增强方核性能要好,这就表明了,圆核带来的效益没有数据增强带来的效益高,而且圆核的效益不能和数据增强的效益兼容。所以本质上,这篇工作只是在这个方向上开了一个头,还有很多工作可以基于本文继续开拓。另外,个人觉得,由于圆形卷积核在各个方向都是对称的,所以相比于方形卷积核,圆形确实更适合作为感受野的形状。

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

 

[1].Li, Duo, et al. "Involution: Inverting the inherence of convolution for visual recognition." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition . 2021.

[2].Wenjie Luo, Yujia Li, Raquel Urtasun, and Richard Zemel. Understanding the effective receptive field in deep convolutional neural networks. In Advances in Neural Information Processing Systems, volume 29,pages 4898–4906, 2016.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478324.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android自定义Lint实践

Android Lint是Google提供给Android开发者的静态代码检查工具。使用Lint对Android工程代码进行扫描和检查,可以发现代码潜在的问题,提醒程序员及早修正。 为保证代码质量,美团在开发流程中加入了代码检查,如果代码检测到问题&…

关于PaddleNLP如何加载训练好的模型进行NER

关于PaddleNLP如何加载训练好的模型进行NER 关于PaddleNLP如何加载训练好的模型进行NER 当时在如何加载已经训练好的模型的问题上花了很长时间,后来也是受另一篇文章启发,问题才得以解决,此文章写的很详细,所以不再详细介绍&#…

论文浅尝 | 利用机器翻译和多任务学习进行复杂的知识图谱问答

笔记整理 | 谭亦鸣,东南大学博士生。来源:EACL‘21链接:https://www.aclweb.org/anthology/2021.eacl-main.300.pdf概述知识图谱问答过程一般包括实体链接,多跳推理等步骤,传统方法将各个步骤作为模块单独处理&#xf…

LeetCode 134. 加油站(贪心)

文章目录1. 题目2. 解题1. 题目 在一条环路上有 N 个加油站,其中第 i 个加油站有汽油 gas[i] 升。 你有一辆油箱容量无限的的汽车,从第 i 个加油站开往第 i1 个加油站需要消耗汽油 cost[i] 升。你从其中的一个加油站出发,开始时油箱为空。 …

诺奖级成果开源!为什么说AlphaFold2足以改变全人类?

文 | 炼丹学徒编 | 小轶前天,AlphaFold2开源,相信大家被大大小小的公众号刷屏了。谷歌Deepmind团队此前使用基于Transformer的模型,在CASP14比赛上,刷新蛋白质三维结构预测的新高度,而详细论文,代码&#x…

美团外卖前端可视化界面组装平台 —— 乐高

乐高,是美团点评一个快速搭建后台系统页面的平台。名称来源于大家熟悉的丹麦知名玩具品牌,他们的玩具都是通过组合易拆卸、装配的零件,形成最终的作品。经过长期的发展,乐高品牌渐渐有了“快乐、想象、创意的未来”的寓意。 随着外…

论文浅尝 | 主题驱动的分子图表示对比学习

笔记整理 | 方尹,浙江大学在读博士,研究方向:图表示学习。论文地址:https://arxiv.org/abs/2012.12533动机与贡献现有的对比学习框架中可能存在以下几个弊端:1.把节点看成一种视图,在节点和图之间进行对比学…

LeetCode 931. 下降路径最小和(DP)

文章目录1. 题目2. 动态规划解题1. 题目 给定一个方形整数数组 A,我们想要得到通过 A 的下降路径的最小和。 下降路径可以从第一行中的任何元素开始,并从每一行中选择一个元素。在下一行选择的元素和当前行所选元素最多相隔一列。 示例: 输…

到2021年,目前深度学习领域有哪些除了调模型以外的硬核研究工作和进展?

文 | 刘斯坦,电光幻影炼金术源 | 极市平台作为一个未入门的研究生小白,一方面为深度学习的实际效果和应用价值而感到兴奋,另一方面也会担忧自己的个人能力的发展。个人目前浅薄的看法是,调模型的强应用向的研究工作,由…

美团点评SQL优化工具SQLAdvisor开源

在数据库运维过程中,优化 SQL 是 DBA 团队的日常任务。例行 SQL 优化,不仅可以提升程序性能,还能够降低线上故障的概率。 目前常用的 SQL 优化方式包括但不限于:业务层优化、SQL逻辑优化、索引优化等。其中索引优化通常通过调整索…

LeetCode 295. 数据流的中位数(大小堆)

文章目录1. 题目2. 大小堆解题1. 题目 中位数是有序列表中间的数。如果列表长度是偶数,中位数则是中间两个数的平均值。 例如, [2,3,4] 的中位数是 3 [2,3] 的中位数是 (2 3) / 2 2.5设计一个支持以下两种操作的数据结构:void addNum(int…

论文浅尝 | 利用常识知识图谱进行多跳推理的语言生成方法

笔记整理 | 朱珈徵,天津大学硕士。链接:https://arxiv.org/pdf/2009.11692.pdf动机尽管生成式预训练语言模型在一系列文本生成任务上取得了成功,但在生成过程中需要对基础常识知识进行推理的情况下,它们仍然会受到影响。现有的方法…

成本砍砍砍!不用数据也能用 BERT 做对比学习?

文 | 小昌编 | 小戏大家好,我是小昌,今天和大家聊一聊如何从 BERT 中获取好的句子表征。大家都知道,BERT 的设计初衷是为了获得更好的单词表征。但是,利用 BERT 来表征句子的需求无论在学术界还是工业界都是非常紧迫的。因此&…

Mt-Falcon——Open-Falcon在美团点评的应用与实践

监控系统是整个业务系统中至关重要的一环,它就像眼睛一样,时刻监测机房、网络、服务器、应用等运行情况,并且在出现问题时能够及时做出相应处理。 美团点评刚开始使用的是Zabbix监控系统,几经优化,在当时能够达到2W机器…

论文浅尝 | 以知识图谱为基础的开放域对话生成的目标规划

笔记整理 | 韩振峰,天津大学硕士。链接:https://ojs.aaai.org//index.php/AAAI/article/view/6474动机 之前有关开放域对话生成的神经模型没有有效的机制来管理聊天主题,并且往往会生成不连贯的对话。受到人与人对话策略的启发,本…

LeetCode 378. 有序矩阵中第K小的元素(二分查找)

文章目录1. 题目2. 解题2.1 暴力法2.2 二分查找1. 题目 给定一个 n x n 矩阵,其中每行和每列元素均按升序排序,找到矩阵中第k小的元素。 请注意,它是排序后的第k小元素,而不是第k个元素。 示例: matrix [[ 1, 5, 9],[10, 11,…

LeetCode 341. 扁平化嵌套列表迭代器(双栈)

文章目录1. 题目2. 双栈解题1. 题目 给定一个嵌套的整型列表。设计一个迭代器,使其能够遍历这个整型列表中的所有整数。 列表中的项或者为一个整数,或者是另一个列表。 示例 1: 输入: [[1,1],2,[1,1]] 输出: [1,1,2,1,1] 解释: 通过重复调用 next 直到…

外卖O2O的用户画像实践

美团外卖经过3年的飞速发展,品类已经从单一的外卖扩展到了美食、夜宵、鲜花、商超等多个品类。用户群体也从早期的学生为主扩展到学生、白领、社区以及商旅,甚至包括在KTV等娱乐场所消费的人群。随着供给和消费人群的多样化,如何在供给和用户…

论文浅尝 | 利用开放域触发器知识改进事件检测

笔记整理 | 申时荣,东南大学博士来源:ACL 2020源码:https://github.com/shuaiwa16/ekd.git摘要事件检测(ED)是文本自动结构化处理的一项基本任务。由于训练数据的规模小,以前的方法在unseen/标记稀疏的触发…

Beyond 预训练语言模型,NLP还需要什么样的知识?

近年来,深度学习技术已广泛应用于NLP领域,但实际应用效果往往受限于缺乏大规模高质量监督样本。2018年底,预训练语言模型横空出世,极大缓解了这个问题,通过“超大规模无监督语料上的预训练语言模型相对少量的监督样本进…