理解卷积神经网络的利器:9篇重要的深度学习论文(上)

摘要: 为了更好地帮助你理解卷积神经网络,在这里,我总结了计算机视觉和卷积神经网络领域内许多新的重要进步及有关论文。

        手把手教你理解卷积神经网络(一)

        手把手教你理解卷积神经网络(二)


本文将介绍过去五年内发表的一些重要论文,并探讨其重要性。论文1—5涉及通用网络架构的发展论文6—9则是其他网络架构的论文。点击原文即可查看更详细的内容。

1.AlexNet(2012)

AlexNet是卷积神经网络架构的起源(尽管可能会有人认为,1998年Yann LeCun发表的论文是真正的开创性出版物)这篇名为“基于深度卷积网络ImageNet分类”的论文总共被引用6,184次,被公认为是该领域最影响力的论文之一。2012年ImageNet大规模视觉识别挑战赛中,Alex Krizhevsky等人创建“大而深的卷积神经网络”取得了大赛冠军——将分类误差从26%降至15%,这是一个惊人的改进几乎让所有的计算机视觉社区为之震撼。从那时起,卷积神经网络被广泛传播,了一个家喻户晓的名字。

    该论文讨论了AlexNet架构网络结构。与现代架构相比,AlexNet使用相对简单的网络结构:5卷积最大池drop-out层和3全连接层组成。他们设计的网络用于1000个类别进行分类

 

主要论点

1.在ImageNet数据集上训练网络ImageNet数据集包含超过1500万注释图像类别超过22000个。

2.使用ReLU处理非线性函数这样可以减少训练时间,因为ReLU比传统tanh函数运行速度要快几倍)。

3.使用的数据增强技术包括图像转换,水平反射和补丁提取。

4.采用drop-out层,解决训练数据的过拟合问题。

5.使用批量随机梯度下降训练架构,其中动量和权重衰减都有固定的具体值。

重要性

Krizhevsky等人在2012年开发出来的神经网络卷积神经网络在计算机视觉社区的一场盛宴。这是首次ImageNet数据集上性能表现非常好的架构,利用今天仍在使用的技术,如数据增强和dropout。这篇论文阐述了卷积神经网络的优点,并创造了其他神经网络难以逾越的性能。

2.ZF Net

由于AlexNet在2012年闪亮登场2013ImageNet大规模视觉识别挑战赛中出现的卷积神经网络架构数量大幅度增加,该年度大赛冠军是由纽约大学的Matthew Zeiler团队创建的网络——ZF Net,该架构实现了低至11.2%的误差率。ZF Net架构相当于对AlexNet架构做了微调,但作者仍然提出了一些能够提高模型性能的重要设想这篇论文之所以特别重要,另一个原因是作者花了很多精力来解释卷积神经网络的可视化,并展示了如何正确可视化滤波器和权重。

在这篇题为“卷积神经网络可视化和理解”的论文中,Zeiler团队首先解释重新卷积神经网络感兴趣的原因,这源自于大型训练集的可访问性以及随着GPU的使用率增大,计算能力也有提高作者还提到“更好的架构会减少试验和误差次数”。尽管和三年前相比,我们对卷积神经网络有了全面的理解,这仍然是很多研究人员所面临的问题!本文的主要贡献是AlexNet架构的细节做了微调并且以一种很有意思的方法对特征映射做了可视化处理。

 

主要论点

1.ZF Net与AlexNet模型有非常相似的架构,同时也做了一些微调。

2.AlexNet训练了1500万张图片,而ZF Net仅仅训练了130万张图片。

3.AlexNet在第一层使用11*11的滤波器,而ZF Net使用了7*7的滤波器一个较小的步长做这一调整的原因是第一个卷积层中使用较小滤波器有助于大量原始像素信息保留在输入数组中。11*11的滤波器会过滤掉很多有用的信息,尤其是在第一个卷积层。

4.随着卷积网络的发展,使用滤波器的数量有所增加

5.将ReLUs作为其激活函数,交叉熵代价函数作为误差函数,并使用批量随机梯度下降进行训练。

6.开发了一种名为去卷积网络的可视化技术,有助于测试不同的特征激活与输入数组的关系。之所以被称为“去卷积”,因为它将特征映射像素(与卷积层的作用正好相反)。

DeConvNet

DeConvNet模型的基本思想是,在卷积神经网络已经训练的每一层,都增加一个“去卷积”返回图像像素。图像输入到卷积神经网络中,并在每个级别计算其特征激活。假设现在检查第四个卷积层中某个特征激活我们存储这一个特征映射激活,但将卷积层中的所有其他激活都设为0,然后将此特征映射作为输入传递DeConvNet模型DeConvNet模型具有与原始卷积神经网络相同的滤波器。然后,输入经过一系列的反池化和最大池化相反、校正以及前面每个层的滤波器操作,然后到达输入数组


这整个过程是因为我们想要检查到底哪种类型的结构激活给定的特征映射。 我们来看看第一层和第二层的可视化效果

我们知道,卷积层中的第一层是一个基本特征检测器,检测边缘或颜色。如上图所示,我们可以看到,在第二层有更多的循环特征被检测到下面,我们来看看第345层。

 

这些层显示了更多高级特征,如狗的头部或鲜花。需要注意的是,在第一个卷积层之后,我们通常会有一个池化图像进行下采样(例如,将32*32*3数组转换为16*16*3的数组)。这样做可以在第二层看到原始图像范围更广的特征

重要性

ZF Net模型不仅是2013年ImageNet大规模视觉识别挑战赛的冠军,而且提供了有关卷积神经网络运行的绝佳的视觉效果,并展示了更多能够提高性能的方法。 ZF Net模型所描述的可视化方法不仅有助于解释卷积神经网络的内部运行机制,而且还提供了对网络架构进行改进的独特见解。

3. VGG Net (2014)

VGG Net2014年创建的架构但并不是ImageNet大规模视觉识别挑战赛的冠军),利用率达到7.3%。来自牛津大学的Karen Simonyan和Andrew Zisserman创建了一个特别简单的19层的卷积神经网络,使用步为13*3的滤波器,步2的2*2池化层


主要论点

1.仅仅使用3*3的滤波器,这与AlexNet第一层使用的11*11滤波器和ZF Net使用的7*7滤波器大不相同。作者证明了两个3*卷积层的组合具有5*5的有效感受野。在使用较小的滤波器的同时,也模拟了一个更大的滤波器,同时也减少了参数数量。此外,我们还可以在两个卷积层中使用ReLU层。

2.三个卷积层的组合具有7*7的有效感受野。

3.随着每层的深入,输入数组随之减小(卷积层和池化层的原因过滤器的数量随之,因此数组的深度也不断增加。

4.有趣的是,滤波器的数量在每个最大池化层之后都会增加一倍。这强化了缩小空间维度的想法,但增加了网络的深度。

5.特别适用于图像分类和本地化任务。作者使用本地化形式作为回归。

6.用Caffe构建架构

7.在训练过程中使用数据增强技术是抖动( scale jittering 

8.在每个卷积层之后使用ReLU层采用批梯度下降进行训练。

重要性

VGG Net模型一直都是我心目中最有影响力的论文之一,因为它强化了这一观点:为了使视觉数据可以分层表示卷积神经网络必须具有更加深入的网络

4. GoogLeNet (2015)

谷歌使用了Inception模块来代替简单网络架构这一概念,GoogLeNet模型是一个22层的卷积神经网络架构,并且是2014年度ImageNet大规模视觉识别挑战赛的冠军误差率高达6.7%。据我所知,这是第一个真正摒弃了在顺序结构中对卷积层池化进行简单堆叠的卷积神经网络架构之一。这个新架构着重考虑内存和功耗(堆叠所有这些层并添加大量的滤波器会产生计算成本和内存成本,同时也会增加过拟合的概率)。

 

Inception模块

并不是像以前的架构按顺序运行,GoogLeNet架构中存在可以并行的网络。如下图所示,这个方框被称为Inception模块。

 

让我们看看它的内部组成。


 

底部的绿色框是输入,最上面的是输出。在传统的卷积网络的每一层,你必须选择是否进行池化或卷积操作(也可以选择过滤器大小)。Inception模块可以所有这些操作。这正是GoogLeNet的亮点之一。

这样会导致太多的输出,为了解决这一问题,作者在3*3和5*5前面添加1*的卷积操作对其进行降维举个例子,假设输入数组为100*100*60(这不一定是图像大小,只是网络任意一层的输入)。使用20个1*1卷积滤波器可以让将数组降到100*100*20。这意味着3*3和5*5的卷积操作不会有大量的操作由于我们正在降低数组的维度,这一操作被称作“特征池化,这和我们用普通的最大池化层来减小图片的高度和宽度比较相似

GoogLeNet模型有什么用这个网络由网络层的一个网络、一个中型卷积滤波器一个大型卷积滤波器和一个池化操作组成卷积网络能够提取输入数组的细节信息,而5*5滤波器能够覆盖输入较大范围的接受,因此也能够提取其细节信息。还可以GoogLeNet模型中进行池化操作,这有助于降低空间维度避免过拟合。最重要的是,每个卷积层之后都有ReLU函数,这有助于改善网络的非线性。基本上,网络执行这些操作的同时,仍能够保持计算上的良好性能

主要论点

1.在整个架构中使用了九个Inception模块,总共超过100层!

2.没有使用全连接层! 他们使用平均池化,大大节省了参数的数量

3.使用的参数比AlexNet架构少12倍。

4.利用R-CNN的概念介绍检测架构

5.Inception模块有了版本更新(版本6和7)。

重要性

GoogLeNet模型是第一个引入“卷积神经网络层并不需要依次叠加”这一理念架构之一作为Inception模块的一部分,富有创造性的层结构提高了整体性能和计算效率。

敬请期待后续论文介绍——理解卷积神经网络的利器:9篇重要的深度学习论文(下)!

 

 以上为译文。

本文由阿里云云栖社区组织翻译。

作者:【方向】

原文:

理解卷积神经网络的利器:9篇重要的深度学习论文(上)


干货好文,请关注扫描以下二维码:


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/522408.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

理解卷积神经网络的利器:9篇重要的深度学习论文(下)

摘要: 为了更好地帮助你理解卷积神经网络,在这里,我总结了计算机视觉和卷积神经网络领域内许多新的重要进步及有关论文。手把手教你理解卷积神经网络(一)手把手教你理解卷积神经网络(二)继“理解卷积神经网络的利器:9篇重要的深度…

工作流实战篇_01_flowable 流程Demo案例

由于群里有些朋友对这个flowable还不是 很熟悉,在群里的小伙伴的建议下,师傅(小学生05101)制作一个开源的项目源码,一共大家学习和交流,希望对有帮助,少走弯路 如果有不懂的问题可以入群:633168411 里面都是…

antd 进行ajax请求,react+dva+antd接口调用方式

一丶 安装通过 npm 安装 dva-cli 并确保版本是0.8.1或以上。$ npm install dva-cli -g$ dva -v0.8.1二丶创建新应用安装完dva-cli之后,就可以在命令行里访问到dva命令(不能访问?)。现在,你可以通过dva new创建新应用。$ dva new dva-quicksta…

基于MaxCompute的拉链表设计

摘要: 简单的拉链表设计 背景信息: 在数据仓库的数据模型设计过程中,经常会遇到这样的需求: 数据量比较大; 表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态、手机号码等等; 需要查看…

2019全球编程语言高薪排行榜登场;余承东正式宣布华为IFA2019 或发布麒麟990;OPPO、vivo和小米成立互传联盟…...

关注并标星星CSDN云计算极客头条:速递、最新、绝对有料。这里有企业新动、这里有业界要闻,打起十二分精神,紧跟fashion你可以的!每周三次,打卡即read更快、更全了解泛云圈精彩newsgo go go 全新的索尼PS5(图…

python文件输出log_Python同时向控制台和文件输出日志logging的方法

#-*- coding:utf-8 -*- import logging # 配置日志信息 logging.basicConfig(levellogging.DEBUG, format%(asctime)s %(name)-12s %(levelname)-8s %(message)s, datefmt%m-%d %H:%M, filenamemyapp.log, filemodew) # 定义一个Handler打印INFO及以上级别的日志到sys.stderr c…

MaxCompute使用常见问题总结

摘要: Maxcompute常见问题的总结,方便广大用户可以快速排查问题 计费相关 存储计费:按照存储在 MaxCompute 的数据的容量大小进行阶梯计费。 计算计费:MaxCompute 分按量后付费和按 CU 预付费两种计算计费方式。 按量后付费&#…

工作流实战_02_flowable 流程模板导入

由于群里有些朋友对这个flowable还不是很熟悉,在群里的小伙伴的建议下,师傅(小学生05101)制作一个开源的项目源码,一共大家学习和交流,希望对有帮助,少走弯路 如果有不懂的问题可以入群:633168411 里面都是…

华为服务器raid1装系统,服务器raid1系统安装

服务器raid1系统安装 内容精选换一换需要创建两台ECS,一台使用Linux系统安装SAP应用与DB2,另外一台用于安装SAP GUI和作为跳板机,两台ECS详情如下所示,下表均为示例,请根据实际情况购买Avago 3408iMR RAID卡不支持虚拟…

关于大数据你应该了解的五件事儿

摘要: 本文从基本概念、行业趋势、学习途径等几个方面介绍了大数据的相关内容,适合对大数据感兴趣的读者作为入门材料阅读。随着科技的发展,目前已经步入了大数据的时代,很多社交媒体和互联网公司也非常关注大数据这一行业。那么对…

当我们谈AI时,到底该谈什么?

报名倒计时仅剩1天,即刻扫描下方二维码,或者点击【阅读原文】免费报名,让我们不见不散。

前端电子表数字字体_爬虫:如何优雅应对字体反爬

目录THE BEGIN一 什么是字体反爬二 如何解密1.人工解密2.工具解密三 建立映射关系四 解密THE BEGIN网页数据爬取可以简单分为三步:抓取页面,分析页面,存储数据。其中第一二步最为头疼,因为每个站点各有特色,你要不断检…

ECS云资源可视化--资源概览

摘要: 随着越来越多的业务接入云计算,云上拥有的各类资源也越来越多,用户如何时时对其拥有的各类资源进行统计分析成为一个难题。ECS控制台针对这一问题,推出资源概览功能,目前支持实例和存储两种云资源的统计和分析功…

工作流实战_03_flowable 流程模板部署

由于群里有些朋友对这个flowable还不是 很熟悉,在群里的小伙伴的建议下,师傅(小学生05101)制作一个开源的项目源码,一共大家学习和交流,希望对有帮助,少走弯路 如果有不懂的问题可以入群:633168411 里面都是…

为物联网而生:高性能时间序列数据库HiTSDB商业化首发!

摘要: 近日,阿里云宣布高性能时间序列数据库 (High-Performance Time Series Database , 简称 HiTSDB) 正式商业化。 近日,阿里云宣布高性能时间序列数据库 (High-Performance Time Series Database , 简称 HiTSDB) 正式商业化。 先跟大家聊一…

kafka系统设计开篇

戳蓝字“CSDN云计算”关注我们哦!来源 | 靳刚同学MQ(消息队列)是跨进程通信的方式之一,可理解为异步rpc,上游系统对调用结果的态度往往是重要不紧急。使用消息队列有以下好处:业务解耦、流量削峰、灵活扩展…

工作流实战_04_flowable 流程的模板的图片和xml显示

由于群里有些朋友对这个flowable还不是 很熟悉,在群里的小伙伴的建议下,师傅(小学生05101)制作一个开源的项目源码,一共大家学习和交流,希望对有帮助,少走弯路 如果有不懂的问题可以入群:633168411 里面都是…

成功使用机器学习技术的3个技巧

摘要: 本文讲述了3个针对机器学习的小技巧,相信对正在学习机器学习的朋友有所帮助机器学习、自然语言处理(NLP)和认知搜索技术正以高速率被采用,这并不稀奇。随着组织努力创造价值,增强客户体验,遵守严格的规定并使自己…

Spring精华问答 | 如何集成Spring Boot?

Spring框架是一个开源的Java平台,它提供了非常容易,非常迅速地开发健壮的Java应用程序的全面的基础设施支持。今天就让我们一起来看看关于Spring的精华问答吧。1Q:如何在自定义端口上运行Spring Boot应用程序?A:为了在自定义端口上运行Spring…

Andrew Ng深度学习课程笔记

摘要: 本文对Andrew Ng深度学习课程进行了大体的介绍与总结,共包括21个课程。我最近在Coursera上完成了Andrew Ng导师关于新深度学习的所有课程。Ng在解释术语和概念方面做得非常出色。例如,Ng指出,监督深度学习只不过是一种多维曲…