理解卷积神经网络的利器:9篇重要的深度学习论文(下)

摘要: 为了更好地帮助你理解卷积神经网络,在这里,我总结了计算机视觉和卷积神经网络领域内许多新的重要进步及有关论文。

      手把手教你理解卷积神经网络(一)

      手把手教你理解卷积神经网络(二)


继“理解卷积神经网络的利器:9篇重要的深度学习论文(上)”文章,本文继续介绍过去五年内发表的一些重要论文,并探讨其重要性。论文1—5涉及通用网络架构的发展论文6—9则是其他网络架构的论文。点击原文即可查看更详细的内容。

5.Microsoft ResNet(2015)

现在,将一个深度卷积神经网络的层数增加一倍,再增加几层,也仍然不可能达到2015年微软亚洲研究院提出的ResNet架构的深度。ResNet是一种新的包含152层的网络架构,它使用一个特殊的结构记录分类、检测和定位。除了在层数方面进行创新外,ResNet还赢得了2015年ImageNet大规模视觉识别挑战赛的冠军,误差率低达3.6%(在现有的技术水平上,误差率通常在5-10%)

残差块

残差块的原理是,输入x通过卷积-残差函数-卷积系列,得到输出F(x)然后将该结果加到原始输入x,用H(x)= F(x)+ x表示。在传统的卷积神经网络中,H(x)=F(x)因此,我们不只计算从xF(x)变换,而是计算H(x)= F(x)+ x下图中的最小模块正在计算一个“增量”或对原始输入x轻微改变以获得轻微改变后的表示。作者认为,“优化残差映射比优化原始未引用的映射容易。”


残差块可能比较有效的另一个原因是,在反向传播的后向传递期间,由于加法运算可以作用于梯度,梯度将会更容易地通过残差块。

主要论点

1.极端深度” - Yann LeCun。

2.包含152层

3.有趣的是,仅在经过前两层之后,将数组从224*224压缩56x56。

4.在普通网络中,单纯的增加层数会导致更高的训练和测试误差(详细请看论文

5.该模型尝试构建了一个1202层网络,可能是由于过拟合,测试精度较低

重要性

3.6%的误差率!这一点足够重要。ResNet模型是目前我们所拥有的最好的卷积神经网络架构,残差学习理念的一个伟大创新。我相信即使在彼此之上堆叠更多层,性能也不会再有大幅度的提升了,但肯定会有像过去两年那样有创意的新架构。

6.基于区域的卷积神经网络:R-CNN(2013年);Fast R-CNN(2015年); Faster R-CNN(2015年)

有些人可能会说,R-CNN的出现比以前任何与新网络架构有关的论文都更具影响力。随着第一篇论述R-CNN的论文被引用超过1600次,加州大学伯克利分校的Ross Girshick团队创造出了计算机视觉领域最有影响力的进展之一:研究表明Fast R-CNNFaster R-CNN更适合对象检测,且速度更快。

R-CNN架构的目标解决对象检测问题。现在,我们想给定的图像上所包含的所有对象绘制边界框,可分为两步候选区域的选择和分类。

作者指出,任何类不可知候选区域方法都应该适用。选择性搜索专门用于R-CNN,能够产生2000个不同的最有可能包含指定对象的区域,候选区域产生后,会被“转换”为图像大小的区域,送入一个训练好的卷积神经网络(在这种情况下为AlexNet),为每个区域提取特征向量。然后,这组向量作为一组线性支持向量机的输入,这些线性支持向量机对每个类进行训练并输出一个分类。向量也被送入边界框回归器以便获得最准确的位置坐标。最后,使用非极大值抑制来抑制彼此具有明显重叠的边界框。

  

Fast R-CNN

对原始模型进行改进原因有三:模型训练需要经历多个步骤(ConvNets支持向量机边界框回归器)计算成本很高,运行速度很慢(R-CNN处理一张图像需要53秒)。为了提高运行速度,Fast R-CNN共享不同候选区域之间卷积层的计算交换了候选区域的生成顺序,同时运行卷积神经网络。在这个模型中,图像图像首先送入卷积网络,然后从卷积网络的最后一个特征映射获得候选区域的特征,最后被送入全连接层、回归以及分类头部

 

Faster R-CNN

Faster R-CNN致力于R-CNN和Fast R-CNN比较复杂的训练步骤简单化。作者在最后一个卷积层后插入候选区域生成网络,该网络能够查看最后的卷积特征映射并产生候选区域后面使用与R-CNN相同的方法:感兴趣区域化、全连接层、分类和回归头。

 

重要性

除了能够准确识别图像中的特定对象Faster R-CNN能够该对象进行准确定位,这是一个质的飞跃现在,Faster R-CNN已经成为对象检测程序一个标准。

7.生成敌对网络(2014)

据Yann LeCun称网络可能是下一重大进展。在介绍这篇文章前,我们先个对抗的例子:将一个经过扰动的图像经过卷积神经网络(已经在ImageNet数据集训练且运行良好,以使预测误差最大化。因此,预测出来的对象类别有所改变,而图像看起来与没有经过扰动的图像相同。从某种意义上来说对抗就是用图像愚弄卷积网络。

 

这个对抗的例子着实让很多研究人员感到惊讶,并且迅速成为一个大家感兴趣的话题。现在让我们来谈谈生成对抗网络,它包含两个模型:一个生成模型和一个判别模型。判别器用来确定给定的图像是否真的自数据集,还是人为创建的;生成器用来是创建图像,以便判别器得到训练生成正确的输出。这可以看作一个博弈游戏,打个比方:生成模型就像“伪造者团队,试图制造和使用假币”判别模型就像“警察,试图检测假币”。生成器试图欺骗判别器,而判别器努力不被欺骗。随着模型训练,两种方法都得到改进,直到“真币假币无法区分”。

重要性

这看起来很简单,但为什么我们很看重网络?正如Yan Le Leun在Quora中所说的那样,现在判别器已经意识到“数据的内在表示”,因为它已经被训练的能够了解数据集中真实图像与人工创建图像之间的差异。因此,可以像卷积神经网络那样,将它用作特征提取器。另外,你可以创建很逼真的人造图像(链接)。

8.Generating Image Descriptions(2014)

卷积神经网络循环神经网络结合起来会发生什么?Andrej Karpathy团队研究了卷积神经网络双向循环神经网络的组合,并撰写了一篇论文用来生成图像不同区域的自然语言描述。基本上,图像经过该模型后输出效果如下

 

这真是令人难以置信!我们来看看这与普通的卷积神经网络有何区别。传统的卷积神经网络上,训练数据中每个图像都有一个明确的标签。论文中描述的模型已经训练样例,该样例具有与每个图像相关联的文本。这种类型的标签被称为弱标签,其中文本片段指图像的未知部分。使用这些训练数据,深层神经网络能够“推断出文本片段和他们所要描述的区域之间的潜在关系”(引自论文)。另一个神经网络将图像转换成一个文本描述。让我们分别看看这两个部分:对齐模型和生成模型

对齐模型

对齐模型的目标是能够将视觉图像和文本描述对齐,该模型图像和文本转化为二者之间的相似性度量值

首先将图像输入R-CNN模型,检测单个对象,该模型在ImageNet数据集上进行训练,排名前19位(加上原始图像)的对象区域嵌入500维空间现在在每个图像中,我们有20个不同的500维向量(用v表示),用来描述图像的信息。现在我们需要关于文本的信息,将文本嵌入到同一个多维度空间中一步骤采用双向递归神经网络完成。从高层次来看,这是为了解释给定文本中单词的上下文信息。由于图像和文本的信息都在相同的空间中,因此我们可以计算内部表示,来输出相似性度量。

生成模型

对齐模型的主要目的是创建一个数据集:包含图像区域和对应的文本生成模型将从该数据集中进行学习,生成给定图像的描述。该模型将图像送入一个卷积神经网络,由于全连接层的输出成为另一个循环神经网络的输入,softmax层则可以被忽略。对于那些不熟悉循环神经网络的人来说,该模型可以理解为产生句子中不同单词的概率分布(循环神经网络也需要像卷积神经网络一样进行训练)。

 

重要性

Generating Image Descriptions的创新之处在于:使用看似不同的循环神经网络和卷积神经网络模型创建一个非常实用的应用程序,它以某种方式将计算机视觉和自然语言处理领域结合在一起。在处理跨越不同领域的任务时如何使计算机和模型变得更加智能方面,它的新想法为我们打开一扇新的大门

9.空间变换网络Spatial Transformer Network)(2015年)

最后,我们来介绍一篇同样很重要的论文,该模型的主要亮点就是引入了一个变换模块,它以某种方式输入图像进行变换,以便后续网络能够容易对图像进行分类。作者不再对卷积神经网络的主要架构进行修改,而是在图像输入到特定的卷积层之前对图像进行变换。这个模块希望纠正姿态规范化(针对对象倾斜或缩放的场景)和空间注意力(拥挤图像中关注需要分类的对象)。对于传统的卷积神经网络来说,如果希望模型能够同时适用于不同尺度和旋转的图像,那么需要大量的训练样例才能使模型进行正确的学习这个变换模块是如何解决这个问题的呢?

处理空间不变性的传统卷积神经网络模型中的实体是最大池化一旦我们知道原始输入数组(具有较高激活值)中的特定特征,其确切位置就不如相对于其他特征的相对位置那么重要。这种新的空间变换器是动态的,它会针对每个输入图像产生不同的变换,而并像传统的最大池化那样简简单和预定义。我们来看看这个变换模块是如何运行的。该模块包括:

1.定位网络,输入数组转化并输出必须使用的空间变换参数。对于仿射变换来说,参数或θ可以是六维的。

2采样网格,这是使用本地化网络中创建的仿射变换(θ)常规网格进行变形的结果。

3.采样器,输入特征映射进行变形。

 

这个模块可以卷积神经网络的任何一个节点,基本上可以帮助网络学习如何特征映射进行变换,从而最大限度地减少训练期间的成本函数。

 

重要性

这篇文章之所以能够引起我的注意,其主要原因对卷积神经网络的改进不一定需要对网络的整体架构做巨大的改变,我们不需要再创建下一个ResNet或Inception架构。本文对输入图像进行仿射变换这一思路,使模型更加适用于图像的平移缩放和旋转。

 

以上为译文。

文章原标题《A Beginner's Guide to Understanding Convolutional Neural Networks》,

译者:Mags,审校:袁虎。

原文链接

干货好文,请关注扫描以下二维码:



本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/522407.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

工作流实战篇_01_flowable 流程Demo案例

由于群里有些朋友对这个flowable还不是 很熟悉,在群里的小伙伴的建议下,师傅(小学生05101)制作一个开源的项目源码,一共大家学习和交流,希望对有帮助,少走弯路 如果有不懂的问题可以入群:633168411 里面都是…

antd 进行ajax请求,react+dva+antd接口调用方式

一丶 安装通过 npm 安装 dva-cli 并确保版本是0.8.1或以上。$ npm install dva-cli -g$ dva -v0.8.1二丶创建新应用安装完dva-cli之后,就可以在命令行里访问到dva命令(不能访问?)。现在,你可以通过dva new创建新应用。$ dva new dva-quicksta…

基于MaxCompute的拉链表设计

摘要: 简单的拉链表设计 背景信息: 在数据仓库的数据模型设计过程中,经常会遇到这样的需求: 数据量比较大; 表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态、手机号码等等; 需要查看…

2019全球编程语言高薪排行榜登场;余承东正式宣布华为IFA2019 或发布麒麟990;OPPO、vivo和小米成立互传联盟…...

关注并标星星CSDN云计算极客头条:速递、最新、绝对有料。这里有企业新动、这里有业界要闻,打起十二分精神,紧跟fashion你可以的!每周三次,打卡即read更快、更全了解泛云圈精彩newsgo go go 全新的索尼PS5(图…

python文件输出log_Python同时向控制台和文件输出日志logging的方法

#-*- coding:utf-8 -*- import logging # 配置日志信息 logging.basicConfig(levellogging.DEBUG, format%(asctime)s %(name)-12s %(levelname)-8s %(message)s, datefmt%m-%d %H:%M, filenamemyapp.log, filemodew) # 定义一个Handler打印INFO及以上级别的日志到sys.stderr c…

MaxCompute使用常见问题总结

摘要: Maxcompute常见问题的总结,方便广大用户可以快速排查问题 计费相关 存储计费:按照存储在 MaxCompute 的数据的容量大小进行阶梯计费。 计算计费:MaxCompute 分按量后付费和按 CU 预付费两种计算计费方式。 按量后付费&#…

工作流实战_02_flowable 流程模板导入

由于群里有些朋友对这个flowable还不是很熟悉,在群里的小伙伴的建议下,师傅(小学生05101)制作一个开源的项目源码,一共大家学习和交流,希望对有帮助,少走弯路 如果有不懂的问题可以入群:633168411 里面都是…

华为服务器raid1装系统,服务器raid1系统安装

服务器raid1系统安装 内容精选换一换需要创建两台ECS,一台使用Linux系统安装SAP应用与DB2,另外一台用于安装SAP GUI和作为跳板机,两台ECS详情如下所示,下表均为示例,请根据实际情况购买Avago 3408iMR RAID卡不支持虚拟…

关于大数据你应该了解的五件事儿

摘要: 本文从基本概念、行业趋势、学习途径等几个方面介绍了大数据的相关内容,适合对大数据感兴趣的读者作为入门材料阅读。随着科技的发展,目前已经步入了大数据的时代,很多社交媒体和互联网公司也非常关注大数据这一行业。那么对…

当我们谈AI时,到底该谈什么?

报名倒计时仅剩1天,即刻扫描下方二维码,或者点击【阅读原文】免费报名,让我们不见不散。

前端电子表数字字体_爬虫:如何优雅应对字体反爬

目录THE BEGIN一 什么是字体反爬二 如何解密1.人工解密2.工具解密三 建立映射关系四 解密THE BEGIN网页数据爬取可以简单分为三步:抓取页面,分析页面,存储数据。其中第一二步最为头疼,因为每个站点各有特色,你要不断检…

ECS云资源可视化--资源概览

摘要: 随着越来越多的业务接入云计算,云上拥有的各类资源也越来越多,用户如何时时对其拥有的各类资源进行统计分析成为一个难题。ECS控制台针对这一问题,推出资源概览功能,目前支持实例和存储两种云资源的统计和分析功…

工作流实战_03_flowable 流程模板部署

由于群里有些朋友对这个flowable还不是 很熟悉,在群里的小伙伴的建议下,师傅(小学生05101)制作一个开源的项目源码,一共大家学习和交流,希望对有帮助,少走弯路 如果有不懂的问题可以入群:633168411 里面都是…

为物联网而生:高性能时间序列数据库HiTSDB商业化首发!

摘要: 近日,阿里云宣布高性能时间序列数据库 (High-Performance Time Series Database , 简称 HiTSDB) 正式商业化。 近日,阿里云宣布高性能时间序列数据库 (High-Performance Time Series Database , 简称 HiTSDB) 正式商业化。 先跟大家聊一…

kafka系统设计开篇

戳蓝字“CSDN云计算”关注我们哦!来源 | 靳刚同学MQ(消息队列)是跨进程通信的方式之一,可理解为异步rpc,上游系统对调用结果的态度往往是重要不紧急。使用消息队列有以下好处:业务解耦、流量削峰、灵活扩展…

工作流实战_04_flowable 流程的模板的图片和xml显示

由于群里有些朋友对这个flowable还不是 很熟悉,在群里的小伙伴的建议下,师傅(小学生05101)制作一个开源的项目源码,一共大家学习和交流,希望对有帮助,少走弯路 如果有不懂的问题可以入群:633168411 里面都是…

成功使用机器学习技术的3个技巧

摘要: 本文讲述了3个针对机器学习的小技巧,相信对正在学习机器学习的朋友有所帮助机器学习、自然语言处理(NLP)和认知搜索技术正以高速率被采用,这并不稀奇。随着组织努力创造价值,增强客户体验,遵守严格的规定并使自己…

Spring精华问答 | 如何集成Spring Boot?

Spring框架是一个开源的Java平台,它提供了非常容易,非常迅速地开发健壮的Java应用程序的全面的基础设施支持。今天就让我们一起来看看关于Spring的精华问答吧。1Q:如何在自定义端口上运行Spring Boot应用程序?A:为了在自定义端口上运行Spring…

Andrew Ng深度学习课程笔记

摘要: 本文对Andrew Ng深度学习课程进行了大体的介绍与总结,共包括21个课程。我最近在Coursera上完成了Andrew Ng导师关于新深度学习的所有课程。Ng在解释术语和概念方面做得非常出色。例如,Ng指出,监督深度学习只不过是一种多维曲…

工作流实战_05_flowable 流程定义的挂起与激活

由于群里有些朋友对这个flowable还不是 很熟悉,在群里的小伙伴的建议下,师傅(小学生05101)制作一个开源的项目源码,一共大家学习和交流,希望对有帮助,少走弯路 如果有不懂的问题可以入群:633168411 里面都是…