深度学习简介(一)——卷积神经网络

本文的主要目的,是简单介绍时下流行的深度学习算法的基础知识,本人也看过许多其他教程,感觉其中大部分讲的还是太过深奥,于是便有了写一篇科普文的想法。博主也是现学现卖,文中如有不当之处,请各位指出,共同进步。

本文的目标读者是对机器学习和神经网络有一定了解的同学(包括:梯度下降、神经网络、反向传播算法等),机器学习的相关知识强烈推荐吴恩达大神的机器学习课程

 

深度学习简介

深度学习是指多层神经网络上运用各种机器学习算法解决图像,文本等各种问题的算法集合。深度学习从大类上可以归入神经网络,不过在具体实现上有许多变化。深度学习的核心是特征学习,旨在通过分层网络获取分层次的特征信息,从而解决以往需要人工设计特征的重要难题。深度学习是一个框架,包含多个重要算法: 

  • Convolutional Neural Networks(CNN)卷积神经网络
  • AutoEncoder自动编码器
  • Sparse Coding稀疏编码
  • Restricted Boltzmann Machine(RBM)限制波尔兹曼机
  • Deep Belief Networks(DBN)深信度网络
  • Recurrent neural Network(RNN)多层反馈循环神经网络神经网络

对于不同问题(图像,语音,文本),需要选用不同网络模型才能达到更好效果。

此外,最近几年增强学习(Reinforcement Learning)与深度学习的结合也创造了许多了不起的成果,AlphaGo就是其中之一。

 

人类视觉原理

深度学习的许多研究成果,离不开对大脑认知原理的研究,尤其是视觉原理的研究。

1981 年的诺贝尔医学奖,颁发给了 David Hubel(出生于加拿大的美国神经生物学家) 和TorstenWiesel,以及 Roger Sperry。前两位的主要贡献,是“发现了视觉系统的信息处理”,可视皮层是分级的。

人类的视觉原理如下:从原始信号摄入开始(瞳孔摄入像素 Pixels),接着做初步处理(大脑皮层某些细胞发现边缘和方向),然后抽象(大脑判定,眼前的物体的形状,是圆形的),然后进一步抽象(大脑进一步判定该物体是只气球)。下面是人脑进行人脸识别的一个示例:

 

对于不同的物体,人类视觉也是通过这样逐层分级,来进行认知的:

我们可以看到,在最底层特征基本上是类似的,就是各种边缘,越往上,越能提取出此类物体的一些特征(轮子、眼睛、躯干等),到最上层,不同的高级特征最终组合成相应的图像,从而能够让人类准确的区分不同的物体。

 

那么我们可以很自然的想到:可以不可以模仿人类大脑的这个特点,构造多层的神经网络,较低层的识别初级的图像特征,若干底层特征组成更上一层特征,最终通过多个层级的组合,最终在顶层做出分类呢?答案是肯定的,这也是许多深度学习算法(包括CNN)的灵感来源。

 

卷积网络介绍

卷积神经网络是一种多层神经网络,擅长处理图像特别是大图像的相关机器学习问题。

卷积网络通过一系列方法,成功将数据量庞大的图像识别问题不断降维,最终使其能够被训练。CNN最早由Yann LeCun提出并应用在手写字体识别上(MINST)。LeCun提出的网络称为LeNet,其网络结构如下:

这是一个最典型的卷积网络,由卷积层、池化层、全连接层组成。其中卷积层与池化层配合,组成多个卷积组,逐层提取特征,最终通过若干个全连接层完成分类。

卷积层完成的操作,可以认为是受局部感受野概念的启发,而池化层,主要是为了降低数据维度。

综合起来说,CNN通过卷积来模拟特征区分,并且通过卷积的权值共享及池化,来降低网络参数的数量级,最后通过传统神经网络完成分类等任务。

 

降低参数量级

为什么要降低参数量级?从下面的例子就可以很容易理解了。

如果我们使用传统神经网络方式,对一张图片进行分类,那么,我们把图片的每个像素都连接到隐藏层节点上,那么对于一张1000x1000像素的图片,如果我们有1M隐藏层单元,那么一共有10^12个参数,这显然是不能接受的。(如下图所示)

但是我们在CNN里,可以大大减少参数个数,我们基于以下两个假设:

1)最底层特征都是局部性的,也就是说,我们用10x10这样大小的过滤器就能表示边缘等底层特征

2)图像上不同小片段,以及不同图像上的小片段的特征是类似的,也就是说,我们能用同样的一组分类器来描述各种各样不同的图像

基于以上两个,假设,我们就能把第一层网络结构简化如下:

我们用100个10x10的小过滤器,就能够描述整幅图片上的底层特征。

 

卷积(Convolution)

卷积运算的定义如下图所示:

如图所示,我们有一个5x5的图像,我们用一个3x3的卷积核:

1  0  1

0  1  0

1  0  1

来对图像进行卷积操作(可以理解为有一个滑动窗口,把卷积核与对应的图像像素做乘积然后求和),得到了3x3的卷积结果。

这个过程我们可以理解为我们使用一个过滤器(卷积核)来过滤图像的各个小区域,从而得到这些小区域的特征值。

在实际训练过程中,卷积核的值是在学习过程中学到的。

在具体应用中,往往有多个卷积核,可以认为,每个卷积核代表了一种图像模式,如果某个图像块与此卷积核卷积出的值大,则认为此图像块十分接近于此卷积核。如果我们设计了6个卷积核,可以理解:我们认为这个图像上有6种底层纹理模式,也就是我们用6中基础模式就能描绘出一副图像。以下就是24种不同的卷积核的示例:

 

池化(Pooling)

池化听起来很高深,其实简单的说就是下采样。池化的过程如下图所示:

上图中,我们可以看到,原始图片是20x20的,我们对其进行下采样,采样窗口为10x10,最终将其下采样成为一个2x2大小的特征图。

之所以这么做的原因,是因为即使做完了卷积,图像仍然很大(因为卷积核比较小),所以为了降低数据维度,就进行下采样。

之所以能这么做,是因为即使减少了许多数据,特征的统计属性仍能够描述图像,而且由于降低了数据维度,有效地避免了过拟合。

在实际应用中,池化根据下采样的方法,分为最大值下采样(Max-Pooling)与平均值下采样(Mean-Pooling)。

 

LeNet介绍

下面再回到LeNet网络结构:

这回我们就比较好理解了,原始图像进来以后,先进入一个卷积层C1,由6个5x5的卷积核组成,卷积出28x28的图像,然后下采样到14x14(S2)。

接下来,再进一个卷积层C3,由16个5x5的卷积核组成,之后再下采样到5x5(S4)。

注意,这里S2与C3的连接方式并不是全连接,而是部分连接,如下图所示:

其中行代表S2层的某个节点,列代表C3层的某个节点。

我们可以看出,C3-0跟S2-0,1,2连接,C3-1跟S2-1,2,3连接,后面依次类推,仔细观察可以发现,其实就是排列组合:

 

0 0 0 1 1 1

0 0 1 1 1 0

0 1 1 1 0 0

...

1 1 1 1 1 1

 

我们可以领悟作者的意图,即用不同特征的底层组合,可以得到进一步的高级特征,例如:/ + \ = ^ (比较抽象O(∩_∩)O~),再比如好多个斜线段连成一个圆等等。

最后,通过全连接层C5、F6得到10个输出,对应10个数字的概率。

 

最后说一点个人的想法哈,我认为第一个卷积层选6个卷积核是有原因的,大概也许可能是因为0~9其实能用以下6个边缘来代表:

是不是有点道理呢,哈哈

然后C3层的数量选择上面也说了,是从选3个开始的排列组合,所以也是可以理解的。

其实这些都是针对特定问题的trick,现在更加通用的网络的结构都会复杂得多,至于这些网络的参数如何选择,那就需要我们好好学习了。

 

训练过程

卷积神经网络的训练过程与传统神经网络类似,也是参照了反向传播算法。

第一阶段,向前传播阶段:

a)从样本集中取一个样本(X,Yp),将X输入网络;

b)计算相应的实际输出Op

      在此阶段,信息从输入层经过逐级的变换,传送到输出层。这个过程也是网络在完成训练后正常运行时执行的过程。在此过程中,网络执行的是计算(实际上就是输入与每层的权值矩阵相点乘,得到最后的输出结果):

          Op=Fn(…(F2(F1(XpW(1))W(2))…)W(n)

第二阶段,向后传播阶段

a)算实际输出Op与相应的理想输出Yp的差;

b)按极小化误差的方法反向传播调整权矩阵。

以上内容摘自其他博客,由于我也没有仔细了解这一块,建议直接参考原博客。

 

参考资料

Deep Learning(深度学习)学习笔记整理系列之(七) 

Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现

卷积神经网络(一):LeNet5的基本结构

UFLDL Tutorial 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/252823.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Jenkins持续集成 之 Jenkins安装

一、安装JDK与TOMCAT8 参考地址: http://ibm.chick.blog.163.com/blog/static/144201610201652811537410/ 二、下载Jenkins安装包 wget http://mirrors.jenkins.io/war/latest/jenkins.war 三、把jenkins.war放到TOMCAT下的webapps 四、启动tomcat并访问 http://10.…

夜视模式,多少猥琐相机假汝之名

一般相机加装一个红外滤光片,就是一个可以用来干猥琐事情的相机了。现在有相机直接把这个功能整合了,它的这个功能叫红外夜视模式,可以拍下黑暗中的物体,当然,也可以透视纺织品和一些其他材质的衣物。这部相机具有500万…

Java中设计模式之单例设计模式-1

单例作用 1 节省内存2 可以避免多种状态导致状态冲突单例的创建步骤 1 私有化构造方法2 私有化声明的属性3 getInstance4 方法需要静态单例分类 1.懒汉式 2.饿汉式 两种单例区别: 饿汉式 线程安全的 懒汉式 线程不安全的 饿汉式: package 设计模式之单…

夜视仪

国民兵所用F-16的驾驶舱,机员配有夜视镜以备观察领空的客机或飞行物体使用夜视镜时看到的影像夜视仪〈night vision device,简称NVD〉,也称夜视镜,是透过光学科技强化黑暗中光源的科技装置,通常用于军事用途。目前在民…

2springboot:快速创建springboot项目

使用IDEA快速创建springboot项目流程&#xff1a; 创建新的项目选择 项目的命名以及包名 需要什么包就导入什么包 进行测试的单元 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-test</artifactId>&…

jQuery导入代码片段并绑定事件

a.html <div><button class"button" >点我达</button> </div> b.html <html> <head><script type"text/javascript" src"./js/jquery-1.0.1.js"></script><meta http-equiv"Content-Ty…

汉邦高科范俊峰:关于透雾摄像机那点事

慧聪安防网讯 生活在北方的人们&#xff0c;隔三差五就和雾霾来一次亲密接触&#xff0c;雾霾对人们的出行和交通有很大的影响&#xff0c;雾霾笼罩之下&#xff0c;人们出行如果闯红灯、车辆违规行驶发生交通事故&#xff0c;交通监控摄像头只能“雾里看花”&#xff0c;透雾摄…

SpringBoot注解大全(转)

原文链接&#xff1a;[springBoot系列]--springBoot注解大全 一、注解(annotations)列表 SpringBootApplication&#xff1a;包含了ComponentScan、Configuration和EnableAutoConfiguration注解。其中ComponentScan让spring Boot扫描到Configuration类并把它加入到程序上下文。…

工业摄像头传感器尺寸与像元尺寸的关系

http://www.mv186.com/show-list.php?id462 在机器自动化行业检测应用中&#xff0c;工业摄像头是必备的硬件&#xff0c;而图像传感器又是工业摄像头中最最关键核心的东西。图像传感器的尺寸&#xff08;靶面大小&#xff09;&#xff0c;往往直接关系到成像的质量。通常来讲…

微信小程序倒计时实现

思路&#xff1a;跟一般js倒计时一样&#xff0c;主要在于this的变相传递。 实现效果&#xff1a; wxml文件部分代码&#xff1a; common.js文件 : 引用页JS文件: PS: 1.在data里初始化时间格式&#xff0c;是避免时间加载的第1秒显示为空白&#xff0c;因为setTimeOut是在1s以…

基于Kubeadm的Flannel分析

Flannel概述 Flannel是将多个不同子网&#xff08;基于主机Node&#xff09;通过被Flannel维护的Overlay网络拼接成为一张大网来实现互联的&#xff0c;通过官方的一张网络拓扑图我们可以对其基本原理一目了然&#xff1a; 值得探讨的是&#xff0c;flannel的这个overlay网络支…

sensor的skipping and binning 模式

1、第一种理解 关于sensor的缩放存在两种模式 binning mode 和skip mode skipping mode 就是把想要的数据采集上来 把其余的数据扔掉 如下所示 column skip 2 row skip 2 留下的就是白色的像素 黑色的像素丢掉。 binning mode 就是把相邻的像素合成一个像素&#xff0c;然后再…

治安卡口摄像机与电警抓拍机之间有什么区别?

接下来小编和大家说说它们有哪些相同和不同的地方&#xff0c;供大家参考。 治安卡口&#xff1a; 卡口摄像机主要是用于城市道路或高速公路出入口、收费站等重点治安监控地段的全天候实时检测与记录收费站、交通或治安检查站等地点。 治安卡口监控系统的前端部分主要由三个单元…

高亮显示QSS文件

转【作者&#xff1a;一去丶二三里 博客地址&#xff1a;http://blog.csdn.net/liang19890820】 简述 语法高亮是文本编辑器用来显示文本的&#xff0c;特别是源代码&#xff0c;根据不同的类别来用不同的颜色和字体显示。这个功能有助于编写结构化的语言&#xff0c;例如&…

智能识别技术对电子警察设备的影响

电子警察是目前交通管理部门用的最多的一种监控管理系统。这类系统与传统安防的监控设备有很大区别&#xff0c;原先的系统只能抓拍车辆图片&#xff0c;准确率又低所以被交通管理部门慢慢的淘汰了&#xff0c;同业兴创这款最新的设备系统&#xff0c;有它一个很优质的特点就是…

交通治安卡口监控系统解决方案

随着社会经济发展、城镇建设速度的加快&#xff0c;流动人口不断增加&#xff0c;城市中人口密度逐渐加大&#xff0c;给城市治安监管带来很大的压力。因此采用高清网络摄像监控系统以科技手段提高执法监督效率&#xff0c;成为有力推进“和谐社会”构建的最有力办法。 同业兴创…

细说shiro之三:在独立应用中使用shiro

官网&#xff1a;https://shiro.apache.org/ 1. 下载在非Web环境的独立应用中使用Shiro时&#xff0c;只需要shiro-core组件。在Maven项目中的依赖配置如下&#xff1a; <dependency><groupId>org.apache.shiro</groupId><artifactId>shiro-core</a…

2、C#基础 - Visual Studio 的版本选择和下载

有句话说&#xff1a;工欲善其事&#xff0c;必先利其器&#xff0c;我不推荐在学习一个语言时使用记事本练习&#xff0c;甚至说相当的排斥。当然了&#xff0c;你也可以选择你自己喜欢的方式。本系列推荐使用的IDE为vs2017 community版&#xff0c;银子不够的同志不用怕&…

红外摄像机的原理及选择

一、红外基本原理介绍 光是一种电磁波&#xff0c;它的波长区间从几个纳米&#xff08;1nm10-9m&#xff0c;十亿分之一米&#xff09;到 1 毫米&#xff08;mm&#xff09;左右。人眼可见的只是其中一部分&#xff0c;我们称其为可见光&#xff0c;可见光的波长范围为 380nm …

P3375 【模板】KMP字符串匹配

题目描述 如题&#xff0c;给出两个字符串s1和s2&#xff0c;其中s2为s1的子串&#xff0c;求出s2在s1中所有出现的位置。 为了减少骗分的情况&#xff0c;接下来还要输出子串的前缀数组next。如果你不知道这是什么意思也不要问&#xff0c;去百度搜[kmp算法]学习一下就知道了。…