mlp神经网络_白天鹅黑天鹅灰天鹅?卷积神经网络帮你搞定识别

1db9143bc0d3e97a8e4a30e7c382b0bc.png

全文共3014字,预计学习时长6分钟

本文将通过一系列的天鹅图片来解释卷积神经网络(CNN)的概念,并使用CNN在常规多层感知器神经网络上处理图像。

63522d85d342758969d8dedf0c3b5157.png

图像分析

假设我们要创建一个能够识别图像中的天鹅的神经网络模型。

天鹅具有某些特征,可用于帮助确定天鹅是否在图片中存在,例如长颈、白色等。

8312b52b133885d8f7da721a6b0d3b4b.png

天鹅具有某些可用于识别目的的特征

对于某些图像,可能难以确定是否存在天鹅,请看以下图像。

27171ac72e292f2a68622fe10d1542e5.png

很难区分的天鹅形象

这些特征仍然存在于上图中,但我们却难以找出上文提出的特征。除此之外,还会有一些更极端的情况。

a1691104ad187c3407ed3198e5d93a13.png

天鹅分类的极端情况

至少颜色是一致的,对吧? 还是......

2c5f0bbaae7e0bc0f08c5e83ca874630.png

不要忘记这些黑天鹅。

情况可以更糟吗?绝对可以。

fc7d50cde4853bb395f96876a9ab7285.png

最坏的情况

好的,现在已经有了足够多的天鹅照片。

我们来谈谈神经网络。

现如今,我们基本上一直在以非常天真的方式谈论检测图像中的特征。研究人员构建了多种计算机视觉技术来处理这些问题:SIFT,FAST,SURF,Brief等。然而,出现了类似的问题:探测器要么过于笼统,要么过于设计化,这使得它们太简单或难以概括。

· 如果我们学习了要检测的功能,该怎么办?

· 我们需要一个可以进行表征学习(或特征学习)的系统。

表征学习是一种允许系统自动查找给定任务的相关特征的技术。替换手动功能工程。有以下几种技巧:

· 无监督(K-means,PCA,......)

· 监督(Sup. 字典学习,神经网络!)

63522d85d342758969d8dedf0c3b5157.png

传统神经网络的问题

假设你已经熟悉了被称为多层感知器(MLP)的传统神经网络。如果你不熟悉这些内容,那么网络上有数百篇有关MLP工作方式的教程。这些是在人脑上建模的,其中神经元由连接的节点刺激,并且仅在达到特定阈值时才被激活。

4bdf74e0bdfc7a422022d04a58506106.png

标准多层感知器(传统神经网络)

MLP有几个缺点,特别是在图像处理方面。MLP对每个输入使用一个感知器(例如,图像中的像素,在RGB情况下乘以3)。对于大图像,权重量迅速变得难以操纵。对于具有3个颜色通道的224 x 224像素图像,必须训练大约150,000个重量!结果,困难发生在训练和过度拟合的时候。

另一个常见问题是MLP对输入(图像)及其移位版本的反应不同——它们不是平移不变的。例如,如果猫的图片出现在一张图片的左上角和另一张图片的右下角,则MLP会尝试自我纠正并认为猫将始终出现在图像的这一部分中。

很明显,MLP不是用于图像处理的最佳思路。其中一个主要问题是当图像变平为MLP时,空间信息会丢失。靠近的节点很重要,因为它们有助于定义图像的特征。

因此,我们需要一种方法来利用图像特征(像素)的空间相关性,这样我们就可以看到图片中的猫,无论它出现在何处。在下图中,我们正在学习冗余功能。这种方法并不健全,因为猫可能出现在另一个位置。

2b9c3ec5101dfa7838fa4eaad13fdcc6.png

使用MLP的猫探测器,随着猫的位置改变而改变。

63522d85d342758969d8dedf0c3b5157.png

开始CNN之旅

现在让我们继续讨论CNN如何用于解决大多数问题。

fbf2d12ed57ccc0296f7b279c700c29c.png

CNN利用了附近像素与远距离像素相关性更强的事实

通过使用称为过滤器的东西,我们分析了附近像素的影响。采用指定尺寸的过滤器(经验法则为3x3或5x5),然后将过滤器从图像左上角移到右下角。对于图像上的每个点,使用卷积运算基于滤波器计算值。

过滤器可能与任何东西有关,对于人类的照片,一个过滤器可能与看到鼻子有关,而我们的鼻子过滤器会让我们看到鼻子在图像中出现的强度,以及多少次和在它们发生的位置。与MLP相比,这减少了神经网络必须学习的权重数量,并且还意味着当这些特征的位置发生变化时,它不会抛弃神经网络。

5d16dda45bb233423335b3b72530eba7.png

卷积运算

如果你想知道如何通过网络学习不同的功能,以及网络是否可能学习相同的功能(10个头部过滤器会有点多余),这种情况基本不会发生。在构建网络时,我们随机指定过滤器的值,然后在网络训练时不断更新。除非所选滤波器的数量极其大,否则产生两个相同的滤波器的可能性是非常非常小的。

下面给出了称之为过滤器或内核的示例。

8d7b76cc65987689146ead1179f1148c.png

CNN的内核过滤器示例

在过滤器经过图像之后,为每个过滤器生成特征映射。然后通过激活函数获取这些函数,激活函数决定图像中给定位置是否存在某个特征。然后我们可以做很多事情,例如添加更多过滤层和创建更多特征映射。随着我们创建更深入的CNN,这些映射变得越来越抽象。我们还可以使用池化图层来选择要素图上的最大值,并将它们用作后续图层的输入。理论上,任何类型的操作都可以在池化层中完成,但实际上,只使用最大池,因为我们想要找到极端值——这就是我们的网络看到该功能的时候!

c290a1749898557df92b8b2c794bf0de.png

示例CNN具有两个卷积层,两个合并层和一个完全连接的层,它将图像的最终分类决定为几个类别之一。

只是重申我们迄今为止所发现的内容。我们知道MLP:

· 不能很好地缩放图像

· 忽略像素位置和邻居关联带来的信息

· 无法处理翻译

CNN的一般思维是智能地适应图像的属性:

· 像素位置和邻域具有语义含义

· 感兴趣的元素可以出现在图像的任何位置

1b1ccfc664105169aa42354c2913feba.png

MLP和CNN的体系结构比较

CNN也由层组成,但这些层没有完全连接:它们具有滤镜,在整个图像中应用的立方体形状的权重集。过滤器的每个2D切片称为内核。这些过滤器引入了平移不变性和参数共享。它们是如何应用的?当然是卷积!

4a42ab857ded02dcde74b2b09cdb35df.png

该示例表明了如何使用内核过滤器将卷积应用于图像

现在有一个问题是:图像边缘会发生什么?如果我们在正常图像上应用卷积,则结果将根据滤波器的大小进行下采样。如果我们不希望这种情况发生,该怎么办?可以使用填充。

63522d85d342758969d8dedf0c3b5157.png

填充

e5ed506f373c617854d93fd188c1cf82.png

这幅图展现了如何将完全填充和相同的填充应用于CNN

填充本质上使得滤波器内核产生的特征映射与原始映像的大小相同。这对于深度CNN非常有用,因为我们不希望减少输出,为此我们只在网络末端留下一个2x2区域来预测结果。

63522d85d342758969d8dedf0c3b5157.png

我们如何将过滤器连接起来?

如果我们有许多功能图,那么这些功能如何在网络中结合起来帮助我们获得最终结果?

3ce3281cdad41b220d240990b38dfa81.png

需要清楚的是,每个滤镜都与整个3D输入立方体进行卷积,但会生成2D要素贴图。

· 因为我们有多个滤镜,所以最终得到一个3D输出:每个滤镜一个2D特征贴图

· 特征贴图尺寸可以从一个卷积层大幅变化到下一个:输入一个32x32x16输入的图层,如果该图层有128个滤镜,则退出一个32x32x128输出。

· 使用滤镜对图像进行卷积会生成一个特征图,该特征图突出显示图像中给定要素的存在。

在卷积层中,我们基本上在图像上应用多个滤波器来提取不同的特征。但最重要的是,我们正在学习这些过滤器!我们缺少的一件事是:非线性。

63522d85d342758969d8dedf0c3b5157.png

介绍线性整流函数(ReLU)

CNN最成功的非线性是线性整流函数(ReLU),它可以解决sigmoids中出现的消失梯度问题。ReLU更容易计算并产生稀疏性(并不总是有益)。

63522d85d342758969d8dedf0c3b5157.png

不同层的比较

卷积神经网络中有三种类型的层:卷积层,池化层和完全连接层。这些层中的每一层都具有可以优化的不同参数,并且对输入数据执行不同的任务。

c5a323748346ec42f219c83b9c5059be.png

卷积层的特征

卷积层是将滤镜应用于原始图像或深CNN中的其他要素贴图的图层。这是大多数用户指定的参数在网络中的位置。最重要的参数是内核的数量和内核的大小。

fb995a78920627e85ef7671bb1f635dd.png

池化层的特征

池化层类似于卷积层,但它们执行特定功能,例如最大池,其取特定过滤区域中的最大值,或平均池,其取过滤区域中的平均值。这些通常用于降低网络的维度。

4925b2801f7c6be8c0648418a5d00bca.png

完全连接层的功能

完全连接的层放置在CNN的分类输出之前,并用于在分类之前展平结果。这类似于MLP的输出层。

376a4229a62acdb78cee0839c87e1889.png

标准CNN的架构

63522d85d342758969d8dedf0c3b5157.png

CNN层学习什么?

· 每个CNN层都学习越来越复杂的过滤器。

· 第一层学习基本特征检测滤镜:边缘、角落等

· 中间层学习检测对象部分的过滤器。对于面孔,他们可能会学会对眼睛、鼻子等做出反应

· 最后一层具有更高的表示:它们学习识别不同形状和位置的完整对象。

9871dd926ade65180029d2aeb47e7015.png

CNN的示例经过训练以识别特定对象及其生成的特征映射

6425c71eb0b87c5c66d2e3c935c03b9f.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/334380.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java登录界面命令_Java命令行界面(第26部分):CmdOption

java登录界面命令由于Tweet,我了解了本系列中第26个基于Java的功能强大的库,该库用于解析命令行参数 。 CmdOption在其GitHub主页上被描述为“一个通过注释配置的,用于Java 5应用程序的简单注释驱动命令行解析器工具包。” 该项目的副标题是“…

getopt java_Java命令行界面(第28部分):getopt4j

getopt javagetopt4j的页面将其描述为“一个根据GNU样式解析命令行参数的库。” 然后, 页面介绍getopt4j :“getopt4j库旨在以与glibc (GNU C运行时库)中的C getopt()函数相同的方式解析命令行选项。 与原始…

springboot redis token_Spring Boot + Redis + 注解 + 拦截器来实现接口幂等性校验

优质文章,及时送达作者 | wangzaiplus链接 | www.jianshu.com/p/6189275403ed一、概念幂等性, 通俗的说就是一个接口, 多次发起同一个请求, 必须保证操作只能执行一次比如:订单接口, 不能多次创建订单支付接口, 重复支付同一笔订单只能扣一次钱支付宝回调接口, 可能…

java 示例_功能Java示例 第2部分–讲故事

java 示例这是称为“ Functional Java by Example”的系列文章的第2部分。 我在本系列的每个部分中开发的示例是某种“提要处理程序”,用于处理文档。 在上一部分中,我从一些原始代码开始,并应用了一些重构来描述“什么”而不是“如何”。 …

python range函数范围_Python range函数

Python range函数教程 range函数详解 语法 range(start, stop[, step]) 参数 参数 描述 start 计数从 start 开始。默认是从 0 开始。 stop 计数到 stop 结束,但不包括 stop。 step 步长,默认为1,可以支持负数。 返回值 返回生成的序列。 案例…

openpyxl删除添加excel列_Python | 如何使用Python操作Excel(二)

0 前言在阅读本文之前,请确保您已满足或可能满足一下条件:请确保您具备基本的Python编程能力。请确保您会使用Excel。请确保您的电脑已经安装好Python且pip可用。请确保您已经读过前文:如何使用Python操作Excel(一)LogicPanda,公众…

payara 创建 集群_使用Payara Micro的Easy Java EE Microservices

payara 创建 集群想知道如何开始使用Java EE Microservices? 使用Java EE API部署微服务只需要几个快速步骤。 许多人认为Java EE对于与微服务一起使用而言过于繁重,但事实并非如此……尤其是如果您仅利用服务所需的Java EE规范。 在这篇简短的文章中&am…

php导出页面居中设置,PHPExcel导出插入图片和居中问题

首先到网上先下载PHPExcel下载后解压得到这两个文件下载后引用该文件最后编写相关代码:首先是图片插入导出$objDrawing new PHPExcel_Worksheet_Drawing();$objDrawing->setName(‘Photo‘);$objDrawing->setDescription(‘Photo‘);$objDrawing->setPath…

两台电脑通过usb共享网络_怎样让电脑通过手机共享上网?

手头有部七年前买的安卓智能手机已经不用了,卖掉不值钱,放在家里也是浪费。能否让它继续发挥余热呢?最近找到了一个好办法,就是可以让个人电脑通过它来上网(如下图所示):1. 用数据线将电脑与手机…

linux redis客户端_你见过能把Redis的主从复制讲这么明白的吗?

概念1.Conception(概念)Redis的复制也就是我们所说的主从复制,主机数据更新后根据配置和策略,自动同步到备机的master/slaver机制,Master以写为主,Slave以读为主。2.Function(功能)读写分离(秉持与RDBMS 相同的设计理念)容灾恢复R…

discuz3.1用哪个版本php版本好,Discuz应用中心安装模板提示版本号不匹配适用于X3.3 X3.2 X3.1的解决方法...

有时候我们从应用中心安装模板,在应用中心里模板作者设定允许我们的程序版本,但是我们安装时却提示版本号不匹配,那这是为什么呢?经过我们分析发现是因为X3和X3.1,X3.2的模板是完全兼容的,很多模板是在X3的…

arch linux arm下载_arm开发板运行hello word的详细过程

arm开发板运行helloword1.uboot的编译​ 这里已经安装好了交叉编译工具链,如果自己的电脑下没有,请自行百度安装。将下载好uboot到linux下,进行解压-->打补丁-->编译-->烧写,执行以下命令完成上述四个步骤(不…

小程序 input自动换行_直播 | 最实用的微信小程序自动化测试技术独家揭秘

随着微信小程序的功能和生态日益完善,很多企业级小程序项目的页面越来越多,业务逻辑也越来越复杂。如何做好微信小程序的自动化测试成为测试同学面临的一大难题。如何合理构建多端架构和自动化测试体系?如何深入理解微信小程序特性和技术原理…

sit matlab,LabView SIT工具包的使用和安装说明

之前一直在用Simulink做仿真模型,现在要做测试需要用NI的设备和LabView软件,通过一段时间的学习,在SIT的使用上有了点小认识拿来跟大家分享一下。需要注意的是,必须是先安装MatLab Simulink 然后安装SIT工具包,如果先安…

opencv 把3通道图像转成单通道_小强学Python+OpenCV之-1.4.3图像(矩阵)加减运算

引入问题引入,考虑以下几个问题:Q1. 一个3通道像素p的BGR分量(8bit表示)值均相同,那么这个像素是什么颜色的?Q2. 该像素p加上自己,即,像素p的各个通道值翻倍,那么这个像素…

mvc 404错误 php,java - springmvc 请求无法到达controller,出现404错误

springmvc 请求无法到达controller,出现404错误web.xmltestmvcindex.htmlindex.htmindex.jspdefault.htmldefault.htmdefault.jspspringmvcorg.springframework.web.servlet.DispatcherServletcontextConfigLocationclasspath:springmvc-servlet.xml1springmvc/org.…

diff算法_传统Diff算法为什么时间复杂度要O(n ^3)

原文链接:https://juejin.im/post/6892671384976097287很多文章提到的都是新旧DOM树需要两两对比,但是没有说清楚为什么。思考大家想一下,如果让你来设计将一棵树转换为另一棵树,你会怎么设计?可能是直接暴力的根据ind…

CentOS 7 Linux 的初始化系统(系统服务管理和控制程序/Init System) -- systemd 详解

文章目录一、systemd 的由来(一)常用的 init 系统(二)init 程序的缺点(三)systemd 简介(四)systemd 架构图二、服务管理三、unit 配置文件(一)概述&#xff0…

python 指针指向的内容,python-文件的读取及指针位置

文件的读取及指针位置打开文件的三步:打开->操作->关闭文件的读取:f open(/tmp/passwd)打开f.close()操作完,关闭文件判断文件对象拥有的权限print(f.readable())是否拥有可读权限True or Falshprint(f.writable())是否拥有可写权限文…

matplotlib 柱状图_Matplotlib数据可视化:柱状图与直方图

↑↑点击上方蓝字,回复资料,嘿嘿,10个G的惊喜柱状图和直方图是两种非常类似的统计图,区别在于:直方图展示数据的分布,柱状图比较数据的大小。直方图X轴为定量数据,柱状图X轴为分类数据。因此&am…