CNN 网络结构简介

本文通过整理李宏毅老师的机器学习教程的内容,介绍 CNN(卷积神经网络)的网络结构。

CNN 网络结构, 李宏毅


CNN 主要应用在图像识别(image classification, 图像分类)领域。

通常,输入的图片大小相同,如 100 × 100 100 \times 100 100×100,输出的分类为 one-hot 形式:
输入输出

输入数据的格式为 tensor(张量),维数为:宽度 × \times × 高度 × \times × channel(频道)数:
输入数据

理解方式一:神经元视角(neuron version story)


如果使用全连接(fully connected network)的网络结构,参数量会非常大:
全连接网络

考虑到图片识别问题的特性,其实并不需要全连接的网络,下面基于此进行简化。

感受野


图像识别本质上是对图像中的各个部位进行识别,如一只鸟的喙、眼和爪等,因此每个神经元(neuron)只需输入图片的一部分即可,即感受野(receptive field):

感受野

值得注意的是:

  • 不同神经元的感受野可以重叠;
  • 同一个感受野也可以有多个神经元用以侦测不同的特征:
    感受野可重叠

此外,感受野还可以有一些其他的操作:

  • 可以有大有小;
  • 可以只考虑部分 channel,在通常的 CNN 中不常见,但在 network corporation 时会遇到;
  • 可以是长方形;
  • 理论上甚至可以不相连,但是要想清楚这样做的理由。

总之,感受野可以任意设计。

最经典的感受野的设计如下:

  • 考虑所有 channel,因此只需要输入宽度和高度即可,宽度和高度合称为 kernel size;
  • kernal size 往往不会很大,如 3 × 3 3 \times 3 3×3,后面会解释如何对更大范围的模式(pattern)进行识别;
  • 同一个感受野会有多个神经元;
  • 感受野的移动步长(stride)不要太大,通常为 1 或 2,希望感受野之间有重叠,防止感受野交界上的模式被遗漏;
  • 对于位于边界上、超出范围的感受野,需要对超出的位置进行补值(padding),通常补 0,也有其他补值方法,如补全图的平均值,或补边界值等;
  • 感受野整体要覆盖全图。

参数共享


由于同样的模式可能出现在图片的不同位置:
不同位置的相同模式

于是侦测不同位置的相同模式的神经元,其对应的参数相同,即参数共享:
参数共享

侦测相同位置的神经元不能共享参数。

共享的参数叫做滤波器(filter):
filter

综上所述,以上两种 CNN 对全连接网络的简化方式:
两种简化方式


理解方式二:滤波器视角(filter version story)


将每个卷积层(convolutional layer)视为若干滤波器扫过整张图片,去识别对应的模式:
卷积层的 filter

filter 模式识别

同一卷积层的所有滤波器输出的所有数据叫做 feature map,它可以看成是另一张图片,只不过 channel 数量由 3 个(RGB)变成了滤波器的数量,因此下一层的滤波器的高度需要设为上一层的滤波器数量:
feature map

当网络更深时,同样大小的感受野所看到的范围会越来越大,例如,同样是 3 × 3 3 \times 3 3×3 的感受野,在第二层就可以看到原图片中 5 × 5 5 \times 5 5×5 的范围:
更大的范围

此外,第一种理解方式中的参数共享,即是把滤波器扫过整张图片的过程。

两种理解方式总结如下:
两种理解方式的总结

有关 pooling


pooling 即 subsampling,是把一张大的图片缩小,以减少运算量的过程。
常见的 pooling 方式为 max pooling,即保留最大值:
max pooling 1

max pooling 2

通常是做一层或几层卷积后,做一次 pooling,整体网络结构如下:
含 pooling 的整体网络结构

但近年来,pooling 用得越来越少,甚至可有可无,因为其操作会影响性能,而运算资源又越来越强。


AlphaGo 的网络结构


AlphaGo 的网络结构

其中,rectifier nonlinearity 即为 ReLU。

此外,AlphaGo 没有使用 pooling。


局限性


CNN 无法处理图片放大缩小或旋转的情形,解决方案有:

  • 数据增强(data augmentation),即把训练资料的每张图片都截成小块再放大,并把每张图片都旋转,使网络看到放大和旋转后的图片;
  • 使用 spatial transformer layer。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/124578.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

案例分析真题-系统建模

案例分析真题-系统建模 2009年真题 【问题1】 【问题2】 【问题3】 2012年真题 【问题1】 【问题2】 【问题3】 2014年真题 【问题1】 【问题2】 骚戴理解:这个题目以前经常考,不知道今年会不会考,判断的话就是看加工有没有缺少输入和输出&a…

基于nodejs+vue 学生考勤综合平台的设计与实现

目 录 摘 要 I ABSTRACT II 目 录 II 第1章 绪论 1 1.1背景及意义 1 1.2 国内外研究概况 1 1.3 研究的内容 1 第2章 相关技术 3 2.1 nodejs简介 4 2.2 express框架介绍 6 2.4 MySQL数据库 4 第3章 系统分析 5 3.1 需求分析 5 3.2 系统可行性分析 5 3.2.1技术可行性:…

AMD:抢占AI芯片宝座

来源:猛兽财经 作者:猛兽财经 总结: (1)AMD受益于AI芯片的出口限制,使其能够获得更多的中国市场份额,并增强其在AI芯片市场的地位。 (2)AMD的处理器,特别是E…

springboot动态数据源【非伪数据源】

说明&#xff1a;本文章的数据源不是在配置文件中配置两个或多个数据源&#xff0c;在业务方面对这些数据源来回切换&#xff0c;本文章中的数据源是可以动态添加&#xff0c;修改&#xff0c;切换的&#xff0c;废话不多说。 先看工程图&#xff1a; 1.pom.xml文件 <?x…

多输入多输出 | Matlab实现k-means-ELM(k均值聚类结合极限学习机)多输入多输出组合预测

多输入多输出 | Matlab实现k-means-ELM&#xff08;k均值聚类结合极限学习机&#xff09;多输入多输出组合预测 目录 多输入多输出 | Matlab实现k-means-ELM&#xff08;k均值聚类结合极限学习机&#xff09;多输入多输出组合预测预测效果基本描述程序设计参考资料 预测效果 基…

nodejs+python+php+微信小程序-基于安卓android的健身服务应用APP-计算机毕业设计

考虑到实际生活中在健身服务应用方面的需要以及对该系统认真的分析&#xff0c;将系统权限按管理员和用户这两类涉及用户划分。  则对于进一步提高健身服务应用发展&#xff0c;丰富健身服务应用经验能起到不少的促进作用。 健身服务应用APP能够通过互联网得到广泛的、全面的宣…

ES 8.x新特性一览(完整版)

一、看点 在 2022 年 2 月 11 日&#xff0c;Elasticsearch&#xff08;ES&#xff09;正式发布了 8.0 版本&#xff0c;而截止到 2023 年 10 月&#xff0c;历经一年半时间&#xff0c;ES官方已经连续发布了多个版本&#xff0c;最新版本为 8.10.4。这一系列的更新引入了众多引…

小红书app拉新上线了 适合网推社群和校园渠道作业

小红书app签到拉新上线了可以通过“聚量推客”进行申请&#xff0c;下面大概是要求和流程 要求网推社群渠道或者地推校园渠道&#xff0c;其它类型渠道禁止

sql--索引使用 ---覆盖索引

覆盖索引 Select 后接 * 走id索引才是最优&#xff0c;使用二级索引则需要回表&#xff08;性能稍差&#xff09; 前缀索引 Create index 索引名 on 表名( 字段名( n ) ) n数字 n代表提取这个字符串的n个构建索引 &#xff1f;&#xff1f;那么 n 为几性能是最好的呢&…

JoySSL-新兴国产品牌数字证书

随着我国对数据安全重视程度的不断提升&#xff0c;国产SSL证书越来越受到广大政府机关和企业的青睐&#xff0c;成为提升网站数据安全能力的重要技术手段。那么什么是国产SSL证书&#xff1f;国产SSL证书和普通SSL证书又有什么区别呢&#xff1f; 什么是国产SSL证书&#xff…

提高小程序SEO 排名,9招优化技巧!

在当今移动互联网时代&#xff0c;小程序已经成为企业必不可少的一种营销手段&#xff0c;而如何让用户能够更容易地找到自己的小程序&#xff0c;就需要进行SEO优化&#xff0c;提升小程序的排名&#xff0c;本文将 为大家介绍9个小程序SEO优化技巧&#xff0c;帮助您的小程序…

视频增强修复软件Topaz Video AI mac中文版支持功能

Topaz Video AI mac是一款使用人工智能技术对视频进行增强和修复的软件。它可以自动降噪、去除锐化、减少压缩失真、提高清晰度等等。Topaz Video AI可以处理各种类型的视频&#xff0c;包括低分辨率视频、老旧影片、手机录制的视频等等。 使用Topaz Video AI非常简单&#xff…

【文献分享】基于线特征的激光雷达和相机外参自动标定

论文题目&#xff1a;Line-based Automatic Extrinsic Calibration of LiDAR and Camera 中文题目&#xff1a;基于线特征的激光雷达和相机外参自动标定 作者&#xff1a;Xinyu Zhang, Shifan Zhu, Shichun Guo, Jun Li, and Huaping Liu 作者机构&#xff1a;清华大学汽车安…

nodejs+vue学生考勤综合平台的设计与实现-计算机毕业设计

在当今高度发达的信息中&#xff0c;信息管理改革已成为一种更加广泛和全面的趋势。 “学生考勤综合平台”是基于Mysql数据库&#xff0c;在 程序设计的基础上实现的。为确保中国经济的持续发展&#xff0c;信息时代日益更新&#xff0c;蓬勃发展。 因此&#xff0c;国内外技术…

git教程(2)---远程仓库操作

git教程---远程仓库 远程操作创建远程仓库克隆远程仓库HTTPSSSH 向远程仓库推送拉取远程仓库.gitignore文件给git指令起别名IssuesPull Requests 标签管理操作标签推送标签 多人协作场景一场景二 开发模型Git分支设计规范使用Gitee的DevOps平台体验项目开发流程 远程操作 创建…

50元买来的iPhone手机刷机经验

前段时间&#xff0c;家里的iPad被家人误操作&#xff0c;导致iPad变成不可使用状态。自己折腾了半天&#xff0c;没有找到解决办法。没有办法&#xff0c;只好拿到手机维修店去修理,很快就修理好了.其实也很简单--就是对iPad进行了刷机操作。当然我也看到了刷机的方法。今天&a…

完美的代价

题目&#xff1a; * 题目&#xff1a; * 回文串&#xff0c;是一种特殊的字符串&#xff0c;它从左往右和从右往左读是一样的。 * 现在给你一个串&#xff0c;它不一定是回文的&#xff0c;请你计算最少的交换次数使得该串变为完美的回文回文串。 * 例如&#xff1a;mamad * 第…

音视频技术开发周刊 | 317

每周一期&#xff0c;纵览音视频技术领域的干货。 新闻投稿&#xff1a;contributelivevideostack.com。 MIT惊人再证大语言模型是世界模型&#xff01;LLM能分清真理和谎言&#xff0c;还能被人类洗脑 MIT等学者的「世界模型」第二弹来了&#xff01;这次&#xff0c;他们证明…

275. H 指数 II

275. H 指数 II 难度: 中等 来源: 每日一题 2023.10.30 给你一个整数数组 citations &#xff0c;其中 citations[i] 表示研究者的第 i 篇论文被引用的次数&#xff0c;citations 已经按照 升序排列 。计算并返回该研究者的 h 指数。 h 指数的定义&#xff1a;h 代表“高…