01.神经网络和深度学习 W4.深层神经网络

文章目录

    • 1. 深层神经网络
    • 2. 前向传播和反向传播
    • 3. 核对矩阵维数
    • 4. 参数、超参数

参考:
吴恩达视频课
深度学习笔记

1. 深层神经网络

在这里插入图片描述

有的时候只有非常深的神经网络才能发挥作用。

但是无法提前预知多少层的神经网络合适,可以先尝试逻辑回归,尝试一层,然后两层隐含层,然后把隐含层的数量当作超参数,然后交叉验证

2. 前向传播和反向传播

前向传播

  • 输入: a[l−1]a^{[l-1]}a[l1]
  • 输出:a[l]a^{[l]}a[l]
  • 缓存:z[l],w[l],b[l]z^{[l]},w^{[l]},b^{[l]}z[l],w[l],b[l]

z[l]=W[l]⋅a[l−1]+b[l]z^{[l]}=W^{[l]} \cdot a^{[l-1]}+b^{[l]}z[l]=W[l]a[l1]+b[l]
a[l]=g[l](z[l])a^{[l]}=g^{[l]}\left(z^{[l]}\right)a[l]=g[l](z[l])

向量化写法
z[l]=W[l]⋅A[l−1]+b[l]z^{[l]}=W^{[l]} \cdot A^{[l-1]}+b^{[l]}z[l]=W[l]A[l1]+b[l]
A[l]=g[l](Z[l])A^{[l]}=g^{[l]}\left(Z^{[l]}\right)A[l]=g[l](Z[l])

后向传播

  • 输入: da[l]da^{[l]}da[l]
  • 输出: da[l−1],dw[l],db[l]da^{[l-1]},dw^{[l]},db^{[l]}da[l1]dw[l]db[l]

dz[l]=da[l]∗g[l]′(z[l])dw[l]=dz[l]⋅a[l−1]db[l]=dz[l]da[l−1]=w[l]T⋅dz[l]dz[l]=w[l+1]Tdz[l+1]⋅g[l]′(z[l])\begin{array}{l}d z^{[l]}=d a^{[l]} * g^{[l]^{\prime}}\left(z^{[l]}\right) \\ d w^{[l]}=d z^{[l]} \cdot a^{[l-1]} \\ d b^{[l]}=d z^{[l]} \\ d a^{[l-1]}=w^{[l] T} \cdot d z^{[l]} \\ d z^{[l]}=w^{[l+1] T} d z^{[l+1]} \cdot g^{[l]^{\prime}}\left(z^{[l]}\right)\end{array}dz[l]=da[l]g[l](z[l])dw[l]=dz[l]a[l1]db[l]=dz[l]da[l1]=w[l]Tdz[l]dz[l]=w[l+1]Tdz[l+1]g[l](z[l])

向量化写法
dZ[l]=dA[l]∗g[l]′(Z[l])dW[l]=1mdZ[l]⋅A[l−1]Tdb[l]=1mnp⋅sum⁡(dz[l],axis=1,keepdims =True)dA[l−1]=W[l]T⋅dZ[l]\begin{array}{l}d Z^{[l]}=d A^{[l]} * g^{[l]^{\prime}}\left(Z^{[l]}\right) \\ d W^{[l]}=\frac{1}{m} d Z^{[l]} \cdot A^{[l-1] T} \\ d b^{[l]}=\frac{1}{m} n p \cdot \operatorname{sum}\left(d z^{[l]}, \text {axis}=1, \text { keepdims }=\text {True}\right) \\ d A^{[l-1]}=W^{[l] T} \cdot d Z^{[l]}\end{array}dZ[l]=dA[l]g[l](Z[l])dW[l]=m1dZ[l]A[l1]Tdb[l]=m1npsum(dz[l],axis=1, keepdims =True)dA[l1]=W[l]TdZ[l]

在这里插入图片描述

3. 核对矩阵维数

矩阵维数

4. 参数、超参数

参数有 W, b

超参数:

  • 学习率
  • 梯度下降 迭代次数
  • 隐藏层数量
  • 隐藏层单元数量
  • 激活函数选择
  • momentum
  • mini batch size
  • 正则化参数

多种组合,各种尝试,选择效果最好的参数组合,第二门课会介绍

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/474152.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

R语言第六讲 数据的统计分析

基本命令练习 下面的代码涵盖了一些分析数据常用的一些R语言的命令&#xff1a; #基本向量、矩阵的一般操作 x <- c(1,3,2,5) x x c(1,6,2) x y c(1,4,3) length(x) length(y) xy ls() rm(x,y) ls() rm(listls()) ?matrix xmatrix(datac(1,2,3,4), nrow2, ncol2) x xmat…

struts2异常处理

java1234官网 在sstruts2里面配置自己的异常处理 1 <exception-mapping result"error" exception"java.sql.SQLException"/> 2 <result name"error">/error.jsp</result> 在service里面捕捉到异常后往外抛&#x…

LeetCode 486. 预测赢家(博弈DP)

文章目录1. 题目2. 解题1. 题目 给定一个表示分数的非负整数数组。 玩家 1 从数组任意一端拿取一个分数&#xff0c;随后玩家 2 继续从剩余数组任意一端拿取分数&#xff0c;然后玩家 1 拿&#xff0c;…… 。 每次一个玩家只能拿取一个分数&#xff0c;分数被拿取之后不再可取…

R语言第七讲 线性回归分析案例

题目 MASS 库中包含 Boston (波士顿房价)数据集&#xff0c;它记录了波士顿周围 506 个街区的 medv (房价中位数)。我们将设法用 13 个预测变量如 rm (每栋住宅的平均房间数)&#xff0c; age (平均房 龄)&#xff0c; lstat (社会经济地位低的家庭所占比例)等来预测 medv (房价…

01.神经网络和深度学习 W4.深层神经网络(作业:建立你的深度神经网络+图片猫预测)

文章目录作业1. 建立你的深度神经网络1. 导入包2. 算法主要流程3. 初始化3.1 两层神经网络3.2 多层神经网络4. 前向传播4.1 线性模块4.2 线性激活模块4.3 多层模型5. 损失函数6. 反向传播6.1 线性模块6.2 线性激活模块6.3 多层模型6.4 梯度下降、更新参数作业2. 深度神经网络应…

浅析调用android的content provider(一)

在Android下&#xff0c;查询联系人、通话记录等&#xff0c;需要用到content provider。但是&#xff0c;调用content provider时&#xff0c;Android框架内部是如何做的呢&#xff1f;这一系列文章就是解决这个问题的&#xff0c;所采用的开发环境及源码都是基于Android 1.6版…

R语言第七讲 线性回归分析案例续

题目 MASS 库中包含 Boston (波士顿房价)数据集&#xff0c;它记录了波士顿周围 506 个街区的 medv (房价中位数)。我们将设法用 13 个预测变量如 rm (每栋住宅的平均房间数)&#xff0c; age (平均房 龄)&#xff0c; lstat (社会经济地位低的家庭所占比例)等来预测…

LeetCode 1129. 颜色交替的最短路径(BFS)

文章目录1. 题目2. 解题1. 题目 在一个有向图中&#xff0c;节点分别标记为 0, 1, ..., n-1。 这个图中的每条边不是红色就是蓝色&#xff0c;且存在自环或平行边。 red_edges 中的每一个 [i, j] 对表示从节点 i 到节点 j 的红色有向边。 类似地&#xff0c;blue_edges 中的每…

web.config文件之自定义错误节

web.config文件之自定义错误节 大家都知道&#xff0c;在开发asp.net应用程序时&#xff0c;通过web.config文件可以配置在执行 Web 请求期间发生未处理的错误时&#xff0c;ASP.NET 显示信息的方式。下面是一个典型的基本配置&#xff1a; ?<system.web><customErro…

linux中UDP程序流程、客户端、服务端

UDP--- 用户数据报协议&#xff08;User Datagram Protocol&#xff09;&#xff0c;是一个无连接的简单的面向数据报的运输层协议。 优点&#xff1a;传输速度快 缺点&#xff1a;不可靠 socket的中文意思是接插件&#xff1a; 创建socket 在 Python 中 使用socket 模块的类 …

LeetCode 1041. 困于环中的机器人

文章目录1. 题目2. 解题1. 题目 在无限的平面上&#xff0c;机器人最初位于 (0, 0) 处&#xff0c;面朝北方。机器人可以接受下列三条指令之一&#xff1a; “G”&#xff1a;直走 1 个单位“L”&#xff1a;左转 90 度“R”&#xff1a;右转 90 度 机器人按顺序执行指令 ins…

Javascript实现合并单元格

Web上的报表或表格应用&#xff0c;较为复杂的表格操作一般都比较难实现&#xff0c;这里介绍一下用ComponentOne Studio for ASP.NET Wijmo中的SpreadJS&#xff0c;可以实现一些较为复杂的表格操作&#xff0c;个人认为他模仿桌面应用的操作体验非常不错&#xff0c;虽然我并…

LeetCode 1039. 多边形三角剖分的最低得分(区间DP)

文章目录1. 题目2. 解题1. 题目 给定 N&#xff0c;想象一个凸 N 边多边形&#xff0c;其顶点按顺时针顺序依次标记为 A[0], A[i], ..., A[N-1]。 假设您将多边形剖分为 N-2 个三角形。 对于每个三角形&#xff0c;该三角形的值是顶点标记的乘积&#xff0c;三角剖分的分数是…

02.改善深层神经网络:超参数调试、正则化以及优化 W1.深度学习的实践层面

文章目录1. 训练&#xff0c;验证&#xff0c;测试集2. 偏差&#xff0c;方差3. 机器学习基础4. 正则化5. 为什么正则化预防过拟合6. dropout&#xff08;随机失活&#xff09;正则化7. 理解 dropout8. 其他正则化9. 归一化输入10. 梯度消失 / 梯度爆炸11. 神经网络权重初始化1…

R语言第十讲 逻辑斯蒂回归

模型函数介绍 Logistic Regression 虽然被称为回归&#xff0c;但其实际上是分类模型&#xff0c;并常用于二分类。Logistic Regression 因其简单、可并行化、可解释强深受工业界喜爱。 Logistic 回归的本质是&#xff1a;假设数据服从这个Logistic 分布&#xff0c;然后使用极…

阿里云 超级码力在线编程大赛初赛 第3场 题目4. 完美字符串

文章目录1. 题目2. 解题1. 题目 描述 定义若一个字符串的每个字符均为’1’&#xff0c;则该字符串称为完美字符串。 给定一个只由’0’和’1’组成的字符串s和一个整数k。 你可以对字符串进行任意次以下操作 选择字符串的一个区间长度不超过k的区间[l, r]&#xff0c;将区间…

R语言第十一讲 决策树与随机森林

概念 决策树主要有树的回归和分类方法&#xff0c;这些方法主要根据分层和分割 的方式将预测变量空间划分为一系列简单区域。对某个给定待预测的观 测值&#xff0c;用它所属区域中训练集的平均值或众数对其进行预测。 基于树的方法简便且易于解释。但预测准确性通常较低。如图…

python面试题汇总(1)

1. (1)python下多线程的限制以及多进程中传递参数的方式   python多线程有个全局解释器锁&#xff08;global interpreter lock&#xff09;&#xff0c;这个锁的意思是任一时间只能有一个线程使用解释器&#xff0c;跟单cpu跑多个程序一个意思&#xff0c;大家都是轮着用的&…

阿里云 超级码力在线编程大赛初赛 第3场 题目1. 最大公倍数

文章目录1. 题目2. 解题1. 题目 来源&#xff1a;https://tianchi.aliyun.com/oj/15179470890799741/85251759933690467 2. 解题 看的大佬的解题&#xff0c;很强&#xff01; class Solution { public:/*** param a: Left margin* param b: Right margin* return: return t…

Javascript:前端利器 之 JSDuck

背景 文档的重要性不言而喻&#xff0c;对于像Javascript这种的动态语言来说就更重要了&#xff0c;目前流行的JDoc工具挺多的&#xff0c;最好的当属JSDuck&#xff0c;可是JSDuck在Windows下的安装非常麻烦&#xff0c;这里就写下来做个备忘。 JSDuck生成的文档效果 JSDuck安…