02.改善深层神经网络:超参数调试、正则化以及优化 W3. 超参数调试、Batch Norm和程序框架

文章目录

    • 1. 调试处理
    • 2. 为超参数选择合适的范围
    • 3. 超参数调试的实践
    • 4. 归一化网络的激活函数
    • 5. 将 Batch Norm 拟合进神经网络
    • 6. Batch Norm 为什么奏效
    • 7. 测试时的 Batch Norm
    • 8. Softmax 回归
    • 9. 训练一个 Softmax 分类器
    • 10. 深度学习框架
    • 11. TensorFlow
    • 作业

参考:
吴恩达视频课
深度学习笔记

1. 调试处理

需要处理的参数:

参数重要程度
学习率 α\alphaα★★★★
Momentum(动量梯度下降法)参数 β=0.9\beta = 0.9β=0.9★★★
隐藏单元数量★★★
mini-batch size★★★
网络层数★★
学习衰减率★★
Adam 优化算法的 β1=0.9,β2=0.999,ε=1e−8\beta_1=0.9,\beta_2=0.999, \varepsilon=1e^{-8}β1=0.9,β2=0.999,ε=1e8
  • 在深度学习领域,常采用随机选点进行参数搜索(试验了更多的不同的超参数值)
  • 由粗糙到精细的策略(集中计算资源到可能更优的小区域进行更密集的搜索)

2. 为超参数选择合适的范围

随机取值,并不是在范围内均匀取值

  • 使用对数标尺搜索超参数的方式会更合理

比如想取参数 α∈[0.0001,1]\alpha \in [0.0001, 1]α[0.0001,1]

  • r=-4*np.random.rand()r∈[−4,0]r \in [-4,0]r[4,0],然后取 α=10r\alpha = 10^{r}α=10r,在 r 的区间均匀取值

再比如计算指数的加权平均值参数 β∈[0.9,0.999]\beta \in [0.9, 0.999]β[0.9,0.999]

  • 我们考察 1−β∈[0.001,0.1]1-\beta \in [0.001, 0.1]1β[0.001,0.1],那么我们令 r∈[−3,−1]r \in [-3, -1]r[3,1], r 在里面均匀取值
  • 1−β=10r→β=1−10r1-\beta=10^r \rightarrow \beta = 1-10^r1β=10rβ=110r

因为加权平均值大概是基于过去 11−β\frac{1}{1-\beta}1β1 个值进行平均,当 β\betaβ 接近 1 的时候,对细微的变化非常敏感,需要更加密集的取值

如果你使用均匀取值,应用从粗到细的搜索方法,取足够多的数值,最后也会得到不错的结果

3. 超参数调试的实践

  • 在数据更新后,要重新评估超参数是否依然合适
  • 没有计算资源,你可以试验一个或者少量的模型,不断的调试和观察效果
  • 如果有计算资源,尽管试验不同参数的模型,最后选择一个最好的

4. 归一化网络的激活函数

Batch归一化 会使你的参数搜索问题变得很容易,使神经网络对超参数的选择更加稳定,超参数的范围会更加庞大,工作效果也很好,也会使你的训练更加容易

那么对于任意一层的输入 我们将其归一化 z[l]z^{[l]}z[l](有争议,归一化激活函数值a[l]a^{[l]}a[l]

znorm (i)=z(i)−μσ2+εz_{\text {norm }}^{(i)}=\frac{z^{(i)}-\mu}{\sqrt{\sigma^{2}+\varepsilon}}znorm (i)=σ2+εz(i)μ

但是我们不想让每一层的均值都为0,方差为1,也许有不同的分布有意义,加上2个超参数 γ,β\gamma, \betaγ,β
z~(i)=γznorm (i)+β\tilde{z}^{(i)}=\gamma z_{\text {norm }}^{(i)}+\betaz~(i)=γznorm (i)+β

  • 通过赋予 γ,β\gamma, \betaγ,β 其它值,可以使你构造含其它均值和方差的隐藏单元值

5. 将 Batch Norm 拟合进神经网络

前向传播:

计算完前一层的输出,先进行归一化,再计算激活函数值

Batch Norm
反向传播:

现在网络里引入了新的参数 β,γ\beta, \gammaβ,γ(跟优化算法的 β\betaβ 是两个东西) ,然后可以用之前学到的 Adam、RMSprop、Momentum梯度下降来更新参数
β[l]=β[l]−α∗dβ[l]\beta^{[l]}=\beta^{[l]}-\alpha* d \beta^{[l]}β[l]=β[l]αdβ[l]
γ[l]=γ[l]−α∗dγ[l]\gamma^{[l]}=\gamma^{[l]}-\alpha *d \gamma^{[l]}γ[l]=γ[l]αdγ[l]
w[l]=w[l]−α∗dw[l]w^{[l]}=w^{[l]}-\alpha* d w^{[l]}w[l]=w[l]αdw[l]

b[l]b^{[l]}b[l] 参数没有用,做归一化会被减去。

6. Batch Norm 为什么奏效

原因1,使得输入特征、隐藏单元的值获得类似的范围,可以加速学习

原因2,在前面层输入值改变的情况下,BN 使得他们的均值和方差不变(更稳定),即使输入分布改变了一些,它会改变得更少。
减弱前层参数的作用与后层参数的作用之间的联系,它使得网络每层都可以自己学习,稍稍独立于其它层,这有助于加速整个网络的学习

BN 有轻微的正则化效果,因为它在 mini-batch 上计算的均值和方差是有小的噪声,给隐藏单元添加了噪声,迫使后部单元过分依赖任何一个隐藏单元(类似于 dropout)。
因为添加的噪声很微小,所以正则化效果也很小

当增大 mini-batch size ,那么噪声会降低,因此正则化效果减弱

不要把 Batch归一化当作正则化
把它当作将你归一化隐藏单元激活值并加速学习的方式

注意:
Batch归一化一次只能处理一个mini-batch数据

7. 测试时的 Batch Norm

μ=1m∑iz(i)σ2=1m∑i(z(i)−μ)2znorm (i)=z(i)−μσ2+εz~(i)=γznorm (i)+β\begin{aligned} \mu &=\frac{1}{m} \sum_{i} z^{(i)} \\ \sigma^{2} &=\frac{1}{m} \sum_{i}\left(z^{(i)}-\mu\right)^{2} \\ z_{\text {norm }}^{(i)} &=\frac{z^{(i)}-\mu}{\sqrt{\sigma^{2}+\varepsilon}} \\ \tilde{z}^{(i)} &=\gamma z_{\text {norm }}^{(i)}+\beta \end{aligned}μσ2znorm (i)z~(i)=m1iz(i)=m1i(z(i)μ)2=σ2+εz(i)μ=γznorm (i)+β
Batch归一化 将你的数据以 mini-batch 的形式逐一处理,但是测试的时候,你可能不能将一个 mini-batch 中的所有样本同时处理。

  • 指数加权平均来估算,这个平均数涵盖了所有 mini-batch(训练过程中计算 μ,σ2\mu, \sigma^2μ,σ2 的加权平均)
  • 其他合理的方法也可以,比如对整个训练集进行估计 μ,σ2\mu, \sigma^2μ,σ2

使用 Batch归一化,你能够训练更深的网络,学习算法运行速度更快

8. Softmax 回归

可以用于多分类问题

Softmax 激活函数:

  • 先计算 t=ez[l]t = e^{z^{[l]}}t=ez[l]
  • 再每个元素除以总和a[l]=ez[l]∑j=1Ctia^{[l]}=\frac{e^{z^{[l]}}}{\sum_{j=1}^{C} t_{i}}a[l]=j=1Ctiez[l]

Softmax 激活函数需要将所有可能的输出归一化,需要输入一个向量,最后输出一个向量

9. 训练一个 Softmax 分类器

Softmax 层反向传播时的梯度计算 :dz[l]=y^−yd z^{[l]}=\hat{y}-ydz[l]=y^y

Softmax分类可以运用学习算法将输入分成不止两类,而是 C 个不同类别

10. 深度学习框架

Caffe/Caffe2
CNTK
DL4J
Keras
Lasagne
mxnet
Paddlepaddle
TensorFlow
Theano
Torch

选择标准:

  • 便于编程,包括神经网络的开发和迭代,还包括为产品进行配置,为巨大的用户的实际使用考虑

  • 运行速度,特别是训练大数据集时,一些框架能让你更高效地运行和训练神经网络

  • 框架是否真的开放,不仅需要开源,而且需要良好的管理。

程序框架 通过提供比数值线性代数库更高程度的抽象化,让你在开发深度学习应用时更加高效

11. TensorFlow

不安装TF,直接在Google Colab 编程

import numpy as np
import tensorflow as tf
import tensorflow.compat.v1 as tf # 防止1.0版本语句报错
tf.disable_v2_behavior()
# 定义参数w
w = tf.Variable(0, dtype=tf.float32)# 定义损失函数 w**2-10w+25
# cost = tf.add(tf.add(w**2,tf.multiply(-10.,w)),25)
# 以下写法也是可以的
cost = w**2-10*w+25# 0.01的学习率,目标是最小化损失函数
# train 为学习算法,使用梯度下降
train = tf.train.GradientDescentOptimizer(0.01).minimize(cost)# 初始化
init = tf.global_variables_initializer()# 开启 tf session
session = tf.Session()# 初始化全局变量
session.run(init)# 让tf评估一个变量
session.run(train) # 运行一次梯度下降
print(session.run(w)) # 打印w的现在的值 0.099999994# 运行1000次梯度下降迭代
for i in range(1000):session.run(train)
print(session.run(w)) # 4.999988 很接近最优值5了
# 定义参数w
w = tf.Variable(0, dtype=tf.float32)# 定义损失函数 w**2-10w+25
# cost = tf.add(tf.add(w**2,tf.multiply(-10.,w)),25)
# 以下写法也是可以的
# cost = w**2-10*w+25# 上面是对固定的函数而言的
# 给上面的函数添加变化的3个系数(placeholder,稍后给你数据)
x = tf.placeholder(tf.float32, [3,1])
cost = x[0][0]*w**2 + x[1][0]*w + x[2][0]# 定义系数 coeff 提供给 x
coefficient = np.array([[1.],[-10.],[25.]])# 0.01的学习率,目标是最小化损失函数
# train 为学习算法,使用梯度下降
train = tf.train.GradientDescentOptimizer(0.01).minimize(cost)# 初始化
init = tf.global_variables_initializer()# 开启 tf session
session = tf.Session()# 初始化全局变量
session.run(init)# 让tf评估一个变量
session.run(train, feed_dict={x:coefficient}) # 运行一次梯度下降
print(session.run(w)) # 打印w的现在的值 0.099999994# 运行1000次梯度下降迭代
for i in range(1000):session.run(train, feed_dict={x:coefficient})
print(session.run(w)) # 4.999988

TensorFlow中的placeholder是一个你之后会赋值的变量,这种方式便于把训练数据加入损失方程

运行训练迭代,用feed_dict来让x=coefficients
如果在做mini-batch梯度下降,在每次迭代时,需要插入不同的mini-batch,那么每次迭代,你就用feed_dict来喂入训练集的不同子集,把不同的mini-batch喂入损失函数需要数据的地方

TensorFlow如此强大,只需说明如何计算损失函数,它就能求导,用一两行代码就能运用梯度优化器,Adam优化器 或 其他优化器

作业

02.改善深层神经网络:超参数调试、正则化以及优化 W3. 超参数调试、Batch Norm和程序框架(作业:TensorFlow教程+数字手势预测)


我的CSDN博客地址 https://michael.blog.csdn.net/

长按或扫码关注我的公众号(Michael阿明),一起加油、一起学习进步!
Michael阿明

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/474074.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于整数划分的问题

(一)递归法 根据n和m的关系,考虑以下几种情况: (1)当n1时,不论m的值为多少(m>0),只有一种划分即{1}; (2) 当m1时,不论n的值为多少…

LeetCode第 227 场周赛题解

LeetCode第 227 场周赛题解 检查数组是否经排序和轮转得到 原题链接 https://leetcode-cn.com/problems/check-if-array-is-sorted-and-rotated/ 解题思路 直接进行测试就行,因为数组的数据范围很小,直接进行O(N2)O(N^2)O(…

LeetCode 1124. 表现良好的最长时间段(单调栈/哈希)

文章目录1. 题目2. 解题2.1 单调栈2.2 哈希1. 题目 给你一份工作时间表 hours,上面记录着某一位员工每天的工作小时数。 我们认为当员工一天中的工作小时数大于 8 小时的时候,那么这一天就是「劳累的一天」。 所谓「表现良好的时间段」,意…

二进制如何转十进制,十进制如何转二进制

1 转成二进制主要有以下几种:正整数转二进制,负整数转二进制,小数转二进制; 1、 正整数转成二进制。要点一定一定要记住哈:除二取余,然后倒序排列,高位补零。 也就是说&#x…

02.改善深层神经网络:超参数调试、正则化以及优化 W3. 超参数调试、Batch Norm和程序框架(作业:TensorFlow教程+数字手势预测)

文章目录1. 探索TensorFlow库1.1 线性函数1.2 计算 sigmoid1.3 计算损失函数1.4 One_Hot 编码1.5 用0,1初始化2. 用TensorFlow建立你的第一个神经网络2.0 数字手势识别2.1 创建 placeholder2.2 初始化参数2.3 前向传播2.4 计算损失2.5 后向传播、更新参数2.6 建立完整的TF模型2…

Codeforces Round #701 (Div. 2)赛后补题报告(A~D)

Codeforces Round #701 (Div. 2)赛后补题报告(A~D) A. Add and Divide 原题信息 http://codeforces.com/contest/1485/problem/A 解题思路 对于题目基本有两种方式,一种是直接暴力求解,第二种是使用函数求导进行严格证明 暴力求解 a1e9a1e^9a1e9不…

Codeforces Round #700 (Div. 2)A~D2解题报告

Codeforces Round #700 (Div. 2)A~D2解题报告 A Yet Another String Game 原题链接 http://codeforces.com/contest/1480/problem/A 解题思路 Alice想让更小,先手Bob想让其更大,后手解决方案当然是贪心,从第一个排到最后一个如果不是选择…

LeetCode 2020 力扣杯全国秋季编程大赛(656/3244,前20.2%)

文章目录1. 比赛结果2. 题目1. LeetCode LCP 17. 速算机器人 easy2. LeetCode LCP 18. 早餐组合 easy3. LeetCode LCP 19. 秋叶收藏集 medium4. LeetCode LCP 20. 快速公交 hard5. LeetCode LCP 21. 追逐游戏 hard1. 比赛结果 做出来2题,第三题写了好长时间无果。还…

LeetCode 第 206 场周赛(733/4491,前16.3%)

文章目录1. 比赛结果2. 题目1. LeetCode 5511. 二进制矩阵中的特殊位置 easy2. LeetCode 5512. 统计不开心的朋友 medium3. LeetCode 5513. 连接所有点的最小费用 medium4. LeetCode 5514. 检查字符串是否可以通过排序子字符串得到另一个字符串 hard1. 比赛结果 做出来3题。继…

lightoj 1026 无向图 求桥

题目链接&#xff1a;http://lightoj.com/volume_showproblem.php?problem1026 #include<cstdio> #include<cstring> #include<cmath> #include<iostream> #include<algorithm> #include<queue> #include<vector> using namespace …

python基础知识点小结(2021/2/9)

python基础知识点小结(2021/2/9)持续更新中~~ 入门小知识 cmd 在cmd上进行python&#xff0c;直接输入 python\quad pythonpython退出cmd输入 exit()\quad exit()exit()到指定文件夹上运行python文件 python路径文件名.py\quad python 路径文件名.pypython路径文件名.py pyt…

03.结构化机器学习项目 W1.机器学习策略(1)

文章目录1. 机器学习策略2. 正交化 Orthogonalization3. 单一数字评估指标4. 满足和优化指标5. 训练/开发/测试集划分6. 开发集和测试集的大小7. 什么时候该改变开发/测试集和指标8. 人类的表现水准9. 可避免偏差10. 理解人的表现11. 超过人的表现12. 改善你的模型的表现测试题…

Educational Codeforces Round 104 (Rated for Div. 2)A~E解题报告

Educational Codeforces Round 104 (Rated for Div. 2) A. Arena \quad原题链接 http://codeforces.com/contest/1487/problem/A \quad解题思路 首先&#xff0c;我们看战斗次数是无限的&#xff0c;任意非最小值的英雄都有赢得次数&#xff0c;既然有场次可以赢&#xff0…

LeetCode 1130. 叶值的最小代价生成树(区间DP/单调栈贪心)

文章目录1. 题目2. 解题2.1 DP2.2 单调栈贪心1. 题目 给你一个正整数数组 arr&#xff0c;考虑所有满足以下条件的二叉树&#xff1a; 每个节点都有 0 个或是 2 个子节点。数组 arr 中的值与树的中序遍历中每个叶节点的值一一对应。&#xff08;知识回顾&#xff1a;如果一个…

03.结构化机器学习项目 W2.机器学习策略(2)

文章目录1. 进行误差分析2. 清除标注错误的数据3. 快速搭建你的第一个系统&#xff0c;并进行迭代4. 使用来自不同分布的数据&#xff0c;进行训练和测试5. 数据分布不匹配时&#xff0c;偏差与方差的分析6. 定位数据不匹配问题7. 迁移学习 Transfer learning8. 多任务学习 Mul…

Codeforces Round #702 (Div. 3)解题报告

Codeforces Round #702 (Div. 3) 全部题解 读错题意&#xff0c;写了半天真是心态爆炸&#xff0c;总的来看这次题目不难的。 A. Dense Array http://codeforces.com/contest/1490/problem/A 解题思路 相邻的数字必然是倘若不满足的话是需要插入数据的&#xff0c;那么我们…

LeetCode 930. 和相同的二元子数组(哈希+前缀和)

文章目录1. 题目2. 解题1. 题目 在由若干 0 和 1 组成的数组 A 中&#xff0c;有多少个和为 S 的非空子数组。 示例&#xff1a; 输入&#xff1a;A [1,0,1,0,1], S 2 输出&#xff1a;4 解释&#xff1a; 如下面黑体所示&#xff0c;有 4 个满足题目要求的子数组&#xff…

poj 3469(网络流模版)

题目链接&#xff1a;http://poj.org/problem?id3469 思路&#xff1a;终于把网络流的模版测试好了&#xff0c;在Dinic和Sap之间还是选择了Sap,事实证明Sap确实比Dinic效率高&#xff0c;在此贴出自己的网络流模版&#xff1a; 1 #include<iostream>2 #include<cstd…

盒子的真实宽高

盒子的宽 两边border 两边padding 盒子的高度 上下border 上下padding

04.卷积神经网络 W1.卷积神经网络

文章目录1. 计算机视觉2. 边缘检测示例3. 更多边缘检测4. Padding5. 卷积步长6. 三维卷积7. 单层卷积网络8. 简单卷积网络示例9. 池化层10. 卷积神经网络示例11. 为什么使用卷积&#xff1f;作业参考&#xff1a; 吴恩达视频课 深度学习笔记 1. 计算机视觉 举例&#xff1a;图…