文章目录
- 深度学习基础
- 卷积神经网络与传统神经网络区别
- 深度学习与神经网络的区别
- 目标函数
- 选择合适的目标函数
- Softmax层
- 改进的梯度下降
- 梯度消失的直观解释
- 激活函数
- 学习步长
- SGD的问题
- Momentum动量
- Nesterov Momentum
- Adagrad
- RMSprop
- Adam
- 各种梯度下降算法比较
- 关于算法选择的建议
- Batch Normalization的由来
- 避免过适应
- 早期停止训练
- 权重衰减
- Dropout
- 测试时权重应减小
- CNN初步介绍
- CNN的基本组件
- CNN卷积层
- CNN池化层
- CNN-Softmax层
- 池化层的误差反向传播
- 卷积层计算![在这里插入图片描述](https://img-blog.csdnimg.cn/be682bd439e04b999fe2448259bf47e5.png)
- 卷积层运算的展开表示
- 卷积层的误差反向传播
深度学习基础
卷积神经网络与传统神经网络区别
深度学习与神经网络的区别
目标函数
选择合适的目标函数
Softmax层
改进的梯度下降
梯度消失的直观解释
激活函数
学习步长
SGD的问题
存在马鞍面,使我们的训练卡住,于是提出下面方法:
Momentum动量
Nesterov Momentum
先利用“惯性”,“走”一步。避免一开始,就被当前梯度带偏。
Adagrad
为不同的参数设置不同的学习步长。
RMSprop
改进的Adagrad。使:
小的可以变大,大的可以变小。
Adam
各种梯度下降算法比较
关于算法选择的建议
Batch Normalization的由来
量纲不同,需要进行归一化处理。
避免过适应
早期停止训练
权重衰减
Dropout
测试时权重应减小
CNN初步介绍
CNN的基本组件
CNN卷积层
CNN池化层
通道数没变,尺度大小变了。
CNN-Softmax层
池化层的误差反向传播
卷积层计算
卷积层运算的展开表示
与全连接是有区别的。
卷积层的误差反向传播
转了180度
下面是残差
下面是梯度·