一、residual结构
优点:
(1)超深的网络结构(突破1000层)
(2)提出residual模块
(3)使用Batch Normalization加速训练(丢弃dropout)
解决问题:
(1) 梯度消失和梯度爆炸
(2) 退化问题,即层数深效果反而不好
右图对比左图, 可以减少计算的参数
二、
option B 可以使实线部分的输入矩阵和输出矩阵shape不同
三、Batch Normalization
四、网络结构图