到底为什么基于反向传播的纯监督学习在过去表现不佳?Geoffrey Hinton总结了目前发现的四个方面问题:
带标签的数据集很小,只有现在的千分之一.
计算性能很慢,只有现在的百万分之一.
权重的初始化方式笨拙.
使用了错误的非线性模型。
深度学习=许多训练数据+并行计算+规模化、灵巧的的算法
链式法则
反向传播
直接套用链式法则
先计算链式法则里面的第一项
计算链式法则第二项,第二项继续使用链式法则
链式法则第二项,第二项的链式法则
第二项链式法则的简写
分情况考虑
如果正好是最后一层,即output layer
如果不是最后一层,一直不断的计算,直到最后一层output layer.
直接从最后一层开始计算
参考文献
http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html