前言
晚上逛微博看到的,顺便拿过来翻译一下,做做笔记
国际惯例,来个原文链接:
原文地址:Why is gradient descent robust to non-linearly separable data?
PDF拷贝:http://download.csdn.net/detail/zb1165048017/9678128
译文
声明:梯度下降法本身对于非线性可分数据是不具健壮性的。但是使用了合适的非线性激活函数以后便可以了。
原因在于核函数的技巧。在核函数方法中,我们对数据做一个非线性变换,因为结果数据是线性可分的。如图所示,对于蓝色和红色点的分类任务,它们不是线性可分的。但是如果我们使用第三个变量(z=x²+y²)以后会如何呢?我们可以在蓝色和红色点之间画一个平面,分离这两类点。这恰恰就是神经网络做的事情。
神经网络学习可以被看成两部分的处理,它们学习的是数据的一种非线性变换,以及基于这种变换的数据分类。考虑只有一层的神经网络,网络输出(忽略偏置项)是Y=Wφ(Vx),其中φ是非线性函数。目前神经网络所需做的事情就是将非线性变换通过φ(Vx)施加于x,然后再转换过的数据上执行现行分类任务。因此通过梯度下降算法学习是两个部分的过程。第一部分,学习最优化核或者函数(通过V);第二部分使用线性方法分类变换过的数据。这在Andrej Karpathy的主页中也阐释过。这里有一个链接可视化一个模型,去观察神经网络是如何应用核方法以及实施随后的分类任务,点这里就是链接。
下图展示了网站中神经网络应用核方法其中的一张: