转自:https://blog.csdn.net/jaster_wisdom/article/details/78240949#commentBox
1.区分一下易混淆的两个概念,梯度下降和随机梯度下降:
梯度下降:一次将误分类集合中所有误分类点的梯度下降;
随机梯度下降:随机选取一个误分类点使其梯度下降。
2.对于误分类的数据来说,当w*xi + b>0时,yi = -1,也就是,明明是正例,预测成负例。因此,误分类点到超平面的距离为:
因此所有误分类点到超平面的总距离为:
忽略1/||w||,我们就可以得到感知机学习的损失函数。
3.损失函数
4.对偶形式
对偶形式的一般性描述:
输出Ni,b; 感知机模型为:
(1)Ni = 0
(2)在训练集中选取数据(xi,yi)
(3)若
则更新:
(4)转至(2)直到没有误分类的数据。
为了方便后期的计算,可先求出Gram矩阵。
例如,正例:x1 = (3,3)^T, x2 = (4,3)^T, 负例: x3 = (1,1)^T
那么Gram矩阵就是:
因为对偶形式中会大量用到xi*xj的值,所以提前求出Gram矩阵会方便很多。