综述
每一个算法都是为了解决一类问题,或者说是解决之前算法存在的缺陷而产生的,感知机,在这里就起到了一个很大的作用,它向后续的很多算法暴露出来了很多它存在的缺陷。所以我们后面要学习的很多算法都是在某种程度上解决了感知机暴露出来的某些或者某个问题,它是一个很弱的算法,实践当中几乎用不到。但与此同时,他在机器学习的历史洪流当中又有比较高的地位
红豆绿豆的故事
可以分别按照x或者y轴把红绿豆分开
二维空间是按照一维的线分开的,三维空间是按照二维的平面分开的,四维空间是按照三维空间分开的
感知机模型都是线性可分的,不考虑线性不可分的情况
函数间隔和几何间隔
函数间距是不准确的,当w扩大缩小时候,f(x)跟着扩大缩小,几何间距除去的w法向量的长度变成了单位法向量,就统一了单位
深度之眼课程没有证明为什么f(x)可以表示距离?自己查资料证明了
γ表示几何间隔,以w法向量(求法向量的长度就是平方和再开方)为基准,f(x)是函数间隔
yi有两个取值+1(红豆)和-1(绿豆),在(假设为二维)线的下方不一定小于0,要看法向量的方向,所以法向量方向不对时候,梯度下降算算法会把法向量方向不对的线转180度左右,在没有分错的情况下,如果红豆特征带入f(x)是小于0的,yi乘f(x)加上负号就是>0了
因为感知机模型使用的数据都是线性可分的,就算一开始随机选的w0和b0有误分类数据,但是用梯度下降法调整以后就不存在误分类数据了,所以不存在误分类数据,上面这些损失函数是针对其他算法的
L(w,b)为什么不用几何间距而采用函数间距?
因为输入感知机都数据都是线性可分的,所以最终L(w,b)会为0,权重不会影响
更新w和b有两种做法:第一种遇到一个误分类点就用这个误分类点来调整,还有一种就是求出全部误分类点的xy和然后再梯度下降调整
梯度下降算法
例子
总结
感知机也可以多分类,把多个感知机模型结合起来