【感知机】感知机(perceptron)学习算法知识点汇总

机器学习——感知机

感知机(perceptron)是一种二分类的线性模型，属于判别模型，也称为线性二分类器。输入为实例的特征向量，输出为实例的类别(取+1和-1)。可以视为一种使用阶梯函数激活的人工神经元,例如通过梅尔频率倒谱系数（MFCC）对语音进行分类或通过图像的像素值对图像进行分类。

感知机模型

感知机的几何解释

数据集的线性可分性

感知机学习策略

感知机学习算法

感知机学习算法的原始形式

感知机学习算法的对偶形式

算法的收敛性

感知机算法例题

感知机优缺点

感知机模型

定义设输入空间（特征空间） $\mathcal{X} \in \mathbb{R}^{n}$ ,输出空间 $\mathcal{Y}=\left \{ +1,-1 \right \}$ 。输入 $x\in \mathcal{X}$ 表示实例的特征向量，对应于输入空间的点，输出 $y\in\mathcal{Y}$ 表示实例的类别，由输入空间到输出空间的函数 $f(x)=sign(w\cdot x+b)$ 称为感知机。

w，b为参数。 $w\in \mathbb{R}^{n}$ 叫做权值或权值向量（weight vector），b叫作偏置（bias）

符号函数sign的功能是取某个数的符号

$sign(x)=\left\{\begin{matrix}+1,x\geq 0 \\ -1,x<0 \end{matrix}\right.$

感知机模型的假设空间是定义在特征空间中的所有线性分类模型或线性分类器，即函数集合 $\left \{ f|f(x)=w\cdot x+b \right \}$

感知机的几何解释

$w\cdot x+b=0$ ：对应特征空间 $\mathbb{R}^{n}$ 中的一个超平面 $S$ ，这个超平面将特征空间划分为两个部分，称为分离超平面（separating hyperplane）

b：超平面的截距

w：超平面的法向量

数据集的线性可分性

给定一个数据集 $T=\left \{ (x_1,y_1),(x_2,y_2),...,(x_N,y_N) \right \}$ ，其中 $x_i\in\mathbb{R}^{n}$ , $y_i\in\left \{ +1,-1 \right \}$ ，如果存在一个超平面 $w\cdot x+b=0$ ，能够正确地划分所有正负实例点，则称数据集 $T$ 为线性可分数据集（linearky separable data set），否则称其线性不可分.

感知机学习策略

假设训练数据集线性可分

学习目标：求得正确划分训练集中所有正负实例点的分离超平面

学习策略：1、确定一个损失函数。2、选取使损失函数最小的参数。

损失函数的选择：误分类点到分离超平面的距离

任一点 $x_0$ 到超平面的距离公式： $\frac{1}{\left \| w \right \|}\left | w\cdot x_0+b \right |$ ，其中 $\left \| w \right \|$ 是 $w$ 的 $L_2$ 范数，

向量的 $L_2$ 范数：向量各元素平方和的平方根

定理1:对于误分类数据 $(x_i,y_i)$ ,有 $y_i(w\cdot x_i+b)<0$

从而由距离公式和定理1，得

误分类点 $x_i$ 到超平面的距离公式： $-y_i\frac{1}{\left \| w \right \|} (w\cdot x_i+b )$

实现了去掉绝对值的工作

所有误分类点到超平面的总距离： $- \frac{1}{\left \| w \right \|} \underset{x_i\in M}{\sum } y_i (w\cdot x_i+b )$ ， $M$ 为误分类点集合

不必考虑 $\frac{1}{\left \| w \right \|}$ ,最终得到损失函数

损失函数： $L(w,b)=- \underset{x_i\in M}{\sum } y_i (w\cdot x_i+b )$

一个特定的样本点的损失函数：在误分类时是参数 $w,b$ 的线性函数；在正确分类时是0。

因此，

给定训练数据集 $T$ 时，损失函数是 $w,b$ 的连续可导函数

感知机学习算法

感知机学习算法的原始形式

输入：训练数据集 $T=\left \{ (x_1,y_1),(x_2,y_2),...,(x_N,y_N)\right \}$ ,其中 $x_i\in\mathbb{R}^{n}$ , $y_i\in\left \{ +1,-1 \right \}$ ,学习率 $\eta \left ( 0<\eta \leq 1 \right )$

1.任意选取初值 $w_0,b_0$

2.任意顺序遍历 $i$ ，计算 $y_i (w\cdot x_i+b )$ ，当 $y_i (w\cdot x_i+b )\leq 0$ ，转到步骤3；若对任意 $i$ ， $y_i (w\cdot x_i+b )> 0$ ，转到输出

3. $w\leftarrow w+\eta y_ix_i$ , $b\leftarrow b+\eta y_i$ ，转到步骤2.

输出： $w,b$ ；感知机 $f(x)=sign(w\cdot x+ b)$

算法采用随机梯度下降法（stochastic gradient descent）：

首先任意选取一个超平面，然后用梯度下降法极小化损失函数。极小化过程不是一次使所有误分类点的梯度下降，而是每次随机选取一个误分类点使其梯度下降。

设误分类点集合M固定，损失函数 $L(w,b)=- \underset{x_i\in M}{\sum } y_i (w\cdot x_i+b )$ 的梯度为：

$\bigtriangledown_wL(w,b)=-\underset{x_1\in M}{\sum}y_ix_i$

$\bigtriangledown_bL(w,b)=-\underset{x_1\in M}{\sum}y_i$

对某点 $(x_i,y_i)$ ， $w$ 的梯度 $-y_ix_i$ 是增大的方向，故 $w\leftarrow w+\eta y_ix_i$ 使损失函数减少。

算法理解：当一个实例点被误分类时，则调整w，b的值，使分类超平面向该误分类点的一侧移动，减少该误分类点与超平面的距离，直至超平面越过该误分类点使其被正确分类

感知机学习算法的对偶形式

感知机学习算法的原始形式和对偶形式与支特向量机学习算法的原始形式和对偶形式相对应

输入：训练数据集 $T=\left \{ (x_1,y_1),(x_2,y_2),...,(x_N,y_N)\right \}$ ,其中 $x_i\in\mathbb{R}^{n}$ , $y_i\in\left \{ +1,-1 \right \}$ ,学习率 $\eta \left ( 0<\eta \leq 1 \right )$

1. $\alpha \leftarrow 0,b\leftarrow 0$ 其中 $\alpha =(\alpha _1,\alpha _2,...,\alpha _n)^{T}$

2.任意顺序遍历 $i$ ，计算 $y_i (\sum_{j=1}^{N} \alpha _jy_jx_j\cdot x+ b)$ ，当 $y_i (\sum_{j=1}^{N} \alpha _jy_jx_j\cdot x+ b)\leq 0$ ，转到步骤3；若对任意 $i$ ， $y_i (w\cdot x_i+b )> 0$ ，转到输出

3. $\alpha_i\leftarrow \alpha_i+\eta$ , $b\leftarrow b+\eta y_i$ ，转到步骤2

输出： $\alpha ,b$ ；感知机 $f(x)=sign(\sum_{j=1}^{N} \alpha _jy_jx_j\cdot x+ b)$

对偶形式的基本想法：将 $w$ 和 $b$ 表示为实例 $x_i$ 和标记 $y_i$ 的线性组合的形式，通过求解其系数来求解 $w$ 和 $b$

基于原始形式，可设 $w_0=0,b_0=0$ ，则迭代n次后，设第 $I$ 个实例点由于误分而更新的次数为 $n_i$ ，令 $\alpha_i=n_i\eta$ ,有 $w=\sum_{i=1}^{N}\alpha_iy_ix_i$ , $b=\sum_{i=1}^{N}\alpha_iy_i$ 。

注意：实例点更新次数越多，意味着它离分离超平面越近，意味着越难分类。这样的实例点对于学习结果的影响最大。

Gram矩阵：对偶形式中的训练实例仅以内积的形式出现，将实例间的内积计算出来并以矩阵的形式储存， $G=[x_i\cdot x_j]_{N\times N}$ ，称为Gram矩阵

算法的收敛性

算法原始形式收敛：意味着经过有限次迭代可得到一个将训练数据集完全正确划分的分离超平面

为便于推导，记 $\hat{w}=(w^{T},b)^{T}$ ,扩充输入向量，记 $\hat{x}=(x^{T},1)^{T}$ ,则有 $\hat{w}\in\mathbb{R}^{n+1}$ , $\hat{x}\in\mathbb{R}^{n+1}$ ， $\hat{w}\cdot\hat{x}=w\cdot x+b$

（Novikoff）定理设训练集 $T=\left \{ (x_1,y_1),(x_2,y_2),...,(x_N,y_N) \right \}$ 线性可分，其中 $x_i\in\mathbb{R}^{n}$ , $y_i\in\left \{ +1,-1 \right \}$ ，则：

（1）存在满足 $\left \| \hat{w} \right \|=1$ 的超平面 $\hat{w}\cdot\hat{x}=w\cdot x+b=0$ 将训练数据集完全正确分开，且存在 $\gamma >0$ ,对所有 $i=1,2,...,N$ ,

$y_i(\hat{w}\cdot\hat{x})=y_i(w\cdot x_i+b)\geq \gamma$

（2）令 $R=\underset{1\leq i\leq N }{max}\left \| \hat{x_i} \right \|$ ,则感知机学习算法在训练数据集上的误分类次数k满足不等式

$k\leq (\frac{R}{\gamma })^{2}$

定理表明，当训练数据集线性可分时，经过有限次搜索可以找到将训练数据集完全正确分开的超平面，即算法的原始形式收敛。

感知机算法例题

例1 训练数据集如图所示，正实例点为 $x_1=(3,3)^{T}$ , $x_2=(4,3)^{T}$ ，负实例点为 $x_3=(1,1)^{T}$ ,试用感知机算法原始形式求感知机模型，令 $w=(w^{(1)},w^{(2)})^{T}$ , $x=(x^{(1)},x^{(2)})^{T}$

解答：

（1）建模最优化问题: $\underset{w,b}{min}L(w,b)= - \underset{x_i\in M}{\sum } y_i (w\cdot x_i+b )$

（2）取初值 $w_0=0,b_0=0$ ， $\eta =1$

（3）按 $x_1,x_2,x_3$ 顺序，对 $x_1=(3,3)^{T}$ , $y_1(w\cdot x1+b )= 0$ ，则 $x_1$ 为误分类点。更新 $w,b$ ：

$w_1=w_0+y_1x_1=(3,3)^{T}$ , $b_1=b_0+\eta y_1=1$

得到线性模型： $w_1\cdot x+b_1=3x^{(1)}+3x^{(2)}+1=0$

（4）重新选取，对 $x_1,x_2$ ， $y_i(w_1\cdot x_i+b_1)>0$ ，则均为正确分类点，不更新 $w,b$ ；

对 $x_3=(1,1)^{T}$ ， $y_3(w_1\cdot x_3+b_1)< 0$ ，则 $x_3$ 为误分类点，更新 $w,b$ ：

$w_2=w_1+y_3x_3=(2,2)^{T}$ , $b_2=b_1+\eta y_3=0$

得到线性模型： $w_2\cdot x+b_2=2x^{(1)}+2x^{(2)}=0$

（5）由此不断迭代

（6）直到 $w_7=(1,1)^{T}$ , $b_7=-3$

线性模型： $w_7\cdot x+b_7=x^{(1)}+x^{(2)}-3=0$

对所有数据点 $y_i(w_1\cdot x_i+b_1)>0$ ，则确定分离超平面： $x^{(1)}+x^{(2)}-3=0$

感知机模型 $f(x)=sign(x^{(1)}+x^{(2)}-3)$

分离超平面 $x^{(1)}+x^{(2)}-3=0$ 是按照 $x_1,x_3,x_3,x_3,x_1,x_3,x_3$ 的取点顺序得到的

例1如果更换取点顺序为 $x_1,x_3,x_3,x_3,x_2,x_3,x_3,x_3,x_1,x_3,x_3$ ，得到的分离超平面为：

$2x^{(1)}+x^{(2)}-5=0$

由此，可知结论：感知机算法采用不同的初值或选取不同的误分类点顺序，解可以不同

例2 训练数据集如图所示，正实例点为 $x_1=(3,3)^{T}$ , $x_2=(4,3)^{T}$ ，负实例点为 $x_3=(1,1)^{T}$ ,试用感知机算法对偶形式求感知机模型，令 $w=(w^{(1)},w^{(2)})^{T}$ , $x=(x^{(1)},x^{(2)})^{T}$

解答：

（1）取 $\alpha_1=0,i=1,2,3,b=0,\eta =1$ ;