机器学习:深入解析SVM的核心概念(问题与解答篇)【一、间隔与支持向量】

直接阅读原始论文可能有点难和复杂,所以导师直接推荐我阅读周志华的《西瓜书》!!然后仔细阅读其中的第六章:支持向量机

间隔与支持向量

问题一:什么叫法向量?为什么是叫法向量

在这个线性方程中,很容易理解的是一个一次函数,也就是 a x + b = 0 ax+b=0 \\ ax+b=0
但是为什么这里是法向量,而且还有一个T,这个T又是f什么意思?

  • b可以理解,是位移项,决定超平面和原点的距离

会不会是因为 a x + b = 0 ax+b=0 ax+b=0是一次函数,但是在这个SVM中其实是一个超平面去划分的,所以是另一个参数来代表,那又要如何理解这里提到的超平面的方向呢?


在支持向量机(SVM)中,法向量是一个非常重要的概念。这里我们首先要澄清一下线性方程和超平面的关系,以及法向量的意义。

什么是法向量?

在数学和物理中,一个平面或超平面的法向量是一个垂直该平面向量。在SVM的上下文中,超平面是 决策边界 ,用来划分不同类别的数据点。

超平面的数学表示

在二维空间中,一个直线可以表示为 ( ax + by + c = 0 )。其中,向量 (a, b) 就是这条直线的法向量,指向垂直于直线的方向。

在更高维度,比如三维空间,一个平面可以用方程 ( ax + by + cz + d = 0 ) 来描述,这里 ( a, b, c ) 是这个平面的法向量。

超平面和SVM

在SVM中,我们通常处理的是 高维空间 中的数据,超平面的方程可以推广为:
w T x + b = 0 \mathbf{w}^T \mathbf{x} + b = 0 wTx+b=0
这里:

  • w \mathbf{w} w 是超平面的法向量,它定义了超平面的方向。
  • ( x ) ( \mathbf{x} ) (x) 是数据点的向量表示。它包含了一个数据点在所有维度上的坐标。例如,在二维空间中,一个点可以表示为 ( x 1 , x 2 ) ( x_1, x_2 ) (x1,x2),在三维空间中,它可以是 ( x 1 , x 2 , x 3 ) (x_1, x_2, x_3) (x1,x2,x3),而在更高的维度,比如 ( n ) 维,它就是 ( x 1 , x 2 , … , x n ) (x_1, x_2, \ldots, x_n) (x1,x2,,xn)
  • ( b ) 是位移项,决定了超平面相对于原点的位置。
  • 上述方程中的 ( T ) 表示转置操作,确保 w \mathbf{w} w x \mathbf{x} x 以内积的形式相乘,从而这个乘积结果是一个标量(数值)。

向量和高维空间

当我们说到一个向量 x \mathbf{x} x 时,它实际上就是一个由多个坐标组成的列表或数组,每个坐标对应数据空间中的一个维度。这意味着在SVM的数学表述中,不需要单独考虑每一个维度,因为它们已经全部包含在 x \mathbf{x} x 这个向量中了。这样的表述使得算法可以很容易地 扩展到任意维度 的数据处理。

法向量 w \mathbf{w} w 和数据维度

法向量 w \mathbf{w} w 也是一个向量,它在每个维度上都有一个分量,这些分量在数学上与 x \mathbf{x} x 中相应的维度分量相对应。如果 x \mathbf{x} x 是 ( n ) 维的,那么 w \mathbf{w} w 也是 ( n ) 维的。这样,当我们计算 w T x \mathbf{w}^T \mathbf{x} wTx 时,实际上是在计算两个 ( n ) 维向量的点积,结果是一个标量。

为什么法向量 w \mathbf{w} w 要转置呢?

主要是因为矩阵和向量的 维度必须匹配 以执行乘法运算。

矩阵乘法的维度匹配原则

在矩阵乘法中,当你想要乘两个矩阵(或向量)时,第一个矩阵的列数必须等于第二个矩阵的行数。具体来说:

  • 如果 w \mathbf{w} w 是一个 n × 1 n \times 1 n×1 的列向量(意味着 w \mathbf{w} w 有 ( n ) 行和 1 列),而
  • x \mathbf{x} x 也是一个 n × 1 n \times 1 n×1 的列向量,

那么你 不能直接将两个向量相乘 ,因为 w \mathbf{w} w 的列数(1)不匹配 x \mathbf{x} x 的行数(n )。

转置以进行点积

为了进行点积运算, w \mathbf{w} w 需转置为 1 × n 1 \times n 1×n 的行向量(即 w T \mathbf{w}^T wT),使得与 x \mathbf{x} x n × 1 n \times 1 n×1 列向量的维度匹配,从而实现两个向量的内积,计算结果为一个标量。

几何和数学意义

从几何和数学的角度来看,这种乘法(点积)有特殊的意义:

  • 几何意义:点积 w T x \mathbf{w}^T \mathbf{x} wTx 表示 x \mathbf{x} x w \mathbf{w} w 方向上的投影长度乘以 w \mathbf{w} w 的长度。
  • 数学意义:点积用于衡量两个向量之间的 相似度,其值越大表明两个向量越“接近”。

这种操作是线性代数中常见的做法,用于简化计算并提供一种统一的方法来处理数据,特别是在支持向量机(SVM)这类涉及高维数据的算法中。

这种计算方式非常适用于高维数据,因为它允许我们在非常广泛的维度上简单快速地评估数据点与决策边界的关系。点积作为一种计算方法,在SVM中是决定数据点分类的 核心机制

结论

  1. 线性方程与超平面

    • 在低维(如二维或三维)空间中,线性方程 ( ax + by + c = 0 ) 或 ( ax + by + cz + d = 0 ) 表示一个线或平面。在高维空间中,这种线性方程推广为 w T x + b = 0 \mathbf{w}^T \mathbf{x} + b = 0 wTx+b=0,其中 w \mathbf{w} w x \mathbf{x} x 都是向量。
    • 这个方程定义了一个超平面,它在 ( n ) 维空间中将点分成不同的类别。
  2. 参数与向量

    • 方程中的 w \mathbf{w} w 是一个向量,代表了超平面的法向量,即垂直于超平面的方向。
    • x \mathbf{x} x 是数据点的 位置向量 ,也是 ( n ) 维的。
  3. 矩阵乘法的维度匹配

    • 在线性方程中,为了计算 w T x \mathbf{w}^T \mathbf{x} wTx(即 w \mathbf{w} w 的转置与 x \mathbf{x} x 的点积),需要对 w \mathbf{w} w 进行转置。这是因为两个都是列向量,直接乘法是不符合矩阵乘法的维度规则的。
    • 转置后, w T \mathbf{w}^T wT 成为一个行向量,可以与 x \mathbf{x} x 进行点积运算,结果是一个标量(数值)。
  4. 计算与结果的意义

    • 计算出的标量 w T x + b \mathbf{w}^T \mathbf{x} + b wTx+b 用来判断点 x \mathbf{x} x 相对于超平面的位置,即其分类。
    • 结果的正负性决定了 x \mathbf{x} x 的类别(正类或负类)。

这个框架不仅是理解支持向量机的基础,也是很多其他机器学习算法中使用的基本线性代数应用。

问题二:x到平面的距离怎么计算?原理是啥?

在这里插入图片描述

计算点到平面的距离

假设有一个点 P ( x 0 , y 0 , z 0 ) P(x_0, y_0, z_0) P(x0,y0,z0) 和一个平面,平面的方程为:
A x + B y + C z + D = 0 Ax + By + Cz + D = 0 Ax+By+Cz+D=0
其中 ( A, B, C ) 是平面的法向量的分量,( D ) 是常数项。点 ( P ) 到这个平面的距离 ( d ) 可以通过以下公式计算:
d = ∣ A x 0 + B y 0 + C z 0 + D ∣ A 2 + B 2 + C 2 d = \frac{|Ax_0 + By_0 + Cz_0 + D|}{\sqrt{A^2 + B^2 + C^2}} d=A2+B2+C2 Ax0+By0+Cz0+D

这个公式的分子 ∣ A x 0 + B y 0 + C z 0 + D ∣ |Ax_0 + By_0 + Cz_0 + D| Ax0+By0+Cz0+D 给出了点 ( P ) 到由平面方程 A x + B y + C z + D = 0 Ax + By + Cz + D = 0 Ax+By+Cz+D=0 定义的平面的有向距离,而分母是平面法向量 ( (A, B, C) ) 的长度,确保我们计算的是垂直距离。

距离计算公式的原理:

平面方程的向量表示

平面方程通常表示为 ( Ax + By + Cz + D = 0 ),这可以转换为向量形式的线性方程,即:
w T x + b = 0 \mathbf{w}^T \mathbf{x} + b = 0 wTx+b=0
这里:

  • w = ( A , B , C ) \mathbf{w} = (A, B, C) w=(A,B,C) 是平面的法向量,指向垂直于平面的方向。
  • x = ( x , y , z ) \mathbf{x} = (x, y, z) x=(x,y,z) 是任意点的位置向量。
  • ( b = D ) 是与平面的位置相对于原点的偏移量有关的标量。

当我们谈到 A x 0 + B y 0 + C z 0 + D Ax_0 + By_0 + Cz_0 + D Ax0+By0+Cz0+D 时,实际上我们是在做以下事情:

  1. 点积运算 w T x 0 \mathbf{w}^T \mathbf{x}_0 wTx0,其中 x 0 = ( x 0 , y 0 , z 0 ) \mathbf{x}_0 = (x_0, y_0, z_0) x0=(x0,y0,z0) 是点 ( P ) 的坐标。这个点积计算了 x 0 \mathbf{x}_0 x0 在法向量 w \mathbf{w} w 方向上的投影长度。几何意义是 x 0 \mathbf{x}_0 x0 w \mathbf{w} w 方向上的投影长度乘以 w \mathbf{w} w 的长度。这意味着这个值不仅反映了 ( P ) 在 w \mathbf{w} w 方向上的位置,而且其大小还与 w \mathbf{w} w 的长度成比例。
  2. 考虑平面偏移:加上 ( D ) 是为了将平面沿法向量 w \mathbf{w} w 移动 ( D ) 单位长度,从而调整平面与原点的相对位置。

点积的组成
当你计算两个向量 w \mathbf{w} w x 0 \mathbf{x}_0 x0 的点积 w ⋅ x 0 \mathbf{w} \cdot \mathbf{x}_0 wx0 时,根据点积的定义和性质,这个点积实际上等于:
w ⋅ x 0 = ∥ w ∥ ∥ x 0 ∥ cos ⁡ ( θ ) \mathbf{w} \cdot \mathbf{x}_0 = \|\mathbf{w}\| \|\mathbf{x}_0\| \cos(\theta) wx0=w∥∥x0cos(θ)
其中:

  • ∥ w ∥ \|\mathbf{w}\| w 是法向量的模(长度)。
  • ∥ x 0 ∥ \|\mathbf{x}_0\| x0 是点 ( P ) 的位置向量的模。
  • θ \theta θ 是向量 ( \mathbf{w} ) 与 ( \mathbf{x}_0 ) 之间的夹角。

投影的计算
点积 ∥ w ∥ ∥ x 0 ∥ cos ⁡ ( θ ) \|\mathbf{w}\| \|\mathbf{x}_0\| \cos(\theta) w∥∥x0cos(θ) 中的 ∥ x 0 ∥ cos ⁡ ( θ ) \|\mathbf{x}_0\| \cos(\theta) x0cos(θ) 部分代表 x 0 \mathbf{x}_0 x0 w \mathbf{w} w 方向上的投影长度。这是因为 cos ⁡ ( θ ) \cos(\theta) cos(θ) 是夹角的余弦值,它给出了 x 0 \mathbf{x}_0 x0 w \mathbf{w} w 方向投影的比例因子。

如何转化为垂直距离

为了从这个有向距离获得真实的垂直距离,我们需要:

  • 取绝对值:将有向距离的绝对值取出,不考虑 ( P ) 在平面的哪一侧,以得到无方向的距离量度。
  • 归一化:通过除以 ∥ w ∥ \|\mathbf{w}\| w 来归一化这个距离,因为原始的投影长度 A x 0 + B y 0 + C z 0 Ax_0 + By_0 + Cz_0 Ax0+By0+Cz0 是点积放大了的,具体放大了法向量长度的倍数。归一化后的结果才是真正的垂直距离。

将点到平面的距离公式应用于SVM

在支持向量机中,你通常有一个超平面来进行分类,其方程可以表示为:
w T x + b = 0 \mathbf{w}^T \mathbf{x} + b = 0 wTx+b=0
这里 w \mathbf{w} w 是法向量,( b ) 是位移项, x \mathbf{x} x 是数据点。在这种情况下,超平面的方程与前面提到的平面方程类似,其中 w \mathbf{w} w 相当于法向量的分量 (A, B, C );( b ) 相当于 D。

因此,数据点 x 0 \mathbf{x}_0 x0 到超平面的距离可以用类似的公式计算:
d = ∣ w T x 0 + b ∣ ∥ w ∥ d = \frac{|\mathbf{w}^T \mathbf{x}_0 + b|}{\|\mathbf{w}\|} d=wwTx0+b
这里 ∥ w ∥ \|\mathbf{w}\| w 是法向量 w \mathbf{w} w 的欧几里得范数,计算方式为:
∥ w ∥ = w 1 2 + w 2 2 + ⋯ + w n 2 \|\mathbf{w}\| = \sqrt{w_1^2 + w_2^2 + \dots + w_n^2} w=w12+w22++wn2

SVM 中的距离应用

在SVM中,计算数据点到超平面的距离不仅有助于确定数据点的分类(基于其正负符号),还有助于优化超平面的位置。SVM的目标之一是最大化数据点(特别是支持向量)到超平面的最小距离,这种距离也称为“间隔”。最大化间隔可以帮助提高模型的泛化能力,从而在未见数据上表现更好。

问题三:为什么这里设置y的值是+1/-1,如何理解这个式子呢?

在这里插入图片描述
x是数据值,y是得到的结果,那意思说yi=+1就是被正确分类,=-1就是错误分类;那为什么整个式子就是>0的呢?


这张图片展示了支持向量机(SVM)中用于定义 最优决策边界基本概念。在SVM中,我们通过找到一个最大化两个类别间隔的超平面来进行数据分类。图中的公式表达了如何利用超平面来决定数据点的分类。现在让我们深入理解这个公式及其背后的逻辑。

SVM中的标签编码 ( y i ) ( y_i ) (yi)

在SVM中,数据点的类别用 y i y_i yi 来表示, y i y_i yi 只能取两个值:+1 或 -1。

  • y i = + 1 y_i = +1 yi=+1 表示数据点 x i x_i xi 属于正类。
  • y i = − 1 y_i = -1 yi=1 表示数据点 x i x_i xi 属于负类。

这种方式称为标签的二元编码,它简化了数学处理过程,并允许我们使用符号函数来描述数据点是否被正确分类。

分类准则

在 SVM 中,分类准则基于数据点相对于超平面的位置。具体地:

  • 如果对于一个数据点 x i \mathbf{x}_i xi,计算结果 w T x i + b \mathbf{w}^T \mathbf{x}_i + b wTxi+b 大于 0,那么按照 SVM 的规则,该点被预测为正类,即 y i = + 1 y_i = +1 yi=+1
  • 反之,如果计算结果小于 0,则该点被预测为负类,即 y i = − 1 y_i = -1 yi=1

这是分类决策的基础,决定了数据点应当属于 哪个类别

间隔边界设定

对于间隔边界的定义,我们不仅关心数据点是否被正确分类,还 关心它们与决策边界的距离 。在 SVM 中,最优化问题不仅要找到一个分隔两类的超平面,还要最大化该超平面到最近数据点的距离,这就是所谓的间隔。

为了具体化这个最大化问题,SVM 采用以下策略:

  • 对于正类的支持向量 x i \mathbf{x}_i xi(即最靠近超平面的正类点),我们希望它们满足 w T x i + b ≥ + 1 \mathbf{w}^T \mathbf{x}_i + b \geq +1 wTxi+b+1
  • 对于负类的支持向量 x i \mathbf{x}_i xi(即最靠近超平面的负类点),我们希望它们满足 w T x i + b ≤ − 1 \mathbf{w}^T \mathbf{x}_i + b \leq -1 wTxi+b1

为什么要用 ≥ + 1 \geq +1 +1 ≤ − 1 \leq -1 1,而不是 ≥ 0 \geq 0 0

  1. 距离度量
    使用+1和-1而不是0作为边界,可以使得支持向量(即 最靠近超平面的点 )到超平面的距离成为一个固定的度量。在这个约束下,所有支持向量到决策边界的距离都是相等的,这为间隔提供了一个具体的度量标准。

  2. 几何间隔
    几何间隔是数据点到超平面的距离,可以表示为点到平面的距离公式 d = ∣ w T x 0 + b ∣ ∥ w ∥ d = \frac{|\mathbf{w}^T \mathbf{x}_0 + b|}{\|\mathbf{w}\|} d=wwTx0+b。对于支持向量来说,当 w T x 0 + b \mathbf{w}^T \mathbf{x}_0 + b wTx0+b 的绝对值等于1时,这个公式简化为 d = 1 ∥ w ∥ d = \frac{1}{\|\mathbf{w}\|} d=w1

  3. 优化简化
    使用+1和-1为间隔的约束,允许SVM优化问题的目标函数变为最小化 ∥ w ∥ 2 \|\mathbf{w}\|^2 w2,这简化了拉格朗日乘子法的应用,并使得对偶问题成为凸二次规划问题,这类问题存在高效的求解算法。

1的意义

在间隔的上下文中,这个1实际上是任意选择的一个正数,它代表了规范化的间隔大小 。我们选择1是因为这个数值在数学上方便处理,但实际上,选择任何其他正数并适当缩放 w \mathbf{w} w 和 ( b ) 都会得到相同的最优超平面。这是因为超平面的定义是由 w \mathbf{w} w 的方向以及点到超平面的距离决定的,而不是由具体的数值决定。

总结

SVM 的目标是构建一个具有最大间隔的决策边界,而间隔边界的设定 ≥ + 1 \geq +1 +1 ≤ − 1 \leq -1 1 为了确保数学模型的一致性,并简化优化过程。这种方式定义的间隔是所有支持向量到超平面的最小距离,最大化这个距离帮助SVM提高分类器的泛化能力。


距离超平面最近的几个训练标本使上面不等式中的等号成立,这几个训练样本被称为“支持向量”(support vector)

在这里插入图片描述

问题四:两个异类支持向量到超平面的距离怎么计算的?

在支持向量机(SVM)中,两个异类支持向量到超平面的距离是由超平面的定义决定的。这个距离实际上就是我们常说的“间隔”(margin),而这个间隔对于所有的支持向量来说是相同的。

对于一个给定的超平面,其方程可以表示为 w T x + b = 0 \mathbf{w}^T \mathbf{x} + b = 0 wTx+b=0,其中:

  • w \mathbf{w} w 是超平面的法向量。
  • ( b ) 是偏移项。
  • x \mathbf{x} x 是任意点在特征空间中的位置向量。

一个点 x i \mathbf{x}_i xi 到这个超平面的距离可以通过以下公式计算:

distance = ∣ w T x i + b ∣ ∥ w ∥ \text{distance} = \frac{|\mathbf{w}^T \mathbf{x}_i + b|}{\|\mathbf{w}\|} distance=wwTxi+b

在SVM中,支持向量是最靠近这个超平面的点,对于正类的支持向量 x + \mathbf{x}_+ x+ 和负类的支持向量 x − \mathbf{x}_- x,他们分别满足:

w T x + + b = 1 \mathbf{w}^T \mathbf{x}_+ + b = 1 wTx++b=1
w T x − + b = − 1 \mathbf{w}^T \mathbf{x}_- + b = -1 wTx+b=1

注意,这里的 1 和 -1 是函数间隔的值,对应于我们之前提到的固定间隔标准。因此,任何一个支持向量 x i \mathbf{x}_i xi 到超平面的距离可以简化为:

distance = 1 ∥ w ∥ \text{distance} = \frac{1}{\|\mathbf{w}\|} distance=w1

这是因为 ( |1| ) 和 ( |-1| ) 的绝对值都是 1。

对于两个异类支持向量,我们可以把它们各自到超平面的距离加起来得到间隔,即:

margin = distance + + distance − = 1 ∥ w ∥ + 1 ∥ w ∥ = 2 ∥ w ∥ \text{margin} = \text{distance}_{+} + \text{distance}_{-} = \frac{1}{\|\mathbf{w}\|} + \frac{1}{\|\mathbf{w}\|} = \frac{2}{\|\mathbf{w}\|} margin=distance++distance=w1+w1=w2

所以最终能得到间隔表达为:

γ = 2 ∥ ω ∥ \gamma = \frac{2}{\left \| \omega \right \| } γ=ω2

问题五:为什么等价于最小化 ∥ ω ∥ 2 \left \| \omega \right \|^2 ω2

如果我们要最大化这个间隔 γ = 2 ∥ ω ∥ \gamma = \frac{2}{\left \| \omega \right \| } γ=ω2,那也就是让 ω \omega ω最小,同样的,我们转换一下格式,就是仅需要 ∥ ω ∥ − 1 \\{\left \| \omega \right \| }^{-1} ω1最大化即可;

但是为什么等价于最小化 ∥ ω ∥ 2 {\left \| \omega \right \| }^2 ω2???


在支持向量机(SVM)中,最大化间隔 γ = 2 ∥ ω ∥ \gamma = \frac{2}{\|\omega\|} γ=ω2 的目标确实可以转化为最小化 ∥ ω ∥ \|\omega\| ω。但是,在实际的优化过程中,我们通常选择最小化 ∥ ω ∥ 2 \|\omega\|^2 ω2 而不是直接最小化 ∥ ω ∥ \|\omega\| ω。这样做有几个数学上的好处和实际的便利性:

为什么最小化 ∥ ω ∥ 2 \|\omega\|^2 ω2 而不是 ∥ ω ∥ \|\omega\| ω

  1. 微分便利性

    • 最小化 ∥ ω ∥ 2 \|\omega\|^2 ω2 相比于 ∥ ω ∥ \|\omega\| ω 在数学处理上更为简便。函数 ∥ ω ∥ 2 \|\omega\|^2 ω2 是平方和形式,其导数(梯度)容易计算,而 ∥ ω ∥ \|\omega\| ω 的导数在 ω = 0 \omega = 0 ω=0不可导 ,这可能在数学优化中带来问题。
  2. 凸优化问题

    • ∥ ω ∥ 2 \|\omega\|^2 ω2 是一个 凸函数 ,确保了优化问题有全局最小解。这是因为平方和形式保证了函数的二次导数始终为正,从而形成一个凸函数。在支持向量机的优化中,这种性质特别重要,因为它保证找到的解是全局最优的。

关于凸函数,见文章末尾《附录一:凸函数讲解》

  1. 简化对偶问题的求解

    • 在将 SVM 的优化问题转换为对偶形式时,原始问题(即普拉特问题)中 ∥ ω ∥ 2 \|\omega\|^2 ω2 形式的目标函数转换成对偶问题中更为简洁和易于处理的形式。对偶问题中涉及的是样本的内积,这可以通过核函数有效地计算,适用于处理线性不可分的情况。
  2. 避免除法运算

    • 在计算机编程和数值计算中,避免除法(求逆运算)可以提高计算的稳定性和效率。通过最小化 ∥ ω ∥ 2 \|\omega\|^2 ω2 而非最大化 1 ∥ ω ∥ \frac{1}{\|\omega\|} ω1,我们可以避免在 ∥ ω ∥ \|\omega\| ω 接近零时 可能出现的 数值不稳定 问题。

数学表达

具体来说,目标函数转换过程可以这样理解:

  • 最大化间隔( γ = 2 ∥ ω ∥ \gamma = \frac{2}{\|\omega\|} γ=ω2) 相当于最大化 1 ∥ ω ∥ \frac{1}{\|\omega\|} ω1
  • 因为最大化 1 ∥ ω ∥ \frac{1}{\|\omega\|} ω1 等价于最小化 ∥ ω ∥ \|\omega\| ω
  • 最小化 ∥ ω ∥ \|\omega\| ω 直接等价于最小化 ∥ ω ∥ 2 \|\omega\|^2 ω2,因为 ∥ ω ∥ \|\omega\| ω ∥ ω ∥ 2 \|\omega\|^2 ω2 都是随 ∥ ω ∥ \|\omega\| ω 单调增加的。

通过这样的转换,SVM的优化问题既可以保证数学的严谨性,也便于在实际的机器学习应用中进行高效的数值求解。

**问题六:为什么最后得到的是 1 2 ∣ ∣ ω ∣ ∣ 2 ?? \frac{1}{2} ||\omega||^2?? 21∣∣ω2??

在这里插入图片描述
之前不是为了方便微分和凸优化吗?那现在这个 1 2 \frac{1}{2} 21是什么意思?哪来的???


这个问题涉及到SVM的目标函数形式。

在SVM中,我们的目标是最大化间隔,等价于最小化 1 ∣ ∣ ω ∣ ∣ \frac{1}{||\omega||} ∣∣ω∣∣1。但是直接最小化 1 ∣ ∣ ω ∣ ∣ \frac{1}{||\omega||} ∣∣ω∣∣1 不容易处理,因为它的导数会随着 ω \omega ω 接近零时变得无穷大,这在计算上是不稳定的。

相反,最小化 ∣ ∣ ω ∣ ∣ 2 ||\omega||^2 ∣∣ω2 就容易得多,因为 ∣ ∣ ω ∣ ∣ 2 ||\omega||^2 ∣∣ω2 是一个光滑的凸函数,有良好的数学性质,使得求解更稳定、更容易。

此外,我们选择最小化 1 2 ∣ ∣ ω ∣ ∣ 2 \frac{1}{2} ||\omega||^2 21∣∣ω2 而不仅仅是 ∣ ∣ ω ∣ ∣ 2 ||\omega||^2 ∣∣ω2 是为了计算方便

在求导时, 1 2 \frac{1}{2} 21 这个系数能够 正好抵消掉导数中的2 ,从而简化了后续的计算。这是在数学优化中常用的技巧,通过微小的调整目标函数来简化导数的计算过程。

附录一:凸函数讲解

什么是凸函数

在数学中,一个函数 ( f(x) ) 被称为凸函数(或凸向下的函数),如果在其定义域中的任意两点 x 1 x_1 x1 x 2 x_2 x2 上,满足以下条件:
f ( λ x 1 + ( 1 − λ ) x 2 ) ≤ λ f ( x 1 ) + ( 1 − λ ) f ( x 2 ) for all λ ∈ [ 0 , 1 ] f(\lambda x_1 + (1 - \lambda) x_2) \leq \lambda f(x_1) + (1 - \lambda) f(x_2) \quad \text{for all} \quad \lambda \in [0, 1] f(λx1+(1λ)x2)λf(x1)+(1λ)f(x2)for allλ[0,1]

直观地讲,这个定义意味着函数的图形在 任何两点之间的线段始终位于或等于这两点在函数图形上的连线之下 。这个性质对于确保函数在全局最小值处是单调的(即不会有局部最小值,只有一个全局最小值)非常关键。

直观解释

凸函数定义,实际上是在描述函数的一种“线性内插”性质。

步骤1: 两点选择

假设你有一个函数 f ( x ) f(x) f(x),比如 f ( x ) = x 2 f(x) = x^2 f(x)=x2,它的图形是一条曲线。现在,我们在这条曲线上随机选择两个点:

  • 第一个点: x 1 x_1 x1,在这点上函数的值是 f ( x 1 ) f(x_1) f(x1)
  • 第二个点: x 2 x_2 x2,在这点上函数的值是 f ( x 2 ) f(x_2) f(x2)

步骤2: 连线

想象一下,如果你用笔在这两点之间直接画一条直线。这条直线会穿过这两个点,看起来就像是用尺子在纸上画的直线一样。

步骤3: 内插点的选择

现在,我们要在这条直线上选择一个新的点。这个点不是随机选择的,而是用一个 特定的比例 来确定:

  • 假设 λ \lambda λ 是一个介于 0 到 1 之间的数(比如 0.25, 0.5, 0.75等),这个数决定了你新点的位置更靠近 x 1 x_1 x1 还是 x 2 x_2 x2
  • 计算新点的 ( x ) 坐标: λ x 1 + ( 1 − λ ) x 2 \lambda x_1 + (1 - \lambda) x_2 λx1+(1λ)x2。这个公式的意思是,新点的 ( x ) 坐标是 x 1 x_1 x1 x 2 x_2 x2 坐标的加权平均。如果 λ \lambda λ 是 0.5,新点就正好在 x 1 x_1 x1 x 2 x_2 x2 的中间;如果 λ \lambda λ 更大,新点更靠近 x 2 x_2 x2;如果 λ \lambda λ 更小,新点更靠近 x 1 x_1 x1

想象你在一条直线上有两个点,一个在左边 x 1 x_1 x1 ,一个在右边 x 2 x_2 x2。通过调整 λ \lambda λ,你可以沿着这条直线在这两点之间“滑动”,找到任意位置的点。

步骤4: 比较函数值与直线的高度

  • 现在我们已经有了新点的 ( x ) 坐标,接着要计算这个点在函数 f ( x ) f(x) f(x) 上的真实 ( y ) 值,即 f ( λ x 1 + ( 1 − λ ) x 2 ) f(\lambda x_1 + (1 - \lambda) x_2) f(λx1+(1λ)x2)
  • 同时,计算这个点在 直线上的 ( y ) 值 ,即 λ f ( x 1 ) + ( 1 − λ ) f ( x 2 ) \lambda f(x_1) + (1 - \lambda) f(x_2) λf(x1)+(1λ)f(x2)

步骤5: 判断凸性

  • 凸函数的定义说的是,对于函数上任意两点,直线上的任何点的 ( y ) 值都应该大于或等于函数曲线上相应 ( x ) 坐标的 ( y ) 值。

也就是说,如果直线上的点总是在函数曲线上的点的上方或与之相等,那么这个函数就是凸函数。

图形实例

让我们绘制一个简单的凸函数例子 ( f(x) = x^2 ),并在图中展示两点之间的连线与函数值的关系,以帮助理解这一定义。

x的平方图像
在这张图中,我们展示了凸函数 f ( x ) = x 2 f(x) = x^2 f(x)=x2 的性质。图中蓝色曲线表示函数 f ( x ) = x 2 f(x) = x^2 f(x)=x2,它是一个标准的凸函数。

关键点说明:

  1. 红色点:选择的两个点 ( − 1 , f ( − 1 ) ) (-1, f(-1)) (1,f(1)) ( 1.5 , f ( 1.5 ) ) (1.5, f(1.5)) (1.5,f(1.5)) 在函数曲线上标记为红色。这两个点用来演示凸函数的定义。

  2. 绿色虚线:这条线连接了两个红色点,代表这 两点间直线

  3. 紫色点:这个点表示当 λ = 0.7 \lambda = 0.7 λ=0.7 时,两个红点的凸组合 λ x 1 + ( 1 − λ ) x 2 \lambda x_1 + (1 - \lambda) x_2 λx1+(1λ)x2 在函数上的值 f ( λ x 1 + ( 1 − λ ) x 2 ) f(\lambda x_1 + (1 - \lambda) x_2) f(λx1+(1λ)x2)紫色点明显位于绿色连接线的 下方 ,符合凸函数的定义。

凸函数的性质:

凸函数的定义是,对于其定义域中的任意两点 x 1 x_1 x1 x 2 x_2 x2,以及任意 λ \lambda λ 在 0 和 1 之间,函数值 f ( λ x 1 + ( 1 − λ ) x 2 ) f(\lambda x_1 + (1 - \lambda) x_2) f(λx1+(1λ)x2) 总是小于或等于这两点的直线上相应点的值 λ f ( x 1 ) + ( 1 − λ ) f ( x 2 ) \lambda f(x_1) + (1 - \lambda) f(x_2) λf(x1)+(1λ)f(x2)。这意味着函数图形始终位于连接任何两点的线段之下,正如图中紫色点所展示的那样。

为什么这一性质重要:

这一性质表明凸函数 不会有局部最小值,只有全局最小值 。因此,在优化问题中,如果目标函数是凸的,那么任何局部最优解也是全局最优解。这使得在凸优化问题中找到最优解变得可行和高效。

对于 SVM 中的 ∥ ω ∥ 2 \|\omega\|^2 ω2,它是 ω \omega ω 各分量平方和 的形式,因此它也是一个凸函数。这保证了我们可以通过优化技术有效地找到最小化该函数的 ω \omega ω 值,进而最大化分类间隔。

凸函数的另一种定义

另一种定义凸函数的方式是通过其二阶导数:如果一个函数的二阶导数非负 ( f ′ ′ ( x ) ≥ 0 ) ( f''(x) \geq 0 ) (f′′(x)0)在其定义域中的每一点上,那么这个函数是凸函数。这个性质表明函数的 斜率(导数)随 ( x ) 的增加而增加

一阶导数和二阶导数的关系

  1. 一阶导数 f ′ ( x ) f'(x) f(x):描述的是函数 ( f(x) ) 的斜率,也就是函数在 ( x ) 点的瞬时变化率。当我们说一阶导数时,我们通常关注的是函数在某一点上是增加还是减少。

  2. 二阶导数 f ′ ′ ( x ) f''(x) f′′(x):描述的是一阶导数的变化率,也就是斜率的斜率,或更正式地说,是函数的曲率。二阶导数反映了函数图形的“弯曲”程度以及这种弯曲是朝向上还是朝向下。

曲率的方向

  • 二阶导数大于零 f ′ ′ ( x ) > 0 f''(x) > 0 f′′(x)>0:当二阶导数为正时,一阶导数 f ′ ( x ) f'(x) f(x) 随 ( x ) 增加而增加,这表明函数图形是向上凸的(类似于U型)。在物理上,我们可以把这种形状想象为一个向上的弓形,函数在这段区域呈现凹形状态。
  • 二阶导数小于零 f ′ ′ ( x ) < 0 f''(x) < 0 f′′(x)<0:当二阶导数为负时,一阶导数 f ′ ( x ) f'(x) f(x) 随 ( x ) 增加而减少,这表明函数图形是向下凸的(类似于倒U型)。函数在这段区域呈现凸形状态。

例子:考虑函数 f ( x ) = x 3 f(x) = x^3 f(x)=x3。计算它的一阶和二阶导数:

在这些图中,我们可以看到函数 ( f(x) = x^3 ) 及其一阶和二阶导数的行为:
在这里插入图片描述

  1. 函数 f ( x ) = x 3 f(x) = x^3 f(x)=x3

    • 这个函数图形显示了一个立方曲线,其在 ( x = 0 ) 处通过原点,并且在该点附近表现出拐点的特征(从凹变凸)。
  2. 一阶导数 f ′ ( x ) = 3 x 2 f'(x) = 3x^2 f(x)=3x2

    • 一阶导数图形显示,当 ( x ) 从负值过渡到正值时,斜率从 0 开始逐渐增加 。该函数在所有 ( x ) 值上都是非负的,符合 ( x^3 ) 在 ( x = 0 ) 有拐点的特征。
  3. 二阶导数 f ′ ′ ( x ) = 6 x f''(x) = 6x f′′(x)=6x

    • 二阶导数的图形是一条直线,穿过原点。当 ( x < 0 ) 时,二阶导数为负(向下凸),当 ( x > 0 ) 时,二阶导数为正(向上凸)。这正好说明了 ( x = 0 ) 处的拐点,即曲线在这一点从向下凸变为向上凸。

二阶导数非负与函数性质

  • f ′ ′ ( x ) ≥ 0 f''(x) \geq 0 f′′(x)0 时,这表明 f ′ ( x ) f'(x) f(x) 随 ( x ) 的增加而不减少。换句话说,函数的斜率要么是 增加 的,要么是 恒定 的,但 不会减少 。这意味着函数不会突然从增加转为减少,因此函数 没有局部的下降点 ,只有局部上升点或平坦点。

  • 在整个定义域中,如果 f ′ ′ ( x ) ≥ 0 f''(x) \geq 0 f′′(x)0 持续成立,函数 f ( x ) f(x) f(x) 不会有局部最小值点之外的其他最小值(即 没有局部最小值,只有可能的全局最小值 )。这是因为函数的图形始终“凸起”(类似于U型或更平坦的形状)。

为什么平方函数是凸函数

考虑一个简单的平方函数 f ( x ) = x 2 f(x) = x^2 f(x)=x2。我们可以通过计算其二阶导数来证明它是一个凸函数:

  1. 首先, f ( x ) = x 2 f(x) = x^2 f(x)=x2 的一阶导数(斜率)是 f ′ ( x ) = 2 x f'(x) = 2x f(x)=2x
  2. 其二阶导数(斜率的变化率)是 f ′ ′ ( x ) = 2 f''(x) = 2 f′′(x)=2

由于 f ′ ′ ( x ) = 2 f''(x) = 2 f′′(x)=2 在 ( x ) 的整个实数范围内都是正数,因此 f ( x ) = x 2 f(x) = x^2 f(x)=x2 是一个凸函数。这意味着不管你选择 x 2 x^2 x2 上的哪两点,函数的实际值总是小于或等于这两点的连线上相应点的值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/4124.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

给大一大二师生的忠告,如何在校招中脱颖而出做到降维打击

&#x1f4e2;&#x1f4e2;&#x1f4e2;&#x1f4e3;&#x1f4e3;&#x1f4e3; 哈喽&#xff01;大家好&#xff0c;我是「奇点」&#xff0c;江湖人称 singularity。刚工作几年&#xff0c;想和大家一同进步&#x1f91d;&#x1f91d; 一位上进心十足的【Java ToB端大厂…

[超详细]Java子父类树形结构查询和删除[小白]

目录 前言 1、查询子父类通过树形结构封装起来 一、创建实体类 二、创建mapper类 三、创建service和serviceImpl类 四、创建controller类 2、删除该父类下的所有子类&#xff0c;并且删除自己 controller层 service和serviceImpl层 总结 前言 [超详细]Java子父类树形…

STM32与Proteus的串口仿真详细教程与源程序

资料下载地址&#xff1a;STM32与Proteus的串口仿真详细教程与源程序 资料内容 包含LCD1602显示&#xff0c;串口发送接收&#xff0c;完美实现。 文档内容齐全&#xff0c;包含使用说明&#xff0c;相关驱动等。 解决了STM32的Proteus串口收发问题。 注意&#xff1a;每输…

Datart 扩装下载功能之PDF和图片下载

Datart 扩装下载功能之PDF和图片下载 首先下载依赖 yum install mesa-libOSMesa-devel gnu-free-sans-fonts wqy-zenhei-fonts -y 然后下载安装chrome yum install https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm 查看chrome版本号 google…

基于Vue3实现的 宫格 图片摆放

一个可以支持无限宫格的 vue3实现 本来要参考微信群头像的规则实现&#xff0c;网上找到一大堆类似的需求&#xff0c;奈何XXX折磨人&#xff0c;九宫格已经不能满足ta了。 当前代码实现了………… 好多东西(可以多宫格).具体的看效果图 code <style scoped langless> .…

AI预测体彩排列3第2套算法实战化测试第5弹2024年4月27日第5次测试

今天继续进行新算法的测试&#xff0c;今天是第5次测试。好了&#xff0c;废话不多说了&#xff0c;直接上图上结果。 2024年4月27日体彩排3预测结果 6码定位方案如下&#xff1a; 百位&#xff1a;6、2、1、7、8、9 十位&#xff1a;8、9、4、3、1、0 个位&#xff1a;3、7、8…

【SpringBoot整合系列】SpringBoot整合Redis[附redis工具类源码]

目录 SpringBoot整合Redis1.下载和安装Redis2.新建工程&#xff0c;导入依赖3.添加配置4.先来几个基本的示例测试代码输出结果用redis客户端查看一下存储内容 5.封装redis工具类RedisKeyUtilRedisStringUtilRedisHashUtilRedisListUtilRedisSetUtilRedisZsetUtil备注 6.测试通用…

node.js 解析post请求 方法二

前提&#xff1a;以前面发的node.js解析post请求方法一为模板&#xff0c;具体见 http://t.csdnimg.cn/ABaIn 此文我们运用第二种方法&#xff1a;使用第三方模块formidable对post请求进行解析。 1》代码难点 *** 在Node.js中使用formidable模块来解析POST请求主要涉及到处理…

IO流基础

IO流介绍 1.什么是IO流&#xff1f; 流是一种抽象概念&#xff0c;它代表了数据的无结构化传递。按照流的方式进行输入输出&#xff0c;数据被当成无结构的字节序列或字符序列。从流中取得数据的操作称为提取操作&#xff0c;而向流中添加数据的操作称为插入操作。用来进行输入…

JVM (Micrometer)监控SpringBoot(AWS EKS版)

问题 怎样使用JVM (Micrometer)面板&#xff0c;监控Spring&#xff1f;这里不涉及Prometheus和Grafana&#xff0c;重点介绍与Micrometer与Springboot&#xff0c;k8s怎样集成。 pom.xml 引入依赖&#xff0c;如下&#xff1a; <properties><micrometer.version&…

免费简单好用的内网穿透工具(ngrok、natapp),微信回调地址配置

B站视频地址 文章目录 Natapp1、登录注册账号、下载软件2、使用2-1、购买隧道、查看token2-2、端口穿透 Ngrok1、登录注册账号、下载软件2、使用2-1、获取并设置 token2-2、使用 3、隧道 微信回调配置1、注册测试公众号2、回调代码3、回调配置 在一些特殊的场景下&#xff0c;需…

多种方法求1+12+123+1234……

有网友出了一道题&#xff1a; 从键盘输入一个小于10的正整数n&#xff0c;计算1121231234……&#xff0c;即前n项之和。 第一眼看到题目&#xff0c;直觉告诉我必须使用嵌套的两个for循环&#xff0c;里面的循环生成每一项&#xff0c;外面的循环求和。错误的方向和思路让我…

基于RBF-PID控制器的风力发电系统simulink建模与仿真

目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 5.完整工程文件 1.课题概述 基于RBF-PID控制器的风力发电系统simulink建模与仿真,对比PID控制器和RBF-PID控制器的控制结果。 2.系统仿真结果 3.核心程序与模型 版本&#xff1a;MATLAB2022a 0050 4.系…

Unity进阶之ScriptableObject

目录 ScriptableObject 概述ScriptableObject数据文件的创建数据文件的使用非持久数据让其真正意义上的持久ScriptableObject的应用配置数据复用数据数据带来的多态行为单例模式化的获取数据 ScriptableObject 概述 ScriptableObject是什么 ScriptableObject是Unity提供的一个…

有没有电脑桌面监控软件|十大电脑屏幕监控软件超全盘点!

电脑桌面监控软件已经成为许多领域不可或缺的工具。 无论是企业为了保障数据安全和提高工作效率&#xff0c;还是家长为了监督孩子的学习&#xff0c;甚至是个人为了记录电脑使用行为&#xff0c;都需要这类软件的支持。 本文将对市面上十大电脑屏幕监控软件进行超全盘点&…

智能文案生成器,文案生成改写很强大

在当今数字化时代&#xff0c;随着人工智能的迅猛发展&#xff0c;智能文案生成器正逐渐成为营销和创作领域的一大利器。这些智能工具不仅能够快速生成文案&#xff0c;还能够进行文案改写&#xff0c;使得文案生成的过程更加高效、便捷。正是在这样的背景下&#xff0c;智能文…

CAT:contig稳健物种分类

安装 mamba create -n CAT python3.10 diamond prodigal cd SoftWare git clone https://github.com/MGXlab/CAT_pack chmod 755 给权限 自己构建数据库 names.dmp nodes.dmp文件可以在Kraken2的文件里面找到 Kraken2Bracken&#xff1a;宏基因组物种注释_kracken2配合bracke…

MySQL之binlog归档日志

binlog&#xff08;二进制归档日志&#xff09; binlog 二进制日志记录保存所有执行过的修改操作语句&#xff0c;不保存查询操作。如果 MySQL 服务意外停止&#xff0c;可通过二进制日志文件排查&#xff0c;用户操作或表结构操作&#xff0c;从而来恢复数据库数据。启动 bin…

Java 线程的几种状态

一、 线程的状态 状态是针对当前的线程调度的情况来描述的。因为线程是调度的基本单位&#xff0c;所以状态更应该是线程的属性。在Java中线程的状态一共有六种&#xff1a; 1. 初始(NEW)&#xff1a;新创建了一个线程对象&#xff0c;但还没有调用start()方法。 2. 运行(RUNN…

动静态库以及动态链接

文章目录 静态库制作静态库如何使用静态库 动态库动态库的制作动态库的使用动态链接 库是给别人用的&#xff0c;所以库中一定不存在main函数。库一般会有lib前缀和后缀&#xff0c;去掉前缀和后缀才是库名。 静态库 静态库&#xff08;.a&#xff09;&#xff1a;程序在编译…