机器学习中的损失函数（着重比较：hinge loss vs softmax loss）

https://blog.csdn.net/u010976453/article/details/78488279

1. 损失函数

损失函数（Loss function）是用来估量你模型的预测值 f(x)

θ * = arg min θ 1 N \sum i = 1 N L ( y i , f ( x i ; θ ) ) + λ Φ ( θ )

其中，前面的均值函数表示的是经验风险函数，L

2. 常用损失函数

常见的损失误差有五种：
1. 铰链损失（Hinge Loss）：主要用于支持向量机（SVM）中；
2. 互熵损失（Cross Entropy Loss，Softmax Loss ）：用于Logistic 回归与Softmax 分类中；
3. 平方损失（Square Loss）：主要是最小二乘法（OLS）中；
4. 指数损失（Exponential Loss）：主要用于Adaboost 集成学习算法中；
5. 其他损失（如0-1损失，绝对值损失）

2.1 Hinge loss

Hinge loss 的叫法来源于其损失函数的图形，为一个折线，通用的函数表达式为：

L (m i) = m a x (0, 1 - m i (w))

Hinge Loss

在机器学习中，Hing 可以用来解间距最大化的问题，最有代表性的就是SVM 问题，最初的SVM 优化函数如下：

a r g m i n w, ζ 1 2 | | w | | 2 + C \sum i ζ i

ζ i \geq 1 - y i w T x i

J (w) = 1 2 | | w | | 2 + C \sum i m a x ( 0 , 1 -

2.2 Softmax Loss

有些人可能觉得逻辑回归的损失函数就是平方损失，其实并不是。平方损失函数可以通过线性回归在假设样本是高斯分布的条件下推导得到，而逻辑回归得到的并不是平方损失。在逻辑回归的推导中，它假设样本服从伯努利分布（0-1分布），然后求得满足该分布的似然函数，接着取对数求极值等等。而逻辑回归并没有求似然函数的极值，而是把极大化当做是一种思想，进而推导出它的经验风险函数为：最小化负的似然函数（即maxF(y,f(x))→min−F(y,f(x)))

log损失函数的标准形式：

L (Y, P (Y | X)) = - log P (Y | X)

逻辑回归的P(Y=y|x)

Logistic

其中

h θ (x) = 1 1 + exp ( - f ( x ) )

2.3 Squared Loss

最小二乘法是线性回归的一种，OLS将问题转化成了一个凸优化问题。在线性回归中，它假设样本和噪声都服从高斯分布（中心极限定理），最后通过极大似然估计（MLE）可以推导出最小二乘式子。最小二乘的基本原则是：最优拟合直线应该是使各点到回归直线的距离和最小的直线，即平方和最小。

平方损失（Square loss）的标准形式如下：

L (Y, f (X)) = (Y - f (X)) 2

当样本个数为n

L (Y, f (X)) = \sum i = 1 n (Y - f (X)) 2

在实际应用中，我们使用均方差（MSE）作为一项衡量指标，公式如下：

M S E = 1 n \sum i = 1 n ( Y i ~ - Y i ) 2

2.4 Exponentially Loss

损失函数的标准形式是：

L (Y, f (X)) = exp [- Y f (X)]

f m (x) = f m - 1 (x) + α m G m (x)

arg min α, G = \sum i = 1 N exp [- y i (f m - 1 (x i) + α G (x i))

L (Y, f (X)) = 1 2 \sum i = 1 n exp [ - y i f ( x I ) ]

2.5 其他损失

0-1 损失函数

L (Y, f (X)) = {01

L (Y, f (X)) = | Y - f (X) |

上述几种损失函数比较的可视化图像如下：

损失函数可视化

3. Hinge loss 与 Softmax loss

SVM和Softmax分类器是最常用的两个分类器。

SVM将输出 f(xi,W)
与SVM 不同，Softmax 分类器可以理解为逻辑回归分类器面对多个分类的一般话归纳，其输出(归一化的分类概率)更加直观,且可以从概率上解释。

在Softmax分类器中, 函数映射f(xi,W)

L i = - log (e f y i \sum j e f j )

L i = - f y i + log \sum j f j

概率论解释:

P (y i | x i, W) = e f y i \sum j e f j

解释为给定数据xi

实际操作注意事项——数值稳定: 编程实现softmax函数计算的时候,中间项efyi

P (y i | x i, W) = C e f y i C \sum j e f j =

C的值可自由选择,不会影响计算结果,通过这个技巧可以提高计算中的数值稳定性.通常将C设为:

log C = - max f j

该技巧就是将向量f中的数值进行平移,使得最大值为0。

准确地说，SVM分类器使用的是铰链损失（hinge loss），有时候又被称为最大边界损失（max-margin loss）。Softmax分类器使用的是交叉熵损失（corss-entropy loss）。Softmax分类器的命名是从softmax函数那里得来的，softmax函数将原始分类评分变成正的归一化数值，所有数值和为1，这样处理后交叉熵损失才能应用。

Example：图像识别

example