统计学习方法与实战——统计学习方法概论

统计学习方法概论

统计学习三要素对理解统计学习方法起到提纲挈领的作用
主要讨论监督学习
分类问题、标注问题和回归问题都是监督学习的重要问题
本书中介绍的统计学习方法包括…。这些方法是主要的分类、标注以及回归方法。他们又可归类为生成方法与判别方法。

输入和输出对称为样本
注意在介绍输入空间，输出空间等概念的时候，以及这一章的很多部分都会有个帽子，监督学习中， 监督学习可以概括如下：从给定有限的训练数据出发，假设数据是独立同分布的，而且假设模型属于某个假设空间，应用某一评价准则，从假设空间中选取一个最优的模型，使它对已给的训练数据以及未知测试数据在给定评价标准意义下有最准确的预测。，理解下这里的假设。

统计学习方法三要素：模型，策略，算法

在监督学习过程中，模型就是所要学习的条件概率分布或者决策函数。

损失函数度量模型一次预测的好坏，风险函数度量平均意义下模型预测的好坏。
损失函数：衡量模型的推理结果与我们实际标签的差距

损失函数(loss function)或代价函数(cost function)
损失函数定义为给定输入 $X$ 的预测值 $f (X)$ 和真实值 $Y$ 之间的非负实值函数，记作 $L (Y, f (X))$
风险函数(risk function)或期望损失(expected loss)
这个和模型的泛化误差的形式是一样的
$R_{exp}(f)=E_p[L(Y, f(X))]=\int_{\mathcal X\times\mathcal Y}L(y,f(x))P(x,y)\, {\rm d}x{\rm d}y$
模型 $f (X)$ 关于联合分布 $P (X, Y)$ 的平均意义下的损失(期望损失)，但是因为 $P (X, Y)$ 是未知的，所以前面的用词是期望，以及平均意义下的。

这个表示其实就是损失的均值，反映了对整个数据的预测效果的好坏，P(x,y)转换成 $\frac {\nu(X=x, Y=y)}{N}$ 更容易直观理解, 但是真实的数据N是无穷的。
经验风险(empirical risk)或经验损失(empirical loss)
$R_{emp}(f)=\frac{1}{N}\sum^{N}_{i=1}L(y_i,f(x_i))$
模型 $f$ 关于训练样本集的平均mean损失
根据大数定律，当样本容量N趋于无穷大时，经验风险趋于期望风险
结构风险(structural risk)
$R_{srm}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f)$
$J (f)$ 为模型复杂度, $\lambda \geqslant 0$ 是系数，用以权衡经验风险和模型复杂度。

损失函数数值越小，模型就越好

$L (Y, f (X))$

$L (Y, P (Y ∣ X))$

对数损失
这里 $P(Y|X)\leqslant 1$ ，对应的对数是负值，所以对数损失中包含一个负号，为什么不是绝对值？因为肯定是负的。
$L=-\log P(Y|X)$

经验风险最小化(ERM)与结构风险最小化(SRM)

极大似然估计是经验风险最小化的一个例子
当模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化等价于极大似然估计
贝叶斯估计中的最大后验概率估计是结构风险最小化的一个例子
当模型是条件概率分布，损失函数是对数损失函数，模型复杂度由模型的先验概率表示时，结构风险最小化等价于最大后验概率估计