PRML绪论

1.1 多项式曲线拟合
- 1.1.1 问题描述
- 1.1.2 最小化平方和误差
- 1.1.3 多项式阶数确定
- 1.1.4 有趣问题--高阶模型为什么效果不好
- 1.1.4 数据集规模对模型的影响
- 1.1.5 参数正则化缓解过拟合问题
1.2 概率论
- 1.2.1离散型随机变量
- 1.2.2 连续型随机变量
- 1.2.3 期望和方差
- 1.2.4 贝叶斯概率
- 1.2.5 单高斯分布参数的最大似然估计
- 1.2.6 重新考虑曲线拟合问题--MLE,MAP
- 1.2.7 贝叶斯曲线拟合

模式识别领域希望利用个计算机算法自动发现数据中的规律，然后依据这些规律采取一些行动。模式识别的关键是获得反映数据规律的模型。

泛化能力(generalization)–不同于机理建模需要大量的专业知识，机器学习建模过程中使用（大规模）训练集(training set)来调节模型参数，测试集(test set)测试模型性能，反映模型的泛化能力（书中说的是–正确分类于训练集不同的新样本的能力）。

特征抽取(feature extract)–在实际应用中，原始数据的量化向量（图像-像素值向量，音频-波形向量）通常需要预处理(pre-processed)，变换到新的变量空间中。

预处理可以过滤一些无关的特干扰（大小，角度，光亮…侧面模型能力还远远不足，人对这些干扰的鲁棒性强的多）;
预处理抽取有用特征，降低输入数据纬度，加快计算速度
预处理会滤掉有效信息，使系统整体精度下降
测试集数据必须采取和训练集一致的方法进行预处理

模式识别主要研究内容：

有监督学习–分类问题，回归问题
无监督学习–聚类、密度估计、降维
强化学习–在给定条件下，找到合适的动作，使得累计奖励最大

本章主要包括：一个demo，三个重要工具–概率论、决策论、信息论

1.1 多项式曲线拟合

1.1.1 问题描述

问题描述：观测到一个输入变量x（实数），希望能够预测目标变量t（实数）的值。

给定 x 和 t 的N次观测作为训练集，自变量集合记作 $x≡(x1,x2,...,xN)T\bm{x}\equiv(x_1,x_2,...,x_N)^T$ ，对应的目标标量集合记作 $t≡(t1,t2...,tN)T\bm{t}\equiv(t_1,t_2...,t_N)^T$ 。

目标变量 t 的特点：拥有一个内在规律t = f(x)，这个规律是我们想要探索的。但是目标变量的观测值被随机噪声干扰。

图1.2

目标：利用训练集，建模自变量和因变量之间的内在规律，实现预测新的输入变量 $x^\hat{x}$ 对应的目标变量 $t^\hat{t}$ 的值。

对于实现这个目标，概率论提供了以精确的形式描述（目标变量）不确定性的解题框架；决策论提供合适的标准用于最优决策（采取下一步的应对措施）。

1.1.2 最小化平方和误差

下面先介绍一种（通用？习惯性）做法 – 采用M阶多项式函数拟合数据：
$y(x,w)=w0+w1x+w2x2+...+wMxM=∑j=0Mwjxj(1.1)y(x,\bm{w}) = w_0 + w_1x +w_2x^2+...+w_Mx^M=\sum_{j=0}^Mw_jx^j\tag{1.1}$

其中：多项式系数 ${w_0,w_1,...,w_M\}$ 记作 $w\bm{w}$ 。 key point: 虽然 $y(x,w)y(x,\bm{w})$ 是 $x$ 的非线性函数，却是系数的 $w\bm{w}$ 的线性函数。这一类关于未知参数满足线性关系的函数，被叫做 线性模型，有重要的性质，将在第三章第四章展开讨论。

我们需要调整 $y(x,w)y(x,\bm{w})$ 的参数，找到使 $y(x,w)y(x,\bm{w})$ 与对应的 $t\bm{t}$ 之间的差距最小的参数组合。常用的做法为构造一个衡量差距度量函数，该差距度量函数为w的函数；通过梯度下降法最小化该差距度量函数，得到最优的参数组合。差距度量函数常被称作误差函数(error function), 在拟合问题中可以使用平方误差函数（1/2是为了计算方便加入的）：
$E(w)=12∑n=1N{y(xn,w)−tn}2(1.2)E(\bm{w})=\frac{1}{2}\sum_{n=1}^N\{y(x_n,\bm{w})-t_n\}^2\tag{1.2}$

其实还有许多函数也能作为误差函数用于衡量模型输出与目标值之间的差距，这类函数有两个特点：
（1）非负
（2）当且仅当模型输出与目标值相同时，误差函数取得最小值为0.

求解 $w\bm{w}$ : $E(w)E(\bm{w})$ 为 $w\bm{w}$ 的二次函数，所以存在唯一的最小值解。可以通过对 $w\bm{w}$ 的各个分量求导，另梯度为0，解方程组得到最优的解 $w∗\bm{w^*}$ ，最终多项式函数由 $y(x,w∗)y(x,\bm{w^*})$ 给出。

1.1.3 多项式阶数确定

问题解决了么？没有！不同的M必定得到不同的多项式函数，这多项式的阶数M该怎么确定呢？图1.4展示了四种不同阶数的拟合曲线（红色）：当M较小时(M=1,2)模型无法准确表示观测数据规律，欠拟合现象发生；当M较大时（M=9），模型曲线可以完美适配所有训练数据点，但是震荡现象太明显，将无法准确预测新数据的值，过拟合现象发生。图1.4

如何选择合适的M涉及到模型选择(model selection)/模型对比(model comaprison)的问题。通过不同M对应的模型在测试集上的性能指标完成模型选择。性能指标推荐使用根均方误差，其中去除了样本规模（N）、量纲的影响。
$ERMS=2E(w∗)/N(1.3)E_{RMS} = \sqrt{2E(\bm{w^*})/N}\tag{1.3}$

图1.5 为不同的M对应的训练集和测试集合根均方误差折线图，选择测试集合误差小且M小的M，即最优的M=3。

1.1.4 有趣问题–高阶模型为什么效果不好

考虑一个有趣问题： 直觉高阶数的多项式包含了低阶数的多项式（多出来的系数置为0即可），那么M = 9的多项式至少能产生和 M = 3 的多项式一样好的结果才对，可是结果却与直觉相反，问题出在哪里？
观察到的现象是：M越大时，最优解对应的系数也会较大。（书中描述，不甚理解）：更大的M使得模型被过渡调参，使得多项式被调节成与噪声相符的模型。

1.1.4 数据集规模对模型的影响

给定M，训练数据集规模越大，过拟合现象越不明显。也就是说，数据集规模越大，能够用来拟合的模型就越复杂。一个粗略的启示：数据数量不应该 < 模型可以调节参数的若干倍（5/10倍）。但是实际上很多参数都是不必要的。

问题在哪？以上启示使得我们需要依据数据集来确定模型的复杂度，但是更加合理的方式应该是：依据待解决问题的复杂性来确定模型复杂度。

在1.2.3中将看到最小化平方误差拟合实际是最大似然(Max likelihood)的一种特例，而过拟合问题是最大似然的通用属性。而使用**贝叶斯(Bayesan)**可以避免过拟合问题，（模型参数超过训练数据的情形并不难解）==（书中描述，不甚理解）==在贝叶斯模型中，参数的有效数量会自动依据数据集规模调节。

1.1.5 参数正则化缓解过拟合问题

正则化(regularization)–给目标函数增加参数w惩罚项，限制参数w的大小。惩罚项可以使用参数的一范数（减少参数数量），二范数（限制参数大小）。二范数和平方和是等价的（书中此处用平方和），加了正则想的误差函数为：
$E~(w)=12∑n=1N{y(xn,w)−tn}2+λ2∣∣w∣∣2(1.4)\tilde{E}(\bm{w})=\frac{1}{2}\sum_{n=1}^N\{y(x_n,\bm{w})-t_n\}^2+\frac{\lambda}{2}||\bm{w}||^2\tag{1.4}$

其中： $∣∣w∣∣2=wTw||\bm{w}||^2=\bm{w}^T\bm{w}$ ， $λ\lambda$ 为这则化系数，又是需要通过验证集来确定其大小（1.4）式也可用解析的形式求解最小值。相关技术在神经网络中叫权值衰减(weight decay)，==（书中描述，不甚理解）==在统计学中叫收缩(shrinkage)，二次正则项的一个特殊情况叫山脊回归(ride regresion).

1.2 概率论

不确定性是模式识别领域的一个关键概念，概率论提供了一个合理的框架，用来描述、量化、计算不确定性；结合决策论，使我们能够依据所提供的信息作出最优决策。

1.2.1离散型随机变量

demo1:盒子抽球
假设我们有红蓝两个盒子，红盒子中有2个苹果和6个橘子，蓝盒子中有3个苹果和1个橘子。每次随机选择一个盒子，然后再从该盒子中随机抽一个水果论；观察是什么水果后放回盒中。

在概率论中: 每次选的盒子的颜色是一个随机变量，记作B，这个随机变量的实际取之为红®或者蓝(b); 盒子中水果的种类也是一个随机变量，记作F，这个随机变量的取之为苹果(a)或者橘子(o).

由这个概率demo引发的问题：选择苹果的整体概率是多少？如果取出的是橘子，那么这个橘子来自蓝色盒子的概率是多少？

要解决这些问题，需要找我概率论的两个基本规则：加和规则(sum rule)、乘积规则(product relu)，以下使用更为一般的符号系统。

假定有两个随机变量X、Y；其中X的可能取值为 ${x_i|i=1,2,...,M\}$ ；Y的可能取值为 ${x=y_j|j=1,2,...,L\}$ 。从X与Y的集合中随机的选取一个取值构成一次随机实验，重复N次随机实验。将 $X=x_i\ and\ Y=y_j$ 出现的次数记为 $n_{i,j}$ ；将 $X=x_i$ 出现的次数记为 $c_i$ ；将 $Y=y_j$ 出现的次数记为 $r_j$ 。（依据概率论基础, 不严谨叙述，概率频率，不难得出）

联合概率(joint probability - - $X=x_i\ and\ Y=y_j$ 两者同时出现的概率(joint probability) $p(X=x_i,Y=y_j)$ 为：
$p(X=xi,Y=yj)=nijN(1.5)p(X=x_i,Y=y_j)=\frac{n_{ij}}{N}\tag{1.5}$

加和规则，得到各个随机变量的边缘概率(marginal probability)：
$p(X=xi)=ciN=∑j=1Lp(X=xi,Y=yj)(1.7)p(X=x_i)=\frac{c_i}{N}=\sum_{j=1}^Lp(X=x_i,Y=y_j)\tag{1.7}$

条件概率 - - 给定 $X=x_i$ 条件下， $Y=y_j$ 的概率：
$p(Y=yi∣X=xi)=nijci(1.8)p(Y=y_i|X=x_i)=\frac{n_{ij}}{c_i}\tag{1.8}$

乘积规则：由边缘概率和条件概率得到联合概率：
$p(X=x_i,Y=y_j) = p(Y=y_i|X=x_i)p(X=x_j)$

符号规定： $p (B)$ 表示随机变量B的分布， $p (r)$ 随机变量B取特定的值 $r$ 时的估计。重写加和规则和乘积规则(PRML一书所有概率推导的基础)：
$p(X)=∑Yp(X,Y)(1.10)p(X)=\sum_Yp(X,Y)\tag{1.10}$

$p(X,Y)=p(Y∣X)p(X)(1.11)p(X,Y)=p(Y|X)p(X)\tag{1.11}$

贝叶斯定理(Bayes’ theorem)–在模式识别和机器学习中扮演着中心角色（实现条件转换）
$p(Y∣X)=p(X∣Y)p(Y)p(X)(1.12)p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)}\tag{1.12}$

分母可以写为加和规则的展开，那么就完全转换为条件Y了。

先验概率：在没有观测到取出的水果是啥时，红盒子和蓝盒子被选中的先验概率(prior probability)分别是 $(410,610)(\frac{4}{10},\frac{6}{10})$ 。
后验概率：假定已经观察到了取出的水果是橘子，那么红盒子和蓝盒子被选中的后验概率(posterior probability)分别是 $(23,13)(\frac{2}{3},\frac{1}{3})$ 。

两个随机变量相互独立：联合分布可以分解成边缘分布的乘积，只能定性的理解一个变量对另一个变量的取值并没有影响（没有关系随机变量的分布就不能画在同一个直角坐标系下，但是联合概率密度是可以画在X和Y为轴的坐标系中）。
$p (X, Y) = p (X) p (Y)$

1.2.2 连续型随机变量

概率密度(probability density): 如果一维实值随机变量x在区间 $x+\delta x)$ 的概率用 $p(x)δxp(x)\delta x$ 表示，那么 $p (x)$ 就叫做x的概率密度。

x在区间(a, b)上的概率：
$p(x∈(a,b))=∫abp(x)dx(1.24)p(x\in(a,b))=\int_a^bp(x)dx\tag{1.24}$

概率密度的两大性质：
$p(x)>0(1.25)p(x)>0\tag{1.25}$

$∫−∞∞p(x)dx=1(1.26)\int_{-\infty}^{\infty}p(x)dx=1\tag{1.26}$

随机变量函数变换（与通常的表示习惯相反）： $x = g (y)$ ，如果有函数f(x)，那么 $f^(y)=f(g(y))\hat{f}(y)=f(g(y))$ 。如果x 的概率密度用 $p_x{x}$ 表示，那么y的概率密度 $p_y(y)$ 可以表示为：[存在一个同伦关系 $px(x)δx≃py(y)δyp_x(x)\delta x\simeq p_y(y)\delta y$ ,式子的左边可以连续变换到右边]
$py(y)=px(x)∣dxdy∣=px(g(y))∣g′(y)∣p_y(y)=p_x(x)|\frac{dx}{dy}|=p_x(g(y))|g'(y)|$

累计分布函数(cumulative distribution function)–又叫概率分布函数[有点像变上限积分函数]。
$P(z)=∫−∞zp(x)dx(1.28)P(z)=\int_{-\infty}^zp(x)dx \tag{1.28}$

累计分布函数的导数就是概率密度： $P^{'} (x) = p (x)$

向量 $x=[x1,x2,...,xD]\bm{x}=[x_1,x_2,...,x_D]$ 的规律类比于一维度 $p(x)=p(x1,x2,...,xD)p(\bm{x})=p(x_1,x_2,...,x_D)$ 。

概率质量函数(probability mass function)：离散随机变量的p(x)，可以看作集中在合法的x值处的“概率质量”的集合。

连续型随机变量的概率加和规则和乘积规则：
$p(x)=∫p(x,y)dy(1.31)p(x)=\int p(x,y)dy \tag{1.31}$

$\tag{1.32}$

1.2.3 期望和方差

期望(expectation) : 函数 $f (x)$ 对于随机变量x的均值。离散型随机变量和连续型随机变量的期望分别定义为：
$E[f]=∑xp(x)f(x)(1.33)\mathbb{E}[f]=\sum_{x}p(x)f(x)\tag{1.33}$

$E[f]=∫p(x)f(x)dx(1.34)\mathbb{E}[f] = \int p(x)f(x)dx\tag{1.34}$

在实际应用中，用样本均值来近似样本的期望：
$E[f]≈1N∑n=1Nf(xn)(1.35)\mathbb{E}[f]\approx \frac{1}{N}\sum_{n=1}^Nf(x_n)\tag{1.35}$

方差(variance)：随机变量在均值附近的离散程度，定义为：
$var[f]=E[(f(x)−E[f(x)])2]var[f]=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])^2]$

将中间的平方项展开可以转化为：
$var[f]=E[f(x)2]−E[f(x)]2(1.39)var[f]=\mathbb{E}[f(x)^2]-\mathbb{E}[f(x)]^2\tag{1.39}$

协方差(covariance):描述两个随机变量x,y之间有多大程度会共同变化，定义为：
$KaTeX parse error: Expected 'EOF', got '}' at position 124: …E}[y]\tag{1.42}}̲$

1.2.4 贝叶斯概率

频率学家：利于用随机重复事件发生的频率来考察概率，数据集合可重复，参数是确定的。常用最大似然来计算w。
贝叶斯观点：定量描述不确定性，依据少量新的证据修正不确定性，数据集合只有一个，参数具有不确定性

回顾水果盒子：利用贝叶斯定理，通过观察到的水果类型，将选择盒子的先验概率转化为后验概率。

在对模型参数w进行推断时，在观测到数据之前，我们有关于w的一些假设，以先验概率 $p (w)$ 的形式给出。观测数据集 $D={t1,t2,...,tN}\mathcal{D}=\{t_1, t_2,...,t_N\}$ 的效果可以通过条件概率 $p(D∣w)p(\mathcal{D}|w)$ 表示，此时观测数据集合利用贝叶斯定理修正模型参数：
$p(w∣D)=P(D∣w)∗p(w)p(D)(1.43)p(w|\mathcal{D})=\frac{P(\mathcal{D}|w)*p(w)}{p(\mathcal{D})}\tag{1.43}$

其中 $p(D∣w)p(\mathcal{D|w})$ 在 $w$ 已知的情况下依据具体观测数据集计算，被称作似然函数。表示在不同 $w$ 条件下，观测数据出现的可能性。移项，两端对w积分可以得到 $p(D)p(\mathcal{D})$ 。

贝叶斯定理的自然语言描述方式：
$\propto likelihood \times prior$

扔硬币3次朝上的例子：
概率学家：未来所有的投掷都会是正面朝上–极端结论
贝叶斯观点：依据新的观察来纠正现有的结论–严重依赖先验假设。

贝叶斯框架源于18世纪，但是近来才被重视。主要困难：执行完整的贝叶斯步骤，需要在整个参数空间求和或者求期望。

1.2.5 单高斯分布参数的最大似然估计

高斯分布/正态分布：一元实值随机变量x服从高斯分布，其概率密度可以写为：
$N(x∣μ,σ2)=1(2πσ2)12exp⁡{−12σ2(x−μ)2}\mathcal{N}(x|\mu,\sigma^2)=\frac{1}{(2\pi\sigma^2)^{\frac{1}{2}}}\exp\{-\frac{1}{2\sigma^2}(x-\mu)^2\}$

随机变量x的N次独立观测构成数据集合 $x_1,x_2,...,x_N)$ 。各个数据独立同分布，相互独立的两个事件的联合概率可以由边缘概率的乘积得到，那么抽取到该数据集的概率为(似然函数)：
$p(x1,x2,...,xN∣μ,σ)=∏n=1NN(xn∣μ,σ2)p(x_1,x_2,...,x_N|\mu,\sigma)=\prod_{n=1}^N\mathcal{N}(x_n|\mu,\sigma^2)$

有两种说法

给定数据集下最大化概率的参数–（最大化参数才不自然吧）
给定参数的情况下，最大化数据集出现的概率–（最大化概率才自然吧）

最大化对数似然函数（对应参数求导，令其等于零）来求解 $μ,σ\mu,\sigma$ –对数似然可以简化计算和避免小概率乘积下溢。

均值与方差的最大似然解为：
$μML=1N∑n=1Nxn\mu_{ML}=\frac{1}{N}\sum_{n=1}^Nx_n$

$σML=1N∑n=1N(xn−μML)2\sigma_{ML}=\frac{1}{N}\sum_{n=1}^N(x_n-\mu_{ML})^2$

对以上最大似然解求期望，可得到 $μML\mu_{ML}$ 为无偏估计， $σML2\sigma^2_{ML}$ 为有偏差估计。修正 $σML2\sigma^2_{ML}$ 为无偏估计量，有：
$σ^2=1N−1∑n=1N(xn−μML)2\hat{\sigma}^2=\frac{1}{N-1}\sum_{n=1}^N(x_n-\mu _{ML})^2$