1.3 模型选择

模型过复杂会造成过拟合问题，需要通过一些技术来降低模型的复杂度。
就最大似然而言，可以增加一个惩罚项来补偿过于复杂的模型造成的过拟合问题。

赤池信息准则，使式1.73最大,M是模型中可调节参数的数量：
$lnp(D∣wML)−Mlnp(\mathcal{D}|\bm{w}_ML)-M$

1.73式？是一个变体，被称作贝叶斯信息准则，但是没有考虑模型参数的不确定性。

1.4 纬度灾难

一个三分类问题画格子分类。随着输入维度的增加会造成的问题：

单元格的数量会随输入空间维度的增加而增加
为了保证单元格不空，训练数据的量需要增加

高维空间中的直觉错误：
3. 高维空间中，一个球的体积大部分会聚集在表面附近薄球上
4. 在高纬空间中，高斯分布的概率质量会集中在某一半径的薄球上

1.5 决策论

决策论和概率论结合：能够在涉及不确定性的条件下作出最优决策。

例如：依据病人X光片，判断病人是否得了癌症，并依据判断给出是否需要治疗的决定。

概率论如何在决策时起作用

1.5.1最小错误分率

需要一个规则将不同的x分到合适的类别中，按照规则会把输入空间分成不同的决策区域 $Rk\mathcal{R}_k$ 。在 $Rk\mathcal{R}_k$ 中的点将被分为 $Ck\mathcal{C}_k$ 类。

考虑一维数轴上的两分类问题，错分概率为：
$p(mistake)=p(x∈R1,C2)+p(x∈R2,C1)=∫R1p(x,C2)dx+∫R2p(x,C1)dx(1.78)p(mistake)=p(x\in\mathcal{R}_1,\mathcal{C}_2)+p(x\in\mathcal{R}_2,\mathcal{C}_1)=\int_{\mathcal{R}_1}p(x,\mathcal{C}_2)dx + \int_{\mathcal{R}_2}p(x,\mathcal{C}_1)dx\tag{1.78}$

为了使(1.78)式最小，那么可以得到一个决策规则：如果 $p(x,C1)>p(x,C2)p(x,\mathcal{C}_1)>p(x, \mathcal{C}_2)$ 就将x划分为类别1。也等价于将x 分入到具有最大后验概率的类别中。

1.5.2最小化期望损失

实际引用中，目标远比最小化错误分类率更加复杂。

就癌症判断例子中每种错误分类所带来的决策损失是不同的：健康误判为有病–多了复查，有病误判为健康–错过最佳治疗时间。

损失函数(loss function) 也被称为代价函数(cost function):对所有可能的决策或者动作可能产生的损失的一种整体度量。目标是：最小化期望损失。

期望损失的计算：x属于 $Ck\mathcal{C}_k$ 类，我们将其划分为 $Cj\mathcal{C}_j$ 类，造成的损失为 $Lkj\mathcal{L}_{kj}$
$E[L]=∑k∑j∫RjLkjp(x,Ck)dx\mathbb{E}[L]=\sum_k\sum_j\int_{\mathcal{R}_j}L_{kj}p(x,\mathcal{C}_k)dx$

得出的结论还是需要：后验概率

1.5.3拒绝选项

在类别归属相对不确定的时候，避免作出决策是更合适的选择。这样会使模型的分类错误率降低，这被称为拒绝选项（reject option）。

癌症的例子：使用自动化系统来对几乎没有怀疑的X光片进行分类，把不易分类的留给人类专家。

一种简单的拒绝实现方式：引入一个阈值 $θ\theta$ ，拒绝后验概率 $p(Ck∣x)p(\mathcal{C}_k|x)$ 的最大值小于等 $θ\theta$ 的那些输入x。

1.5.4推断和决策

解决决策问题的三种方法：

推断类条件密度 $p(x∣Ck)p(x|\mathcal{C}_k)$ ,推断类先验概率密度 $p(Ck)p(\mathcal{C}_k)$ ,计算后验概率->决策（生成式模型）。
直接推断后验概率 $p(Ck∣x)p(\mathcal{C}_k|x)$ ->决策(判别式模型)。
找到一个判别函数 $f (x)$ ，直接把输入x映射到类别标签中。

三种方法各有优缺点。

1.5.5 回归问题的损失函数

回到曲线拟合问题：对于每一个输入x，对应目标值t的估计值为y(x), 造成的损失是L(t,y(x))，那么期望损失为：
$E[L]=∫∫L(t,y(x))p(x,t)dxdt\mathbb{E}[L]=\int\int L(t,y(x))p(x,t)dxdt$

L(t,y(x))常用平方损失函数– $L(t,y(x))=[y(x)-t]^2$ 。我们的目标是选择合适的y(x)来使 $E[L]\mathbb{E}[L]$ 最小化。形式变分法求解y(x)（不会求）：
$δE[L]δy(x)=2∫{y(x)−t}p(x,t)dt=0\frac{\delta\mathbb{E}[L]}{\delta y(x)}=2\int\{y(x)-t\}p(x,t)dt = 0$

使用概率的加和规则和乘积规则有(对上式子进行移项和相除操作得到)：
$y(x)=∫tp(x,t)dtp(x)=∫tp(t∣x)dt=Et[t∣x](1.89)y(x)=\frac{\int tp(x,t)dt}{p(x)}=\int tp(t|x)dt=\mathbb{E}_t[t|x]\tag{1.89}$

$Et[t∣x]\mathbb{E}_t[t|x]$ 符号迷惑，理解成 t 在给定x条件下的期望会更容易理解。 $Ep(t∣x)[t]\mathbb{E}_{p(t|x)}[t]$

所以y(x)最优解就是t的条件期望。

同样有三种方法来解决回归问题：

确定p(x,t),计算p(t|x)，依据1.89式进行积分
推断p(t|x),依据1.89式进行积分
直接通过数据找到回归函数模型y(x)

闵可夫斯基损失函数–平方损失函数的推广
$E[L]q=∫∫∣y(x)−t∣qp(x,t)dxdt\mathbb{E}[L]_q=\int\int|y(x)-t|^qp(x,t)dxdt$

1.6 信息论

信息量的概念：观察到一个离散型随机变量时，我们能获得多少信息？直觉上，低概率事件具有高信息量。寻找一个表达信息量的函数 $h(⋅)h(\cdot)$ 是p(x)的递减函数。且如果有两个不相关的事件x,y，观察到两个事件同时发生的信息量应该等于两件事各自发生时的概率，即 $h (x, y) = h (x) + h (y)$ ,两件不相关的事是统计独立的，因此有 $p (x, y) = p (x) p (y)$ 。容易得出h(x)与p(x)是对数关系。因此有（单个随机变量的信息量）：
$h(x)=-\log_2p(x)$

熵：传输随机变量x的平均信息量为：
$H[x]=−∑xp(x)log2p(x)H[x]=-\sum_xp(x)log_2p(x)$

非均匀分布的熵比均匀分布的熵要小。

无噪声编码定理：熵是传输一个随机变量状态值所需比特位的下界。

熵起源于物理学：N个物体放到若干个箱子中，所有的方案数构成乘数。乘数通过合适参数缩放对数乘数，且当 $N−>∞N->\infty$ 时，就可以得到自然对数熵的定义。

离散型随机变量的熵特性：
熵是非负数；熵的最小值为0；利用概率归一化约束，使用拉格朗日乘子法找到熵的最大值为所有的值都相等，且等于 $1M\frac{1}{M}$ 时，熵值最大。M为 $x_i$ 的状态总数。

熵的概念从离散型随机变量扩展到连续型随机变量：将连续型随机变量离散化，然后让 $Δ−>0\Delta->0$ ，得到微分熵的概念：
$−∫p(x)ln⁡p(x)dx-\int p(x)\ln p(x) dx$
熵的离散形式和连续形式相差一个 $ln⁡Δ\ln \Delta$ 在 $Δ−>0\Delta->0$ 的情况下是发散的。反映一个重要的事实：具体化一个连续型随机变量需要大量的比特位。

连续型随机变量的熵特性：
最大化微分熵的分布是高斯分布，最大的熵值还由分布的方差决定。随着方差的增大而增大（越平越大的趋势还是在的）
$H[x]=12{1+ln⁡(2πσ2)}H[x]=\frac{1}{2}\{1+\ln(2\pi\sigma ^2)\}$
微分熵可以为负数。

条件熵：

**KL散度：**目标分布 $p (x)$ ，近似分布 $q(x∣θ)q(x|\theta)$ –平均附加信息量,比原来的信息量多出来的信息量。KL散度不是一个对称量。
$KL(p∣∣q)=−∫p(x)ln⁡{q(x)p(x)}dxKL(p||q)=-\int p(x)\ln\left\{\frac{q(x)}{p(x)}\right\}dx$

**凸函数：**弦在函数图像上,对应的函数的二阶导数为正。
$f(λa+(1−λ)b)<=λf(a)+(1−λ)f(b)f(\lambda a + (1-\lambda)b) <= \lambda f(a) + (1-\lambda)f(b)$

**凹函数：**弦在函数图像的下方，对应的二阶导数为负数
$f (x) = - f (x)$

利用Jensen 不等式+ $−ln⁡x-\ln x$ 函数是凸函数证明了KL散度非负数。因此可以将KL散度看作两分布之间不相似程度的度量。（解释性说明）

最大似然等价与最小化**目标分布 $p (x)$ ，近似分布 $q(x∣θ)q(x|\theta)$ 之间的KL散度。

**互信息：**获知一个随机变量的值后另一个随机变量不确定度减少的量。
$I (x, y) = H (x) - H (x ∣ y) = H (y) - H (y ∣ x)$

关键概念：
误差函数(error function)
泛化能力(generalization)
特征抽取(feature extract)
预处理(pre-processed)
模型选择(model selection)
模型对比(model comparison)
正则化(regularization)
权值衰减(weight decay)
收缩(shrinkage)
加和规则(sum rule)
乘积规则(product relu)