envi最大似然分类_闲谈最大后验概率估计（MAP estimate）amp;极大似然估计（MLE）和机器学习中的误差分类...

上一篇文章中提到了一个有趣的实验，简单来说就是1-100中有若干个数字是“正确的”，只告诉其中一部分“正确的”数字，去猜全部“正确的”数字。

为了严谨的去研究这个问题，我们需要将一些概念进行抽象。首先，把提前告知的其中一部分“正确的”数字定义为样本

，全部“正确的”数字定义为假设

，我们想要做的就是在给定样本下找到最适合的假设。

这里需要说明一点，由以上定义容易发现

，但是为了一般性，暂时不做

的假设。

有了前面这些准备，我们就可以给出likelihood的定义：

，即给定假设下样本发生的概率。对于离散化的问题，如前面提到的那个实验，公式还可进一步写成：

，

为样本数。为了引入极大似然估计这个概念，我们需要提前约定包含所有假设

的假设空间为

。

所以，极大似然估计（MLE）就是在

中找到一个

使得likelihood达到最大，公式写成

。MIT教授Joshua Brett Tenenbaum称之为size principle，它意味着模型会倾向于更简单（在这里就是

所含元素更少）的假设。

但是，这种结果在机器学习中却不是令人满意的。譬如说如果

，很明显，

是

的MLE，但是实际上他是没有意义的，因为它不具有泛化性，即无法预测未知的数据。换句话说，它其实根本没有进行训练。

因此，我们需要定义prior。仍然令

，我们可以做出很多假设，譬如

，或者

。可以发现，

比

有更高的likelihood，但是我们不愿意接受

，这是因为在我们心中的假设空间中，

比

的可能性低的多。

所以，prior的定义就是假设在假设空间的概率

。不过，这种定义实际上是很主观的，譬如一个小孩和一个数学教授不仅假设空间不同，他们的prior也会不同。但是为了方便处理，我们一般令他们的假设空间相同，但是改变其中的prior。譬如说对于advance的假设，小孩的prior就是0，数学教授的prior可能就会稍微高一些。

有了likelihood和prior，我们可以去定义后验概率（posteriori probability）

。先给出公式：

，有些朋友会发现这其实就是贝叶斯公式。顾名思义，

最大后验概率估计（MAP estimate）就是找到一个假设

，使得后验概率取到最大值。

我们可以发现，如果

是均匀分布，那么后验概率和likelihood是成正比的，这时的MLE就等价于MAP estimate。

但是真实情况往往不是这样，

的分布是多种多样的，不过如果我们的样本量N趋于无穷，我们仍然可以得到很好的结论，下面来证明这一点。

由于

的分母是常数，所以MAP estimate也可写成如下公式：

，而

，所以

是关于N线性上升的，而

是常数，若同除以

，因为

与

无关，所以不会影响

，但是

会趋于0当

趋于无穷。而

，所以也就是说，当我们有足够多的样本，prior的作用就可以忽略不计。在这种情况下，MAP estimate会收敛于MLE。

最后想谈一谈误差分类

我们不可能会产生一个精确的模型，我们产生的模型往往是含有噪音的，这些噪音可能来自：

模型并不是真实数据产生的模型
采样本身也是有噪音的
等等

我们也会非常关心：

这些噪音随着采样是以什么尺度下降的
随着神经元数目增加，我的模型可以把误差下降到多小
训练误差和测试误差
应该选择什么优化方式
等等

有很多很多的误差，我们需要对误差分类（error decomposition）

逼近误差（Approximation error）

它衡量了我的模型能最好逼近真实模型到什么程度（譬如说用分片线性函数去拟合非线性函数）。但是要注意，这种逼近是不计成本的，也就是说，在不计一切代价的情况下，如果目标是

，我们可以最佳逼近到

。但实际上不计一切成本是不可能的。

在八十年代末九十年代初，最杰出的结论就是universal approximation theorem（万有逼近原理）。这个结论是说，即使只有一个隐藏层(只要够宽)，都可以把神经网络拟合的很好。当然，激活函数不可以是仿射函数，要不然连最普通的XOR问题都解决不了。

2. 泛化误差（Generalization error)

它衡量了我可以通过数据集得到的最好的模型

和

的距离。

泛化即推广能力。举个例子，给出一系列数据点，我们可以找到一条函数将数据点拟合。那么这条函数在我没有见过的数据点的预测能力和表现性能就叫做泛化能力。

泛化误差是我们很关心的误差，因为理论上已经证明了，

可以几乎等于我们的目标函数

，所以我们泛化误差可以就认为是

与

的误差

3. 优化误差（Optimization error）

它衡量了我可以通过数据集和某一种优化算法得到的最好的模型

和

的举例距离。

所以最终我们可以得到一个等式

，直观图如下：

参考：

Machine Learning_A Probabilistic Perspective[Murphy 2012-08-24]
bilibili：数学学院本科课程：统计计算与机器学习1

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/335863.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

envi最大似然分类_闲谈最大后验概率估计（MAP estimate）amp;极大似然估计（MLE）和机器学习中的误差分类...

相关文章

各种排序算法思想

ios点击大头针气泡不弹出_iOS高德地图之自定义大头针and泡泡view

数据结构【单调栈】

java名 java_Java Syncrhonisers

leetcode(二分查找算法专题)

html 完全复制div中的内容_LOL手游现在远非完全体，未来还有哪些端游内容会加入手游中？...

因此，Oracle杀死了java.net

【Python科学计算系列】概率论与数理统计

proc编译手册_Expect 手册中文版

光盘机密_使用保险柜管理机密

OS X下使用OpenGL做离屏渲染

jpa 循环引用_JPA中按身份引用

自然辩证法小论文选题_自然辨证法论文题目

Leetcode 14.最长公共前缀

aws lambda_带有API网关的AWS Lambda

git pull不同步_git回退版本，再返回最新分支git pull失败的解决经验

在ubuntu20.04上设置python2为默认方式

junit5 动态测试_JUnit 5 –动态测试

ioc spring 上机案例_通过实例解析Spring Ioc项目实现过程

C++ 11 深度学习（十）原始字面量