envi最大似然分类_闲谈最大后验概率估计(MAP estimate)amp;极大似然估计(MLE)和机器学习中的误差分类...

上一篇文章中提到了一个有趣的实验,简单来说就是1-100中有若干个数字是“正确的”,只告诉其中一部分“正确的”数字,去猜全部“正确的”数字。

为了严谨的去研究这个问题,我们需要将一些概念进行抽象。首先,把提前告知的其中一部分“正确的”数字定义为样本

,全部“正确的”数字定义为假设
,我们想要做的就是在给定样本下找到最适合的假设。

这里需要说明一点,由以上定义容易发现

,但是为了一般性,暂时不做
的假设。

有了前面这些准备,我们就可以给出likelihood的定义:

,即给定假设下样本发生的概率。对于离散化的问题,如前面提到的那个实验,公式还可进一步写成:
为样本数。为了引入极大似然估计这个概念,我们需要提前约定包含所有假设
的假设空间为

所以,极大似然估计(MLE)就是在

中找到一个
使得likelihood达到最大,公式写成
。MIT教授Joshua Brett Tenenbaum称之为size principle,它意味着模型会倾向于更简单(在这里就是
所含元素更少)的假设。

但是,这种结果在机器学习中却不是令人满意的。譬如说如果

,很明显,
的MLE,但是实际上他是没有意义的,因为它不具有泛化性,即无法预测未知的数据。换句话说,它其实根本没有进行训练。

因此,我们需要定义prior。仍然令

,我们可以做出很多假设,譬如
,或者
。可以发现,
有更高的likelihood,但是我们不愿意接受
,这是因为在我们心中的假设空间中,
的可能性低的多。

所以,prior的定义就是假设在假设空间的概率

。不过,这种定义实际上是很主观的,譬如一个小孩和一个数学教授不仅假设空间不同,他们的prior也会不同。但是为了方便处理,我们一般令他们的假设空间相同,但是改变其中的prior。譬如说对于advance的假设,小孩的prior就是0,数学教授的prior可能就会稍微高一些。

有了likelihood和prior,我们可以去定义后验概率(posteriori probability)

。先给出公式:
,有些朋友会发现这其实就是贝叶斯公式。顾名思义,
最大后验概率估计(MAP estimate)就是找到一个假设
,使得后验概率取到最大值。

我们可以发现,如果

是均匀分布,那么后验概率和likelihood是成正比的,这时的MLE就等价于MAP estimate。

但是真实情况往往不是这样,

的分布是多种多样的,不过如果我们的样本量N趋于无穷,我们仍然可以得到很好的结论,下面来证明这一点。

由于

的分母是常数,所以MAP estimate也可写成如下公式:
,而
,所以
是关于N线性上升的,而
是常数,若同除以
,因为
无关,所以不会影响
,但是
会趋于0当
趋于无穷。而
,所以也就是说,当我们有足够多的样本,prior的作用就可以忽略不计。在这种情况下,MAP estimate会收敛于MLE。

最后想谈一谈误差分类

我们不可能会产生一个精确的模型,我们产生的模型往往是含有噪音的,这些噪音可能来自:

  • 模型并不是真实数据产生的模型
  • 采样本身也是有噪音的
  • 等等

我们也会非常关心:

  • 这些噪音随着采样是以什么尺度下降的
  • 随着神经元数目增加,我的模型可以把误差下降到多小
  • 训练误差和测试误差
  • 应该选择什么优化方式
  • 等等

有很多很多的误差,我们需要对误差分类(error decomposition)

  1. 逼近误差(Approximation error)

它衡量了我的模型能最好逼近真实模型到什么程度(譬如说用分片线性函数去拟合非线性函数)。但是要注意,这种逼近是不计成本的,也就是说,在不计一切代价的情况下,如果目标是

,我们可以最佳逼近到
。但实际上不计一切成本是不可能的。

在八十年代末九十年代初,最杰出的结论就是universal approximation theorem(万有逼近原理)。这个结论是说,即使只有一个隐藏层(只要够宽),都可以把神经网络拟合的很好。当然,激活函数不可以是仿射函数,要不然连最普通的XOR问题都解决不了。

2. 泛化误差(Generalization error)

它衡量了我可以通过数据集得到的最好的模型

的距离。

泛化即推广能力。举个例子,给出一系列数据点,我们可以找到一条函数将数据点拟合。那么这条函数在我没有见过的数据点的预测能力和表现性能就叫做泛化能力。

泛化误差是我们很关心的误差,因为理论上已经证明了,

可以几乎等于我们的目标函数
,所以我们泛化误差可以就认为是
的误差

3. 优化误差(Optimization error)

它衡量了我可以通过数据集和某一种优化算法得到的最好的模型

的举例距离。

所以最终我们可以得到一个等式

,直观图如下:

a13f2f18cdd807dda2d6a99258448791.png

参考:

  1. Machine Learning_A Probabilistic Perspective[Murphy 2012-08-24]
  2. bilibili:数学学院本科课程:统计计算与机器学习1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/335863.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

各种排序算法思想

快速排序 主要思想: 主要是基于分治。(分治解读) 基本步骤: 1.确定分界点x ,常用方式q[l] q[l r >> 1] , q[r] , 左右部分未必长度相等 2.根据分界点x调整区间,使得满足小于等于x的在左边,大于等于x的在右边 3.左右两端&#xf…

ios点击大头针气泡不弹出_iOS高德地图之自定义大头针and泡泡view

啥都不说先看效果图demoIMG_0270.PNG先来说说如何自定义大头针以及点击大头针时弹出的泡泡view一 : 自定义大头针新建CustomAnnotationView 继承自MAAnnotationView添加属性重写- (id)initWithAnnotation:(id)annotation reuseIdentifier:(NSString *)reuseIdentifier重写- (BO…

数据结构【单调栈】

详细解读 至此我们可以解答最开始的疑问,单调栈的根本作用在于求得「每一个数字在原始序列中左 / 右边第一个大于 / 小于它自身的数字」,并且由于每一个数字只会入栈一次且最多出栈一次,因此总的时间复杂度为 O ( n ) 。 另外需要注意&#…

java名 java_Java Syncrhonisers

java名 java线程通信主要通过共享对字段和对象的访问来发生。 尽管这种通信方式非常高效,但它易于出现诸如线程干扰和内存一致性之类的错误。 同步是一种有助于防止此类错误的工具。 但是,同步不是免费提供的,并且在访问当前由另一个线程持有…

leetcode(二分查找算法专题)

二分模板一共有两个,分别适用于不同情况。 算法思路:假设目标值在闭区间[l, r]中, 每次将区间长度缩小一半,当l r时,我们就找到了目标值。 * 其中mid需要在while内部进行更新 * 最小R,最大L , R来加&…

html 完全复制div中的内容_LOL手游现在远非完全体,未来还有哪些端游内容会加入手游中?...

LOL手游上线已经有一段时间了,虽然绝大多数情况下LOL端游的内容被继承到了手游当中,但是仍然有一部分端游的内容尚未出现在手游之内。今天小编就带领大家来盘点一下,那些未来可能出现在手游当中的端游内容。排位赛ban选英雄机制Moba游戏排位赛…

因此,Oracle杀死了java.net

好吧,还没有……但是他们宣布要在2017年5月之前关闭java.net和 kenai。JohnK . Waters 在ADTmag的Kenai和java.net的“ Sunset”一文中接受了我的采访。 由于Oracle很少提供有关已经托管在java.net上的关键项目会发生什么的信息,因此本文中编写的大部分…

【Python科学计算系列】概率论与数理统计

计算排列数 def arrangement(n, m):if n m:return math.factorial(n)else:return math.factorial(n) / math.factorial(n - m) 计算组合数 def arrangement(n, m):return math.factorial(n) / (math.factorial(m) * math.factorial(n - m))

proc编译手册_Expect 手册 中文版

Expect 手册 中文版本文由gunman翻译,在此感谢~EXPECT(1)名字:Expect-----能与交互式程序进行“可程序化”会话的脚本语言大纲:(命令选项概述)expect [ -dDinN ] [ -c cmds ] [ -[f|b] ] cmdfile ] [ args ]概述:Expec…

光盘 机密_使用保险柜管理机密

光盘 机密您如何存储秘密? 密码,API密钥,安全令牌和机密数据属于秘密类别。 那是不应该存在的数据。 在容易猜测的位置,不得以纯文本格式提供。 实际上,不得在任何位置以明文形式存储它。 可以使用Spring Cloud Confi…

OS X下使用OpenGL做离屏渲染

本文为转载内容,原地址 有时,我们想通过GPU做一些视频、图像处理,而处理的结果不需要显示在显示器上,而是直接交给主存,这时候我们可以通过OpenGL的离屏渲染来实现。 由于我们不需要将渲染好的像素显示到屏幕上&…

jpa 循环引用_JPA中按身份引用

jpa 循环引用在上一篇文章中 ,我提到我选择通过其主键而不是类型来引用其他聚合。 在处理大型或复杂域模型时,我通常使用这种方法(也称为断开域模型)。 在本文中,让我尝试进一步解释如何在JPA中完成它。 请注意&#x…

自然辩证法小论文选题_自然辨证法论文题目

与《自然辨证法论文题目》相关的范文2010年研究生课程论文 成绩: 题目:_中西医结合的发展前景_ _ 中西医结合的发展前景 [摘要]立足于中西医结合的现状,从方法论角度,就中西医融合的时间进行了探讨.中西医结合,是在我国既有传统的中医药学,又有现代的西医药学的特定环境和条件下…

Leetcode 14.最长公共前缀

原题链接 解题思路: 1.本题使用模拟法 2.取第一个字符串的首元素,与剩余字符串对应位置相比较,如果全部相等将此字符加入结果中,继续到下一个字符一次比较,直至出现不相同的位置,返回结果。 3.需要注意每个字符串是…

aws lambda_带有API网关的AWS Lambda

aws lambda在上一篇文章中,我向您展示了如何创建和部署AWS Lambda。 我们将继续这项工作,并只考虑更新该lambda的代码。 我们还将使用AWS API Gateway将REST端点添加到AWS Lambda。 因此,在继续之前……(如果还没有)&…

git pull不同步_git回退版本,再返回最新分支git pull失败的解决经验

本文转载自【微信公众号:羽林君,ID:Conscience_Remains】总述一篇解决gti分支切换问题的文章,大家应该都有过这种情况,就是git最新的代码进行编译的时候,发现最新代码有bug,有些不确认问题点&am…

junit5 动态测试_JUnit 5 –动态测试

junit5 动态测试在定义测试时,JUnit 4有一个很大的弱点:它必须在编译时发生。 现在,JUnit 5将解决此问题! Milestone 1 刚刚发布 ,它带有全新的动态测试,可以在运行时创建测试。 总览 本系列中有关JUnit 5…

ioc spring 上机案例_通过实例解析Spring Ioc项目实现过程

0. Ioc主要是实现一个控制反转,耦合性大大降低。1. 建maven项目建立一个空的maven项目,然后pom.xml添加spring-context的依赖:org.springframeworkspring-context5.2.7.RELEASE2. 创建pojo java对象package com.aca;public class Hello {private String …

C++ 11 深度学习(十)原始字面量

你是否曾经为了各种json格式无法写入string中而烦恼,为了各种转义而烦恼。如下图 c11为我们带来了全新的解决方法 其新特性为使用. R"(xxxxxxxxxxxx)" ,此种形式可以使得以原有形式进行表现出来