envi最大似然分类_闲谈最大后验概率估计(MAP estimate)amp;极大似然估计(MLE)和机器学习中的误差分类...

上一篇文章中提到了一个有趣的实验,简单来说就是1-100中有若干个数字是“正确的”,只告诉其中一部分“正确的”数字,去猜全部“正确的”数字。

为了严谨的去研究这个问题,我们需要将一些概念进行抽象。首先,把提前告知的其中一部分“正确的”数字定义为样本

,全部“正确的”数字定义为假设
,我们想要做的就是在给定样本下找到最适合的假设。

这里需要说明一点,由以上定义容易发现

,但是为了一般性,暂时不做
的假设。

有了前面这些准备,我们就可以给出likelihood的定义:

,即给定假设下样本发生的概率。对于离散化的问题,如前面提到的那个实验,公式还可进一步写成:
为样本数。为了引入极大似然估计这个概念,我们需要提前约定包含所有假设
的假设空间为

所以,极大似然估计(MLE)就是在

中找到一个
使得likelihood达到最大,公式写成
。MIT教授Joshua Brett Tenenbaum称之为size principle,它意味着模型会倾向于更简单(在这里就是
所含元素更少)的假设。

但是,这种结果在机器学习中却不是令人满意的。譬如说如果

,很明显,
的MLE,但是实际上他是没有意义的,因为它不具有泛化性,即无法预测未知的数据。换句话说,它其实根本没有进行训练。

因此,我们需要定义prior。仍然令

,我们可以做出很多假设,譬如
,或者
。可以发现,
有更高的likelihood,但是我们不愿意接受
,这是因为在我们心中的假设空间中,
的可能性低的多。

所以,prior的定义就是假设在假设空间的概率

。不过,这种定义实际上是很主观的,譬如一个小孩和一个数学教授不仅假设空间不同,他们的prior也会不同。但是为了方便处理,我们一般令他们的假设空间相同,但是改变其中的prior。譬如说对于advance的假设,小孩的prior就是0,数学教授的prior可能就会稍微高一些。

有了likelihood和prior,我们可以去定义后验概率(posteriori probability)

。先给出公式:
,有些朋友会发现这其实就是贝叶斯公式。顾名思义,
最大后验概率估计(MAP estimate)就是找到一个假设
,使得后验概率取到最大值。

我们可以发现,如果

是均匀分布,那么后验概率和likelihood是成正比的,这时的MLE就等价于MAP estimate。

但是真实情况往往不是这样,

的分布是多种多样的,不过如果我们的样本量N趋于无穷,我们仍然可以得到很好的结论,下面来证明这一点。

由于

的分母是常数,所以MAP estimate也可写成如下公式:
,而
,所以
是关于N线性上升的,而
是常数,若同除以
,因为
无关,所以不会影响
,但是
会趋于0当
趋于无穷。而
,所以也就是说,当我们有足够多的样本,prior的作用就可以忽略不计。在这种情况下,MAP estimate会收敛于MLE。

最后想谈一谈误差分类

我们不可能会产生一个精确的模型,我们产生的模型往往是含有噪音的,这些噪音可能来自:

  • 模型并不是真实数据产生的模型
  • 采样本身也是有噪音的
  • 等等

我们也会非常关心:

  • 这些噪音随着采样是以什么尺度下降的
  • 随着神经元数目增加,我的模型可以把误差下降到多小
  • 训练误差和测试误差
  • 应该选择什么优化方式
  • 等等

有很多很多的误差,我们需要对误差分类(error decomposition)

  1. 逼近误差(Approximation error)

它衡量了我的模型能最好逼近真实模型到什么程度(譬如说用分片线性函数去拟合非线性函数)。但是要注意,这种逼近是不计成本的,也就是说,在不计一切代价的情况下,如果目标是

,我们可以最佳逼近到
。但实际上不计一切成本是不可能的。

在八十年代末九十年代初,最杰出的结论就是universal approximation theorem(万有逼近原理)。这个结论是说,即使只有一个隐藏层(只要够宽),都可以把神经网络拟合的很好。当然,激活函数不可以是仿射函数,要不然连最普通的XOR问题都解决不了。

2. 泛化误差(Generalization error)

它衡量了我可以通过数据集得到的最好的模型

的距离。

泛化即推广能力。举个例子,给出一系列数据点,我们可以找到一条函数将数据点拟合。那么这条函数在我没有见过的数据点的预测能力和表现性能就叫做泛化能力。

泛化误差是我们很关心的误差,因为理论上已经证明了,

可以几乎等于我们的目标函数
,所以我们泛化误差可以就认为是
的误差

3. 优化误差(Optimization error)

它衡量了我可以通过数据集和某一种优化算法得到的最好的模型

的举例距离。

所以最终我们可以得到一个等式

,直观图如下:

a13f2f18cdd807dda2d6a99258448791.png

参考:

  1. Machine Learning_A Probabilistic Perspective[Murphy 2012-08-24]
  2. bilibili:数学学院本科课程:统计计算与机器学习1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/335863.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

html 完全复制div中的内容_LOL手游现在远非完全体,未来还有哪些端游内容会加入手游中?...

LOL手游上线已经有一段时间了,虽然绝大多数情况下LOL端游的内容被继承到了手游当中,但是仍然有一部分端游的内容尚未出现在手游之内。今天小编就带领大家来盘点一下,那些未来可能出现在手游当中的端游内容。排位赛ban选英雄机制Moba游戏排位赛…

光盘 机密_使用保险柜管理机密

光盘 机密您如何存储秘密? 密码,API密钥,安全令牌和机密数据属于秘密类别。 那是不应该存在的数据。 在容易猜测的位置,不得以纯文本格式提供。 实际上,不得在任何位置以明文形式存储它。 可以使用Spring Cloud Confi…

junit5 动态测试_JUnit 5 –动态测试

junit5 动态测试在定义测试时,JUnit 4有一个很大的弱点:它必须在编译时发生。 现在,JUnit 5将解决此问题! Milestone 1 刚刚发布 ,它带有全新的动态测试,可以在运行时创建测试。 总览 本系列中有关JUnit 5…

C++ 11 深度学习(十)原始字面量

你是否曾经为了各种json格式无法写入string中而烦恼,为了各种转义而烦恼。如下图 c11为我们带来了全新的解决方法 其新特性为使用. R"(xxxxxxxxxxxx)" ,此种形式可以使得以原有形式进行表现出来

交流伺服系统设计指南_交流设计

交流伺服系统设计指南软件设计至关重要。 它是应用程序的基础。 就像蓝图一样,它为所有背景的聚会提供了一个通用平台。 它有助于理解,协作和发展。 设计不应仅视为开发的要素。 它不应该仅仅存在于开发人员的脑海中,否则团队将发现它几乎无…

maven 父maven_Maven神秘化

maven 父maven由于我的Android开发的背景下,我比较习惯到Gradle ,而不是Maven的 。 尽管我知道Gradle基于Maven,但我从未调查过幕后发生的事情。 在过去的一周中,我一直在尝试了解细节并找出Maven的不同组成部分。 什么是Maven M…

【WebRTC---序篇】(一)为什么要使用WebRTC

1.1.1自研直播客户端架构 一个最简单的直播客户端至少应该包括音视频采集模块,音视频编码模块,网络传输模块,音视频解码模块和音视频渲染模块五大部分。如下图所示 1.1.2拆分音视频模块 在实际开发中,音频和视频处理完全是独立的。如下图所示,经过细分后,音频采集与视频…

DFS深搜与BFS广搜专题

一般搜索算法的流程框架 DFS和BFS与一般搜索流程的关系 如果一般搜索算法流程4使用的是stack栈结构(先进后出,后进先出)那么就会越搜越深。即,DFS,DFS只保存当前一条路径,其目的是枚举出所有可能性。反之,如果流程4使…

cloud foundry_使用“另类” Cloud Foundry Gradle插件无需停机

cloud foundry我一直在尝试编写用于将应用程序部署到Cloud Foundry的gradle插件 ,并在上一篇文章中写了有关此插件的文章 。 现在,我通过使用两种方法支持将无停机时间部署到Cloud Foundry中来增强此插件: 自动驾驶风格部署和更常用的蓝绿色风…

懒惰学习_懒惰评估

懒惰学习最近,我正在编写log4j附加程序,并希望在自定义附加程序创建过程中使用logger记录一些诊断详细信息,但是log4j初始化仅在创建附加程序实例后才完成,因此在此阶段记录的消息将被忽略。 我感到需要在自定义附加程序中进行延…

leetcode(动态规划专题)

线性DP 53. 最大子数组和 思路 code int maxSubArray(vector<int>& nums) {//res:最后所有状态的最终Max结果//lat:当前f[i]状态的Maxint res INT_MIN, last 0;for (int i 0; i < nums.size(); i){//当前f[i]状态最大值(使用下面的状态转移方程得出)//f[i] …

leetcode(链表专题)

数组模拟链表 #include<iostream> using namespace std;const int N 100; // 单链表 // head存储链表头&#xff0c;e[]存储节点的值&#xff0c;ne[]存储节点的next指针&#xff0c;idx表示当前用到了哪个节点 int head, e[N], ne[N], idx;// 初始化 void init() {hea…

lagom cqrs_Java和Lagom的CQRS

lagom cqrs我很高兴在Chicago Java User Group上进行了讨论&#xff0c;并讨论了Lagom如何实现CQRS&#xff08;命令查询责任隔离模式&#xff09;。 值得庆幸的是&#xff0c;有一个录音&#xff0c;我还把这些幻灯片发布在slideshare上 。 抽象&#xff1a; 一旦应用程序变…

【WebRTC---源码篇】(四)WebRTC线程模型

常见的线程模型 1.为了解决频繁线程创建与销毁,在此模型中使用的线程池。在线程池创建的时候就将一些线程创建起来,以提高效率。通过控制线程数量来解决线程频繁切换。 2.一般线程与线程存在前后关系的,线程执行完毕之后生成一个新的任务(task1 , task2,task3---)插入到任…

java cuba_CUBA平台–用于快速应用程序开发的开源Java框架

java cuba传统上&#xff0c;自计算时代开始以来&#xff0c;企业软件开发自然面临着一个挑战&#xff0c;当时自然而然地&#xff0c;企业软件开发本应专注于解决实际的业务问题&#xff0c;但与此同时&#xff0c;开发人员必须在技术上花费大量时间和精力。解决方案的一面&am…

java中什么时候应用异常_生产Java应用程序中的十大异常类型-基于1B事件

java中什么时候应用异常Pareto记录原理&#xff1a;97&#xff05;的记录错误语句是由3&#xff05;的唯一错误引起的 在最新的数据整理帖子之后&#xff0c;我们收到了很多反馈和问题&#xff0c;我们发现97&#xff05;的记录错误是由10个唯一错误引起的 。 根据大众的需求&…

C++ 11 深度学习(十四)C++类

(一)综述&#xff1a;类是我们自己定义的数据类型 设计时要考虑的角度&#xff1a; 站在设计和实现的角度来考虑&#xff1b;站在使用者的角度考虑&#xff1b;父类&#xff0c;子类之间的考虑&#xff1b; &#xff08;二&#xff09;explicit 首先, C中的explicit关键字只…

手动编译 lombok_Lombok,一种编译时Java注释预处理器,可最大程度地减少代码大小...

手动编译 lombok在本文中&#xff0c;我们将看到如何在常规Java代码中使用lombok来最大程度地减少代码长度和冗余。 什么是Lombok&#xff1f; Lombok&#xff0c;一个编译时注释预处理器&#xff0c;有助于在编译时注入一些代码。 在详细介绍之前&#xff0c;我要求您应该从…

mysql超大表处理方式是_第29问:MySQL 的复制心跳说它不想跳了

问题最近年底&#xff0c;大家的数据库经常跑批量大事务&#xff0c;会发现复制突然断开&#xff0c;报错“心跳与本地信息不兼容”&#xff1a;会是什么原因&#xff1f;实验我们先来复现一下&#xff0c;再进行分析。宽油&#xff0c;做一对主从数据库&#xff1a;我们先造一…

sap 分摊分配不产生会计凭证的原因_SAP软件的物料分类账功能

物料账介绍物料分类账(Material Ledger)是SAP财务模块的重要功能之一&#xff0c;用于对标准价计价的物料进行差异处理。激活ML后&#xff0c;系统会在"工厂物料"层(或更细的层次)为每个物料建立子账簿&#xff0c;记录该物料在各个期间的数量、价值变化情况。月底运…