【bayes】贝叶斯likelihood和model

1)Likelihood

最大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。

简单而言,假设我们要统计全国人口的身高,首先假设这个身高服从
服从正态分布,但是该分布的均值与方差未知。我们没有人力与物力去统计全国每个人的身高,但是可以通过采样,获取部分人的身高,然后通过最大似然估计来获
取上述假设中的正态分布的均值与方差。

    最大似然估计中采样需满足一个很重要的假设,就是所有的采样都是独立同分布的。

下面我们具体描述一下最大似然估计:

    首先,假设为独立同分布的采样,θ为模型参数,f为我们所使用的模型,遵循我们上述的独立同分布假设。参数为θ的模型f产生上述采样可表示为

       

回到上面的“模型已定,参数未知”的说法,此时,我们已知的为,未知为θ,故似然定义为:

   

  在实际应用中常用的是两边取对数,得到公式如下:

    

  其中称为对数似然,而称为平均对数似然。而我们平时所称的最大似然为最大的对数平均似然,即:

   

 

由上可知最大似然估计的一般求解过程:

  (1) 写出似然函数;

  (2) 对似然函数取对数,并整理;

  (3) 求导数 ;

  (4) 解似然方程

 

Likelihood函数选择

对于 同一个模型,likelihood函数可能有不同的选择,对于这些选择,可能有些比较精确、但是会搜索非常大的空间,可能有些比较粗糙,但是速度会比较 快,我们需要选择不同的likelihood函数来计算后验概率。对于这些Likelihood函数,可能还需要加上一些平滑等技巧来使得最大的降低数据 中噪声、或者假设的缺陷对结果的影响。

我所理解的用贝叶斯的方法来估计给定数据的假设的后验概率,就是通过prior * likelihood,变换到后验分布。是一个分布变换的过程。

3) loss function(损失函数)

 clip_image003

   x是输入的数据,y(x)是推测出的结果的模型,t是x对应的真实结果,L(t,y(x))就是loss function,E[L]表示使用模型y进行预测,使用L作为损失函数的情况下,模型的损失时多少。通常来说,衡量一个模型是否能够准确的得到结果,损 失函数是最有效的一个办法,最常用、最简单的一种损失函数是:

 clip_image004

不过我一直不知道为什么这里用的平方,而不是直接用绝对值,有详细一点的解释吗?:-p

4) Model Selection(模型选择)

前 文说到了对于likelihood函数可以有不同的选择,对于先验的概率也可以有不同的选择,不过假设我们一个构造完整的测试集和一个恰当的损失函数,最 终的结果将会是确定的,量化的,我们很容易得到两个不同参数、方法的模型的优劣性。不过通常情况下,我们的测试集是不够完整,我们的损失函数也是不那么 的精确,所以对于在这个测试集上表现得非常完美的模型,我们常常可能还需要打一个问号,是否是训练集和测试集过于相像,模型又过于复杂。导致了over- fitting(后文将会详细介绍over-fitting的产生)?

   Model Selection本质上来说是对模型的复杂度与模型的准确性做一个平衡,本文后面将有一些类似的例子。

 

 

Example 1:Sequential 概率估计

注:此例子来自PRML chapter 2.1.1

对于概率密度的估计,有很多的方法,其中一种方法叫做Sequential 概率估计。

这种方法是一个增量的学习过程,在每看到一个样本的时候都是把之前观测的数据作为先验概率,然后在得到新数据的后验概率后,再把当前的后验概率作为下一次预测时候的先验概率。

传统的二项式分布是:

clip_image005

由于传统的二项式分布的概率μ是完全根据先验概率而得到的,而这个先验分布之前也提到过,可能会由于实验次数不够而有很大的偏差,而且,我们无法得知μ的分布,只知道一个μ的期望,这样对于某些机器学习的方法是不利的。为了减少先验分布对μ的影响,获取μ的分布,我们加入了两个参数,a,b,表示X=0与X=1的出现的次数,这个取值将会改变μ的分布,beta分布的公式如下:

clip_image006

对于不同a,b的取值,将会对μ的概率密度函数产生下面的影响:(图片来自PRML)

clip_image008

在观测数据的过程中,我们可以随时的利用观测数据的结果,改变当前μ的先验分布。我们可以将Beta分布加入两个参数,m,l,表示观测到的X=0,X=1的次数。(之前的a,b是一个先验的次数,不是当前观测到的)

我们令:

clip_image009

a’,b’表示加入了观测结果的新的a,b 。带入原式,可以得到

clip_image010

我们可以利用观测后的μ后验概率更新μ的先验概率,以进行下一次的观测,这样对不时能够得到新的数据,并且需要real-time给出结果的情况下很有用。不过Sequential方法有对数据一个i.i.d(独立同分布)的假设。要求每次处理的数据都是独立同分布的。

 

原文 http://www.cnblogs.com/LeftNotEasy/archive/2010/09/27/1837163.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/301431.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

abb限位开关已打开drv1_广告雕刻机限位开关触发

广告雕刻机限位开关触发?广告雕刻机是指专门用于广告行业的设备,是专门为广告而研发的设备。广告雕刻机当然也可以用于其他行业,例如工艺品行业、家具行业、模型行业等。今天我们重点说下“广告雕刻机限位开关触发”。市面上常见的PVC字广告雕…

有趣的灵魂,从高质量的阅读开始

王小波说:我活在世上,无非想要明白些道理,遇见些有趣的事,倘能如我所愿,我的一生就算成功。如果不能行万里路,那就从阅读一篇文章开始。不积跬步,无以至千里。不积小流,无以成江海。…

面向.NET开发人员的Dapr——俯瞰Dapr

目录:面向.NET开发人员的Dapr——前言面向.NET开发人员的Dapr——分布式世界Dapr at 20,000 feet俯瞰DaprIn chapter 1, we discussed the appeal of distributed microservice applications. But, we also pointed out that they dramatically increase architectu…

k8s创建pod加入容器_K8S架构原理及其工作流程

K8S容器编排系统容器编排系统需要满足的条件:服务注册,服务发现负载均衡配置、存储管理健康检查自动扩缩容零宕机K8S整体架构图K8S整体架构Kubernetes采用主从分布式架构,包括Master(主节点)、Worker(从节点或工作节点),以及客户端…

每日一笑 | 程序员的招租公告

全世界只有3.14 % 的人关注了数据与算法之美(图片来源于网络,侵权删)

无需羡慕,今后.NET开发想拿30k也可以毫不费劲!

7月将至,半年已逝,码农枯燥而简单的生活中,时间过得飞快!错过金三银四的小伙伴,转头发现金九银十不远了。业内公认的,涨薪最快的方式还是跳槽!年初跳槽季,腾讯、阿里、百度、京东、小…

移动计算机怎么开机密码,win7忘记开机密码解决办法

设置电脑开机密码后我们每次开启电脑都需要输入开机密码才可以进入系统桌面进行使用,如果没有密码的话系统是无法开启的,这就保证了我们电脑使用的隐私性,但是并不是说所有的电脑都适合设置密码,部分场景下的电脑设置密码的话有可…

双缓冲技术

2019独角兽企业重金招聘Python工程师标准>>> package com.gavin; import android.content.Context; import android.graphics.Bitmap; import android.graphics.Bitmap.Config; import android.graphics.Canvas; import android.graphics.Paint; import andro…

java 8 排序_一遍记住 8 种排序算法与 Java 代码实现

☞ 程序员进阶必备资源免费送「21种技术方向!」 ☜作者:KaelQ,www.jianshu.com/p/5e171281a3871.直接插入排序经常碰到这样一类排序问题:把新的数据插入到已经排好的数据列中。将第一个数和第二个数排序,然后构成一个有…

中小学将逐步推广编程教育;勒索病毒攻击部分政府部门和医院;国内外药企密集调价;微软要给Win7用户推死亡通知,这就是今天的大新闻...

今天是3月14日农历二月初八今天星期四看天气预报接下来几天又是雨季大家记得出门带伞下面是今天的大新闻中小学要逐步推广编程教育(北京日报)13日教育部公布的《2019年教育信息化和网络安全工作要点》透露,今年将启动中小学生信息素养测评&am…

开源高性能RISC-V处理器“香山”问世

今日,“香山”开源高性能RISC-V处理器问世。据行业人士介绍,这是计算所牵头,多家企业联合开发的开源处理器核,源代码和所有设计文档都开源。从PPT的内容上看,“香山”基于Chisel语言开发,支持多核&#xff…

《PowerShell 3.0 Advanced Admin handbook》已于今日上市

工作之余与埃及MVP Sherif Talaat合著的全英文书籍《PowerShell 3.0 Advanced Admin handbook》于今日由Packt Publishing正式出版上市,本书基于PowerShell3.0版本,历时8个月,从2012年8月16日Packt Publishing发邮件找我们约稿,经…

计算机 运行命令,教你电脑运行命令

很多朋友在网上询问电脑运行命令怎么使用,小编整理了这篇关于电脑运行命令怎么使用的图文使用教程,赶紧前来学习一下吧!电脑运行命令如何使用?是网友讨论的一大话题,为此,小编特地给大家带一种办法&#xf…

每日一笑 | 男朋友整天沉迷游戏怎么办...?

全世界只有3.14 % 的人关注了数据与算法之美(图片来源于网络,侵权删)

html设置样式不继承_web前端入门到实战:css的核心原理分为优先级原则与继承原则两大部分...

css原理:1.优先原则>后解析的内容会覆盖之前解析的内容(所谓解析就是读取的css样式)2.继承原则>嵌套里面的标签拥有外部标签的某些样式,子元素可以继承父元素的属性1》优先原则针对选择器:a.同一个选择器从上往下…

开源 免费 java CMS - FreeCMS1.3-数据对象-mail

2019独角兽企业重金招聘Python工程师标准>>> 下载地址:http://code.google.com/p/freecms/ mail 从FreeCMS 1.2 开始支持 在使用互动信件相关标签时,标签会封装mail供页面调用。 属性 说明 id id unitid 收信单位id …

3dmax导出x文件插件2020_C4D与unity3D,3DMAX,AI,AE,ks之间互导

一,C4D与unity3D互导C4D——unity3DC4D导入unity3D遇到的各种问题1.在C4D里挤压的模型转换为可编辑对象了,但是导入Unity以后,模型的封顶没了?2.导入到Unity中发现在里面查看模型丢面和少模型的问题,而且素材也少了好多…

128位计算机 ps2,64位就是最强电脑?难道就没有128位的电脑吗

知道两个系统版本的不同,很多软件是不能通用的。还记得几年前内存价格下降,很多朋友都升级了大的内存,而有的玩家安装内存之后发现32位的系统不支持3.25G以上的内存,也让一些玩家耿耿于怀,网上出现了很多让32位系统支持…

还在为孩子学不好数学而犯愁?你想要知道的或许在这!

▲数据汪特别推荐点击上图进入玩酷屋记得寒假时,超模君七岁小表弟来问了我一道题目:下面线段有多少条?首先我问了他什么是线段?他说:两端有端点,不可以伸长的直线。AB就是线段。我慢慢引导,假如…

ddr4服务器内存频率_镁光出样DDR5内存;紫光发布P5160系列SSD!

今 日 资 讯 1镁光出样DDR5内存2020年AMD、Intel即将推出的新一代CPU处理器还会支持DDR4内存,但是下一代DDR5内存已经近在眼前,2021年就会正式上市。近日镁光宣布开始向客户出样最新的DDR5内存,基于1Znm工艺,性能提升了…