高斯分布及其极大似然估计

高斯分布及其极大似然估计

高斯分布

一维高斯分布

一维高斯分布的概率密度函数为:
N(μ,σ2)=12πσexp⁡(−(x−μ)22σ2)N(\mu,\sigma^2)=\frac{1}{\sqrt{2\pi}\sigma}\exp(-\frac{(x-\mu)^2}{2\sigma^2}) N(μ,σ2)=2πσ1exp(2σ2(xμ)2)
多维高斯分布

DDD 维高斯分布的概率密度函数为:
N(μ,Σ)=1(2πD2∣Σ∣12)exp⁡(−(x−μ)2Σ−1(x−μ)2)N(\mu,\Sigma)=\frac{1}{(2\pi^{\frac{D}{2}}|\Sigma|^{\frac{1}{2}})}\exp(-\frac{(x-\mu)^2\Sigma^{-1}(x-\mu)}{2}) N(μ,Σ)=(2π2D∣Σ21)1exp(2(xμ)2Σ1(xμ))

极大似然估计

贝叶斯公式

贝叶斯公式如下:
P(θ∣X)=P(X∣θ)P(θ)P(X)P(\theta|X)=\frac{P(X|\theta)P(\theta)}{P(X)} P(θX)=P(X)P(Xθ)P(θ)
其中,P(X∣θ)P(X|\theta)P(Xθ) 称为后验概率,P(θ)P(\theta)P(θ) 称为先验概率,P(θ∣X)P(\theta|X)P(θX) 成为似然函数。所谓极大似然估计,即使要让似然函数 P(θ∣X)P(\theta|X)P(θX) 取到最大,估计此时参数 θ\thetaθ 的值。详见:先验、后验、似然。

高斯分布的极大似然估计

假设我们有 NNN 个观测数据 X=(x1,x2,…,xN)X=(x_1,x_2,\dots,x_N)X=(x1,x2,,xN) ,每个样本点是 DDD 维的,则我们的数据是一个 N×DN\times DN×D 的矩阵。而我们要估计的参数就是多维高斯分布中的均值 μ\muμ 和协方差矩阵 Σ\SigmaΣ

这里我们以一维高斯分布为例进行推导。即每个样本点 xix_ixi 是一维的,而我们要估计的是一维高斯分布的均值 μ\muμ 和方差 σ2\sigma^2σ2 ,即 θ=(μ,σ2)\theta=(\mu,\sigma^2)θ=(μ,σ2)

下面我们用极大似然估计来估计这两个参数:
θ^MLE=arg⁡max⁡θL(θ)\hat{\theta}_{MLE}=\arg\max_\theta\mathcal{L(\theta)} θ^MLE=argθmaxL(θ)
为了方便计算,我们通常优化对数似然,有:
L(θ)=log⁡P(X∣θ)=log⁡∏i=1NP(xi∣θ)=∑i=1Nlog⁡P(xi∣θ)=∑i=1Nlog⁡12πσexp⁡((xi−μ)22σ2)=∑i=1N[log⁡12π+log⁡1σ−(xi−μ)22σ2]\begin{align} \mathcal{L}(\theta)&=\log P(X|\theta)\\ &=\log \prod_{i=1}^NP(x_i|\theta)\\ &=\sum_{i=1}^N\log P(x_i|\theta)\\ &=\sum_{i=1}^N\log \frac{1}{\sqrt{2\pi}\sigma}\exp(\frac{(x_i-\mu)^2}{2\sigma^2})\\ &=\sum_{i=1}^N[\log \frac{1}{\sqrt{2\pi}}+\log \frac{1}{\sigma}-\frac{(x_i-\mu)^2}{2\sigma^2}]\\ \end{align} L(θ)=logP(Xθ)=logi=1NP(xiθ)=i=1NlogP(xiθ)=i=1Nlog2πσ1exp(2σ2(xiμ)2)=i=1N[log2π1+logσ12σ2(xiμ)2]
并且可以丢掉其中的常数项,则最终的优化目标:
θ^MLE=arg⁡max⁡θ∑i=1N[log⁡1σ−(xi−μ)22σ2]\hat{\theta}_{MLE}=\arg\max_\theta\sum_{i=1}^N[\log \frac{1}{\sigma}-\frac{(x_i-\mu)^2}{2\sigma^2}]\\ θ^MLE=argθmaxi=1N[logσ12σ2(xiμ)2]
接下来我们分别对 μ\muμσ2\sigma^2σ2 求偏导,并令其等于零,得到估计值。

对于 μ\muμ
μ^MLE=arg⁡max⁡μ∑i=1N[−(xi−μ)22σ2]=arg⁡min⁡μ∑i=1N(xi−μ)2\begin{align} \hat{\mu}_{MLE}&=\arg\max_{\mu}{\sum_{i=1}^N[-\frac{(x_i-\mu)^2}{2\sigma^2}]}\\ &=\arg\min_\mu\sum_{i=1}^N(x_i-\mu)^2 \end{align} μ^MLE=argμmaxi=1N[2σ2(xiμ)2]=argμmini=1N(xiμ)2
求偏导:
∂∑i=1N(xi−μ)2∂μ=∑i=1N−2×(xi−μ)≜0\frac{\partial\sum_{i=1}^N(x_i-\mu)^2}{\partial\mu}=\sum_{i=1}^N-2\times(x_i-\mu)\triangleq0 μi=1N(xiμ)2=i=1N2×(xiμ)0
得到:
μ^MLE=1N∑i=1Nxi\hat{\mu}_{MLE}=\frac{1}{N}\sum_{i=1}^Nx_i μ^MLE=N1i=1Nxi
对于 σ2\sigma^2σ2
σ2^=arg⁡max⁡σ2∑i=1N[log⁡1σ−(xi−μ)22σ2]=arg⁡max⁡σ2Lσ2\hat{\sigma^2}=\arg\max_{\sigma^2}\sum_{i=1}^N[\log \frac{1}{\sigma}-\frac{(x_i-\mu)^2}{2\sigma^2}]=\arg\max_{\sigma^2}\mathcal{L}_{\sigma^2} σ2^=argσ2maxi=1N[logσ12σ2(xiμ)2]=argσ2maxLσ2
求偏导:
∂Lσ2∂σ=∑i=1N[−1σ−12(xi−μ)×(−2)]≜0∑i=1N[−σ2+(xi−μ)2]≜0∑i=1Nσ2=∑i=1N(xi−μ)2\frac{\partial{\mathcal{L}_{\sigma^2}}}{\partial{\sigma}}=\sum_{i=1}^N[-\frac{1}{\sigma}-\frac{1}{2}(x_i-\mu)\times(-2)]\triangleq0\\ \sum_{i=1}^N[-\sigma^2+(x_i-\mu)^2]\triangleq0\\ \sum_{i=1}^N\sigma^2=\sum_{i=1}^N(x_i-\mu)^2 σLσ2=i=1N[σ121(xiμ)×(2)]0i=1N[σ2+(xiμ)2]0i=1Nσ2=i=1N(xiμ)2
得到:
σ2^MLE=1N∑i=1N(xi−μ^MLE)2\hat{\sigma^2}_{MLE}=\frac{1}{N}\sum_{i=1}^N(x_i-\hat{\mu}_{MLE})^2 σ2^MLE=N1i=1N(xiμ^MLE)2

有偏估计和无偏估计

有偏估计(biased estimate)是指由样本值求得的估计值与待估参数的真值之间有系统误差,其期望值不是待估参数的真值

在统计学中,估计量的偏差(或偏差函数)是此估计量的期望值与估计参数的真值之差。偏差为零的估计量或决策规则称为无偏的。否则该估计量是有偏的。在统计学中,“偏差”是一个函数的客观陈述。

我们分别计算 μ^MLE\hat{\mu}_{MLE}μ^MLEσ2^MLE\hat{\sigma^2}_{MLE}σ2^MLE ,来考察这两个估计值是否是无偏的。

对于 μ^MLE\hat{\mu}_{MLE}μ^MLE
E[μ^MLE]=E[1N∑i=1Nxi]=1N∑i=1NExi=μE[\hat{\mu}_{MLE}]=E[\frac{1}{N}\sum_{i=1}^Nx_i]=\frac{1}{N}\sum_{i=1}^NEx_i=\mu E[μ^MLE]=E[N1i=1Nxi]=N1i=1NExi=μ
可以看到,μ^MLE\hat{\mu}_{MLE}μ^MLE 的期望就等于真值 μ\muμ ,所以它是无偏估计。

对于 σ2^MLE\hat{\sigma^2}_{MLE}σ2^MLE
σ2^MLE=1N∑i=1N(xi−μ^MLE)2=1N∑i=1N(xi2−2×xi×μ^MLE+μ^MLE2)=1N∑i=1N(xi2−2μ^MLE2+μ^MLE2)=1N∑i=1N(xi2−μ^MLE2)\begin{align} \hat{\sigma^2}_{MLE}&=\frac{1}{N}\sum_{i=1}^N(x_i-\hat{\mu}_{MLE})^2\\ &=\frac{1}{N}\sum_{i=1}^N(x_i^2-2\times x_i\times \hat{\mu}_{MLE}+\hat{\mu}_{MLE}^2)\\ &=\frac{1}{N}\sum_{i=1}^N(x_i^2-2\hat{\mu}_{MLE}^2+\hat{\mu}_{MLE}^2)\\ &=\frac{1}{N}\sum_{i=1}^N(x_i^2-\hat{\mu}_{MLE}^2) \end{align} σ2^MLE=N1i=1N(xiμ^MLE)2=N1i=1N(xi22×xi×μ^MLE+μ^MLE2)=N1i=1N(xi22μ^MLE2+μ^MLE2)=N1i=1N(xi2μ^MLE2)
求期望:
E[σ2^MLE]=E[1N∑i=1N(xi2−μ^MLE2)]=E[1N∑i=1N((xi2−μ2)−(μ^MLE2−μ2))]=E[1N∑i=1N(xi2−μ2)]−E[1N∑i=1N(μ^MLE2−μ2)]=1N∑i=1NE(xi2−μ2)−1N∑i=1NE(μ^MLE2−μ2)=1N∑i=1N[E(xi2)−E(μ2)]−1N∑i=1NE(μ^MLE2)−E(μ2)=1N∑i=1N[E(xi2)−μ2]−1N∑i=1N[E(μ^MLE2)−μ2]=1N∑i=1N[E(xi2)−(Exi)2]−1N∑i=1N[E(μ^MLE2)−Eμ^MLE2]=1N∑i=1NVar(xi)−1N∑i=1NVar(μ^MLE)=1N∑i=1Nσ2−1N∑i=1Nσ2N=N−1Nσ2\begin{align} E[\hat{\sigma^2}_{MLE}]&=E[\frac{1}{N}\sum_{i=1}^N(x_i^2-\hat{\mu}_{MLE}^2)]\\ &=E[\frac{1}{N}\sum_{i=1}^N((x_i^2-\mu^2)-(\hat{\mu}_{MLE}^2-\mu^2))]\\ &=E[\frac{1}{N}\sum_{i=1}^N(x_i^2-\mu^2)]-E[\frac{1}{N}\sum_{i=1}^N(\hat{\mu}_{MLE}^2-\mu^2)]\\ &=\frac{1}{N}\sum_{i=1}^NE(x_i^2-\mu^2)-\frac{1}{N}\sum_{i=1}^NE(\hat{\mu}_{MLE}^2-\mu^2)\\ &=\frac{1}{N}\sum_{i=1}^N[E(x_i^2)-E(\mu^2)]-\frac{1}{N}\sum_{i=1}^NE(\hat{\mu}_{MLE}^2)-E(\mu^2)\\ &=\frac{1}{N}\sum_{i=1}^N[E(x_i^2)-\mu^2]-\frac{1}{N}\sum_{i=1}^N[E(\hat{\mu}_{MLE}^2)-\mu^2]\\ &=\frac{1}{N}\sum_{i=1}^N[E(x_i^2)-(Ex_i)^2]-\frac{1}{N}\sum_{i=1}^N[E(\hat{\mu}_{MLE}^2)-E\hat{\mu}_{MLE}^2]\\ &=\frac{1}{N}\sum_{i=1}^NVar(x_i)-\frac{1}{N}\sum_{i=1}^NVar(\hat{\mu}_{MLE})\\ &=\frac{1}{N}\sum_{i=1}^N\sigma^2-\frac{1}{N}\sum_{i=1}^N\frac{\sigma^2}{N}\\ &=\frac{N-1}{N}\sigma^2 \end{align} E[σ2^MLE]=E[N1i=1N(xi2μ^MLE2)]=E[N1i=1N((xi2μ2)(μ^MLE2μ2))]=E[N1i=1N(xi2μ2)]E[N1i=1N(μ^MLE2μ2)]=N1i=1NE(xi2μ2)N1i=1NE(μ^MLE2μ2)=N1i=1N[E(xi2)E(μ2)]N1i=1NE(μ^MLE2)E(μ2)=N1i=1N[E(xi2)μ2]N1i=1N[E(μ^MLE2)μ2]=N1i=1N[E(xi2)(Exi)2]N1i=1N[E(μ^MLE2)Eμ^MLE2]=N1i=1NVar(xi)N1i=1NVar(μ^MLE)=N1i=1Nσ2N1i=1NNσ2=NN1σ2
其中 Var(μ^MLE)=Var(1N∑i=1Nxi)=1N2∑i=1NVar(xi)=σ2NVar(\hat\mu_{MLE})=Var(\frac{1}{N}\sum_{i=1}^Nx_i)=\frac{1}{N^2}\sum_{i=1}^NVar(x_i)=\frac{\sigma^2}{N}Var(μ^MLE)=Var(N1i=1Nxi)=N21i=1NVar(xi)=Nσ2

因此, σ2^MLE\hat{\sigma^2}_{MLE}σ2^MLE 的期望不等于其真值 σ2\sigma^2σ2 ,而且是会估计的偏小。无偏估计应为 1N−1∑i=1N(xi−μ^MLE)\frac{1}{N-1}\sum_{i=1}^N(x_i-\hat\mu_{MLE})N11i=1N(xiμ^MLE)

Ref

  1. 机器学习白板推导
  2. 先验、后验、似然
  3. 百度百科-有偏估计

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/532428.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

农林资金 大数据审计案例_大数据审计:现状与发展

大数据审计:现状与发展【摘要】传统手工环境下,审计人员常用的审计方法包括检查法、观察法、重新计算法、外部调查法、分析法、鉴定法等。随着信息技术的发展,被审计单位的运行越来越依赖于信息化环境。信息化环境下审计工作发生了巨大的变化…

商标45类分类表明细表_2019版注册商标分类表,商标注册45类范围明细

注册商标的时候都是要确定具体的产品或服务的,目前我国商标分类是用《类似商品和服务区分表–基于尼斯分类第十一版》2019年版这本分类书。这本分类表也是全球通用的分类表,商标分类总共有45个类别,1-34类是产品类、35-45类是服务类。这45个大…

高维高斯分布基础

高维高斯分布基础 多位高斯分布的几何理解 多维高斯分布表达式为: p(x∣μ,Σ)1(2π)p/2∣Σ∣1/2e−12(x−μ)TΣ−1(x−μ)p(x|\mu,\Sigma)\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}e^{-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)} p(x∣μ,Σ)(2π)p/2∣Σ∣1/21​…

angularjs sill 创建项目_开源项目——博客项目MyBlogs.Core,基于.NET 5

个人博客站项目源码,高性能低占用的博客系统,这也许是我个人目前写过的性能最高的web项目了 。目前日均处理请求数80-120w次,同时在线活跃用户数30-100人,数据量累计已达到100多万条,数据库Redis网站主程序同时运行在一…

怀旧服推荐配置_【怀旧服】狂暴战P4毕业装备推荐

在怀旧服开启P4阶段之后,狂暴战玩家的输出也得到了进一步的提升。当然,狂暴战想要打出足够的伤害离不开对应的装备,现在就给大家介绍下狂暴战P4阶段的BIS装备。散件装备狂暴战在这一阶段依旧有非常不错的散件装备,个人建议玩家入手…

高斯混合模型GMM及EM迭代求解算法(含代码实现)

高斯混合模型GMM及EM迭代求解算法(含代码实现) 高斯分布与高斯混合模型 高斯分布 高斯分布大家都很熟悉了,下面是一元高斯分布的概率密度函数(Probability Density Function,PDF): P(x)N(μ,…

十个模块_专栏 | ABAQUS Part模块的十个小技巧

作者介绍星辰_北极星2012年开始从事Abaqus仿真相关工作,服务大小课题逾百项; 主要仿真领域:石油工程、岩土工程和金属加工工艺; 重点研究方向:ABAQUS GUI二次开发、固体力学、断裂以及损伤等。Abaqus有部件(Part)和装配体(Assembl…

深度学习时代的视频理解综述

深度学习时代的视频理解综述 本文为b站bryanyzhu老师四期视频理解相关论文解读的汇总图文笔记。 我们先精读深度学习时代视频理解领域最为重要的两篇论文:双流网络和 I3D。它们分别是领域内两大类方法双流(利用光流)网络和 3D CNN 网络的代…

typec扩展坞hdmi没反应_typec扩展坞转hdmi/vga多功能网口usb转换器苹果华为电脑matebook6元优惠券券后价26.8元...

★typec扩展坞转hdmi/vga多功能网口usb转换器苹果华为电脑matebook,6元拼多多优惠券★券后价26.8元★★★typec扩展坞转hdmi/vga多功能网口usb转换器苹果华为电脑matebook¥26.8元¥32.8元已拼5097件点击抢购猜你喜欢[速发]喵喵机P1热敏打印机手…

NLP任务概览

NLP任务概览 本文为台湾大学李宏毅老师视频课程笔记。本课程介绍了 (2020年)NLP 领域常见的 17 种任务。本文只会从输入输出的角度概览多种 NLP 任务,并简介它们的常见做法,并不会细致地介绍每个任务模型的具体细节。 两种模式与…

大物实验总结模板_期中总结大会amp;期末动员大会

在逐渐降温的双创周麦包坊的期中总结暨期末动员大会来啦在学长团和小麦包的分享下希望大家重新启航奋斗期末板块一学长团经验分享面对本学期十二门科目,作为过来人的前辈们给出很多对本学期各科目的针对性建议,可谓是干货满满,快来瞧瞧吧&…

PTMs:NLP预训练模型的全面总结

PTMs:NLP预训练模型的全面总结 转自:https://zhuanlan.zhihu.com/p/115014536 预训练模型(Pre-trained Models,PTMs) 的出现将NLP带入了一个全新时代。2020年3月18日,邱锡鹏老师发表了关于NLP预训练模型的综述《Pre-trained Models for Natur…

python中提取几列_Python一键提取PDF中的表格到Excel(实例50)

从PDF文件获取表格中的数据,也是日常办公容易涉及到的一项工作。一个一个复制吧,效率确实太低了。用Python从PDF文档中提取表格数据,并写入Excel文件,灰常灰常高效。上市公司的年报往往包含几百张表格,用它作为例子再合…

EM算法公式推导

EM算法公式推导 EM 算法是一种用来进行含有隐变量的概率生成模型参数估计的迭代算法。 EM算法步骤 EM 算法通过迭代求 L(θ)log⁡P(X∣θ)L(\theta)\log P(X|\theta)L(θ)logP(X∣θ) 的极大似然估计,每次迭代包含两部:E步,求期望&#xf…

详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解

详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解 声明:本文为原创文章,发表于nebulaf91的csdn博客。欢迎转载,但请务必保留本信息,注明文章出处。 本…

elemntui icon 大小_自定义elementui中的图标

前提elementui图标库图标较少当你想用elementui的控件而不想用它的图标时,就可以使用自定义的方式来实现实现el-icon-my-export为我自定义的图标命名导出//使用图片来替换//before属性中的content文本是用来占位的,必须有//可以设置字体大小来确定大小//使用visibil…

变分推断公式推导

变分推断公式推导 背景介绍 机器学习中的概率模型可分为频率派和贝叶斯派。频率派最终是求一个优化问题,而贝叶斯派则是求一个积分问题。 频率派 举几个例子: 线性回归 样本数据:{(xi,yi)}i1N\{(x_i,y_i)\}_{i1}^N{(xi​,yi​)}i1N​ 模…

重新打开_iPhone 应用停止响应或无法打开的解决办法

如果当您在 iPhone 上使用某个重要应用时,遇到应用停止响应、意外退出或无法打开的问题,请参考如下步骤尝试解决:1.强制退出应用:在 iPhone 后台强制关闭该应用之后,再次重新打开看看。2.重启您的设备,然后…

机器学习理论——优雅的模型:变分自编码器(VAE)

机器学习理论——优雅的模型:变分自编码器(VAE) 转自:机器学习理论—优雅的模型(一):变分自编码器(VAE) 另外直观理解 VAE, 推荐 台大李宏毅老师的课程&#…

grub引导项修复详解_重新安装win7后,修复Grub启动项

重新安装win7后,修复Grub启动项发布时间:2010-09-14 22:14:00来源:红联作者:null925[is] 本帖最后由 null925 于 2010-9-14 22:18 编辑 [/i]原先使用Win7,Gentoo,Ubuntu三系统,Grub作为系统引导管理器,今天重新安装Win…