【机器学习前置知识】共轭分布

贝叶斯概率公式的组成

贝叶斯定理的概率公式:

P ( θ ∣ X ) = P ( X ∣ θ ) P ( θ ) P ( X ) P(θ|X)={P(X|θ)P(θ)\over{P(X)}} P(θX)=P(X)P(Xθ)P(θ)

  • 先验分布 P ( θ ) P(θ) P(θ) :参数的先验分布是指在观测到新的数据之前,根据已有的知识或以往的经验对参数的估计。假如 P ( θ ) P(θ) P(θ) 为估计抛一次硬币中正面向上的概率,我们在不知道硬币质地是否均匀的情况下是不能确定这个概率的分布是什么样的,但可以利用经验推断,比如一般硬币都是均匀的,则可假设 P ( θ ) = 0.5 P(θ)=0.5 P(θ)=0.5 。或者像在Beta分布这篇文章里说过Beta分布可以描述 概率的概率密度分布 ,那么也可以假定 P ( θ ) P(θ) P(θ) 服从Beta分布。

  • 似然函数 P ( X ∣ θ ) P(X|θ) P(Xθ) : 已知参数的情况下,观测数据的概率分布。以抛硬币来说,在已知抛一次硬币正面向上的概率 θ θ θ 时,可得抛n次硬币中 X X X 次正面向上的概率分布,显然可以用二项分布来表示。

  • 边缘概率 P ( X ) P(X) P(X) :也可称为全概率公式, P ( X ) = ∑ θ P ( X ∣ θ ) P ( θ ) P(X)=\sum_θP(X|θ)P(θ) P(X)=θP(Xθ)P(θ) P ( X ) P(X) P(X) 对后验分布的计算影响不大,可以当成一个系数。因此, P ( X ∣ θ ) P ( X ) P(X|θ)\over{P(X)} P(X)P(Xθ) 也可以看作一个调整因子,后验分布=调整因子✖️先验分布,就是用观测数据将先验分布调整到更接近真实的分布,

  • 后验分布 P ( θ ∣ X ) P(θ|X) P(θX) : 后验分布是我们想通过贝叶斯定理得到的最终结果,表示的是在观测到新数据后对于参数的重新评估。计算后验分布的过程简单来说就是,在没有观测数据的时候,我们根据已有的知识或以往的经验赋予了参数一个估计,然后利用观测到数据,再对先验分布进行更新,最终得到后验分布,即在事件 X X X 发生之后,我们对参数 θ θ θ 的重新评估,因为 P ( X ) P(X) P(X) 可以当成一个系数,可得 P ( θ ∣ X ) ∝ P ( X ∣ θ ) P ( θ ) P(θ|X)∝P(X|θ)P(θ) P(θX)P(Xθ)P(θ)

共轭先验与共轭分布

如果似然函数 P ( X ∣ θ ) P(X|θ) P(Xθ) 可以使得先验分布 P ( θ ) P(θ) P(θ) 和后验分布 P ( θ ∣ X ) P(θ|X) P(θX) 具有相同的分布,则称该先验分布为此似然函数的共轭先验。同时称后验分布 P ( θ ∣ X ) P(θ|X) P(θX) 和先验分布 P ( θ ) P(θ) P(θ) 为共轭分布。比如Beta分布是二项分布似然的共轭先验。

贝叶斯推断与共轭先验的作用

如果要求解待估计量 θ θ θ ,可以利用贝叶斯推断,但需要先明确以下两项:一是要确定先验分布 P ( θ ) P(θ) P(θ) ,二是要确定基于 θ θ θ 的观测数据 X X X 的分布,即似然函数 P ( X ∣ θ ) P(X|θ) P(Xθ)

但是通过贝叶斯推断的方法存在一些问题,会使后验分布并不容易计算:

  • 为了找到最大的后验概率,需要为每个 θ θ θ 计算一次后验概率;

  • 如果后验概率没有闭式解,则只能通过数值优化的方法来求最优解;

  • 后验分布是处于动态更新过程中的,也就是说某次试验得到的后验分布,对于后续收集到的新观测数据而言又可以看作是一个先验分布。新的数据不断进来,模型需要一直更新,但贝叶斯推理中的计算量非常大,因此如果能利用共轭先验,计算会更加简便。

然而当我们知道后验分布和先验分布是共轭分布时,就可以跳过使用 后验分布=似然函数✖️先验分布 这步而直接利用先验分布来求得后验分布。

共轭分布举例

以抛硬币为例,对于一枚质地不知是否均匀的硬币,事先不知道抛一次正面向上的概率 θ θ θ ,我们可以通过多次抛硬币实验中正面向上次数 X X X 次来估计 θ θ θ ,即求后验分布 P ( θ ∣ X ) P(θ|X) P(θX)

由贝叶斯推断可知,为了求 P ( θ ∣ X ) P(θ|X) P(θX) ,需要知道:

  • 先验分布 P ( θ ) P(θ) P(θ) ,即抛一次硬币正面向上的概率分布;
  • 似然函数 P ( X ∣ θ ) P(X|θ) P(Xθ) ,即已知硬币正面向上概率后抛n次硬币中出现 X X X 次正面向上的概率分布。

先验分布 P ( θ ) P(θ) P(θ)

目前我们对 P ( θ ) P(θ) P(θ) 还一无所知,但Beta分布可以描述 概率的概率密度分布 ,那么可以假设 P ( θ ) P(θ) P(θ) 服从Beta分布,用Beta分布作为参数 θ θ θ 的先验分布,概率密度函数表示为:

f ( θ ; α , β ) = 1 B ( α , β ) θ α − 1 ( 1 − θ ) β − 1 = Γ ( α + β ) Γ ( α ) Γ ( β ) θ α − 1 ( 1 − θ ) β − 1 ( 1 ) f(θ;\alpha,\beta)={1\over{B(\alpha,\beta)}}θ^{\alpha-1}(1-θ)^{\beta-1}={{\Gamma(\alpha+\beta)}\over{\Gamma(\alpha)\Gamma(\beta)}}θ^{\alpha-1}(1-θ)^{\beta-1} \ \ \ \ \ (1) f(θ;α,β)=B(α,β)1θα1(1θ)β1=Γ(α)Γ(β)Γ(α+β)θα1(1θ)β1     (1)

其中 α 、 β \alpha、\beta αβ 是已知的形状参数,可以灵活控制图像的形状。

似然函数 P ( X ∣ θ ) P(X|θ) P(Xθ)

对于似然函数 P ( X ∣ θ ) P(X|θ) P(Xθ) ,即已知硬币正面向上概率后抛n次硬币中出现 X X X 次正面向上的概率分布,这个分布可以用二项分布来表示:

P ( X ∣ θ ) = ( n X ) θ X ( 1 − θ ) n − X = n ! X ! ( n − X ) ! θ X ( 1 − θ ) n − X , X ∈ [ 0 , n ] P(X|θ)=\binom{n}{X}θ^X(1-θ)^{n-X}={n!\over{X!(n-X)!}}θ^X(1-θ)^{n-X} \ , \ X∈[0,n] P(Xθ)=(Xn)θX(1θ)nX=X!(nX)!n!θX(1θ)nX , X[0,n]

假设此处出现 X = k X=k X=k 次正面向上,则似然函数 P ( X ∣ θ ) P(X|θ) P(Xθ) 表示为:

P ( k ∣ θ ) = n ! k ! ( n − k ) ! θ k ( 1 − θ ) n − k ( 2 ) P(k|θ)={n!\over{k!(n-k)!}}θ^k(1-θ)^{n-k} \ \ \ \ \ (2) P(kθ)=k!(nk)!n!θk(1θ)nk     (2)

其中 θ 、 n 、 k θ、n、k θnk 都是已知参数。

计算后验分布 P ( θ ∣ X ) P(θ|X) P(θX)

P ( θ ∣ X ) ∝ P ( X ∣ θ ) P ( θ ) P(θ|X)∝P(X|θ)P(θ) P(θX)P(Xθ)P(θ) 及式 ( 1 ) 、 ( 2 ) (1)、(2) (1)(2) 可得:

P ( θ ∣ k ) ∝ Γ ( α + β ) Γ ( α ) Γ ( β ) θ α − 1 ( 1 − θ ) β − 1 n ! k ! ( n − k ) ! θ k ( 1 − θ ) n − k ( 3 ) P(θ|k)∝{{\Gamma(\alpha+\beta)}\over{\Gamma(\alpha)\Gamma(\beta)}}θ^{\alpha-1}(1-θ)^{\beta-1} {n!\over{k!(n-k)!}}θ^k(1-θ)^{n-k} \ \ \ \ \ (3) P(θk)Γ(α)Γ(β)Γ(α+β)θα1(1θ)β1k!(nk)!n!θk(1θ)nk     (3)

其中 Γ ( α + β ) Γ ( α ) Γ ( β ) {\Gamma(\alpha+\beta)}\over{\Gamma(\alpha)\Gamma(\beta)} Γ(α)Γ(β)Γ(α+β) n ! k ! ( n − k ) ! {n!\over{k!(n-k)!}} k!(nk)!n! 均与待估计参数 θ θ θ 无关,因此, 式 ( 3 ) (3) (3) 可进一步简化:

P ( θ ∣ k ) ∝ θ α − 1 ( 1 − θ ) β − 1 θ k ( 1 − θ ) n − k = θ α + k − 1 ( 1 − θ ) β + n − k − 1 ( 4 ) P(θ|k)∝θ^{\alpha-1}(1-θ)^{\beta-1} θ^k(1-θ)^{n-k}=θ^{\alpha+k-1}(1-θ)^{\beta+n-k-1} \ \ \ \ \ (4) P(θk)θα1(1θ)β1θk(1θ)nk=θα+k1(1θ)β+nk1     (4)

所以 P ( θ ∣ k ) P(θ|k) P(θk)~ B e t a ( α + k , β + n − k ) Beta(\alpha+k,\beta+n-k) Beta(α+k,β+nk)

在式 ( 4 ) (4) (4) 中令 α = α + k \alpha=\alpha+k α=α+k β = β + ( n − k ) \beta=\beta+(n-k) β=β+(nk) k k k 是n次抛硬币中正面向上(成功)的次数, n − k n-k nk 是n次抛硬币中反面向上(失败)的次数

则式 ( 4 ) (4) (4) 相当于由新观测数据更新为:

P ( θ ∣ k ) ∝ θ α − 1 ( 1 − θ ) β − 1 ( 5 ) P(θ|k)∝θ^{\alpha-1}(1-θ)^{\beta-1} \ \ \ \ \ (5) P(θk)θα1(1θ)β1     (5)

( 5 ) (5) (5) 是不是很面熟,这不就是Beta分布吗,所以这里后验分布 P ( θ ∣ X ) P(θ|X) P(θX) 和先验分布 P ( θ ) P(θ) P(θ) 为共轭分布,这也是为什么前面说Beta分布是二项分布似然的共轭先验。

知道了后验分布与先验分布是共轭分布后,就可以直接利用分布,在给定观测数据的情况下推断未知参数 θ 的分布情况,一般我们会选择后验分布概率密度函数曲线的峰值作为参数的估计值。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/598578.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

零配置,零麻烦:MapStruct 的轻松对象映射之旅

欢迎来到我的博客,代码的世界里,每一行都是一个故事 零配置,零麻烦:MapStruct 的轻松对象映射之旅 前言MapStruct是什么快速上手:基础映射高级映射技巧1. 针对复杂类型的映射:2. 自定义映射逻辑&#xff1a…

uni webSocket连接记录

socketTask.js let timer null; //心跳计时器 let debug false; //debug输出log let retimer null; //重连计时器 let pingCount 0; //心跳次数 let pingCountMax 5; //最大心跳次数超过重连 let pingTimeout 5000; //心跳间隔时间(毫秒) let connectTimeout 2000; //重…

Go语言中的HTTP头信息处理

在Web开发中,HTTP头信息扮演着至关重要的角色。它们提供了关于HTTP请求和响应的元数据,如内容类型、缓存控制、认证信息等。Go语言,作为一种高效且强大的编程语言,提供了丰富的标准库来处理HTTP头信息。 首先,我们需要…

react useEffect 内存泄漏

componentWillUnmount() {this.setState (state, callback) > {return;};// 清除reactionthis.reaction();}useEffect 使用AbortController useEffect(() > { let abortController new AbortController(); // your async action is here return () > { abortCo…

Linux内存管理:(五)反向映射RMAP

文章说明: Linux内核版本:5.0 架构:ARM64 参考资料及图片来源:《奔跑吧Linux内核》 Linux 5.0内核源码注释仓库地址: zhangzihengya/LinuxSourceCode_v5.0_study (github.com) 1. 前置知识:page数据结…

目标检测-One Stage-YOLOv2

文章目录 前言一、YOLOv2的网络结构和流程二、YOLOv2的创新点预处理网络结构训练 总结 前言 根据前文目标检测-One Stage-YOLOv1可以看出YOLOv1的主要缺点是: 和Fast-CNN相比,速度快,但精度下降。(边框回归不加限制)…

企业传输大文件时在企业网盘和文件传输平台之间该怎么选?

在当今数字化时代,企业常常需要传输大量文件,包括设计图纸、视频、音乐、数据集等。这些文件可能很大,往往需要高效、安全地传输。对于企业来说,选择合适的工具至关重要。在企业网盘和文件传输平台之间,如何做出正确的…

民安智库:满意度调查在组织管理中的应用与价值

在当今竞争激烈的市场环境中,组织管理的成功与否往往取决于其能否满足客户的需求和期望。满意度调查作为一种有效的管理工具,可以帮助组织了解客户对其产品或服务的评价和意见,从而指导组织改进产品或服务,提升客户满意度和忠诚度…

微信怎么做小程序店铺?如何制作微信小程序店铺

在这个数字化的时代,拥有一个属于自己的线上店铺已经成为了一种趋势。而微信小程序,作为微信平台上的一种轻应用,无疑成为了许多人开店的首选。那么,如何利用微信小程序开设自己的店铺呢?下面就让我来为大家详细解析一…

(03)光刻——半导体电路的绘制

01、绘制精细电路的第一步 金属-氧化物半导体场效应晶体管(MOSFET)的革命,让我们可以在相同面积的晶圆上同时制造出更多晶体管。MOSFET体积越小,单个 MOSFET的耗电量就越少,还可以制造出更多的晶体管,让其发挥作用,可谓是一举多得。可见,制造更小的MOSFET成了关键因素…

专属定制适合个人的知识付费平台,打造个性化品牌与自主管理体验

明理信息科技知识付费saas租户平台 在当今数字化时代,知识付费平台已经成为人们获取专业知识、提升自身素质的重要渠道。然而,公共知识付费平台虽然内容丰富,但难以满足个人或企业个性化的需求和品牌打造。因此,我们提出了专属定…

锂电池寿命预测 | Matlab基于LSTM长短期记忆神经网络的锂电池寿命预测

目录 预测效果基本介绍程序设计参考资料 预测效果 基本介绍 锂电池寿命预测 | Matlab基于LSTM长短期记忆神经网络的锂电池寿命预测 程序设计 完整程序和数据获取方式:私信博主回复Matlab基于LSTM长短期记忆神经网络的锂电池寿命预测。 参考资料 [1] http://t.csdn…

Golang - defer关键字 深入剖析

defer关键字 defer和go一样都是Go语言提供的关键字。defer用于资源的释放,会在函数返回之前进行调用。一般采用如下模式: f,err : os.Open(filename) if err ! nil {panic(err) } defer f.Close()如果有多个defer表达式,调用顺序类似于栈&a…

贪心算法day01

目录 理论基础 455.分发饼干 看到题目的第一想法 看到代码随想录之后的想法 自己实现过程中遇到的困难 376. 摆动序列 看到题目的第一想法 看到代码随想录之后的想法 自己实现过程中遇到的困难 53. 最大子序和 看到题目的第一想法 看到代码随想录之后的想法 自己实现过程…

CentOS 7 安装 PPTP

环境: 阿里云试用机: 外网IP:114.55.80.150 内网IP:172.28.11.92 一、服务器安装 PPTP 1、安装 yum install epel-release -y 2、安装pptp yum install pptpd iptables-services -y 3、修改配置 vim /etc/pptpd.conf# 最…

CAAC无人机操作证考证报名流程及白底证件照片制作方法

在这个无人机技术日新月异的时代,拥有一张CAAC民用无人机操作证不仅意味着你能够合法地在天空翱翔,也象征着你对飞行技术的尊重和对规章制度的遵守。如果你怀揣着成为无人机飞行员的梦想,那么,让我们一起揭开CAAC民用无人机操作证…

Flutter中的Container小部件介绍与使用

Flutter中的Container是一个强大而灵活的小部件,用于布局和装饰。它可以包含子部件,并具有多种属性,使得它成为构建用户界面的常见选择之一。 什么是Container? Container是一个用于包装和定位子部件的小部件。它允许您指定宽度…

YOLOv8训练DOTAv2数据集(官网代码/数据集转换/2024.1.2)

目的 由于项目里面需要用到机载的旋转目标检测(Oriented Bounding Box, OBB),本来想在yolov8上面直接加obb检测相关的模块,没想到官方更新了DOTAv2数据的yaml文件,意味着v8已经支持了obb检测,但是现在版本还不是很完善…

【SpringCloud】6、Spring Cloud Gateway路由配置

在 Spring Cloud Gateway 中配置 uri 有三种方式,包括: 1、WebSocket路由 spring:cloud:gateway:routes:- id: bt-apiuri: ws://localhost:9090/predicates:

静态网页设计——美食杰官网(HTML+CSS+JavaScript)

前言 声明:该文章只是做技术分享,若侵权请联系我删除。!! 使用技术:HTMLCSSJS 主要内容:仿照美食杰官网 主要内容 1、首页 首页用html标签分割成多个区域,使用css设置样式,精准…