PRML第二章上-概率估计
- 2.1二元变量
- 2.1.1 beta 分布
- 2.2 多项式变量
- 2.3 高斯分布
- 2.3.1条件高斯分布、2.3.2边缘高斯分布
- 2.3.3 高斯变量的贝叶斯定理
- 2.3.4 高斯分布的最大似然估计
- 2.3.5 顺序估计
- 2.3.6 高斯分布的贝叶斯推断
- 2.3.7 学生t分布
- 2.3.8周期性变量
- 2.3.9混合高斯分布
- 2.4 指数族分布
简单的模型中讨论一些关键的统计学概念–贝叶斯推断
本章讨论概率分布是为了实现密度估计:给定有限次观测x1,...,xN\bm{x}_1,...,\bm{x}_Nx1,...,xN,对随机变量x\bm{x}x的概率分布p(x)p(\bm{x})p(x)建模。
密度估计本来是病态的,因为产生观测数据集合的概率分布可能有无限种。
本章主要内容:
1.参数分布:拥有少量可以调节的参数,控制了整个分布。密度估计就是确定参数的过程–离散随机变量的二项分布、多项式分布、连续随机变量的高斯分布
2.共轭性质:后验概率分布与先验概率分布有相同的函数形式,主要实现方式选取和似然函数结构一致的先验,(先验需要与似然相乘才会变成后验,只要与似然形式相同,后验似然和先验三者的形式都是相同的)
3.非参数分布:直方图,最近邻,核函数
2.1二元变量
二元随机变量:取值只有0,1
扔硬币的demo:损坏的硬币,正反面出现的概率不相同。x=1,出现正面向上的概率为μ\muμ,出现反面向上的概率则为1−μ1-\mu1−μ,这个分布为伯努利分布,对应的概率密度函数为:
Bern(x∣μ)=μx(1−μ)(1−x)Bern(x|\mu) = \mu^x(1-\mu)^(1-x)Bern(x∣μ)=μx(1−μ)(1−x)
假定拥有xxx的观测数据集D={x1,...,xN}\mathcal{D}=\{x_1,...,x_N\}D={x1,...,xN}。构造关于μ\muμ的似然函数
p(D∣μ)=∏n=1Nμxn(1−μ)1−xnp(\mathcal{D|\mu})=\prod_{n=1}^N\mu^{x_n}(1-\mu)^{1-x_n}p(D∣μ)=n=1∏Nμxn(1−μ)1−xn
频率学家最大对数似然求解μ\muμ
lnp(D∣μ)=∑n=1N{xnlnμ+(1−xn)ln(1−μ)}\ln p(\mathcal{D|\mu})=\sum_{n=1}^N\{x_n\ln\mu+ (1-x_n)\ln(1-\mu)\}lnp(D∣μ)=n=1∑N{xnlnμ+(1−xn)ln(1−μ)}
对μ\muμ求导,令导数为0;得到关于μ\muμ的最大似然估计
μML=1N∑n=1Nxn\mu_{ML}=\frac{1}{N}\sum_{n=1}^Nx_nμML=N1n=1∑Nxn
最大似然的结果表明μ\muμ的大小依赖于观测数据集中正面朝上的概率,当观测样本数量较少时,容易出现极端概率现象。(后续会看到,引入μ\muμ的先验,会得到一个更合理的结论)
二项分布:(在二元变量的基础上)观测数据集的规模为N,求x=1出现m次的概率分布。
Bin(m∣N,μ)=CNmμm(1−μ)(N−m)Bin(m|N,\mu)=C^m_N\mu^m(1-\mu)^(N-m)Bin(m∣N,μ)=CNmμm(1−μ)(N−m)
其中的组合数为:
CNm=N!(N−m)!m!C^m_N=\frac{N!}{(N-m)!m!}CNm=(N−m)!m!N!
(独立事件:加和事件的均值=单独事件均值的家和,加和事件的方差=单独事件方差的加和)
2.1.1 beta 分布
为了使用贝叶斯的观点看二项式分布中μ\muμ问题的求解,需要引入一个与似然形式一致的先验–beta分布
beta(μ∣a,b)=Γ(a+b)Γ(a)(b)μa−1(1−μ)b−1beta(\mu|a,b)=\frac{\Gamma(a+b)}{\Gamma(a)(b)}\mu^{a-1}(1-\mu)^{b-1}beta(μ∣a,b)=Γ(a)(b)Γ(a+b)μa−1(1−μ)b−1
其中gamma分布为:(就很抽象呀)
Γ(x)=∫0∞ux−1e−udu(1.141)\Gamma(x)=\int_0^\infty u^{x-1}e^{-u}du\tag{1.141}Γ(x)=∫0∞ux−1e−udu(1.141)
用贝叶斯观点作下一次预测(核心如何利用前面的公式计算对应的值,并解释和最大似然估计的差别):
p(x=1∣D)=∫01p(x=1∣μ)p(μ∣D)dμ=∫01μp(μ∣D)dμ=E[μ∣D]p(x=1|D)=\int_0^1p(x=1|\mu)p(\mu|D)d\mu=\int_0^1\mu p(\mu|D)d\mu=\mathbb{E}[\mu|D]p(x=1∣D)=∫01p(x=1∣μ)p(μ∣D)dμ=∫01μp(μ∣D)dμ=E[μ∣D]
一个非贝叶斯学习公有属性:随着观测数据越多,后验概率表示的不确定性必然会持续下降。(平均意义下,在某个特定的观测数据集,后可能后验方差大于先验方法)
2.2 多项式变量
一个量的可能取值有K种,用一个K维向量来表示这个量。one-hot 编码表示方式,其中仅有一个元素xk=1x_k=1xk=1,其余元素都为0。
∑k=1Kxk=1\sum_{k=1}^Kx_k=1k=1∑Kxk=1
用μk\mu_kμk表示维度xkx_kxk为1的概率,那么该量x\bm{x}x出现的概率为:
p(x∣μ)=∏k=1Kμkp(\bm{x}|\bm{\mu})=\prod_{k=1}^K\mu_kp(x∣μ)=k=1∏Kμk
μk\mu_kμk满足归一化约束∑k=1Kμk=1\sum_{k=1}^K\mu_k=1∑k=1Kμk=1
考虑N个独立的观测值x1,x2,...xN\bm{x}_1,\bm{x}_2,...\bm{x}_Nx1,x2,...xN组成的数据集D\mathcal{D}D, 该数据集出现的似然函数为:
p(D∣μ)=∏i=1N∏k=1Kμkxki=∏k=1Kμk∑i=1Nxki=∏k=1Nμkmk(2.29)p(D|\bm{\mu})=\prod_{i=1}^N\prod_{k=1}^K\mu_k^{x^i_k}=\prod_{k=1}^K\mu_k^{\sum_{i=1}^Nx_k^i}=\prod_{k=1}^N\mu_k^{m_k}\tag{2.29}p(D∣μ)=i=1∏Nk=1∏Kμkxki=k=1∏Kμk∑i=1Nxki=k=1∏Nμkmk(2.29)
其中mkm_kmk为所有样本第k维出现1的次数,通过最大化带μk\mu_kμk归一化约束的对数似然函数,可求得μk\mu_kμk的最大似然估计为–N次观测种k维出现1的频率值:
μkML=mkN\mu_k^{ML}=\frac{m_k}{N}μkML=Nmk
**多项式分布:**考虑m1,m2,...,mkm_1,m_2,...,m_km1,m2,...,mk的概率:
Mult(m1,m2,...,mk)=N!m1!m2!...mk!∏k=1KμkmkMult(m_1,m_2,...,m_k)=\frac{N!}{m_1!m_2!...m_k!}\prod_{k=1}^K\mu_k^{m_k}Mult(m1,m2,...,mk)=m1!m2!...mk!N!k=1∏Kμkmk
N!m1!m2!...mk!\frac{N!}{m_1!m_2!...m_k!}m1!m2!...mk!N!为将N个物体,划分为m1,m2,...,mkm_1,m_2,...,m_km1,m2,...,mk组数据方案总数。
**狄利克雷分布:**多项式分布的共轭先验
Dir(μ∣α)Γ(α0)Γ(α1)Γ(α2)Γ(αK)∏k=1Kμkαk−1(2.38)Dir(\bm{\mu}|\bm{\alpha})\frac{\Gamma(\alpha_0)}{\Gamma(\alpha_1)\Gamma(\alpha_2)\Gamma(\alpha_K)}\prod_{k=1}^K\mu_k^{\alpha_k-1}\tag{2.38}Dir(μ∣α)Γ(α1)Γ(α2)Γ(αK)Γ(α0)k=1∏Kμkαk−1(2.38)
贝叶斯上场:数据集似然(2.29)乘以参数先验,得到参数μ\bm{\mu}μ的后验,与狄利克雷分布具有相同的形式,狄利克雷分布种的αk\alpha_kαk可以看作k维度出现1次数的先验信息,然后通过数据集矫正该先验信息。
2.3 高斯分布
高斯分布产生1-使熵最大的分布通过拉格朗日乘子法求出来的分布就是高斯分布
高斯分布产生2-一组随机变量的和 构成的随机变量在 求和变量数量增多时,和随机变量会趋向于高斯分布(拉普拉斯提出的中心极限定理)
主要考察DDD维高斯分布,其通过一下的二次型与x\bm{x}x产生联系:
Δ2=(x−μ)TΣ−1(x−μ)\Delta^2=(\bm{x}-\bm{\mu})^T\Sigma^{-1}(\bm{x}-\bm{\mu})Δ2=(x−μ)TΣ−1(x−μ)
通过考虑协方差矩阵的特征向量,将二次型变成了椭球二次型(椭球面上为一个常量)
Δ2=∑i=1Dyi2λi\Delta^2=\sum_{i=1}^D\frac{y_i^2}{\lambda_i}Δ2=i=1∑Dλiyi2
yiy_iyi实际为xix_ixi经过平移旋转后的新坐标
如果再计算协方差矩阵行列式的平方根:
∣Σ∣12=∏j=1Dλj12|\Sigma|^{\frac{1}{2}}=\prod_{j=1}^D\lambda_j^{\frac{1}{2}}∣Σ∣21=j=1∏Dλj21
那么高斯分布在y\bm{y}y变量表示下就会变成D个高斯分布乘积。特征向量因此定义了一个新的旋转、平移的坐标系。在这个坐标系下联合概率分布可以分解成独立概率分布的乘积。
计算高斯分布的一阶矩(期望),二阶矩协方差。
高斯分布局限1–协方差矩阵关系到高斯模型参数的数量,和对应的等概率面形状
- 对称矩阵-坐标轴不对齐椭球
- 对角矩阵-坐标轴对齐椭球
- 正比于单位阵的矩阵-坐标轴对齐球
高斯分布局限2: 单峰,不能近似多峰分布
- 解决思路–引入隐变量,变成混合高斯模型
2.3.1条件高斯分布、2.3.2边缘高斯分布
多元高斯分布的一个重要性质:如果两组变量的联合分布是高斯分布,那么以一组变量为条件,另一组变量同样是高斯分布。一组变量的边缘分布还是高斯分布
令xa\bm{x}_axa为]x]\bm{x}]x的前M个分量,令xb\bm{x}_bxb为剩余的D-M个分量,对应随机变量,均值向量,协方差矩阵,精度矩阵的划分分别为:
x=[xaxb]\bm{x}= \left[ \begin{array}{ccc} \bm{x}_a \\ \bm{x}_b \\ \end{array} \right] x=[xaxb]
μ=[μaμb]\bm{\mu}= \left[ \begin{array}{ccc} \bm{\mu}_a \\ \bm{\mu}_b \\ \end{array} \right] μ=[μaμb]
Σ=[ΣaaΣabΣbaΣbb]\bm{\Sigma}= \left[ \begin{array}{ccc} \bm{\Sigma}_{aa} & \bm{\Sigma}_{ab} \\ \bm{\Sigma}_{ba} & \bm{\Sigma}_{bb} \\ \end{array} \right] Σ=[ΣaaΣbaΣabΣbb]
Λ=[ΛaaΛabΛbaΛbb]\bm{\Lambda}= \left[ \begin{array}{ccc} \bm{\Lambda}_{aa} & \bm{\Lambda}_{ab} \\ \bm{\Lambda}_{ba} & \bm{\Lambda}_{bb} \\ \end{array} \right] Λ=[ΛaaΛbaΛabΛbb]
Σ\SigmaΣ与Λ\LambdaΛ之间的关系通过分块矩阵的逆矩阵恒等式产生联系。
主要依据二次型来寻找高斯分布的协方差矩阵和均值矩阵。
条件高斯分布使用精度矩阵来表示方便:
p(xa∣xb)=N(xa∣μa∣b,Λaa−1)(2.96)p(\bm{x}_a|\bm{x}_b)=\mathcal{N}(\bm{x}_a|\bm{\mu}_{a|b},\bm{\Lambda^{-1}_{aa}})\tag{2.96}p(xa∣xb)=N(xa∣μa∣b,Λaa−1)(2.96)
边缘高斯分布使用协方差矩阵表示方便:
p(xa)=N(xa∣μa,Σaa)(2.98)p(\bm{x}_a)=\mathcal{N}(\bm{x}_a|\bm{\mu}_a,\bm{\Sigma}_{aa})\tag{2.98}p(xa)=N(xa∣μa,Σaa)(2.98)
2.3.3 高斯变量的贝叶斯定理
给定一个边缘高斯分布p(x)p(\bm{x})p(x)和条件高斯分布p(y∣x)p(\bm{y}|\bm{x})p(y∣x),求另一边缘高斯分布p(y)p(\bm{y})p(y)和条件高斯分布p(x∣y)p(\bm{x}|\bm{y})p(x∣y)。
重要特点:p(y∣x)p(\bm{y}|\bm{x})p(y∣x) 的均值为x\bm{x}x线性函数,协方差与x\bm{x}x无关。
利用贝叶斯定理p(z)=p(x)∗p(y∣x)p(z)=p(\bm{x})*p(\bm{y}|\bm{x})p(z)=p(x)∗p(y∣x),寻找二次型中与zzz相关项,求出对应的协方差和均值矩阵。
E(z)=[μAμ+b]\mathbb{E}(z)= \left[ \begin{array}{ccc} \bm{\mu} \\ \bm{A\mu}+\bm{b} \\ \end{array} \right] E(z)=[μAμ+b]
Λ=[Λ−1Λ−1ATAΛ−1L−1+AΛ−1AT]\bm{\Lambda}= \left[ \begin{array}{ccc} \bm{\Lambda}^{-1} & \bm{\Lambda}^{-1}\bm{A}^T \\ \bm{\bm{A}\Lambda}_{-1} & \bm{L}^{-1} + \bm{A}\bm{\Lambda}^{-1}\bm{A}^{T} \\ \end{array} \right] Λ=[Λ−1AΛ−1Λ−1ATL−1+AΛ−1AT]
依据多元高斯变量中一组随机变量边缘分布依旧是高斯分布,以及均值和方差的关系式(2.98)式可得:
E(y)=Aμ+b\mathbb{E}(\bm{y})=\bm{A\mu}+\bm{b}E(y)=Aμ+b
cov[y]=L−1+AΛ−1ATcov[\bm{y}]=\bm{L}^{-1} + \bm{A}\bm{\Lambda}^{-1}\bm{A}^{T}cov[y]=L−1+AΛ−1AT
依据贝叶斯定理能够求出条件高斯分布(联合分布p(x,y)除以边缘分布p(y))
p(x∣y)=N(x∣Σ{ATL(y−b)+Λμ},Σ)p(\bm{x}|\bm{y})=\mathcal{N}(\bm{x}|\mathcal{\Sigma}\{\bm{A}^T\bm{L}(\bm{y}-\bm{b})+\Lambda\mu \},\bm{\Sigma})p(x∣y)=N(x∣Σ{ATL(y−b)+Λμ},Σ)
2.3.4 高斯分布的最大似然估计
这一节主要讲多元高斯分布均值和协方差矩阵的最大似似然估计,均值是无偏估计,协方差矩阵估计是有偏估计,会小于实际值:
μML=1N∑n=1Nxn\bm{\mu}_{ML}=\frac{1}{N}\sum_{n=1}^N\bm{x}_nμML=N1n=1∑Nxn
ΣML=1N∑n=1N(xn−μML)(xn−μML)T\bm{\Sigma}_{ML}=\frac{1}{N}\sum_{n=1}^N(\bm{x}_n-\bm{\mu}_{ML})(\bm{x}_n-\bm{\mu}_{ML})^TΣML=N1n=1∑N(xn−μML)(xn−μML)T
2.3.5 顺序估计
最大似然的顺序估计:允许每次处理一个数据点,然后丢弃这个点。对于在线学习具有十分重要的意义。
最大似然均值估计探索μML(N)\bm{\mu}_{ML}^{(N)}μML(N)与μML(N−1)\bm{\mu}_{ML}^{(N-1)}μML(N−1)以及xN\bm{x}_NxN的关系:
μML(N)=1N∑n=1Nxn=μML(N−1)+1N(xN−μMLN−1)(2.126)\bm{\mu}_{ML}^{(N)}=\frac{1}{N}\sum_{n=1}^N\bm{x}_n\\ =\bm{\mu}_{ML}^{(N-1)}+\frac{1}{N}(\bm{x}_N-\bm{\mu}_{ML}^{N-1})\tag{2.126} μML(N)=N1n=1∑Nxn=μML(N−1)+N1(xN−μMLN−1)(2.126)
引出更一般的顺序算法Robbins-Monro算法:一对随机变量z和θ\thetaθ,当θ\thetaθ已知时,z的条件期望定义了一个确定的函数f(θ)f(\theta)f(θ)。目标是寻找使f(θ)=0f(\theta)=0f(θ)=0的根值θ∗\theta^*θ∗(为啥目标是这个?)
假定每次观测到一个z值,如何使用顺序估计的方法来将θ\thetaθ估计出来呢?
Robbins-Monro顺序估计序列
θN=θN−1−αN−1z(θ)\theta^{N}=\theta^{N-1}-\alpha_{N-1}z(\theta)θN=θN−1−αN−1z(θ)
实际应用中最大似然估计求解过程中,最大似然解其实是负对数似然函数的的驻点。套用公式,最后能够得到式(2.126)一样的结果。
2.3.6 高斯分布的贝叶斯推断
高斯分布的均值和方差是一个分布,这个分布通过选择合适的先验信息可以构成成高斯分布,该高斯分布的均值由先验均值和最大似然估计给出,方差由先验精度和最大似然精度加和给出。
2.3.7 学生t分布
高斯分布和精度的伽马分布相乘,对精度进行积分,通过变量代换后得到学生t 分布。
学生t分布又一个重要的性质:鲁棒性,使用t分布对数据建模时,对数据集里的离群点不敏感。高斯分布就比较敏感。(表现为多几个离群点,分布就严重变形)
2.3.8周期性变量
使用正常的高斯分布建模并不合适,周期性变量θ\thetaθ其概率密度函数要满足一下三个条件。
p(θ)≥0p(\theta)\geq0p(θ)≥0
∫02πp(θ)dθ=1\int_0^{2\pi}p(\theta)d\theta=1∫02πp(θ)dθ=1
p(θ+2π)=p(θ)p(\theta + 2\pi) = p(\theta)p(θ+2π)=p(θ)
二元高斯变量,当协方差矩阵为单位阵时,通过概率密度为确定数的轮廓线是圆形。通过构造可以得到想要的高斯分布(具体构造过程过)
2.3.9混合高斯分布
K个高斯密度的叠加:
p(x)=∑k=1KπkN(x∣μk,Σk)p(\bm{x})=\sum_{k=1}^K\pi_k\mathcal{N}(\bm{x}|\bm{\mu}_k,\bm{\Sigma}_k)p(x)=k=1∑KπkN(x∣μk,Σk)
依据概率密度归一化要求:∑k=1Kπk=1\sum_{k=1}^K\pi_k=1∑k=1Kπk=1,0≤πk≤10\le\pi_k\le10≤πk≤1。
πk\pi_kπk可以看作选择第k个成分的先验概率。
混合高斯模型,由于似然函数取对数操作中存在求和式子,所以参数的最大似然估计不再有闭式解。两种最大化混合高斯分布似然函数的方法:1.迭代数值优化方法;2.期望最大法。
2.4 指数族分布
伯努利分布,多项式分布,高斯分布都是指数族分布
指数族分布:
p(x∣μ)=h(x)g(η)exp{ηTu(x)}p(\bm{x}|\bm{\mu})=h(\bm{x})g(\bm{\eta})exp\{\eta^Tu(\bm{x})\}p(x∣μ)=h(x)g(η)exp{ηTu(x)}
其中:η\bm{\eta}η为变量x\bm{x}x的参数,被称作概率分布的自然参数, g(η)g(\bm{\eta})g(η)可以被看成系数,确保概率是归一化的 。
通过变化,能够找到伯努利分布、多项式分布、高斯分布中h(x)h(\bm{x})h(x), g(η)g(\bm{\eta})g(η),u(x)u(\bm{x})u(x)的具体表现形式。
(其中推到的过程中推出了logistic sigmoid 函数和softmax 函数还是蛮意外的。)
2.4.1-最大似然估计与充分统计量
2.4.2-共轭先验
2.4.3-无信息先验
在某些情况下,我们可能对分布应该具有的形式几乎完全不知道,这时,我们可以寻找一种形式先验分布,其目的是尽可能对后验分布产生较小的影响。–无信息先验
例如将先验分布p(λ)=常数p(\lambda)=常数p(λ)=常数设置为一个常数