PRML第二章下-非参数估计
- 1.直方图
- 2. 核方法
- 3. K近邻
概率密度建模-参数化方法-概率密度的形式一定,由数据集确定密度中的参数即可。
局限性–概率模型选的不对,不能够描述数据模态
此时,介绍一下非参数方法–直方图,核方法, K紧邻
1.直方图
直方图–密度估计–每个直方处密度,nin_ini该直方内的样本数,N总样本数,Δ\DeltaΔ该直方宽度
pi=niNΔip_i=\frac{n_i}{N\Delta_i}pi=NΔini
缺点:
- 在直方交界处概率密度不连续
- D维变量,每个维度都划分成MMM维度,将会有MDM^DMD个箱子。
估计某个特定位置的概率密度,应该考虑位于那个点的某个邻域内的数据点。
某个点处的概率密度–K 邻域内样本数,NNN总样本数,VVV邻域半径:
p(x)=KNVp(x)=\frac{K}{NV}p(x)=NVK
2. 核方法
固定邻域大小,计算邻域内样本数K。
Parzen 窗核函数密度估计(在窗中的才算):
p(x)=1N∑n=1N1hDk(x−xnh)p(x)=\frac{1}{N}\sum_{n=1}^N\frac{1}{h^D}k(\frac{x-x_n}{h})p(x)=N1n=1∑NhD1k(hx−xn)
高斯核密度估计(所有样本都算):
p(x)=1N∑n=1N1(2πh2)D2exp−∣∣x−xn∣∣22h2p(x)=\frac{1}{N}\sum_{n=1}^N\frac{1}{(2\pi h^2)^{\frac{D}{2}}}\exp{-\frac{||x-x_n||^2}{2h^2}}p(x)=N1n=1∑N(2πh2)2D1exp−2h2∣∣x−xn∣∣2
3. K近邻
固定邻域内样本数K,计算包含K个样本邻域体积。
由K近邻方法导出的K-NN 分类器。
数据集NkN_kNk个样本属于类别CkC_kCk,数据总数为NNN,如果想对数据xxx分类;以x为中心的球体中包含CkC_kCk类样本KkK_kKk个,x 与每个类别关联的概率:
p(x∣Ck)=KkVNkp(x|C_k)=\frac{K_k}{VN_k}p(x∣Ck)=VNkKk
类别先验:
p(Ck)=NkNp(C_k)=\frac{N_k}{N}p(Ck)=NNk
x的后验概率:
p(ck∣x)=p(x,Ck)p(x)=KkVNkNkNKVN=KkKp(c_k|x)=\frac{p(x,C_k)}{p(x)}=\frac{\frac{K_k}{VN_k}\frac{N_k}{N}}{\frac{K}{VN}}=\frac{K_k}{K}p(ck∣x)=p(x)p(x,Ck)=VNKVNkKkNNk=KKk