模式识别——贝叶斯决策理论BDR
- 须知
- 基本原则
- 0-1损失下的BDR
- MAP(极大后验)
- log trick
须知
所有内容在分类问题下讨论。
基本原则
定义
- X X X为观测
- Y Y Y为状态
- g ( x ) g(x) g(x)用 x x x对 y y y进行预测
- 预测损失为 L [ g ( x ) , i ] L[g(x),i] L[g(x),i]
风险 R i s k Risk Risk为损失的期望,即对所有观测造成的损失的平均,即对大量观测判别的损失最低:
R i s k = E X , Y [ L ( X , Y ) ] = ∫ ∑ i = 1 M P Y , X ( i , x ) L [ g ( x ) , i ] d x R i s k=E_{X,Y}[L(X,Y)]=\\ \int\sum_{i=1}^{M}P_{Y,X}(i,x)L[g(x),i]d x Risk=EX,Y[L(X,Y)]=∫i=1∑MPY,X(i,x)L[g(x),i]dx
通过条件概率展开成如下形式:
R i s k = E X [ R ( x ) ] = ∫ P X ( x ) R ( x ) d x Risk=E_X[R(x)]\\ =\textstyle\int P_{X}(x)R(x)d x Risk=EX[R(x)]=∫PX(x)R(x)dx
其中 R ( x ) R(x) R(x)为条件风险,即给定观测下的风险:
R ( x ) = ∑ i = 1 M P Y ∣ X ( i ∣ x ) L [ g ( x ) , i ] R(x)=\sum_{i=1}^{M}P_{Y|X}(i\mid x)L[g(x),i] R(x)=i=1∑MPY∣X(i∣x)L[g(x),i]
我们的目标就是找一个最优的判别函数,在观测 x x x给定的情况,使得对状态的预测损失最小。
g ∗ ( x ) = arg min g ( x ) R ( x ) g^{*}(x)=\arg\operatorname*{min}_{g(x)}R(x) g∗(x)=argg(x)minR(x)
gpt给出的使用条件风险代替全局风险的原因,可以参考:
0-1损失下的BDR
通过推导可以得出结论,0-1损失下的BDR就是MAP(极大后验准则),这是非常符合认知的:
g ∗ ( x ) = a r g m a x i P Y ∣ X ( i ∣ x ) {\mathcal{g}}^{*}(x)=argmax_{i}P_{Y|X}(i\mid x) g∗(x)=argmaxiPY∣X(i∣x)
对应的损失为:
R ∗ = ∫ P Y , X ( y ≠ g ∗ ( x ) , x ) d x R^{*}=\int P_{Y,X}(y\neq g^{*}(x),x)d x R∗=∫PY,X(y=g∗(x),x)dx
MAP(极大后验)
考虑二分类问题,使用极大后验可以表示为:
使用贝叶斯公式对极大后验展开,由于展开后的分母相同可以约掉(观测x已知),可以得到:
log trick
两边取对数等价,可以将决策函数化为以下形式,以简化计算:
总而言之: