贝叶斯神经网络（Bayesian Neural Network）

最近在研究贝叶斯神经网络，一些概念一直搞不清楚，这里整理一下相关内容，方便以后查阅。

贝叶斯神经网络（Bayesian Neural Network）

贝叶斯神经网络（Bayesian Neural Network）
- 1. BNN 的核心思想
- 2. BNN 的优化目标
- 3. BNN 的结构与特点
- 4. BNN 的训练过程
- 5. BNN 的优缺点
- 6. 与经典神经网络的对比
- 7. 简单代码示例（PyTorch）
- 总结
BNN 的目标是计算后验分布
- 1. 经典神经网络与最大化似然估计
- 2. 贝叶斯神经网络的目标
- 3. 经典神经网络与贝叶斯神经网络的核心区别
- 4. 为什么不是最大化似然估计或最小化损失函数
- 5. 贝叶斯神经网络的优化目标
- 6. 实际意义：后验分布的好处
- 总结
Bayes by Backprop
- 1. Bayes by Backprop 的目标
- 2. Bayes by Backprop 的实现细节
- 总结
经典神经网络优化的例子
- 使用均方根误差优化
- - 代码实现
  - 代码解释
  - 对比 Bayes by Backprop
- 使用最大化似然估计优化
- - 代码实现
  - 代码解释
  - MLE如何在此应用
  - 对比 Bayes by Backprop

贝叶斯神经网络（Bayesian Neural Network）

贝叶斯神经网络（Bayesian Neural Network, BNN） 是在经典神经网络中引入贝叶斯概率框架的一种扩展模型。它将网络的权重参数表示为概率分布，而不是确定性的点值，从而可以量化模型和预测结果的不确定性。

在这里插入图片描述

1. BNN 的核心思想

在经典神经网络中，权重是固定的点值，通过最小化损失函数（如均方误差、交叉熵）来优化权重参数。而在贝叶斯神经网络中，权重被建模为概率分布，目标是通过数据更新这些分布（即计算后验分布）。

贝叶斯定理：
$p(\mathbf{w}|\mathcal{D}) = \frac{p(\mathcal{D}|\mathbf{w}) p(\mathbf{w})}{p(\mathcal{D})},$

其中：

$p(\mathbf{w}|\mathcal{D})$ ：后验分布，表示在观察数据后，权重的分布。
$p(\mathcal{D}|\mathbf{w})$ ：似然函数，表示数据在给定权重下的可能性。
$p(\mathbf{w})$ ：先验分布，表示我们对权重的先验假设（如权重可能是零均值的高斯分布）。
$p(\mathcal{D})$ ：边际似然，通常通过积分对所有可能的权重求和：
$p(\mathcal{D}) = \int p(\mathcal{D}|\mathbf{w}) p(\mathbf{w}) d\mathbf{w}.$

2. BNN 的优化目标

BNN 的目标是计算后验分布 $p(\mathbf{w}|\mathcal{D})$ 。由于边际似然 $p(\mathcal{D})$ 的计算通常非常困难（涉及高维积分），我们采用近似方法来推断后验分布，例如：

变分推断（Variational Inference）
用一个简单的分布 $q(\mathbf{w}|\boldsymbol{\theta})$ 近似 $p(\mathbf{w}|\mathcal{D})$ ，并最小化 KL 散度：
$\mathrm{KL}(q(\mathbf{w}|\boldsymbol{\theta}) \| p(\mathbf{w}|\mathcal{D})).$
蒙特卡罗方法（Monte Carlo Methods）
使用随机采样方法（如 MCMC）直接从后验分布中采样。
贝叶斯 by Backprop
通过重参数化技巧，将变分推断和神经网络的反向传播结合。

3. BNN 的结构与特点

BNN 与经典神经网络的主要区别是权重的建模方式：

经典神经网络：权重是固定值（点估计）。
贝叶斯神经网络：权重是概率分布，表示为 $p(\mathbf{w})$ 。

在 BNN 中，推断网络输出时也会引入随机性：
$p(\mathbf{y}|\mathbf{x}, \mathcal{D}) = \int p(\mathbf{y}|\mathbf{x}, \mathbf{w}) p(\mathbf{w}|\mathcal{D}) d\mathbf{w}.$

这意味着预测结果（输出 $\mathbf{y}$ ）不仅依赖于输入 $\mathbf{x}$ ，还受到权重分布的不确定性影响。

4. BNN 的训练过程

BNN 的训练过程包括以下步骤：

定义先验分布：
对权重 $\mathbf{w}$ 定义一个先验分布 $p(\mathbf{w})$ ，例如零均值的高斯分布：
$p(\mathbf{w}) = \mathcal{N}(\mathbf{w}|0, \sigma^2).$
计算似然函数：
定义数据的似然函数 $p(\mathcal{D}|\mathbf{w})$ ，例如对分类任务，通常是交叉熵损失对应的概率分布。
近似后验分布：
用 $q(\mathbf{w}|\boldsymbol{\theta})$ 近似 $p(\mathbf{w}|\mathcal{D})$ 。
- $q(\mathbf{w}|\boldsymbol{\theta})$ 的参数（如均值 $\mu$ 和方差 $\sigma$ ）是通过优化得到的。
- 目标是最大化变分下界：
  $\mathcal{L}(\boldsymbol{\theta}) = \mathbb{E}_{q(\mathbf{w}|\boldsymbol{\theta})}[\log p(\mathcal{D}|\mathbf{w})] - \mathrm{KL}(q(\mathbf{w}|\boldsymbol{\theta}) \| p(\mathbf{w})).$

对最小化变分下界的理解：

第一部分：对数似然的期望 $\mathbb{E}_{q(\mathbf{w}|\boldsymbol{\theta})}[\log p(\mathcal{D}|\mathbf{w})]$

作用：评估近似分布 $q(\mathbf{w}|\boldsymbol{\theta})$ 在训练数据 $\mathcal{D}$ 上的拟合能力。
解释：从分布 $q(\mathbf{w}|\boldsymbol{\theta})$ 中采样权重 $\mathbf{w}$ ，然后计算其对应的对数似然 $\log p(\mathcal{D}|\mathbf{w})$