深入理解交叉熵损失 CrossEntropyLoss

深入理解交叉熵损失 CrossEntropyLoss - 最大似然估计

flyfish

下面有详细的例子和公式的说明。

最大似然估计的概念

最大似然估计是一种统计方法，用来估计模型参数，使得在这些参数下观测到的数据出现的概率（即似然）最大。

具体步骤

定义似然函数：

给定一个参数化的概率模型 $P(X|\theta)$ ，其中 $\theta$ 是模型的参数， $X$ 是观测数据。
似然函数 $L(\theta|X)$ 表示在参数 $\theta$ 下，观测数据 $X$ 出现的概率。

计算似然函数：

对于独立同分布的数据集 $\{x_1, x_2, \ldots, x_n\}$ ，似然函数是各数据点概率的乘积：
$L(\theta | X) = P(X|\theta) = \prod_{i=1}^{n} P(x_i|\theta)$

取对数得到对数似然函数：

为了简化计算，通常取似然函数的对数，即对数似然函数：
$\log L(\theta | X) = \sum_{i=1}^{n} \log P(x_i|\theta)$

最大化对数似然函数：

找到使对数似然函数最大的参数 $\theta$ ：
$\hat{\theta} = \arg\max_{\theta} \log L(\theta | X)$

似然函数的定义

假设我们有一个概率模型 $P(X|\theta)$ ，其中 $\theta$ 是模型的参数， $X$ 是观测数据。似然函数 $L(\theta | X)$ 表示在参数 $\theta$ 下，观测数据 $X$ 出现的概率。

对于独立同分布的数据

如果我们有独立同分布的数据集 $\{x_1, x_2, \ldots, x_n\}$ ，似然函数是各数据点概率的乘积：

$L(\theta | X) = P(X|\theta) = \prod_{i=1}^{n} P(x_i|\theta)$

公式拆解

$L(\theta | X)$ ：似然函数，表示参数 $\theta$ 给定的情况下，观测数据 $X$ 出现的概率。
$\theta$ ：模型参数，我们希望估计的未知量。
$X$ ：观测数据的集合。
$\{x_1, x_2, \ldots, x_n\}$ ：独立同分布的观测数据点。
$P(X|\theta)$ ：观测数据 $X$ 在参数 $\theta$ 下的联合概率。
$\prod_{i=1}^{n}$ ：从 1 到 $n$ 的乘积符号，表示对所有数据点的概率进行乘积。
$P(x_i|\theta)$ ：单个数据点 $x_i$ 在参数 $\theta$ 下的概率。

对数似然函数

为了简化计算，通常我们对似然函数取对数，得到对数似然函数：

$\log L(\theta | X) = \sum_{i=1}^{n} \log P(x_i|\theta)$

公式拆解

$\log L(\theta | X)$ ：对数似然函数。
$\sum_{i=1}^{n}$ ：从 1 到 $n$ 的求和符号，表示对所有数据点的对数概率求和。
$\log P(x_i|\theta)$ ：单个数据点 $x_i$ 在参数 $\theta$ 下的对数概率。

举例说明：投掷硬币

假设我们投掷硬币10次，结果是6次正面朝上，我们希望估计硬币正面朝上的概率 $p$ 。

定义似然函数

对于二项分布，似然函数为：

$\binom{10}{6} p^6 (1-p)^4$

公式拆解

$L (p ∣ X)$ ：似然函数，表示在正面概率为 $p$ 的情况下，观测到6次正面和4次反面的概率。
$\binom{10}{6}$ ：组合数，表示从10次投掷中选择6次正面的组合数。
$p^6$ ：正面出现6次的概率。
$1-p)^4$ ：反面出现4次的概率。

对数似然函数

对似然函数取对数：

$\log L(p | X) = \log \left( \binom{10}{6} \right) + 6 \log(p) + 4 \log(1-p)$

最大化对数似然函数

通过求导数并设为0，可以找到使对数似然函数最大的参数 $p$ ：

$\frac{d}{dp} \log L(p | X) = \frac{6}{p} - \frac{4}{1-p} = 0$

解这个方程得到：

$\frac{6}{p} = \frac{4}{1-p}$
$6 (1 - p) = 4 p$
$6 - 6 p = 4 p$
$6 = 10 p$
$\frac{6}{10} = 0.6$

代码

import numpy as np
from scipy.optimize import minimize# 定义对数似然函数，加入小偏移量避免除零错误
def log_likelihood(p, data, epsilon=1e-10):n = len(data)k = np.sum(data)p = np.clip(p, epsilon, 1 - epsilon)  # 确保 p 在 (epsilon, 1 - epsilon) 之间return -(k * np.log(p) + (n - k) * np.log(1 - p))# 模拟数据：10次投掷，6次正面朝上
data = [1] * 6 + [0] * 4# 最大化对数似然函数
result = minimize(log_likelihood, x0=[0.5], args=(data), bounds=[(0, 1)])
p_hat = result.x[0]
print(f'Estimated probability of heads: {p_hat}')
Estimated probability of heads: 0.5999999961321424