彻底学会系列：一、机器学习之线性回归（二）

0. 概念和公式

请参考：一、机器学习之线性回归（一）

1. 涉及公式

1.1 简单线性回归

$y = w x + b$

1.2 多元线性回归

$\hat y = w_1X_1 + w_2X_2 ... w_nX_n + w_0$

向量表示：

$\hat y = W^TX$

1.3 高斯密度函数

$\ f(x; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$

1.4 最大似然估计

连乘： $\ L(\theta | \text{data}) = \prod_{i=1}^{n} P(X_i; \theta)$
对数： $\ \ell(\theta | \text{data}) = \sum_{i=1}^{n} \log P(X_i; \theta)$

1.5 最小二乘法

$J(\theta) = \frac{1}{2} \sum_{i=1}^{n} (h_\theta(x_i) - y_i)^2$

1.8 正规方程

$\theta = (X^T X)^{-1} X^T y$

1.9 均方误差

$\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (h_\theta(x_i) - y_i)^2$

2. 公式推导(不考虑多项式)

2.1 解决问题

建模问题：
目标： 描述变量之间的线性关系。
问题描述： 给定一组观测数据 $x_1, y_1), (x_2, y_2), ..., (x_n, y_n)$ ，其中 (x) 是自变量，(y) 是因变量，线性回归的目标是找到一条直线 $\theta_0 + \theta_1 x$ ，使得这条直线最好地拟合给定的数据点。其中， $\theta_0$ 是截距， $\theta_1$ 是斜率。
解法： 通过最小化均方误差（MSE）来找到最优的参数 $\theta$ 。这等价于解一个线性方程系统，其中涉及到对参数的偏导数等于零，或者使用正规方程（Normal Equations）。
$\frac{\partial J(\theta)}{\partial \theta_0} = 0$
$\frac{\partial J(\theta)}{\partial \theta_1} = 0$
预测问题：
目标： 使用模型进行未知变量的预测。
问题描述： 在建立了线性回归模型后，我们希望利用这个模型对未知数据进行预测。例如，给定新的 $x$ 值，我们希望预测对应的 $y$ 值。
解法： 使用建立好的线性回归模型，将未知 $x$ 值代入模型，得到预测的 $y$ 值。
$\hat{y} = \theta_0 + \theta_1 x$

2.2 误差分析

误差计算：
$\varepsilon_i = |y_i - \hat y |$
向量写法：
$\varepsilon_i = |y_i - W^T x_i |$

$\varepsilon_i$ 为误差
$y_i$ 为样本实际值
$\hat y$ 为预测值

假定所有的样本的误差都是独立的，上下的震荡，叠加之后形成的分布，它服从正态分布（高斯分布），服从均值为 0，方差为某定值的高斯分布。

2.3 误差分析到高斯密度函数

高斯密度函数（正态分布）公式：
$\ f(x; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$
$\mu$ ：均值，为0
$\sigma^2$ ：方差
$x$ ：误差变量 $\varepsilon_i$
公式简化：
$\ f(\varepsilon_i|\mu=0, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(\varepsilon_i-0)^2}{2\sigma^2}\right)$

$\ f(\varepsilon_i|0, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{\varepsilon_i^2}{2\sigma^2}\right)$

2.4 高斯密度函数到最大似然估计

有： $\ f(\varepsilon_i|0, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{\varepsilon_i^2}{2\sigma^2}\right)$

$\prod_{i=1}^{n}f(\varepsilon_i|0, \sigma^2)=\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{\varepsilon_i^2}{2\sigma^2}\right)$

有： $\varepsilon_i = |y_i - W^T x_i |$

$\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{（y_i - W^T x_i )^2}{2\sigma^2}\right)$

2.5 最大似然估计到最小二乘法

有： $\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{（y_i - W^T x_i )^2}{2\sigma^2}\right)$
对数运算：
$log_e(P)= log_e\left[\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{（y_i - W^T x_i )^2}{2\sigma^2}\right)\right]$