一. 随机变量
1.1 概率分布
概率分布
定义 : 随机变量X取各个值$x_i$的概率称为X的概率分布. 对于离散型随机变量: $ P(X=x_i)=p_i, (i=1,2,3,...) $
特性 :
a. $p_i>0$
b. $\sum_i^{\infty} p_i =1 $
累积概率分布(CDF)
定义 : $F(x)=P(X \le x) $, 对于离散型随机变量 $F(x)=\sum_{x_i \le x} p_i $
连续型随机变量的分布函数(CDF)和概率密度函数(PDF)
$$ F(x)=\int_{-\infty}^{\infty} f(t) dt $$
称$f(x)$为X的概率密度函数(PDF)
性质:
$$ f(x)\ge 0, \int_{-\infty}^{\infty} f(x) dx =1 $$
$$P(a<x<b)= \int_{a}^{b} f(x) dx $$
1.2 随机变量的数值特征
1. 数学期望
定义 :
离散型: $$ E(X) = \sum_{i=1}^{N} p_i x_i $$ 其中$p_i$为$X_i$发生的概率, $\sum p_i =1 $
连续型: $$ E(X) = \int_{-\infty}^{\infty} x f(x) dx $$
特性: $$E(a+bX) = a+b E(X) $$ 式中: a,b为常数
2. 方差
定义:
离散型: $$\sigma^2_X = var(X)=E(X-E(X))^2 = \sum_{i=}^N p_i (x_i - \mu_X)^2 $$
连续型: $$\sigma^2_X = var(X)=\int_{-\infty}^{\infty} (x-\mu_X)^2 f(x) dx $$
性质: $$ var(a+bX) = b^2 var(X) $$
切比雪夫不等式: $$P(\mu - k \rho \le X \le \mu + k \rho) \ge 1-\frac{1}{k^2} $$
3. 偏度和峰度
r 阶矩: $E(X)^r $
r阶中心矩 : $E(X-\mu_X)^r $
偏度(skew) : $$ S = \frac{E(X-\mu_X)^3}{\sigma^3_X} $$
S = 0: 概率密度函数对称;
S > 0: 概率密度函数有长的右拖尾(右偏);
S < 0: 概率密度函数有长的左拖尾(左偏)
峰度(kurtosis): $$ K =\frac{E(X-\mu_X)^4}{\sigma^4_X} $$
正态分布: K=3, S=0;
K > 3: 分布突起程度大于正态分布
K < 3: 分布较正态分布更平坦
1.3 随机变量的联合分布
联合概率
离散型 : $$P(X=x_i, Y=y_j) = p _k ( i,j = 1,2,....)$$
连续型: $$ P(a<X<b, c<Y<d) = \int_a^b dx \int_c^d f(x,y)dy $$
边际概率
离散型: $$ f_X(x) = P(X=x_i)=\sum_{j=1}^{\infty} p_{ij} $$
连续型: $$ f_X(x) = \int_{-\infty}^{\infty} f(x,y)dy $$
当两个随机变量相互独立时: $f(x,y) = f_X(x) f_Y(y) $
条件概率函数
离散型: $$P(X=x_i | Y = y_j) = \frac{P(X=x_i,Y=y_j}{P(Y=y_j)} $$
连续型: $$f_X(x|y) = \frac{f(x,y)}{f_Y(y)} $$
协方差和相关系数
协方差: $$ cov(X,Y) = E[( X-\mu_X)(Y-\mu_Y)] $$
协方差度量两个变量的同时波动,如果两个变量同方向变动,则协方差为正,如果两个变量反方向变动,则协方差为负. 如果两个随机变量独立,则协方差为零
当两个变量不是独立的时, 用相关系数度量它们之间的相关程度. $$ \rho = \frac{cov(X,Y)}{\sigma_X \sigma_Y} $$
二. 总体与样本
1. 基本统计量
样本均值
定义: $$ \bar x = \frac{1}{N} \sum_{i=1}^N x_i $$
其他还有加权平均
, 几何平均
, 中位数
等
样本标准差
定义: $$S_x = \sqrt{\frac{1}{N-1}\sum_{i=1}^N (x_i - \bar x)^2 } $$
式中除以N-1, 而不是N的原因是这样得到的样本方差估计量才是无偏的估计量.
样本协方差
定义: $$ C_{xy}=\frac{1}{N-1}\sum_{i=1}^N (x_i - \bar x)(y_i - \bar y) $$
样本相关系数: $$r = \frac{{\sum\limits_{i = 1}^N {({x_i} - \bar x)} ({y_i} - \bar y)}}{{\sqrt {\sum\limits_{i = 1}^N {{{({x_i} - \bar x)}^2}} \sum\limits_{i = 1}^N {{{({y_i} - \bar y)}^2}} } }} = \frac{C_{xy}}{ S_x S_y} $$
交叉相关系数: $$r(l) = \frac{C_{xy}(l)}{S_x S_y} , (l = 0,\pm 1, \pm 2, \cdots ) $$
其中:
$$\left\{ {\begin{array}{*{20}{c}}{\frac{1}{N}\sum\limits_{i = 1}^{N - 1} {({x_i} - \bar x)({y_{i + l}} - \bar y),(l = 0,1,2,...)} }\\{\frac{1}{N}\sum\limits_{i = 1}^{N - 1} {({y_i} - \bar y)({x_{i - l}} - \bar x),(l = 0, - 1, - 2,...)} }\end{array}} \right.$$
2. 估计量的性质
无偏性
估计量的均值等于未知参数的真值, 即 $ E(\hat \beta) = \beta $
因为 $E(\bar x) = \dfrac{1}{N}\sum E(x_i) = \mu_x $, 故$\bar x$是 $\mu_x$的无偏估计.
有效性
样本方差最小.
如$\bar x $是 $\mu_x$的最小方差无偏估计
一致性
样本容量增加时, 估计量越来越接近真值. 即: $$ \mathop{\lim} \limits_{N \to \infty} P(|\beta - \hat \beta| < \delta) = 1 $$
三. 重要的概率分布
正态分布
$$ f(x) = \frac{1}{\sigma \sqrt{2\pi}}e^{-(x-\mu)^2/(2\sigma^2)} $$
标准正态分布( $\mu=0,\sigma=1$):
$$ f(x) = \frac{1}{\sqrt{2\pi}} e^{-x^2/2} $$
性质:
- 正态分布随机变量的线性组合仍服从正态分布
如: $ X \sim N(\mu_x, \sigma^2_x), Y \sim N(\mu_y,\sigma^2_y) $, 假定X,Y相互独立, 则它们的线性组合 $z=aX+bY$也服从正态分布
$$ Z \sim N(a\mu_x+b\mu_y, a^2\sigma^2_x + b^2 \sigma^2_y) $$
根据这个性质, 任何正态分布都可以化为标准正态分布,即
$$ Z=\frac{X-\mu}{\sigma} \sim N(0,1) $$
并且有
$$ P(a<X<b)= P(\frac{a-\mu}{\sigma} < \frac{X-\mu}{\sigma} < \frac{b-\mu}{\sigma}) $$
使用标准正态分布时, 常用记号$z{\alpha}$表示满足条件 $P(Z>z{\alpha}) = \alpha $的点,称$z_{\alpha}$为标准正态分布上的$\alpha$分位数.
同时有 $$ P(-z_{\alpha/2}< Z < z_{\alpha/2}) = 1 -\alpha $$
比如常用$\alpha=0.05$, 于是有$P(-1.96<Z<1.96)=95%$, 对于任意正态分布有 $P(\mu-1.96\sigma <X<\mu+1.96\sigma) = 95% $
正态分布检验
Jarque-Bera统计量是用来检验一组样本是否能够认为来自正态总体的一种方法.
统计量: $$ JB = \frac{T-k}{6} [S^2+\frac{1}{4}(K-3)^2 ] $$
S,K分别为偏度和峰度, 若为原始数据,k=0, 若序列是通过模型估计得到的,k为估计的参数个数.
在正态分布的假设下, JB统计量服从$\chi^2(2)$分布
$\chi^2 $分布
标准正态分布的平方服从自由度为1的$\chi^2$分布, 即$Z^2 \sim \chi^2(1) $
自由度是平方和中的独立变量个数.
如果$Z_1,Z_2,\cdots,Z_k$是k个独立的服从标准正态分布的随机变量,则它们的平方和服从自由度为k的$\chi^2$分布, 即:
$$ \sum Z_i^2 \sim \chi_k^2$$
重要性质:
1). $\chi^2$分布只取正值,并且是偏斜分布,其偏度取决于自由度大小,自由度越大越右偏, 随着自由度增大,逐渐接近正态分布.
2). $\chi^2$分布的期望为自由度k, 方差为2k
3). 如果来自方差为$\sigma^2$的一个正态分布的N个观测值的样本方差为$s^2$,则有 $(N-1)s^2/\sigma^2 \sim \chi^2(N-1) $
t分布
如果Z服从标准正态分布, X服从自由度为k的$chi^2$分布,并且两者相互独立,则随机变量 $t = Z/\sqrt{X/k} $ 服从自由度为k的t分布.
对于一般正态分布,对样本均值$\bar x$进行标准化后,可得到:
$$Z=\frac{(\bar x - \mu)}{s/\sqrt{N}} \sim t_{N-1} $$
重要结论: 总体方差$\sigma^2$已知时,标准化的统计量Z服从标准正态分布, 当总体方差未知时,用样本标准差代替总体标准差, 但不再服从标准正态分布,而是服从自由度为N-1的t分布.
性质:
1). t分布是对称的
2). 期望值为0, 方差为 $k/(k-2)$ ( 方差大于标准正态分布的方差1, 故t分布的尾部比正态分布更厚)
3). 自由度增大时, t分布趋近于正态分布, 因此也有 $P(-1.96<t<1.96) \approx 95% $
F分布
如果两个服从$chi^2$分布的随机变量相互独立,其自由度分别为$k_1,k_2$,则 $$ F(k_1,k_2) =\frac{\chi^2(k_1)/k_1}{\chi^2(k_2)/k_2} \sim F(k_1,k_2) $$
性质:
1). F分布与$chi^2$分布类似,只取非负值,并且是斜分布
2). 随着自由度增大,F分布趋近于正态分布
从t分布和F分布的定义可以看出, t分布的平方服从$F(1,k)$, 即 $t_k^2 \sim F(1,k) $
当$k_2$无限大时,F的分母收敛为1, 这时F分布与$\chi^2$分布存在如下关系 $$F(k_1,k_2) = \chi^2(k_1)/k_1 $$
四. 统计推断
1. 参数估计
进行参数估计的方法通常有
- 矩估计 , 如用样本均值(样本一阶矩)作为总体均值(总体一阶矩)的估计方法
- 极大似然估计
参数估计的置信度与置信区间
如果随机变量$X \sim N(\mu_x,\sigma^2) $,则有 $$\bar x \sim N(\mu_x, \sigma^2/N) $$
将其标准化得到 $$ Z=\frac{(\bar x - \mu_x)}{\sigma/\sqrt{N}} \sim N(0,1) $$
一般情况下,方差$\sigma^2$是未知的,但可以用样本估计量 $s^2=\sum (x_i-\bar x)^2/(N-1)$来代替,于是有 $$ t = \frac{\bar x - \mu_x}{s/\sqrt{N}} \sim t(N-1) $$
得到 $$P(-t_{\alpha/2} < \frac{\bar x - \mu_x}{s/\sqrt{N}} <t_{\alpha/2}) = 1-\alpha $$
整理得 $$P(\bar x - t_{\alpha/2} s/\sqrt{N} < \mu_x < \bar x + t_{\alpha/2} s/\sqrt{N}) = 1-\alpha $$
即置信度为$1-\alpha$ 的置信区间.
注意理解: 置信区间是随机的,根据不同的观测值会得到不同的区间,而总体均值$\mu_x$虽然未知, 却是一个固定值,所以置信区间应该理解为该区间包含真实$\mu_x$的概率是 $1-\alpha$. 而不能理解为$\mu_x$落在区间中的概率.
2. 假设检验
假设检验的基本思想是小概率反证法。即认为小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生.
反证法是在进行假设检验时,先假设H0正确,在此假设下,若小概率事件A出现的概率很小,例如P(A)=0.01, 经过取样试验,A出现了,则认为假设不合理,不应该接受.于是否定H0. 反之试验中A没有出现, 从而做出接受H0的结论.
- 原假设 H0
是关于总体的而非样本的统计量的假设
总是假设原假设是成立的
总是有等号 ( =, ≥ 或 ≤ ) 备选假设H1
是原假设的对立
备选假设是试图要建立的检验
总是有不等号 (≠, < 或 > )显著性水平
原假设为真时, 拒绝原假设的概率假设检验的步骤
1) 提出原假设和备选假设
2) 确定适当的假设检验统计量
3) 规定显著性水平
4) 计算检验统计量的值
5) 做出统计决策
根据给定的显著性水平,查表得出相应的临界值,并将统计量值与显著性水平下的临界值进行比较,从而得出接受或拒绝原假设的结论.两类错误
1) 弃真错误 - 原假设是正确的却拒绝了. 犯这类错误的概率是 P( 拒绝H0 | H0为真)=α
2) 取伪错误 - 原假设为假却接受了, 犯这类错误的概率为 β假设检验中只控制犯第一类错误的概率,而不考虑第二类错误(通常以扩大样本容量的方式来减小其犯错的概率).
对于给定的显著性水平$\alpha$,根据$\alpha$分为点的定义,由 $P(拒绝H_0 | H_0为真)=\alpha$,求出拒绝域. 如果统计量的值落在拒绝域内则拒绝H0.
- P值与临界值的关系
在右侧可见统计量的值越大,P值越小,就越能拒绝原假设.