概率论与数理统计复习总结，仅供笔者复习使用，参考教材：

《概率论与数理统计》/ 荣腾中主编. — 第 2 版. 高等教育出版社
《2024高途考研数学——概率基础精讲》王喆

概率论与数理统计实际上是两个互补的分支：概率论 在 已知随机变量及其概率分布 的基础上去描述随机现象的统计规律、挖掘随机变量的数字特征与数学性质、计算随机事件的发生概率；数理统计 则是通过随机现象来研究其统计规律性，即通过收集、整理和分析随机变量的观测数据，对随机变量的性质和特征做出合理的推断或预测。

本文主要内容为：数理统计1；
概率论部分见概率论与数理统计复习总结1；
数理统计1 部分见概率论与数理统计复习总结2；
数理统计2 部分见概率论与数理统计复习总结3；

六. 数理统计的基本概念
- 1. 总体和样本
- 2. 样本的分布函数
- 3. 统计量
- 4. 抽样分布
- - 4.1 常见抽样分布
  - 4.2 抽样分布定理
- 5. 分位数
七. 参数估计
- 1. 点估计
- 2. 估计量的评价标准
- 3. 区间估计
- - 3.1 置信区间
  - 3.2 单个正态总体的参数的置信区间

六. 数理统计的基本概念

数理统计通过研究如何有效地收集、整理和分析随机变量的观测数据，以对随机变量的性质h额特征做出合理的推断或预测。

1. 总体和样本

总体：一个统计问题中的所有研究对象在某一属性上的取值的集合称，记为 $X$ ；

在总体所构成的取值集合中，不同数据出现的可能性不同。因此总体本质上是一个概率分布，其数量属性就是服从此概率分布的随机变量。

个体：组成总体的每个元素；
样本：从总体中随机抽取 n 个个体进行观测，称之为样本，记为 $\{X_1, X_2, \cdots , X_n\}$ ，其观测值记为 $\{x_1, x_2, \cdots , x_n\}$ ；
简单样本：如果样本 $X_1, X_2, \cdots , X_n$ 相互独立且每个随机变量与总体 $X$ 有相同的概率分布，则称为简单样本；

2. 样本的分布函数

样本的分布函数：样本中含有总体的信息，样本的随机规律性与总体的随机规律性关系密切。假设总体 $X$ 的分布函数为 $F (x)$ ， $X_1, X_2, \cdots , X_n$ 是来自总体 $X$ 的样本，则该样本的联合分布函数为：
$F(x_1, x_2, \cdots , x_n) = P\{ X_1 \leq x_1, X_2 \leq x_2, \cdots,X_n \leq x_n\} = \prod_{i=1}^n P(X_i \leq x_i) = \prod_{i=1}^n F(x_i)$

连续型随机变量的联合密度函数为
$f(x_1, x_2, \cdots , x_n) = \prod_{i=1}^n f_{X_i}(x_i) = \prod_{i=1}^n f(x_i)$
离散型随机变量的联合分布律为
$P\{ X_1 = x_1, X_2 = x_2, \cdots,X_n = x_n\} = \prod_{i=1}^n P(X_i = x_i) = \prod_{i=1}^n P(X = x_i)$

经验分布函数：假设总体 $X$ 的分布函数 $F (x)$ 未知， $x_1, x_2, \cdots, x_n$ 是来自 $X$ 的一组样本值。将 $x_1, x_2, \cdots, x_n$ 按由小到大的顺序排序，其结果记为 $x_{(1)}<x_{(2)}<\cdots<x_{(n)}$ 。对任意给定的一个实数 $x$ ，根据频率与概率的关系，得到
$\begin{aligned} F(x) & =P\{X \leqslant x\} = \begin{cases}0, & x<x_{(1)}, \\ \frac{k}{n}, & x_{(k)} \leqslant x<x_{(k+1)}, \quad(k=1,2, \cdots, n-1) \\ 1, & x \geqslant x_{(n)}\end{cases} \end{aligned}$

经验分布函数在 $x_{(k)} \leqslant x<x_{(k+1)}$ 时取 $\frac{k}{n}$ 看似是均匀分布，但是 $x_{(k)}$ 和 $x_{(k+1)}$ 之间并不等距，因此 $X$ 并不是均匀分布的。显然 $F_n(x)$ 是 $x$ 的单调不减函数，且满足：
（1） $\leqslant F_n(x) \leqslant 1, x \in \mathbf{R}$ ；
（2） $F_n(+\infty)=1, F_n(-\infty)=0$ ；
（3） $F_n(x+0)=F_n(x), x \in \mathbf{R}$ ；
其实经验分布函数就是一个用样本观测值构造的、用于估计理论分布 $F (x)$ 的分布函数，它是一个不含未知参数的只关于当前样本的函数。

3. 统计量

样本来自总体，样本值中包含了总体各方面的信息。但这些信息较为分散，甚至杂乱无章。为了将这些分散在样本中的有关总体的信息挖掘出来用于对总体进行推断，需要对样本信息进行加工处理。最常见的加工方法是针对不同的问题，构造不同的样本的函数来反映总体不同的特征，样本的函数通常被称为统计量。

统计量：设 $X_1, X_2, \cdots , X_n$ 是来自总体 $X$ 的样本，若关于样本的函数 $T(x_1, x_2, \cdots, x_n)$ 中不含任何未知参数，则称 $T$ 为统计量；
样本矩统计量：设 $X_1, X_2, \cdots , X_n$ 是来自总体 $X$ 的样本，常见的样本矩统计量如下；
- 样本均值： $\bar{X}=\frac{1}{n} \sum_{i=1}^n X_i$ ；
- 样本方差： $S^2=\frac{1}{n-1} \sum_{i=1}^n\left(X_i-\bar{X}\right)^2$ ；
- 样本标准差： $S=\sqrt{S^2}=\sqrt{\frac{1}{n-1} \sum_{i=1}^n\left(X_i-\bar{X}\right)^2}$ ；
- 样本 $k$ 阶原点矩： $M_k=\frac{1}{n} \sum_{i=1}^n X_i^k, k=1,2, \cdots$ ；
- 样本 $k$ 阶中心矩： $M_k^*=\frac{1}{n} \sum_{i=1}^n\left(X_i-\bar{X}\right)^k, k=2,3, \cdots$ ；
显然，样本 $k$ 阶原点矩和样本均值、样本 $k$ 阶中心矩和样本方差也有以下等式关系：
$M_1=\bar{X}, \quad S^2=\frac{n}{n-1} M_2^*, \quad M_2^*=\frac{1}{n} \sum_{i=1}^n X_i^2-\bar{X}^2$

样本矩统计量都是样本的函数，只与当前这一组样本 $X_1, X_2, \cdots , X_n$ 有关，与总体 $X$ 无关。但当样本组合的数量不断增多趋于无穷，即取无数组样本 $X_1, X_2, \cdots , X_n$ 时，样本矩统计量会呈现出与总体 $X$ 相关的统计规律：
$E\bar{X}=EX, \quad D\bar{X}=\frac{1}{n} DX, \quad EM_2^*=\frac{n-1}{n} DX, \quad ES^2=DX$
除此之外，还有以下性质：
（1） $\sum_{i=1}^n(X_i-\bar{X})=0$ ；
（2）当 $\rightarrow+\infty$ 时， $\bar{X} \stackrel{P}{\longrightarrow} EX$ ；
（3）对任意实数 $x$ ，有 $\sum_{i=1}^n(X_i-\bar{X})^2 \leqslant \sum_{i=1}^n(X_i-x)^2$ ；
顺序统计量：设 $X_1, X_2, \cdots , X_n$ 是来自总体 $X$ 的样本，对给定的一组样本观测值 $x_1, x_2, \cdots, x_n$ ，按从小到大的顺序排列。用 $x_{(k)}, k = 1, 2, \cdots, n$ 表示大小位置在第 $k$ 位的数，这样就有 $x_{(1)} ≤ x_{(2)} ≤ \cdots ≤ x_{(n)}$ 。当样本 $X_1, X_2, \cdots , X_n$ 的观测值随机变化时， $x_{(k)}, k = 1, 2, \cdots, n$ 的取值也随之而变化，且具有随机性。这样， $x_{(k)}, k = 1, 2, \cdots, n$ 的全部取值就对应一个随机变量，记为 $X_{(k)}, k = 1, 2, \cdots, n$ 。它显然是一个统计量，我们称 $X_{(1)}, X_{(2)}, \cdots, X_{(n)}$ 为样本 $X_1, X_2, \cdots , X_n$ 的顺序统计量。特别地，称 $X_{(1)} = min \{X_1, X_2, \cdots, X_n\}$ 为最小顺序统计量， $X_{(n)} = max \{X_1, X_2, \cdots, X_n\}$ 为最大顺序统计量；

4. 抽样分布

通过样本构造函数可以得到统计量，但为了更精确地刻画总体，还想确定统计量的分布。统计量的分布称为抽样分布，本节介绍几种常见的抽样分布以及常见统计量的分布情况。

4.1 常见抽样分布

$\chi^2$ 分布：设 $X_1, X_2, \cdots, X_n$ 为 $n$ 个相互独立且都服从标准正态分布 $N (0, 1)$ 的随机变量，记 $\chi^2 = \sum_{i=1}^n X_i^2$ ，则称统计量 $\chi^2$ 服从自由度为 $n$ 的 $\chi^2$ 分布，记为 $\chi^2 \sim \chi^2(n)$ 。可以证明， $\chi^2$ 分布的密度函数为：
$\begin{cases}\frac{1}{2^{\frac{n}{2}} \Gamma\left(\frac{n}{2}\right)} x^{\frac{n}{2}-1} \mathrm{e}^{-\frac{x}{2}}, & x>0, \\ 0, & x \leqslant 0\end{cases}$
其中 $\Gamma(\alpha)=\int_0^{+\infty} x^{\alpha-1} \mathrm{e}^{-x} \mathrm{~d} x$ 。 $f (x)$ 的曲线如图所示，它是一个只取非负值的偏态分布：

$\chi^2$ 分布具有如下两个重要性质：
（1）设 $\chi^2 \sim \chi^2(n)$ ，则 $\chi^2=n, D \chi^2=2 n$ ；
（2）设 $\chi_1^2 \sim \chi^2(n_1)$ ， $\chi_2^2 \sim \chi^2(n_2)$ ，且 $\chi_1^2$ 和 $\chi_2^2$ 相互独立，则 $\chi_1^2+\chi_2^2 \sim$ $\chi^2\left(n_1+n_2\right)$ ；
$t$ 分布：设 $\sim N(0,1)$ ， $\sim \chi^2(n)$ ，且 $X$ 与 $Y$ 相互独立，记 $T=\frac{X}{\sqrt{Y / n}}$ 。则称 $T$ 的分布为自由度为 $n$ 的 $t$ 分布，记为 $\sim t(n)$ 。可以证明， $T$ 的密度函数为：
$f(x)=\frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{n \pi} \Gamma\left(\frac{n}{2}\right)}\left(1+\frac{x^2}{n}\right)^{- \frac{n+1}{2}}, x \in \mathbf{R}$
$f (x)$ 的曲线如图所示，易见 $f (x)$ 是一个偶函数：

$t$ 分布有如下性质：
（1） $f (x)$ 的图形关于 $y$ 轴对称，当 $n > 1$ 时，ET $= 0$ ；
（2）当 $n > 2$ 时， $T=\frac{n}{n-2}$ ；
（3）当 $n = 1$ 时， $T$ 的密度函数为 $f(x)=\frac{1}{\pi} \cdot \frac{1}{1+x^2}, x \in \mathbf{R}$ ；
（4）当 $\rightarrow+\infty$ 时， $\rightarrow \frac{1}{\sqrt{2 \pi}} \mathrm{e}^{-\frac{x^2}{2}}, x \in \mathbf{R}$ 。这说明当自由度 $n$ 充分大时， $T$ 近似服从标准正态分布；
$F$ 分布：设 $\sim \chi^2(m)$ ， $\sim \chi^2(n)$ ，且 $X$ 与 $Y$ 独立。记 $F=\frac{X / m}{Y / n}$ ，则称 $F$ 的分布为第一自由度是 $m$ ，第二自由度是 $n$ 的 $F$ 分布，记为 $\sim F(m, n)$ 。可以证明， $F$ 的密度函数为：
$\begin{cases}\frac{\Gamma\left(\frac{m+n}{2}\right)}{\Gamma\left(\frac{m}{2}\right) \Gamma\left(\frac{n}{2}\right)}\left(\frac{m}{n}\right)^{\frac{m}{2}} x^{\frac{m}{2}-1}\left(1+\frac{m x}{n}\right)^{-\frac{n+m}{2}}, & x>0, \\ 0, & x \leqslant 0\end{cases}$
$f (x)$ 的曲线如图所示：

易证， $F$ 分布具有如下性质：
（1）当 $\sim F(m, n)$ 时， $\frac{1}{F} \sim F(n, m)$ ；
（2）当 $\sim t(n)$ 时， $T^2 \sim F(1, n)$ ；

4.2 抽样分布定理

设 $X_1, X_2, \cdots, X_n$ 为来自总体 $\sim N\left(\mu, \sigma^2\right)$ 的样本， $\bar{X}, S^2$ 分别为样本均值和样本方差，则
（1） $\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)$ ， $\frac{\bar{X}-\mu}{\sigma} \sqrt{n} \sim N(0,1)$ ；
（2） $\frac{(n-1) S^2}{\sigma^2}=\frac{1}{\sigma^2} \sum_{i=1}^n\left(X_i-\bar{X}\right)^2 \sim \chi^2(n-1)$ ；
（3） $\bar{X}$ 与 $S^2$ 相互独立；
设 $X_1, X_2, \cdots, X_n$ 为来自总体 $\sim N\left(\mu, \sigma^2\right)$ 的样本， $\bar{X}, S^2$ 分别为样本均值和样本方差，则
（1） $\frac{\bar{X}-\mu}{S} \sqrt{n} \sim t(n-1)$ ；
（2） $S^2=\sigma^2$ ， $S^2=\frac{2 \sigma^4}{n-1}$ ；
设 $X_1, X_2, \cdots, X_m$ 为来自总体 $\sim N\left(\mu_1, \sigma_1^2\right)$ 的样本， $Y_1, Y_2$ , $Yn \cdots, Y_n$ 为来自总体 $\sim N\left(\mu_2, \sigma_2^2\right)$ 的样本，且两个样本相互独立。令
$\begin{gathered} \bar{X}=\frac{1}{m} \sum_{i=1}^m X_i, \bar{Y}=\frac{1}{n} \sum_{j=1}^n Y_j \\ S_X^2=\frac{1}{m-1} \sum_{i=1}^m\left(X_i-\bar{X}\right)^2, S_Y^2=\frac{1}{n-1} \sum_{j=1}^n\left(Y_j-\bar{Y}\right)^2 \end{gathered}$
则
（1） $F=\frac{S_x^2 / S_Y^2}{\sigma_1^2 / \sigma_2^2} \sim F(m-1, n-1)$ ；
（2）当 $\sigma_1^2=\sigma_2^2=\sigma^2$ 时，
$T=\frac{(\bar{X}-\bar{Y})-\left(\mu_1-\mu_2\right)}{S_w \sqrt{\frac{1}{n}+\frac{1}{m}}} \sim t(m+n-2)$
其中 $S_w^2=\frac{(m-1) S_X^2+(n-1) S_Y^2}{m+n-2}$ .

5. 分位数

在概率论中，如果已知连续型随机变量 $X$ 的密度函数 $f (x)$ ，可以计算概率 $P\left\{X \leqslant x_0\right\}=\int_{-\infty}^{x_0} f(x) \mathrm{d} x$ ；而在统计推断中，遇到的问题常常是一个反问题，即已知概率 $p_0=P\left\{X \leqslant x_0\right\}$ 求 $x_0$ ，称 $x_0$ 为 $p_0$ 分位数。分位数又叫分位点或临界值，它在区间估计、假设检验等统计推断中起着重要的作用。

分位数：设 $X$ 是连续型随机变量，分布函数为 $F (x)$ ，密度函数为 $f (x)$ 。对给定的概率 $p$ ，如有实数 $v_p$ ，使得
$F\left(v_p\right)=P\left\{X \leqslant v_p\right\}=\int_{-\infty}^{v_p} f(x) \mathrm{d} x=p$
则称 $v_p$ 为随机变量 $X$ 的（下侧） $p$ 分位数。如图显示了分位数 $v_p$ 与密度函数的关系：
分位数的性质：将标准正态分布、 $\chi^2$ 分布、 $t$ 分布、 $F$ 分布的分位数分别记为 $u_p$ ， $t_p(n)$ ， $\chi_p^2(n)$ ， $F_p(m, n)$ ，它们有如下性质：
（1）由标准正态分布的对称性，易得 $u_{0.5}=0$ ， $u_p=u_{1-p}, 0<p<1$ 。此性质如图所示：

在进行手工计算时，可以通过查标准正态分布函数表以及利用相关性质来获得分位数的值，如： $u_{0.95}=1.65, u_{0.975}=1.96, u_{0.05}=-u_{0.95}=-1.65$ ；
（2）由 $t$ 分布的对称性易得 $t_{0.5}(n)=0$ ， $t_p(n)=t_{1-p}(n), 0<p<1$ 。由于当 $\rightarrow+\infty$ 时， $t$ 分布趋于标准正态分布，所以 $n$ 充分大时有 $t_p(n)=u_p$ 。在进行手工计算时，可以直接通过查 $t$ 分位数表以及利用相关性质得到 $t$ 分位数的值，如： $t_{0.975}(12)=2.179, t_{0.05}(10)=-t_{0.95}(10)=-1.812, t_{0.95}(50) \approx u_{0.95}=1.65$ ；
（3）关于 $\chi^2$ 分布的分位数，当 $n$ 充分大 $(n > 45)$ 时，有近似计算公式
$\chi_p^2(n) \approx \frac{1}{2}\left(u_p+\sqrt{2 n-1}\right)^2$
当 $n$ 不够大时，可直接查 $\chi^2$ 分布的分位数表，例： $\chi_{0.95}^2(10)=18.31, \chi_{0.975}^2(12)=23.34$ ；

七. 参数估计

前一章介绍了使用未知分布的样本构造统计量来近似描述总体的分布情况。然而，现实中更常见的是已知样本服从的分布但不知道分布的具体参数，可以通过多次试验进行采样得到样本，计算样本规律得到分布的参数，称之为参数估计。本章主要介绍点估计和区间估计，以及评价估计优劣的标准。

1. 点估计

设总体 $X$ 的分布形式已知， $\theta$ 是其未知参数， $X_1, X_2, \cdots, X_n$ 是来自总体 $X$ 的样本， $x_1, x_2, \cdots, x_n$ 是样本值。点估计的任务是构造一个适当的统计量 $\hat{\theta}= T(X_1, X_2, \cdots, X_n)$ ，使其样本值 $T(x_1, x_2, \cdots, x_n)$ 有理由作为未知参数 $\theta$ 的估计值。这时，称统计量 $\hat{\theta}=T(X_1, X_2, \cdots, X_n)$ 为 $\theta$ 的点估计量，它的观测值 $T(x_1, x_2, \cdots, x_n)$ 称为 $\theta$ 的点估计值，仍用 $\hat{\theta}$ 表示。点估计的常用方法有矩估计法、最大似然估计法、最小二乘估计法等。

矩估计法：由辛钦大数定律知，对来自总体 $X$ 的样本 $X_1, X_2, \cdots, X_n$ ，当总体 $X$ 的前 $k$ 阶原点矩 $X^l(l=1,2, \cdots, k)$ 存在时，有
$M_l=\frac{1}{n} \sum_{i=1}^n X_i^l \stackrel{P}{\longrightarrow} E X^l \quad(n \rightarrow+\infty, l=1,2, \cdots, k)$
因此，对总体 $X$ 的 $l$ 阶原点矩 $X^l(l=1,2, \cdots, k)$ 可用样本的 $l$ 阶原点矩 $M_l$ 的样本值估计，即
$\hat{E} X^l=M_l=\frac{1}{n} \sum_{i=1}^n X_i^l, \quad l=1,2, \cdots, k$
同理，总体的 $l$ 阶中心矩也可以用样本的 $l$ 阶中心矩估计，即
$\hat{E}(X-E X)^l=M_i^*=\frac{1}{n} \sum_{i=1}^n\left(X_i-\bar{X}\right)^l, l=1,2, \cdots, k$

矩估计法使用样本的矩估计模型参数，例题如下：

矩估计法直观、简便，且在总体矩存在的情况下求它们的矩估计量 不需要知道总体的分布，这些都是矩估计法的优点。但是矩估计法也存在明显的不足：首先，矩估计法要求总体矩存在，而有些总体的矩是不存在的，这时就不能使用矩估计法，如柯西分布不存在数学期望；其次，矩估计法 未能充分利用总体分布所提供的信息，个别情形可能出现以偏概全的情况，因此不能保证它有优良的性质。因此实际应用中更常使用最大似然估计法，最大似然估计法克服了矩估计法的上述两个不足，不要求矩的存在性，且可充分利用总体分布的信息。

最大似然估计法：未知参数的最大似然估计值就是参数空间中让样本取得观测值的概率最大的值。对给定的样本观测值 $x_1, x_2, \cdots, x_n$ ，有似然函数
$\begin{aligned} L(\theta_1, \theta_2, \cdots, \theta_k ; x_1, x_2, \cdots, x_n)=\left\{\begin{array}{l} \prod_{i=1}^n P\{X=x_i\}, & \text { 当总体 } X \text { 是离散型时，} \\ \prod_{i=1}^n f(x_i), & \text { 当总体 } X \text { 是连续型时 } \end{array} \right. \end{aligned}$
似然函数反映了样本 $X_1, X_2, \cdots, X_n$ 取得观测值 $x_1, x_2, \cdots, x_n$ 的概率。最大似然估计法就是求使 $L(\theta_1, \theta_2, \cdots, \theta_k ; x_1, x_2, \cdots, x_n)$ 达到最大值时的未知参数，即 $\max _{\left(\theta_1, \theta_2, \cdots, \theta_k\right) \in \theta} L\left(\theta_1, \theta_2, \cdots, \theta_k ; x_1, x_2, \cdots, x_n\right)$ 。为了保留更高的计算精度，一般会对似然函数做对数处理，即
$\max _{\left(\theta_1, \theta_2, \cdots, \theta_k\right) \in \theta} \ln L\left(\theta_1, \theta_2, \cdots, \theta_k ; x_1, x_2, \cdots, x_n\right)$

2. 估计量的评价标准

对于总体的一个未知参数，使用点估计的不同方法可以得到不同的估计量，因此需要一些指标进行评价。

无偏性：设总体为 $X$ ， $\theta$ 是末知参数, $\theta \in \Theta$ ，假设 $\hat{\theta}_n=\hat{\theta}\left(X_1, X_2, \cdots, X_n\right)$ 是 $\theta$ 的一个估计。如果对任意 $\theta \in \Theta$ 均有 $E\left(\hat{\theta}_n-\theta\right)=0$ ，则称 $\hat{\theta}_n$ 是 $\theta$ 的无偏估计。如果对任意 $\theta \in \Theta$ 均有 $\lim _{n \rightarrow+\infty} E\left(\hat{\theta}_n-\theta\right)=0$ ，则称 $\hat{\theta}_n$ 是 $\theta$ 的渐近无偏估计。在工程实际中 $E\left(\hat{\theta}_n-\theta\right)$ 常称为以 $\hat{\theta}_n$ 估计 $\theta$ 的系统误差，无偏估计实际上就是系统误差为 0 的估计；

因为 $E\left(\hat{\theta}_n-\theta\right)=0$ 等价于 $\hat{\theta}_n=\theta$ ，所以 $\lim _{n \rightarrow+\infty} E\left(\hat{\theta}_n-\theta\right)=0$ 等价于 $\lim _{n \rightarrow+\infty} E \hat{\theta}_n=$ $\theta$ 。因此样本的 $k$ 阶原点矩 $M_k=\frac{1}{n} \sum_{i=1}^n X_i^k$ 是总体 $k$ 阶原点矩 $E X^k$ 的无偏估计，样本方差 $S^2$ 是总体方差 $D X$ 的无偏估计，样本二阶中心矩 $M_2^*$ 是总体方差 $D X$ 的渐近无偏估计。

有效性：设 $\hat{\theta}_1$ 和 $\hat{\theta}_2$ 都是未知参数 $\theta$ 的无偏估计，如果 $D\hat{\theta}_1 < D\hat{\theta}_2$ ，则称 $\hat{\theta}_1$ 比 $\hat{\theta}_2$ 有效；
- 最小方差无偏估计：设 $\hat{\theta}^*$ 是末知参数 $\theta$ 的无偏估计，如果对 $\theta$ 的任一无偏估计 $\hat{\theta}$ ，都有 $\hat{\theta}^* \leqslant D \hat{\theta}$ ，则称 $\hat{\theta}^*$ 为 $\theta$ 的最小方差无偏估计或最优无偏估计；
- 均方误差：在求估计值与参数真值之间的平均偏差时为了避免正负偏差值相抵消的效应，均方误差采用了平方偏差，即 $\operatorname{MSE}(\hat{\theta}, \theta)=E(\hat{\theta}-\theta)^2$ ；
均方误差具有很好的数学性质，可以证明
$\operatorname{MSE}(\hat{\theta}, \theta)=D \hat{\theta}+(E \hat{\theta}-\theta)^2$
显然，如果 $\hat{\theta}$ 是 $\theta$ 的无偏估计，则 $\operatorname{MSE}(\hat{\theta}, \theta)=D \hat{\theta}$ ，即均方误差越小越好的标准等价于方差越小越好的标准，这时均方误差最小的评价标准和有效性标准是一致的。

无偏性与有效性都需要样本容量 $n$ 固定为前提，如果想要随着样本容量 $n$ 的增大， $\hat{\theta}$ 的估计值越来越接近真值 $\theta$ ，就需要引入相合性标准。

相合性：设 $\hat{\theta}_n$ 是未知参数 $\theta$ 的估计量，如果当样本容量 $\rightarrow+\infty$ 时， $\hat{\theta}_n$ 依概率收敛于 $\theta$ ，即 $\hat{\theta}_n \underset{n \rightarrow+\infty}{\stackrel{P}{\longrightarrow}} \theta$ ，则称 $\hat{\theta}_n$ 为 $\theta$ 的相合估计或一致估计；

相合性的定义不方便判断一个估计量是否是相合估计，往往使用以下定理进行判断：
设 $\hat{\theta}_n$ 是末知参数 $\theta$ 的一个点估计量，如果 $\lim _{n \rightarrow+\infty} E \hat{\theta}_n=\theta$ 且 $\lim _{n \rightarrow+\infty} D \hat{\theta}_n=0$ ，则 $\hat{\theta}_n$ 是 $\theta$ 的相合估计。

3. 区间估计

点估计通过估计量的观测值来估计未知参数的真值，但这个估计值仅仅是未知参数真值的一个近似，与真值之间难免存在误差。因此，在一些实际应用中，需要知道估计值的误差，即真值所在的范围，于是引入了区间估计。区间估计以区间的形式给出了估计值的范围和可信程度，分别称为置信区间和置信度。

3.1 置信区间

设总体 $X$ 的分布形式已知， $\theta$ 是其未知参数， $X_1, X_2, \cdots, X_n$ 是来自总体 $X$ 的样本， $x_1, x_2, \cdots, x_n$ 是样本值。有界区间的估计需要构造两个适当的统计量 $\hat{\theta}_1=T_1(X_1, X_2, \cdots, X_n)$ 与 $\hat{\theta}_2=T_2(X_1, X_2, \cdots, X_n)$ ，它们构成一个随机区间 $(\hat{\theta}_1, \hat{\theta}_2)$ ，并用它们的样本值 $\hat{\theta}_1=T_1(x_1, x_2, \cdots, x_n)$ 与 $\hat{\theta}_2=T_2(x_1, x_2, \cdots, x_n)$ 所构成的区间 $(\hat{\theta}_1, \hat{\theta}_2)$ 来表示未知参数 $\theta$ 的估计范围。随机区间 $(\hat{\theta}_1, \hat{\theta}_2)$ 包含未知参数 $\theta$ 的概率称为置信度 $\alpha$ 。区间估计要尽可能保证较大的置信度 $\alpha$ 和较小的区间长度 $|\hat{\theta}_2-\hat{\theta}_1|$ 。

置信区间：设总体 $X$ 的分布函数为 $\theta)$ ， $\theta$ 为末知参数， $X_1, X_2, \cdots, X_n$ 是总体 $X$ 的样本。对于给定值 $\alpha(0<\alpha<1)$ ，如果存在两个统计量 $T_1=T_1\left(X_1, X_2, \cdots, X_n\right)$ 和 $T_2=T_2\left(X_1, X_2, \cdots, X_n\right)$ 满足
$P\left\{T_1<\theta<T_2\right\}=1-\alpha$
则称随机区间 $\left(T_1, T_2\right)$ 为末知参数 $\theta$ 的一个置信度为 $1-\alpha$ 的置信区间， $T_1$ 和 $T_2$ 分别称为置信下限和置信上限；

从置信区间的定义可以看出，对总体的一个末知参数，可以得到很多不同的置信区间，当然我们希望得到最好的置信区间。评价置信区间好坏的标准主要有两个：一个是估计精度，可用置信区间 $\left(T_1, T_2\right)$ 的区间长度 $T_2-T_1$ 来刻画，区间长度 $T_2-T_1$ 越小，估计精度越高，置信区间越好。由于 $T_1, T_2$ 是随机变量，所以 $T_2-T_1$ 也是随机变量，因此可用 $E\left(T_2-T_1\right)$ 近似代替置信区间的估计精度；另一个是置信度，用概率 $P\left\{T_1<\theta<T_2\right\}=1-\alpha$ 来表示， $1-\alpha$ 越大，置信度越高。
不过，置信区间的估计精度和置信度是相互制约的：当样本容量 $n$ 固定时，精度和置信度不能同时提高。20 世纪 30 年代，美国统计学家奈曼 (Neyman) 提出了现今广泛接受的原则：先保证对置信度的要求，在此条件下尽可能地提高精度，即先根据实际问题选定 $\alpha$ 的值（ $\alpha$ 常取 $0.1, 0.05, 0.01$ ），然后再去确定置信下限 $T_1$ 和置信上限 $T_2$ 。

3.2 单个正态总体的参数的置信区间

参数 $\mu$ 的置信区间：
- 当 $\sigma^2$ 已知时：由于 $U=\frac{\bar{X}-\mu}{\sigma} \sqrt{n} \sim N(0,1)$ ，所以 $1-\alpha=P\left\{\bar{X}-C_1<\mu<\bar{X}+C_2\right\}=P\left\{-\frac{C_2}{\sigma} \sqrt{n}<U<\frac{C_1}{\sigma} \sqrt{n}\right\}$
  因此参数 $\mu$ 的置信度为 $1-\alpha$ 的置信区间是 $\left(\bar{X}-\frac{\sigma}{\sqrt{n}} u_{1-\frac{a}{2}}, \quad \bar{X}+\frac{\sigma}{\sqrt{n}} u_{1-\frac{a}{2}}\right)$
- 当 $\sigma^2$ 未知时：由于 $T=\frac{\bar{X}-\mu}{S} \sqrt{n} \sim t(n-1)$ ，因此参数 $\mu$ 的置信度为 $1-\alpha$ 的置信区间是
  $\left(\bar{X}-\frac{S}{\sqrt{n}} t_{1-\frac{a}{2}}(n-1), \bar{X}+\frac{S}{\sqrt{n}} t_{1-\frac{a}{2}}(n-1)\right)$
参数 $\sigma^2$ 的置信区间：
- 当 $\mu$ 已知时：令 $S_1^2=\frac{1}{n} \sum_{i=1}^n\left(X_i-\mu\right)^2$ ，则由 $\chi^2=\frac{n S_1^2}{\sigma^2} \sim \chi^2(n)$ ，可推导出方差 $\sigma^2$ 的置信度为 $1-\alpha$ 的置信区间为
  $\left(\frac{n S_1^2}{\chi_{1-\frac{a}{2}}^2(n)}, \frac{n S_1^2}{\chi_{\frac{a}{2}}^2(n)}\right)$
- 当 $\mu$ 未知时：根据抽样分布定理，有 $\chi^2=\frac{(n-1) S^2}{\sigma^2} \sim \chi^2(n-1)$ ，所以对给定的置信度 $1-\alpha$ ，有
  $1-\alpha=P\left\{\chi_{\frac{\alpha}{2}}^2(n-1)<\frac{(n-1) S^2}{\sigma^2}<\chi_{1-\frac{a}{2}}^2(n-1)\right\}=P\left\{\frac{(n-1) S^2}{\chi_{1-\frac{a}{2}}^2(n-1)}<\sigma^2<\frac{(n-1) S^2}{\chi_{\frac{a}{2}}^2(n-1)}\right\}$
  因此方差 $\sigma^2$ 的置信度为 $1-\alpha$ 的置信区间为
  $\left(\frac{(n-1) S^2}{\chi_{1-\frac{a}{2}}^2(n-1)}, \frac{(n-1) S^2}{\chi_{\frac{\alpha}{2}}^2(n-1)}\right)$