集中不等式(concentration inequalities)是在概率论和统计学中用于描述随机变量(尤其是随机变量的和或函数)的集中程度的一类不等式。它们为随机变量偏离其期望值的概率提供了上界。这些不等式在很多领域都有应用,包括机器学习、统计学习理论、组合数学和随机过程等。下面介绍几种常见的集中不等式:
1.马尔可夫不等式(Markov’s Inequality)
马尔可夫不等式(Markov’s Inequality)是概率论中的一个基本不等式,用于估计随机变量大于某个正数的概率。它适用于任何非负随机变量,提供了一个简单而有用的上界。下面是马尔可夫不等式的正式陈述及其证明。
设 X X X是一个非负随机变量,且 a > 0 a > 0 a>0,则:
P ( X ≥ a ) ≤ E [ X ] a P(X \geq a) \leq \frac{\mathbb{E}[X]}{a} P(X≥a)≤aE[X]
证明
-
考虑事件 { X ≥ a } \{X \geq a\} {X≥a},引入指示函数 I { X ≥ a } I_{\{X \geq a\}} I{X≥a},其取值为:
I { X ≥ a } = { 1 , 如果 X ≥ a , 0 , 如果 X < a . I_{\{X \geq a\}} = \begin{cases} 1, & \text{如果 } X \geq a, \\ 0, & \text{如果 } X < a. \end{cases} I{X≥a}={1,0,如果 X≥a,如果 X<a. -
由于 X ≥ a ⋅ I { X ≥ a } X \geq a \cdot I_{\{X \geq a\}} X≥a⋅I{X≥a},我们有:
X ⋅ I { X ≥ a } ≥ a ⋅ I { X ≥ a } . X \cdot I_{\{X \geq a\}} \geq a \cdot I_{\{X \geq a\}}. X⋅I{X≥a}≥a⋅I{X≥a}. -
对两边取期望值,得到:
E [ X ⋅ I { X ≥ a } ] ≥ E [ a ⋅ I { X ≥ a } ] . \mathbb{E}[X \cdot I_{\{X \geq a\}}] \geq \mathbb{E}[a \cdot I_{\{X \geq a\}}]. E[X⋅I{X≥a}]≥E[a⋅I{X≥a}]. -
由于 I { X ≥ a } I_{\{X \geq a\}} I{X≥a}是指示函数,它的期望就是事件 { X ≥ a } \{X \geq a\} {X≥a}发生的概率,因此:
E [ a ⋅ I { X ≥ a } ] = a ⋅ P ( X ≥ a ) . \mathbb{E}[a \cdot I_{\{X \geq a\}}] = a \cdot P(X \geq a). E[a⋅I{X≥a}]=a⋅P(X≥a). -
因此,不等式变为:
E [ X ⋅ I { X ≥ a } ] ≥ a ⋅ P ( X ≥ a ) . \mathbb{E}[X \cdot I_{\{X \geq a\}}] \geq a \cdot P(X \geq a). E[X⋅I{X≥a}]≥a⋅P(X≥a). -
由于 X ⋅ I { X ≥ a } ≤ X X \cdot I_{\{X \geq a\}} \leq X X⋅I{X≥a}≤X,我们有:
E [ X ⋅ I { X ≥ a } ] ≤ E [ X ] . \mathbb{E}[X \cdot I_{\{X \geq a\}}] \leq \mathbb{E}[X]. E[X⋅I{X≥a}]≤E[X]. -
结合以上两点,我们得到:
E [ X ] ≥ a ⋅ P ( X ≥ a ) . \mathbb{E}[X] \geq a \cdot P(X \geq a). E[X]≥a⋅P(X≥a). -
最终,马尔可夫不等式成立:
P ( X ≥ a ) ≤ E [ X ] a . P(X \geq a) \leq \frac{\mathbb{E}[X]}{a}. P(X≥a)≤aE[X].
应用
马尔可夫不等式在各种情况下都有广泛的应用,尤其是在对随机变量进行估计和给出尾部概率上界时。它的简单形式使得它成为其他更复杂不等式(如切尔诺夫不等式和霍夫丁不等式)的基础。
例如,假设有一个随机变量 X X X,其期望值为10,我们想知道 X X X大于或等于50的概率。应用马尔可夫不等式,有:
P ( X ≥ 50 ) ≤ E [ X ] 50 = 10 50 = 0.2. P(X \geq 50) \leq \frac{\mathbb{E}[X]}{50} = \frac{10}{50} = 0.2. P(X≥50)≤50E[X]=5010=0.2.
因此, X X X大于或等于50的概率最多为0.2。
2.切尔诺夫不等式(Chernoff Bound)
切尔诺夫不等式(Chernoff Inequality)是一种强有力的集中不等式,用于估计独立随机变量的和偏离其期望值的概率。它通常用于分析独立二项随机变量和泊松随机变量的尾部概率。切尔诺夫不等式的两个常见形式是针对上尾和下尾概率的估计。
切尔诺夫不等式(上尾)
设 X 1 , X 2 , … , X n X_1, X_2, \ldots, X_n X1,X2,…,Xn是独立的伯努利随机变量,且每个 X i X_i Xi满足 P ( X i = 1 ) = p i P(X_i = 1) = p_i P(Xi=1)=pi,定义 S n = ∑ i = 1 n X i S_n = \sum_{i=1}^n X_i Sn=∑i=1nXi,则对于任意 0 < δ < 1 0 < \delta < 1 0<δ<1,有:
P ( S n ≥ ( 1 + δ ) μ ) ≤ exp ( − δ 2 μ 2 + δ ) , P(S_n \geq (1 + \delta)\mu) \leq \exp\left(-\frac{\delta^2 \mu}{2 + \delta}\right), P(Sn≥(1+δ)μ)≤exp(−2+δδ2μ),
其中 μ = E [ S n ] = ∑ i = 1 n p i \mu = \mathbb{E}[S_n] = \sum_{i=1}^n p_i μ=E[Sn]=∑i=1npi。
切尔诺夫不等式(下尾)
同样的设定,对于任意 0 < δ < 1 0 < \delta < 1 0<δ<1,有:
P ( S n ≤ ( 1 − δ ) μ ) ≤ exp ( − δ 2 μ 2 ) . P(S_n \leq (1 - \delta)\mu) \leq \exp\left(-\frac{\delta^2 \mu}{2}\right). P(Sn≤(1−δ)μ)≤exp(−2δ2μ).
一般形式的切尔诺夫不等式
设 X 1 , X 2 , … , X n X_1, X_2, \ldots, X_n X1,X2,…,Xn是独立同分布的随机变量,且取值范围为 [ 0 , 1 ] [0,1] [0,1],定义 S n = ∑ i = 1 n X i S_n = \sum_{i=1}^n X_i Sn=∑i=1nXi,则对于任意 t > 0 t > 0 t>0,有:
P ( S n ≥ E [ S n ] + t ) ≤ exp ( − 2 t 2 n ) . P(S_n \geq \mathbb{E}[S_n] + t) \leq \exp\left(-\frac{2t^2}{n}\right). P(Sn≥E[Sn]+t)≤exp(−n2t2).
类似地,对于下尾,有:
P ( S n ≤ E [ S n ] − t ) ≤ exp ( − 2 t 2 n ) . P(S_n \leq \mathbb{E}[S_n] - t) \leq \exp\left(-\frac{2t^2}{n}\right). P(Sn≤E[Sn]−t)≤exp(−n2t2).
证明思想(简要)
切尔诺夫不等式的证明通常基于矩母函数(moment generating function)和鞅(martingale)的方法。以下是一个简要的证明思路:
-
矩母函数法:
- 定义矩母函数 M X ( t ) = E [ exp ( t X ) ] M_X(t) = \mathbb{E}[\exp(tX)] MX(t)=E[exp(tX)]。
- 利用独立性和随机变量的特性,构造矩母函数的上界。
- 通过选择合适的参数 t t t,优化上界以得到所需的不等式。
-
鞅法:
- 构造鞅序列并应用阿兹马尔-海涅不等式(Azuma-Hoeffding Inequality)。
- 使用鞅的性质和差值的界限来推导出尾部概率的不等式。
切尔诺夫不等式的强大之处在于它不仅适用于独立同分布的随机变量,还可以扩展到一些更复杂的情况。它在计算机科学、统计学、机器学习和组合优化中具有广泛的应用,用于分析算法性能和随机过程的行为。
3.霍夫丁不等式(Hoeffding’s Inequality)
霍夫丁不等式(Hoeffding’s Inequality)是概率论中的一种重要集中不等式,它提供了独立随机变量和偏离其期望值的概率的上界。霍夫丁不等式特别适用于处理取值范围有限的独立随机变量,广泛应用于统计学和机器学习中。
设 X 1 , X 2 , … , X n X_1, X_2, \ldots, X_n X1,X2,…,Xn是独立随机变量,每个 X i X_i Xi的取值范围为 [ a i , b i ] [a_i, b_i] [ai,bi]。定义 S n = X 1 + X 2 + ⋯ + X n S_n = X_1 + X_2 + \cdots + X_n Sn=X1+X2+⋯+Xn,则对于任意的 ϵ > 0 \epsilon > 0 ϵ>0,有:
P ( S n − E [ S n ] ≥ t ) ≤ exp ( − 2 t 2 ∑ i = 1 n ( b i − a i ) 2 ) P(S_n - \mathbb{E}[S_n] \geq t) \leq \exp \left( -\frac{2t^2}{\sum_{i=1}^n (b_i - a_i)^2} \right) P(Sn−E[Sn]≥t)≤exp(−∑i=1n(bi−ai)22t2)
类似地,对于下尾,我们有:
P ( S n − E [ S n ] ≤ − t ) ≤ exp ( − 2 t 2 ∑ i = 1 n ( b i − a i ) 2 ) P(S_n - \mathbb{E}[S_n] \leq -t) \leq \exp \left( -\frac{2t^2}{\sum_{i=1}^n (b_i - a_i)^2} \right) P(Sn−E[Sn]≤−t)≤exp(−∑i=1n(bi−ai)22t2)
结合这两个不等式,可以得到:
P ( ∣ S n − E [ S n ] ∣ ≥ t ) ≤ 2 exp ( − 2 t 2 ∑ i = 1 n ( b i − a i ) 2 ) P(|S_n - \mathbb{E}[S_n]| \geq t) \leq 2 \exp \left( -\frac{2t^2}{\sum_{i=1}^n (b_i - a_i)^2} \right) P(∣Sn−E[Sn]∣≥t)≤2exp(−∑i=1n(bi−ai)22t2)
证明思路
霍夫丁不等式的证明基于切尔诺夫界和对鞅的应用。以下是一个简要的证明思路:
-
鞅的构造:
- 考虑鞅差序列 { Y i } \{Y_i\} {Yi},其中 Y i = X i − E [ X i ] Y_i = X_i - \mathbb{E}[X_i] Yi=Xi−E[Xi],则 S n − E [ S n ] = ∑ i = 1 n Y i S_n - \mathbb{E}[S_n] = \sum_{i=1}^n Y_i Sn−E[Sn]=∑i=1nYi。
-
应用切尔诺夫界:
- 对于每个 Y i Y_i Yi,利用矩母函数 E [ exp ( λ Y i ) ] \mathbb{E}[\exp(\lambda Y_i)] E[exp(λYi)],并利用独立性将矩母函数分解为每个 Y i Y_i Yi的矩母函数的乘积。
- 由于 Y i Y_i Yi的取值范围为 [ a i − E [ X i ] , b i − E [ X i ] ] [a_i - \mathbb{E}[X_i], b_i - \mathbb{E}[X_i]] [ai−E[Xi],bi−E[Xi]],我们可以对每个 Y i Y_i Yi的矩母函数进行上界估计。
-
选择合适的参数:
- 通过选择合适的 λ \lambda λ,优化上界得到最紧的不等式。
-
综合结果:
- 将上界进行汇总,得到霍夫丁不等式的形式。
应用
霍夫丁不等式在许多领域都有广泛的应用,包括:
- 机器学习:用于评估学习算法的泛化误差和验证模型的稳定性。
- 统计学:用于估计样本均值与总体均值之间的偏差。
- 算法分析:用于分析随机算法的性能,特别是算法的运行时间和误差估计。
例如,在机器学习中,假设我们有一个包含独立同分布随机变量的数据集,我们可以用霍夫丁不等式来确定某个参数估计值与其真实值偏离的概率上界,从而为模型的性能提供置信区间。
4.阿兹马尔-海涅不等式(Azuma-Hoeffding Inequality)
阿兹马尔-海涅不等式(Azuma-Hoeffding Inequality)是鞅(martingale)理论中的一种重要集中不等式。它给出了鞅序列在每一步变化受到限制时,其偏离期望的概率的上界。这一不等式对于分析具有鞅性质的随机过程非常有用,特别是在算法分析和随机过程研究中。
设 { X i } i = 0 n \{X_i\}_{i=0}^n {Xi}i=0n是一个鞅序列,即满足 E [ X i + 1 ∣ X 1 , X 2 , … , X i ] = X i \mathbb{E}[X_{i+1} \mid X_1, X_2, \ldots, X_i] = X_i E[Xi+1∣X1,X2,…,Xi]=Xi对所有 i i i成立。同时假设对每个 i i i, ∣ X i + 1 − X i ∣ ≤ c i |X_{i+1} - X_i| \leq c_i ∣Xi+1−Xi∣≤ci,则对于任意 t > 0 t > 0 t>0,有:
P ( X n − X 0 ≥ t ) ≤ exp ( − t 2 2 ∑ i = 1 n c i 2 ) P(X_n - X_0 \geq t) \leq \exp \left( -\frac{t^2}{2 \sum_{i=1}^n c_i^2} \right) P(Xn−X0≥t)≤exp(−2∑i=1nci2t2)
类似地,对于下尾,亦有:
P ( X n − X 0 ≤ − t ) ≤ exp ( − t 2 2 ∑ i = 1 n c i 2 ) P(X_n - X_0 \leq -t) \leq \exp \left( -\frac{t^2}{2 \sum_{i=1}^n c_i^2} \right) P(Xn−X0≤−t)≤exp(−2∑i=1nci2t2)
结合这两个不等式,可以得到:
P ( ∣ X n − X 0 ∣ ≥ t ) ≤ 2 exp ( − t 2 2 ∑ i = 1 n c i 2 ) P(|X_n - X_0| \geq t) \leq 2 \exp \left( -\frac{t^2}{2 \sum_{i=1}^n c_i^2} \right) P(∣Xn−X0∣≥t)≤2exp(−2∑i=1nci2t2)
证明思路
阿兹马尔-海涅不等式的证明通常基于鞅的矩母函数和鞅差序列的性质。以下是一个简要的证明思路:
-
构造鞅差序列:
- 设 Y i = X i − X i − 1 Y_i = X_i - X_{i-1} Yi=Xi−Xi−1,则 { Y i } i = 1 n \{Y_i\}_{i=1}^n {Yi}i=1n是一个鞅差序列,并且满足 E [ Y i ∣ X 1 , X 2 , … , X i − 1 ] = 0 \mathbb{E}[Y_i \mid X_1, X_2, \ldots, X_{i-1}] = 0 E[Yi∣X1,X2,…,Xi−1]=0。
-
应用鞅的性质:
- 利用鞅差序列的独立性和有界性,构造鞅序列的矩母函数。
-
利用切尔诺夫界:
- 对于每个 Y i Y_i Yi,利用切尔诺夫界得到它们和的偏离概率的上界。
-
优化参数:
- 选择合适的参数 t t t,优化上界,最终得到阿兹马尔-海涅不等式。
应用
阿兹马尔-海涅不等式在很多领域都有重要应用,特别是:
- 算法分析:用于分析随机算法的性能,特别是在随机过程中的误差估计。
- 随机过程:用于研究随机过程的偏离行为,如布朗运动和随机游走。
- 机器学习:用于分析学习算法的收敛性和稳定性。
例如,在分析一个随机算法的运行时间时,可以将运行时间建模为一个鞅序列,通过应用阿兹马尔-海涅不等式,得到其偏离期望时间的概率上界,从而评估算法的效率和可靠性。
5.贝尔斯坦不等式(Bernstein Inequality)
贝尔斯坦不等式(Bernstein Inequality)是概率论中的一种重要集中不等式,用于给出独立随机变量和偏离其期望值的概率的上界。它在处理随机变量的方差已知且具有一定界限的情况下非常有用。贝尔斯坦不等式特别适合于处理那些变量范围已知且方差较小的情形。
设 X 1 , X 2 , … , X n X_1, X_2, \ldots, X_n X1,X2,…,Xn是独立的零均值随机变量,且满足 ∣ X i ∣ ≤ M |X_i| \leq M ∣Xi∣≤M。定义 S n = ∑ i = 1 n X i S_n = \sum_{i=1}^n X_i Sn=∑i=1nXi,则对于任意 t > 0 t > 0 t>0,有:
P ( S n ≥ t ) ≤ exp ( − t 2 2 ( ∑ i = 1 n V a r ( X i ) + M t 3 ) ) P\left(S_n \geq t\right) \leq \exp \left( -\frac{t^2}{2 \left( \sum_{i=1}^n \mathrm{Var}(X_i) + \frac{Mt}{3} \right)} \right) P(Sn≥t)≤exp(−2(∑i=1nVar(Xi)+3Mt)t2)
下界形式
类似地,对于下界,我们有:
P ( S n ≤ − t ) ≤ exp ( − t 2 2 ( ∑ i = 1 n V a r ( X i ) + M t 3 ) ) P\left(S_n \leq -t\right) \leq \exp \left( -\frac{t^2}{2 \left( \sum_{i=1}^n \mathrm{Var}(X_i) + \frac{Mt}{3} \right)} \right) P(Sn≤−t)≤exp(−2(∑i=1nVar(Xi)+3Mt)t2)
结合形式
结合这两个不等式,可以得到:
P ( ∣ S n ∣ ≥ t ) ≤ 2 exp ( − t 2 2 ( ∑ i = 1 n V a r ( X i ) + M t 3 ) ) P\left(|S_n| \geq t\right) \leq 2 \exp \left( -\frac{t^2}{2 \left( \sum_{i=1}^n \mathrm{Var}(X_i) + \frac{Mt}{3} \right)} \right) P(∣Sn∣≥t)≤2exp(−2(∑i=1nVar(Xi)+3Mt)t2)
证明思路
贝尔斯坦不等式的证明一般基于切尔诺夫界和矩母函数的方法。以下是一个简要的证明思路:
-
矩母函数法:
- 考虑 S n S_n Sn的矩母函数 E [ exp ( λ S n ) ] \mathbb{E}[\exp(\lambda S_n)] E[exp(λSn)],其中 λ \lambda λ是一个任意实数参数。
- 由于 X i X_i Xi是独立的,矩母函数可以分解为每个 X i X_i Xi的矩母函数的乘积。
-
利用独立性和界限条件:
- 利用 X i X_i Xi的独立性和有界性 ∣ X i ∣ ≤ M |X_i| \leq M ∣Xi∣≤M,对矩母函数进行上界估计。
- 应用泰勒展开和一些不等式(如拉格朗日乘数法)来处理矩母函数。
-
优化参数:
- 选择合适的参数 λ \lambda λ,使得上界最小化,从而得到最紧的集中不等式。
应用
贝尔斯坦不等式在许多领域都有广泛的应用,特别是在以下几个方面:
- 算法分析:用于分析随机算法的性能,特别是算法的运行时间和误差估计。
- 统计学:用于估计样本均值和总体均值之间的偏差。
- 机器学习:用于评估学习算法的泛化误差,特别是在有限样本情况下。
例如,在分析一个机器学习算法的泛化误差时,可以将训练误差建模为独立随机变量的和,通过应用贝尔斯坦不等式,得到其偏离期望误差的概率上界,从而评估算法的稳定性和可靠性。