0. 零空间
零空间是在线性映射(即矩阵)的背景下出现的,指:像为零的原像空间,即{x| Ax=0}。
在数学中,一个算子 A 的零空间是方程 Av = 0 的所有解 v 的集合。它也叫做 A 的核,核空间。如果算子是在向量空间上的线性算子,零空间就是线性子空间。因此零空间是向量空间。
1 马尔科夫不等式
切比雪夫不等式是马尔科夫不等式的特殊情况,所以我们先来看看马尔科夫不等式。
1.1 马尔科夫不等式与直观感受
来感受一下马尔科夫不等式:
可见,越大于平均值,概率越低。
1.2 马尔科夫不等式与年薪百万
看看这个怎么去计算百万年薪的概率。
1.3 马尔科夫不等式的证明
2. Chebyshev
Chebyshev bounds give an upper bound on the probability of a set based on known expected values of certain functions (e.g., mean and variance).
The simplest example is Markov’s inequality.
2.1 Chebyshev distance
数学上,切比雪夫距离(Chebyshev distance)或是L∞度量是向量空间中的一种度量,二个点之间的距离定义为其各座标数值差的最大值。以(x1,y1)和(x2,y2)二点为例,其切比雪夫距离为max(|x2-x1|,|y2-y1|)。切比雪夫距离得名自俄罗斯数学家切比雪夫。
若将国际象棋棋盘放在二维直角座标系中,格子的边长定义为1,座标的x轴及y轴和棋盘方格平行,原点恰落在某一格的中心点,则王从一个位置走到其他位置需要的步数恰为二个位置的切比雪夫距离,因此切比雪夫距离也称为棋盘距离[3]。例如位置F6和位置E2的切比雪夫距离为4。任何一个不在棋盘边缘的位置,和周围八个位置的切比雪夫距离都是1。
2.2 切比雪夫(Chebyshev)定理
在总体分布未知(或非正态)且样本容量小于30时,均值的抽样分布是未知的,这时我们就不能运用中心极限定理、t分布和大样本理论来估计总体的均值,此时,可以运用切比雪夫(Chebyshev)定理来近似估计总体均值。
切比雪夫不等式是马尔科夫不等式的特殊情况,而且还有进一步的关系:这两个不等式的作者是师生关系。
马尔科夫不等式是以俄国数学家安德雷·马尔可夫命名的。
切比雪夫不等式是以马尔科夫的老师巴夫尼提·列波维奇·切比雪夫命名的。
切比雪夫不等式,描述了这样一个事实,事件大多会集中在平均值附近。
2.2.1 切比雪夫不等式与直观感受
可见,越远离平均值,概率越低。
2.2.2 切比雪夫不等式与年薪百万
2.2.3 切比雪夫不等式的证明
%%%%%%%%%%%%%%%%
2.2.1 切比雪夫(Chebyshev)定理/不等式:
设X是一个随机变数,取区间(0,∞)上的值,F(x)是它的分布函数,设Xα(α >0)的数学期望M(Xα )存在,a>0,则不等式成立。这叫做切比雪夫定理,或者切比雪夫不等式。
2.2.2 切比雪夫不等式的提出
19世纪俄国数学家切比雪夫研究统计规律中,论证并用标准差表达了一个不等式,这个不等式具有普遍的意义,被称作切比雪夫定理,其大意是:任意一个数据集中,位于其平均数m个标准差范围内的比例(或部分)总是至少为1-1/m2,其中m为大于1的任意正数。对于m=2,m=3和m=5有如下结果:
所有数据中,至少有3/4(或75%)的数据位于平均数2个标准差范围内。
所有数据中,至少有8/9(或88.9%)的数据位于平均数3个标准差范围内。
所有数据中,至少有24/25(或96%)的数据位于平均数5个标准差范围内。
2.2.3 例题分析
一种新的心脏手术正在一家医院推广,对于已完成的20例这种手术,平均住院期为14.3天,标准差为2.84天,因为手术复杂,住院期天数的总体不服从正态分布,而是有些正偏,总体标准差未知,求总体均值的90%近似置信区间。
如果可以假设该总体是正态的,即能够使用t分布方法,则可以得到有更高精度的精确90%置信区间:
对比用切比雪夫不等式和t分布的结果,可以说明前者是对总体均值的近似,后者是对总体均值的精确。(见总体均值估计方法表)
2.2.4 多面体的Chebyshev中心
2.3 总结
如果我们把人群的收入分布计算出来,我估计应该是个正态分布,那么年入百万的概率就更低了,知乎有人算出来是 万分之四 。
所以马尔科夫不等式、切比雪夫不等式只是对概率的一个估计,有可能不是很准确,但总比瞎想要准确。
百万年薪固然很难,但是根据 贝叶斯定理 ,或许增加一些条件,可以大大增加概率:
-
接受好的教育,不能就读名校也没有关系,现在网上公开课的资源也很好
-
勤奋、并有明确的目标
-
要有耐心,数据显示,40左右慢慢达到人生的收入巅峰
-
…
3. Chernoff Bound
随机变量偏离它的期望一个给定的值的概率,被称为偏差的尾概率(tail probability)。尾概率的计算方式除了利用已知条件直接计算以外,还有很多『模板』可以使用,就包括:
- 马尔科夫(Markov)不等式
- 切比雪夫(Chebyshev)不等式
- 切尔诺夫(Chernoff)界
简单来说尾概率就是 P(X>t)P(X > t)P(X>t) 的范围主要由计数计算概率法和利用数字特征计算的方法。
3.1 定义
切尔诺夫界(Chernoff Bound)通常是用来描述随机变量的和的取值在其期望附近的概率,在大多数情况下,随机变量都具有"集中"现象,也即概率较高的取值都集中在其期望附近。比如说抛硬币,抛一次硬币也许无法确定出现正面的概率,但是抛10000次之后呢?出现正反面的概率都稳定在了12附近,这就是"概率集中"现象,而切尔诺夫界(Chernoff Bound)就可以定量的来描述这种现象。
3.2 examplar explaination
切尔诺夫界(Chernoff Bound)的证明主要用到了两个工具,一是Markov不等式,一是Moment Generating Functions.
examplar explaination
3.3 切诺夫界的特殊性质
4. Union Bound
https://www.zhihu.com/question/27821324
https://zh.wikipedia.org/wiki/%E5%88%87%E6%AF%94%E9%9B%AA%E5%A4%AB%E8%B7%9D%E7%A6%BB
https://zhuanlan.zhihu.com/p/49197590
https://zhuanlan.zhihu.com/p/74363642