随机变量
目标:将实验结果数量化。实验结构有数字型和非数字型。数字型:降雨量、上车人数等。非数字型:晴天/阴天/下雨、化验结果阴性/阳性等。
定义:随机试验样本空间S,如果X=X(e)为定义在S上的实数单值函数,则称X(e)为随机变量。简写为X。
补充:随机变量X(e):S->R 的映射关系。随机变量实质是一个函数。
如果i≠j,那么 {X=i}∩{X=j}=ϕ
一般用大写字母X、Y、Z 或者希腊字母 ξ,η等表示随机变量。
事件表示:A={e:X(e)∈I}={X∈I},I∈R
随机变量的类型:离散型随机变量、连续型随机变量
离散型随机变量
定义:如果随机变量X的取值为有限个,或者可数个,则称X为离散型随机变量。
补充1:换句话说:如果一个函数自变量是有限个,或者可数个,那这个函数就是离散型随机变量。随机变量,是一种映射关系,是函数。
补充2:有限是指知道有多少个,例如一枚硬币扔在地上,结果是正面或者反面,两种结果。可数是指能数的。例如正奇数集{1,3,5,7,…}虽然不知道有多少个,但是是可以一个一个的数的。有些情况是可数且有限个。例如人的年龄是可数且有限的,范围从0,1,2,….200。根据目前的资料,没有人年龄超过200的。那这个个数就是201。
补充3:不可数是无穷集合的一种。一个无穷集合与自然数集合之间不是一一对应的关系,那么这个无穷集合是不可数的(?)。区间[0,1],开始数:
0.34956852…
0.58692….
0.24986….
那么 0.490… 一定是你没有数到的。0.490…是这么来的:该数小数点后的第i位是第i个被数到的数的第i位加1,约定 9+1=0
离散型随机变量的概率分布式律
概率分布律是指随机变量取所有可能取值的情况下,每个取值对应的概率。
X | x1 | x2 | … | xk | … |
P | p1 | p2 | … | pk | … |
分布律的性质: pk>=0; ∑+∞k=1pk=1
另外一种表示: P(X=xk)=pk,k=1,2,3...
离散型随机变量的包含
0-1分布、二项分布、泊松分布、几何分布都属于离散型随机变量。
0-1分布
定义:若随机变量X可能的取值只有0和1,并且X的概率分布律满足 p0=1−p,p1=p,其中 0<p<1,就称X服从参数为p的0-1分布记为 X∼B(p)或 X∼0−1(p)。0-1分布又称为 贝努力分布。
其分布律还可以写为 P(X=K)=pk(1−p)(1−k)
应用
1检查产品质量是否合格
2新生婴儿的性别
3检验种子是否发芽
4考试是否通过
二项分布
关系:如果试验E只有两个可能的结果:A或者 A¯¯¯,P(A)=p, 0<p<1,将E独立的重复进行n次,想了解n重贝努力试验中A发生的次数的统计规律,就是二项分布。
定义:若X的概率分布律为 P(X=k)=Cknpk(1−p)(n−k),k=0,1,2...,n>=1, ,0<p<1,就称X服从参数n,p的二项分布,记为 X∼B(n,p)。
泊松分布
如果X的概率分布为P(X=k)=λke−λk!,k=0,1,2,3...,λ>0,就称X服从参数为λ的泊松分布,记为X∼π(λ)或者X∼P(λ)。
根据泰勒展开式eλ=∑∞k=0λkk!
如果某事件以固定强度λ,随机且独立的出现,该事件在单位事件内出现的次数可以看成是泊松分布。
当二项分布的n>10,p<0.1时,二项分布B(n,p)可以用泊松分布P(np)来近似。换句话说:当n远远大于p的时候,泊松分布是二项分布的近似计算公式。
例如:某地区一个月内(单位时间)每200个成年人中会有1个人患上某种疾病(一定概率),设个人是否患病相互独立(随机且独立)。求如果该地某一社区内有1000个成年人,求某月内该社区至少有3人患病的概率。
几何分布
若X的概率分布律为:P(X=K)=p(1−p)k−1,k=1,2,3… 称为X服从参数为p的几何分布,记为X∼Geom(p)。表示在多重贝努力试验中,试验进行到某一结果第一次出现为止,此时需要的试验次数的分布律。
概率分布函数
定义:随机变量X对任意实数x,称函数F(x)=P(X<=x)为X的概率分布函数,简称分布函数。
补充:任何随机变量都有对应的分布函数
目的:给出随机变量落在某个范围的可能性。
性质:1 0<=F(x)<=1;2 F(x)单调不减;3 F(−∞)=0,F(+∞)=1;4 F(x)是右连续函数,F(x+0) = F(x)。
计算:P(a<X≤b)=P(X≤b)−P(X≤a)=F(b)−F(a)
P(a<X<b)=P(a<X≤b−0)=F(b−0)−F(a)
一般离散型随机变量的分布函数是分段函数。设随机变量X的分布律为P{X=x_k}=p_k,k=1,2,3… X的分布函数为F(x)=∑xk<=xpk.F(x)在x=x_k处有跳跃,其跳跃值为p_k=P{X=x_k}。
连续型随机变量
定义:随机变量X的取值范围不可数,则称X为连续型随机变量。
分类:均匀分布、指数分布、正态分布。
连续型随机变量的概率密度
定义:对于随机变量X的分布函数F(x),若存在非负的函数f(x),使对于任意实数x有:F(x)=∫+∞−∞f(t)dt。则称X为连续型随机变量,f(x)为X的概率密度函数,简称概率密度。有时候也写为fX(x)。
性质
1 f(x)>=0
2 ∫+∞−∞f(x)dx=1
3 对于任意实数x1,x2,x1<x2,P(x1<x<x2)=∫x2x1f(t)dt
4 X落在点x附近(x,x+Δx)的概率近似等于 f(x)Δx。f(x)可以大于1,f(x)的大小表示了X落在x附近的可能性大小,f(x)与F(x)之间是积分与微分的关系。
均匀分布
若随机变量X的概率密度函数为f(x)=⎧⎩⎨1b−a,x∈(a,b)0,其他,a<b,称X服从(a,b)上的均匀分布。记为 X∼U(a,b)
性质:均匀分布具有等可能性。X落入(a,b)区间中等长度的任意子区间上是等可能的。
指数分布
若随机变量X的概率密度函数为f(x)=⎧⎩⎨λe−xλ,x>00,x≤0 ,称X服从λ的指数分布。记为 X∼E(λ) 或者 X∼Exp(λ)
分布函数为F(x)={1−e−λx,x>00,x≤0
性质:指数分布具有无记忆性。P(X>t0+t|X>t0)=e−λt=P(X>t)
应用
指数分布可以用来表示独立随机事件发生的时间间隔,比如旅客进机场的时间间隔,中文维基百科出现一条新词条的时间间隔。在排队论中,一个顾客接受服务时间的长短也服从指数分布。
正态分布
若随机变量X的概率密度函数为f(x)=12π−−√σe−(x−μ)22σ2 ,−∞<μ<+∞,σ>0,称X服从参数μ,σ的正态分布。记为:X∼N(μ,σ2)。
性质
1f(x)关于x=μ对称。
2 当x≤μ的时候,f(x)严格单调递增。
3 fmax=f(μ)=12π−−√σ
4 lim|x−μ|−>∞f(x)=0
两个参数的含义
1 固定σ,f(x)形状不变,移动位置,μ为位置参数。
2 固定μ,f(x)位置不变,σ小,图形高瘦,σ大,图形宽胖。称为尺度参数。
应用
1 测量误差。3σ
2 人的身高、体重
正态分布的计算
方法一:用excel、matlab计算
方法二:数值积分
方法三:转为标准正态分布,查表。
标准正态分布
X∼N(0,1),X称为正态分布。
Φ(−z0)=1−Φ(z0)
转换公式
随机变量函数的分布
随机变量函数的分布=函数的函数的分布。已知随机变量X的分布,Y=g(X),g(X)已知,求Y的分布。
一般地,如果X∼N(μ,σ2),如果Y=ax+b,则Y∼N(aμ+b,a2σ2)。