声明:文中的图来自于可汗学院公开课,若有侵权,联系我删除。
均值:一组数相加后除以这一组数的个数。
中位数:一组数从小到大排列,最中间的那个数,如果是偶数个,两个相加后除以2,得到中位数。
众数:这一组数中出现多的一个数字。
极差:指一组数中最大数和最小数的差值,它描述这些数字分开的有多远, 差值越小,数据分布得越紧密。
中程数:指数据集中最大数和最小数的平均值,是考虑集中趋势的又一种方式,是考虑中间值的有一种方法。
象形统计图的目的主要是为了使统计数据更为直观、通俗易懂。如下图一滴血表示8个人,来统计各种血型的人数。
条形图(利用条形分类来表述数据的一种方式)。下图是五个人的期中、期末成绩,比较谁进步最大。由每个人的前后条形差值中可以得出结论。
线形图适合用来表示随时间变化的事物,展示变化趋势,如下图是股价随着每一个月的变化趋势。
但是要注意
观察线形图趋势,特别是相互比较的时候,要注意刻度,避免被误导,最好是在同一图中画出比较。如下图,不看刻度的话,还以为右图的变化趋势更大。
饼图非常适合用来标志各个部分所占的比例,即部分与整体的关系。例如下图的旅行社每个月份销售额,一眼能看出哪个月份是销售最高的。
茎叶图Stem-and-Leaf plot:将数组中的数按位数进行比较,数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝叶),列在主干的后面,这样就可以清楚地看到每个主干后面的几个数,每个数具体是多少。如下图是每个球员的得分。
盒须图(box and whiskers):又称为箱形图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。
1.将数组中的数据升序排序
2.求出中位数(Xm),上四分位数(Q1),下四分位数(Q3)
3.画数轴,度量单位大小和数组的单位一致,起点比最小值稍小,长度比该数组的全距稍长
4.画一个矩形盒,两端边的位置分别对应数据批的上下四分位数(Q1和Q3)。在矩形盒内部中位数(Xm)位置画一条线段为中位线。
如下图是箱线图的一个具体示例。
outlier--离群值:与其它数不一样的数,有此数时,中位数和众数比算术平均数更能体现该组数的集中趋势。 如下图100就是离群值。
sample(样本),population(总体)
μ = population mean (总体均值)
X(上面带一条横线)= sample mean(样本均值)
总体方差:知道了集中趋势(平均值),但我们不知道数据是接近集中趋势还是远离集中趋势,所以可以用方差去衡量。如下图是总体方差的计算公式。
样本方差:如果按照总体方差计算的话,当选择的样本偏离总体均值是,样本方差会低估总体方差。如下图所示
故用下图,也就是分母换成(n-1),也称为总体方差的无偏估计
标准差:方差的平方根,平均离中趋势用标准差表示时单位一致。是对数离均值平均远近程度的一种衡量。
方差和期望的关系
随机变量:它并非传统意义上的变量,而更像是从随即过程映射到数值的函数。例如仍骰子的出现点数。
概率密度函数:
1离散随机变量中每个变量概率有值且有意义
2连续随机变量中某个具体变量概率值为0,而一个变量范围内的概率有值且有意义,概率密度是一个函数,用于计算连续变量某一范围空间内的概率。
离散分布:伯努力分布,二项分布,possion分布
1,伯努力分布
import matplotlib.pyplot as plt
from scipy import stats
#执硬币
x_arr=np.array([0,1])
#x为1的概率
p=0.7
#0 1分布
#由PMF生成对应的概率 离散事件
pr_arr=stats.bernoulli.pmf(x_arr,p)
plt.plot(x_arr,pr_arr,marker='o',linestyle='None')
plt.vlines(x_arr,0,pr_arr)
plt.xlabel('Events')
plt.ylabel('Bernoulli distribution(p=0.7)')
plt.show()
2,二项分布
#二项分布 数量多时:像正态分布
n=100 #实验次数
p=0.5
x_arr=np.arange(0,n+1,1)
pr_arr=stats.binom.pmf(x_arr,n,p)
print(pr_arr)
plt.plot(x_arr,pr_arr,marker='o',linestyle='None')
plt.vlines(x_arr,0,pr_arr)
plt.xlabel('Events')
plt.ylabel('Probability')
plt.title('Bernoulli distribution(n={},p={})'.format(n,p))
plt.show()
次数到达100次就像正态分布,可以看出连续情况下可得到正态分布。
期望:随机变量的期望值是总体的均值,但因是无穷,所以采取每个结果可能出现的概率作为权重后计算。
对于二项分布的期望,E(X)=np,其中n是试验次数,p是每次成功的概率。
推导E(X)=np:
3,poisson分布
假设知道期望值E(X),即一个小时内通过多少辆车,先假设满足二项分布,E(X)=np,p=E(X)/n(n分钟数) 再求k分钟出现车的概率C(n,k)p^k(1-p)^(n-k).不断扩大n到无穷大则是泊松分布,其推导过程如下:
#poisson分布
#求某路口每小时发生k次交通事故的概率,已知每小时平均发生的次数为2
mu=2
k=10
p = 0.5
x_arr=np.arange(0,k+1,1)
pr_arr=stats.poisson.pmf(x_arr,mu)
print(pr_arr)
plt.plot(x_arr,pr_arr,marker='o',linestyle='None')
plt.vlines(x_arr,0,pr_arr)
plt.xlabel('Events')
plt.ylabel('Probability')
plt.title('Bernoulli distribution(k={},p={})'.format(k,p))
plt.show()
#
4,高斯(正态分布)
mu=0#平均值
sigma=1#标准差
x_arr=np.arange(-5,5,0.1)
#概率分布函数
y_arr=stats.norm.pdf(x_arr,mu,sigma)
plt.plot(x_arr,y_arr)
plt.xlabel('x')
plt.ylabel('y')
plt.title('Gaussion distribution(mu={},sigma={})'.format(mu,sigma))
plt.show()
正态曲线下,横轴区间(μ-σ,μ+σ)内的面积为68.268949%。
横轴区间(μ-1.96σ,μ+1.96σ)内的面积为95.449974%。
横轴区间(μ-2.58σ,μ+2.58σ)内的面积为99.730020%。
由于“小概率事件”和“假设检验”的基本思想 “小概率事件”通常指发生的概率小于5%的事件,认为在一次试验中该事件是几乎不可能发生的。由此可见X落在(μ-3σ,μ+3σ)以外的概率小于千分之三,在实际问题中常认为相应的事件是不会发生的,基本上可以把区间(μ-3σ,μ+3σ)看作是随机变量X实际可能的取值区间,这称之为正态分布的“3σ”原则。
大数定理:如果样本量足够大,那么样本均值将趋近于期望值。