统计学基本知识一

声明:文中的图来自于可汗学院公开课,若有侵权,联系我删除。

均值:一组数相加后除以这一组数的个数。

中位数:一组数从小到大排列,最中间的那个数,如果是偶数个,两个相加后除以2,得到中位数。

众数:这一组数中出现多的一个数字。

极差:指一组数中最大数和最小数的差值,它描述这些数字分开的有多远, 差值越小,数据分布得越紧密。

中程数:指数据集中最大数和最小数的平均值,是考虑集中趋势的又一种方式,是考虑中间值的有一种方法。

象形统计图的目的主要是为了使统计数据更为直观、通俗易懂。如下图一滴血表示8个人,来统计各种血型的人数。

条形图(利用条形分类来表述数据的一种方式)。下图是五个人的期中、期末成绩,比较谁进步最大。由每个人的前后条形差值中可以得出结论。

线形图适合用来表示随时间变化的事物,展示变化趋势,如下图是股价随着每一个月的变化趋势。

但是要注意

观察线形图趋势,特别是相互比较的时候,要注意刻度,避免被误导,最好是在同一图中画出比较。如下图,不看刻度的话,还以为右图的变化趋势更大。

饼图非常适合用来标志各个部分所占的比例,即部分与整体的关系。例如下图的旅行社每个月份销售额,一眼能看出哪个月份是销售最高的。

茎叶图Stem-and-Leaf plot:将数组中的数按位数进行比较,数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝叶),列在主干的后面,这样就可以清楚地看到每个主干后面的几个数,每个数具体是多少。如下图是每个球员的得分。

盒须图(box and whiskers):又称为箱形图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。

1.将数组中的数据升序排序

2.求出中位数(Xm),上四分位数(Q1),下四分位数(Q3)

3.画数轴,度量单位大小和数组的单位一致,起点比最小值稍小,长度比该数组的全距稍长

4.画一个矩形盒,两端边的位置分别对应数据批的上下四分位数(Q1和Q3)。在矩形盒内部中位数(Xm)位置画一条线段为中位线。 

如下图是箱线图的一个具体示例。

outlier--离群值:与其它数不一样的数,有此数时,中位数和众数比算术平均数更能体现该组数的集中趋势。 如下图100就是离群值。

sample(样本),population(总体)

μ = population mean (总体均值)

X(上面带一条横线)= sample mean(样本均值)

总体方差:知道了集中趋势(平均值),但我们不知道数据是接近集中趋势还是远离集中趋势,所以可以用方差去衡量。如下图是总体方差的计算公式。

样本方差:如果按照总体方差计算的话,当选择的样本偏离总体均值是,样本方差会低估总体方差。如下图所示

故用下图,也就是分母换成(n-1),也称为总体方差的无偏估计

标准差:方差的平方根,平均离中趋势用标准差表示时单位一致。是对数离均值平均远近程度的一种衡量。

 

方差和期望的关系

随机变量:它并非传统意义上的变量,而更像是从随即过程映射到数值的函数。例如仍骰子的出现点数。

概率密度函数

1离散随机变量中每个变量概率有值且有意义

2连续随机变量中某个具体变量概率值为0,而一个变量范围内的概率有值且有意义,概率密度是一个函数,用于计算连续变量某一范围空间内的概率。

离散分布:伯努力分布,二项分布,possion分布

1,伯努力分布

import matplotlib.pyplot as plt
from scipy import stats
#执硬币
x_arr=np.array([0,1])
#x为1的概率
p=0.7
#0 1分布
#由PMF生成对应的概率  离散事件
pr_arr=stats.bernoulli.pmf(x_arr,p)
plt.plot(x_arr,pr_arr,marker='o',linestyle='None')
plt.vlines(x_arr,0,pr_arr)
plt.xlabel('Events')
plt.ylabel('Bernoulli distribution(p=0.7)')
plt.show()

2,二项分布

#二项分布  数量多时:像正态分布
n=100 #实验次数
p=0.5
x_arr=np.arange(0,n+1,1)
pr_arr=stats.binom.pmf(x_arr,n,p)
print(pr_arr)
plt.plot(x_arr,pr_arr,marker='o',linestyle='None')
plt.vlines(x_arr,0,pr_arr)
plt.xlabel('Events')
plt.ylabel('Probability')
plt.title('Bernoulli distribution(n={},p={})'.format(n,p))
plt.show()

次数到达100次就像正态分布,可以看出连续情况下可得到正态分布。

期望:随机变量的期望值是总体的均值,但因是无穷,所以采取每个结果可能出现的概率作为权重后计算。

对于二项分布的期望,E(X)=np,其中n是试验次数,p是每次成功的概率。

推导E(X)=np:

3,poisson分布

假设知道期望值E(X),即一个小时内通过多少辆车,先假设满足二项分布,E(X)=np,p=E(X)/n(n分钟数) 再求k分钟出现车的概率C(n,k)p^k(1-p)^(n-k).不断扩大n到无穷大则是泊松分布,其推导过程如下:

#poisson分布
#求某路口每小时发生k次交通事故的概率,已知每小时平均发生的次数为2
mu=2
k=10
p = 0.5
x_arr=np.arange(0,k+1,1)
pr_arr=stats.poisson.pmf(x_arr,mu)
print(pr_arr)
plt.plot(x_arr,pr_arr,marker='o',linestyle='None')
plt.vlines(x_arr,0,pr_arr)
plt.xlabel('Events')
plt.ylabel('Probability')
plt.title('Bernoulli distribution(k={},p={})'.format(k,p))
plt.show()
#

4,高斯(正态分布)

mu=0#平均值
sigma=1#标准差
x_arr=np.arange(-5,5,0.1)
#概率分布函数
y_arr=stats.norm.pdf(x_arr,mu,sigma)
plt.plot(x_arr,y_arr)
plt.xlabel('x')
plt.ylabel('y')
plt.title('Gaussion distribution(mu={},sigma={})'.format(mu,sigma))
plt.show()

正态曲线下,横轴区间(μ-σ,μ+σ)内的面积为68.268949%。

横轴区间(μ-1.96σ,μ+1.96σ)内的面积为95.449974%。

横轴区间(μ-2.58σ,μ+2.58σ)内的面积为99.730020%。

由于“小概率事件”和“假设检验”的基本思想 “小概率事件”通常指发生的概率小于5%的事件,认为在一次试验中该事件是几乎不可能发生的。由此可见X落在(μ-3σ,μ+3σ)以外的概率小于千分之三,在实际问题中常认为相应的事件是不会发生的,基本上可以把区间(μ-3σ,μ+3σ)看作是随机变量X实际可能的取值区间,这称之为正态分布的“3σ”原则。 

大数定理:如果样本量足够大,那么样本均值将趋近于期望值。

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/493324.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

中科院陆汝钤获吴文俊人工智能最高成就奖,百度王海峰获吴文俊人工智能杰出贡献奖...

来源:AI 科技评论12 月 9 日上午,被誉为「中国智能科学技术最高奖」的吴文俊人工智能科学技术奖在苏州举行颁奖典礼。本届吴文俊人工智能奖共对 70 项人工智能成果授奖,包括吴文俊人工智能最高成就奖 1 项,吴文俊人工智能杰出贡献…

统计学基本知识二

声明:文中的图来自于可汗学院公开课,若有侵权,联系我删除。 中心极限定理:随着样本容量n的增加,样本均值或者样本和的频率图将很接近正态分布。 如下图就在求解样本均值。 如下图就是样本均值的频率图,很…

AI+零售:人工智能撬动零售变革

来源:乐晴智库精选人工智能的快速发展将有助于赋能新零售商,有效重构零售行业“人、货、场”等要素,提升各环节效率,最终提升消费者购物体验,推动零售行业迎来第五次变革。近年来,在数据、算法、技术等方面…

统计学基本知识三

声明:文中的图来自于可汗学院公开课,若有侵权,联系我删除。 假设检验: 先看一个z分布的例子: 注意:零假设一般倾向于保守的。 在上图中: 1、先假设零假设成立,即药物无效&#x…

测试归测试,自动驾驶向个人全面开放依然长路漫漫

来源:网易智能摘要在北京某地,乘客们正等待着乘坐百度“阿波罗”无人驾驶汽车。最近,百度与福特汽车启动了为期两年的L4级别自动驾驶联合测试项目,在特定的地理区域和特定天气条件下行驶无人驾驶汽车。自亨利福特的移动装配生产线…

利用opencv添加mask

第一种做法: import os import sys import random import math import numpy as np import skimage.io import matplotlib import matplotlib.pyplot as plt import cv2 import colorsys os.environ[CUDA_VISIBLE_DEVICES] 1 # Root directory of the project RO…

白宫计划2019年春季发布新版人工智能研究战略

来源:人工智能和大数据近日,据白宫科技政策办公室人工智能助理主任Lynne Parker表示,特朗普政府计划更新由奥巴马政府首次发布的人工智能研究与发展战略。2016年美国国家人工智能研究与发展战略计划概述了美国联邦研究资金的投入重点。2018年…

统计学基本知识四

代码可以参考之前的博客: https://blog.csdn.net/fanzonghao/article/details/85643653 https://blog.csdn.net/fanzonghao/article/details/81637669 声明:文中的图来自于可汗学院公开课,若有侵权,联系我删除。 线性回归&…

Openstack Havana的两个排错过程

问题一:Timeout wating on RPC response, topic:"network" 描述: 启动实例一直等待,然后变为error。查看日志,是 timeout waiting on rpc response, topic "network", method: "validate_networks"…

生活|全民AI时代:干洗店老板、高中生齐上阵

来源:大数据文摘 1975年冬天,旧金山半岛的广告牌上出现了一则有点“奇怪”的消息。“你是否在尝试自己做电脑开发呢?,如果是的话,参加我们的聚会!”这则通告来自当年的Homebrew计算机俱乐部。Homebrew是一…

python可迭代对象,迭代器,生成器

容器是一系列元素的集合,str、list、set、dict、file、sockets对象都可以看作是容器,容器都可以被迭代(用在for,while等语句中),因此他们被称为可迭代对象。 可迭代对象实现了__iter__方法,该方…

软件“吞噬”世界后,我们正在进入“活产品”时代

来源:资本实验室摘要:2011年,网景公司创始人与风险投资家马克安德森提出了一个著名的观点:“软件正在吞噬世界”。虽然他的观点最初聚焦于新一波互联网平台公司的成长,但对物理产品的发展也同样适用,因为现…

python读取与写入json+csv变成coco的json文件+安装labelme

一.python读取与输出json 1.python字典和json互转这里用json.dumps,还原则用json.loads,dumps以后就变为字符串了 import json# info {name: Damin, address: 北京, salary:88888} info {"name": "Damin", "address": "北京…

基于原始套接字的嗅探器

嗅探器这个代码我去年的时候就已经写过了,这个学期并不是非常忙,顺手复习网络,就又尝试着写了一遍。 其实在写嗅探器的时候,最主要的还是要将网卡设置为混杂模式。在此基础之上,对抓到的数据包进行分析。 这个是我写出…

3D打印探讨:三个应用方向与四项风险

来源:学习时报摘要:3D打印技术已经诞生超过30年,今天已经被应用到众多领域。它在解决国际人道主义危机、提高医学水平、保护生态环境方面具有重要的应用价值,同时也在危机就业、新型犯罪与安全威胁等方面存在风险。3D打印技术从诞…

discuz x2.5用户注册后邮箱认证后无法收到邮件或者直接进垃圾箱

又是一个周末,jquery特效继续折腾我那discuz论坛,我开启了个邮箱验证,恶意注册的太恶心了,没有办法。 能稍微屏蔽点,但是问题来了,据亲们反应,无法收到验证邮件,或者有时间直接进入垃…

新能源汽车产业链:锂电设备站上风口

来源:乐晴智库精选摘要:政策宠儿,高额补贴下新能源汽车行业快速成长。全球新能源汽车在过去几年高速成长,从2011年到2017年,全球新能源汽车销量从5.1万辆增长到162.1万辆,期间的复合增速达到77.9%。中国对全…

CNN分类,ResNet V1 ,ResNet V2,ResNeXt,DenseNet

一.CNN分类 1.基于空间利用的CNN 2.基于深度的CNN 3.基于多路径的CNN 4.基于宽度的多连接 5.基于特征图的CNN 6.基于通道的CNN 7.基于注意力的CNN 二,ResNet V1 2015 ILSVRC 第一 论文指出归一化包括BN,权重初始化已经很大程度解决了梯度消失和爆炸的问题&…

基于AI的视频分析正在推动智能社会的到来

来源:资本实验室摘要:随着我们日渐掌握越来越强大的计算能力、更先进的计算算法、更易用的软件系统,以及不断下降的数据存储成本,我们正在具备对无处不在的大量视频进行实时分析的能力。尤其值得关注的是,当人工智能技…

Reporting Services 的伸缩性和性能表现规划(转载)

简介 Microsoft? SQL Server? Reporting Services 是一个将集中管理的报告服务器具有的伸缩性和易管理性与基于 Web 和桌面的报告交付手段集于一身的报告平台。Reporting Services 是微软功能全面的商业智能平台的重要组件。 对于许多组织,通过报告提供信息是日常…