python统计字数分布可视化展示_数据的概率分布并用python实现概率分布可视化图...

一、基础概念

先来看下数据的类型,常见的数据分类方式有三种:第一种是按照数据的结构属性分类,根据数据的存储形式分为结构化数据和非结构化数据,例如数据库的存储对象基本上都是结构化数据,结构化数据是进行数据分析的基本类型;对于非结构化数据,其存在形式多样化,有视频、音频、图片、影像、文档和文本等形式,对于非结构化数据只有将其转化为结构化数据才能进行数分析。第二种按照数据的连续性特征分为离散型数据和连续性数据;第三种根据数据的测量尺度分为:定类数据、定序数据、定距数据和定比数据。

随机变量

每次试验的结果可以用一个变量的数值来表示,这个变量的取值随偶然因素变化,但又遵从一定的概率分布规律。

离散变量

离散型随机变量是在一定区间内变量取值为有限个或可数个。

连续变量

连续性随机变量就是在一定区间内变量取值有无限个,或数值无法一一列举出来。

期望值

期望值是随机试验在同样的机会下重复多次的结果计算出的等同于“期望”的平均值,期望值也成为数学期望或均值,它是指在一个离散性随机变量实验中每次可能结果的概率乘以其结果的总和。

古典概率

又称为事前概率,是指当随机事件中各种可能发生的结果及其出现的次数都可以由演绎或外推法得知,而无需经过任何统计试验即可计算各种可能发生结果的概率。

条件概率

是指事件A在时间B发生的条件下发生的概率。

二、离散变量概率分布

二项分布

在概率论或统计学中,二项分布是n个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。这样的单次成功/失败的试验又称为伯努利试验。当n=1时,二项分布就是伯努利分布。

若进行了n次伯努利试验,成功了x次,失败的次数为n-x,设成功的概率为p,失败的概率为q=1-p,发生这种情况的概率用以下公式表示:(二项分布 x~B(n,p))

二项分布的均值和方差分别为:

泊松分布

泊松分布的概率函数为:

, k=0,1...

泊松分布的参数

是单位时间(或单位面积)内随机事件的平均发生次数,泊松分布适合于描述单位时间内随机事件发生的次数。

泊松分布的期望和方差均为

泊松分布是由二项分布推导而来的,当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中

为np, 通常当n>=20,p<=0.05时,就可以用泊松公式近似的计算。

三、连续变量概率分布

均匀分布

均匀概率分布是古典概率分布的连续形式,是指随机事件的可能结果是连续型数据变量,所有的连续型数据结果所对应的概率相等。也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。均匀分布由两个参数a,b定义,他们是数轴上的最小值和最大值,U(a,b)。

其概率密度函数f(x):

当a

当xb时,

均匀分布的期望和方差为:

,

正态分布

正态分布又名高斯分布,若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。

正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。

其概率密度函数为:

卡方分布

若n个相互独立的随机变量ξ₁,ξ₂,...,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(

分布)。

或者

,其中v是自由度,v=n-k, k是限制条件数。

beta分布

在概率论中,贝塔分布也称B分布,是指一组定义在(0,1)区间的连续概率分布,有两个参数

。贝塔分布是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数,在机器学习和数理统计学中有重要应用。

B分布的概率密度函数是:

随机变量X服从参数为

的B分布通常写作:

四、用Python代码实现常见概率分布

二项分布(伯努利分布)

from scipy import stats as st

import numpy as np

import matplotlib as mpl

import matplotlib.pyplot as plt

#防止乱码

mpl.rcParams['font.sans-serif'] = [u'SimHei']

mpl.rcParams['axes.unicode_minus'] = False

# 二项分布

n = 100

p = 0.25

k = np.arange(0,n)

binomial = st.binom.pmf(k,n,p)

plt.plot(k,binomial,'o-')

plt.title('伯努利分布:n=%i,p=%.2f'%(n,p),fontsize=15)

plt.xlabel('成功次数')

plt.ylabel('成功概率',fontsize=15)

plt.grid(True)#显示轴网格线

plt.show()

泊松分布

x = np.random.poisson(lam=6, size=1000) # lam为λ size为k

pillar = 20

a = plt.hist(x, bins=pillar, density=True, range=[0, pillar], color='g', alpha=0.5)

plt.title('泊松分布',fontsize=15)

plt.xlabel('柱子个数')

plt.ylabel('概率',fontsize=15)

plt.plot(a[1][0:pillar], a[0], 'r')

plt.grid()

plt.show()

均匀分布

#均匀分布

#PDF 概率分布函数

plt.plot(np.linspace(-3,3,100),stats.uniform.pdf(np.linspace(-3,3,100)))

plt.fill_between(np.linspace(-3,3,100),stats.uniform.pdf(np.linspace(-3,3,100)),alpha=0.15)

plt.text(x=-1.5,y=0.7,s="pdf(uniform)",rotation=65,alpha=0.75,weight="bold",color="g")

正态分布

import numpy as np

import matplotlib.pyplot as plt

import scipy.stats as stats

#概率密度函数

plt.plot(np.linspace(-3,3,100),stats.norm.pdf(np.linspace(-3,3,100))) #从(-3,3)中随机选取100个数,绘制该事件的概率密度函数

plt.fill_between(np.linspace(-3,3,100),stats.norm.pdf(np.linspace(-3,3,100)),alpha=.15)#对曲线内部进行填充

#注解

plt.text(x=-1,y=0.3,s="pdf(normed)",rotation=.65,weight="bold",color='g')

卡方分布

x = np.linspace(0,30,100)

y = st.chi2.pdf(np.linspace(0,30,100),df=3)

#PDF 概率密度函数

plt.plot(x,y)#绘制0到30的卡方分布曲线,给定自由度为3

plt.fill_between(x,y,alpha=0.15) #填充曲线

plt.title(u'卡方分布:自由度为3')

plt.show()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/556301.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

台式计算机读不到u盘怎么回事,电脑读不出u盘怎么办

把U盘插入电脑USB接口中&#xff0c;却发现找不到U盘图标&#xff0c;甚至连安装U盘驱动的提示也没有&#xff0c;那么电脑读不出u盘怎么办呢?天学习啦小编就和大家说说电脑读不出u盘的解决方法。电脑读不出u盘解决方法1、首先应该排除是否是由于电脑系统问题&#xff0c;具体…

Eureka 与Zookeeper 的区别,Eureka相较于Zookeeper好在哪?

传统的ACID A&#xff08;Atomicity&#xff09; 原子性C&#xff08;Consistency&#xff09; 一致性I &#xff08;Isolation&#xff09;独立性D&#xff08;Durability&#xff09;持久性 关系型数据库&#xff08;MySQL&#xff0c;Oracle&#xff0c;SqlServer&#xf…

断网情况下安装python_断网环境下利用pip安装Python离线安装包

著作权归作者所有。商业转载请联系作者获得授权&#xff0c;非商业转载请注明出处。这几天搞Windows离线断网环境下安装Python包&#xff0c;配置环境&#xff0c;各种坑&#xff01;做个记录&#xff0c;供以后查询吧。# 生产环境 windows 7# python 2.7.9# pip 1.5.2友情提示…

计算机英语词组,计算机专业英语词组.doc

Integrated circuit 集成电路Central controller 中央控制器Trigonometry function 三角函数Square root 平方根Floating point 浮点数Real number 实数Logic operation 逻辑运算Superscalar computer 超级计算机Hard disk drive 硬盘驱动器Personal computer 个人计算机Floppy…

python 整数输出 d f_如何将数字(10,11,12,13,14,15)分配给Python 3中的字母(A,B,C,D,E,F)?...

您可以在代码中添加更多行来执行此操作&#xff1a;首先创建两个带有字符的列表&#xff0c;一个带有要映射的整数&#xff0c;然后从那些创建dict&#xff1a;list_1["A","B","C","D","E","F"]list_2[10,11,12,1…

如何将Springboot项目成功部署到linux服务器上?

springboot的jar包方式 idea默认就是jar打包方式所以直接使用maven工具按照步骤点击就可以直接打包ps:打包前你的数据库相关的连接信息要记得修改&#xff0c;不能再用本地的了 第二步&#xff1a;Maven clean &#xff1a;清除编译后的目录&#xff0c;默认是target目录 [IN…

2018年3月计算机二级考试题,2018年3月计算机二级考试Access综合试题十

2018年3月计算机等级考试即将开始&#xff0c;小编在这里为考生们整理了2018年3月计算机二级考试Access综合试题&#xff0c;希望能帮到大家&#xff0c;想了解更多资讯&#xff0c;请关注出国留学网的及时更新哦。2018年3月计算机二级考试Access综合试题十(1)要将“选课成绩”…

sqldataadapter.fill 索引超出了数组界限_小学生学习C++||第十五节 数组

存储数据的方式第一种&#xff0c;变量&#xff1a;存放1个学生的数学成绩可以定义1个变量存放&#xff0c;那么如果想要存放100个学生的数学成绩应该如何存储呢&#xff1f;第二种&#xff0c;数组&#xff1a;引入数组概念&#xff1a;可以用来表达类型相同的元素的集合&…

计算机组组内培训记录,计算机教研组活动记录.doc

计算机教研组活动记录PAGE \* MERGEFORMAT 3计算机基础教研组活动记录活动时间2017年10月17日参加人员&#xff1a;田飞, 许丽, 张刚, 夏丽, 刘璐, 苑瑜, 王梦, 靳双正, 梁宇, 常喜活动主题如何提高计算机课程教学质量活动过程摘要活动记录&#xff1a;田飞——今天我们就如何提…

数据字典在sga的哪一个组件中缓存_【赵强老师】Oracle数据库的内存结构

首先&#xff0c;我们通过一张图片来了解一下Oracle数据库的内存结构&#xff0c;如下&#xff1a;每个数据库实例有两个关联的内存结构—系统全局区(SGA),程序全局区(PGA)。系统全局(SGA)&#xff1a;一组共享的内存结构(称为SGA 组件)&#xff0c;其中包含一个OracleDB 实例的…

springboot+shiro:ShiroConfiguration配置

1.EhCacheManager EhCache缓存管理也可将shiro session存入redis中 Beanpublic EhCacheManager getEhCacheManager() {EhCacheManager em new EhCacheManager();em.setCacheManagerConfigFile("classpath:ehcache-shiro.xml");return em;}ehcache-shiro.xml中的配置…

幼师计算机课是上什么,幼师面试 鱼在天空飞,鸟在水里游是小班课程,还是中班,大班的课程...

大班第一课时教学目标&#xff1a;1、学会生字“鸟、儿、鱼、飞”,读准音,认清形,了解义,能正确书写.2、看图感知画面内容,练习说话.3、拓展认识各种鸟,鱼&#xff1b;激发学生喜爱小动物的的感情.教学重点&#xff1a;学会“鸟、儿、飞、鱼”四个生字,读准字音,了解字义,能正确…

python关键词大全_Python 批量获取Baidu关键词的排名并入库

1.[代码][Python]代码#-*- coding: UTF-8 -*-#Python UTF-8 抓取百度关键词V1.0#key.txt是抓取文件配置#author PHPer.yanggmail.comimport cgi,urllib #URL读取import re #正则匹配import MySQLdb #MySQLimport datetime #时间#import time,thread #多线程"""M…

mysql出现多线程操作同一个表的情况,应该怎么办?

1、对于MySQL来说&#xff0c;有三种锁的级别&#xff1a;页级、表级、行级。 页级的典型代表引擎为BDB。 表级的典型代表引擎为MyISAM,MEMORY以及很久以前的ISAM。 行级的典型代表引擎为INNODB。 2、我们实际应用中用的最多的就是行锁。 行级锁的优点如下&#xff1a; 1&…

计算机黑屏策略,小黑w7系统诊断策略服务已被禁用的还原教程

小黑w7家庭版开机速度快&#xff0c;是入门级小黑w7系统。据调查不少用户在使用中都碰到了诊断策略服务已被禁用的问题。面对小黑w7系统诊断策略服务已被禁用这样的小问题&#xff0c;我们该如何解决呢&#xff1f;不经常使用电脑的朋友对于小黑w7系统诊断策略服务已被禁用的问…

python中的date的含义_python中date、datetime、string的相互转换

import datetimeimport timestring转datetimestr 2012-11-19date_time datetime.datetime.strptime(str,%Y-%m-%d)date_timedatetime.datetime(2012,11,19,0,0)datetime转stringdate_time.strftime(%Y-%m-%d)2012-11-19datetime转时间戳time_time time.mktime(date_time.tim…

overline css,CSS text-decoration-line 属性

定义和用法text-decoration-line 属性规定文本修饰要使用的线条类型。注意&#xff1a;您也可以使用 text-decoration 属性设置 text-decoration-line。text-decoration 属性是 text-decoration-line、text-decoration-style 和 text-decoration-color 属性的速记属性。注意&am…

npoi word在试图打开文件时遇到错误_【技巧】word在试图打开文件时遇到错误

问题使用Word的时候遇到了一个问题&#xff0c;如下图所示解决方案情况一&#xff1a;修改文件后缀导致打开错误如果源文件不是“.doc”或者“.docx”格式结尾&#xff0c;通过修改文件后缀的方式修改为“.doc”或者“.docx”格式。在打开文件的时候出现上述警告时&#xff0c;…

空间服务器有问题是系统问题吗,服务器空间租用两个主要问题要留意

只要是建设网站&#xff0c;那么服务器空间租用都是不能缺少的。而且这样的一种租赁模式都是长期的&#xff0c;所以我们需要考虑到租用的整体性价比&#xff0c;这样后续的应用才能有所保障。而且我们只要是建设了网站&#xff0c;服务器和空间一般都是不会更换掉的&#xff0…

面试让HR都能听懂的MySQL锁机制,欢声笑语中搞懂MySQL锁

腾讯云数据库负责人林晓斌说过&#xff1a;“我们面试MySQL同事时只考察两点&#xff0c;索引和锁”。言简意赅&#xff0c;MySQL锁的重要性不言而喻。 本文通过同事“侨总”的一场面试&#xff0c;带你通俗易懂的掌握MySQL各种锁机制&#xff0c;希望可以帮到你&#xff01;近…