python 直方图每个bin中的值_【Python数据分析】四级成绩分布 -matplotlib,xlrd 应用...

标签:

最近获得了一些四级成绩数据,大概500多个,于是突发奇想是否能够看看这些成绩数据是否满足所谓的正态分布呢?说干就干,于是有了这篇文章。

文章顺带介绍了xlrd模块的一些用法和matplotlib画自定义数据的条形图和随机的条形图的一些方法,并且提供了一些相关链接,可作为学习matplotlib和numpy的资源,希望对读者也有帮助。

更优美的格式见这里

工具

Python 3.5

xlrd模块

numpy模块及一些依赖模块(安装请自行查询方法,绝大部分pip就可搞定)

matplotlib绘图模块

xlrd基本用法

1、导入模块

1

import xlrd

2、打开Excel文件读取数据

1

data = xlrd.open_workbook(‘excelFile.xls‘)

3、使用技巧

获取一个工作表

1

2

3

table = data.sheets()[0] #通过索引顺序获取

table = data.sheet_by_index(0) #通过索引顺序获取

table = data.sheet_by_name(u‘Sheet1‘)#通过名称获取

获取整行和整列的值(数组)

1

2

3

4

5

6

7

table.row_values(i)

table.col_values(i)

```

* 获取行数和列数

```python

nrows = table.nrows

ncols = table.ncols

循环行列表数据

1

2

for i in range(nrows ):

print table.row_values(i)

单元格

1

2

cell_A1 = table.cell(0,0).value

cell_C4 = table.cell(2,3).value

使用行列索引

1

2

cell_A1 = table.row(0)[0].value

cell_A2 = table.col(1)[0].value

简单的写入

1

2

3

4

5

6

7

8

row = 0

col = 0

#类型 0 empty,1 string, 2 number, 3 date, 4 boolean, 5 error

ctype = 1 value = ‘单元格的值‘

xf = 0 # 扩展的格式化

table.put_cell(row, col, ctype, value, xf)

table.cell(0,0) #单元格的值‘

table.cell(0,0).value #单元格的值‘

画折线图

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

import xlrd

import numpy as np

import matplotlib.pyplot as plt

data = xlrd.open_workbook(‘D:\\Python Workspace\\Data\\cet4.xls‘)

table = data.sheets()[0] #sheet 0

col5 = table.col_values(5)[1:] #取第5列的成绩,并去掉列属性名称

count = [0 for i in range(0,650)] #初始化count

x = [i for i in range(0,650)]

for i in col5:

num = int(i)

count[num] += 1 #统计每个人数的人数

plt.xlabel(‘Score‘)

plt.ylabel(‘Number of people‘)

plt.title(‘Distribution of CET-4 Scores‘)

plt.ylim(0,8)

plt.plot([i for i in range(250,650) if count[i] != 0],[i for i in count[250:] if i != 0],linewidth=1) #画出折线图

plt.show()

cet4-1.png图1

画直方图并与正态分布直方图对比

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

import xlrd

import numpy as np

from math import *

import pylab as pl

import matplotlib.pyplot as plt

data = xlrd.open_workbook(‘D:\\Python Workspace\\Data\\cet4.xls‘)

table = data.sheets()[0] #sheet 0

col5 = table.col_values(5)[1:]

ha = [int(i) for i in col5] #成绩数据

mu = np.mean(ha) #平均值

sigma = np.std(ha) #标准差

data = np.random.normal(mu,sigma,1000) #生成正态分布随机数据

x = np.linspace(0,700,1000)

y = (1. / sqrt(2 * np.pi) / sigma)*np.exp( -((x-mu)**2/(2*sigma**2)) )

plt.hist(data,bins=100,facecolor=‘g‘,alpha=0.44)

plt.hist(ha,bins=70,facecolor=‘r‘,histtype=‘stepfilled‘)

plt.plot(x,y,color=‘b‘) #正态分布曲线

plt.xlabel(‘Score‘)

plt.ylabel(‘Number of people‘)

plt.title(‘Distribution of CET-4 Scores‘)

plt.show()

cet4-2.png图2

且可求得数据的均值和标准差分别为:476.743785851和104.816562585

由图可见,绿色条形图是$\mu$=476.743785851,$\sigma$=104.816562585的正态分布条形图,而红色是四级成绩数据的分布图,虽然由于数据较少(500多个数据),所以拟合较差,但是可以看出成绩数据还是基本满足正态分布的。

不知道为啥,正态曲线没有画出来,单独画正态曲线是可以画出来的,有待研究。

绘制直方图的一些参数解释

绘图都可以调用matplotlib.pyplot库来进行,其中的hist函数可以直接绘制直方图。

调用方式:

1

n, bins, patches = plt.hist(arr, bins=10, normed=0, facecolor=‘black‘, edgecolor=‘black‘,alpha=1,histtype=‘bar‘)

hist的参数非常多,但常用的就这六个,只有第一个是必须的,后面四个可选

arr: 需要计算直方图的一维数组

bins: 直方图的柱数,可选项,默认为10

normed: 是否将得到的直方图向量归一化。默认为0

facecolor: 直方图颜色

edgecolor: 直方图边框颜色

alpha: 透明度

histtype: 直方图类型,‘bar’, ‘barstacked’, ‘step’, ‘stepfilled’

返回值 :

n: 直方图向量,是否归一化由参数normed设定

bins: 返回各个bin的区间范围

patches: 返回每个bin里面包含的数据,是一个list

摘自这里 from denny

一些链接

matplotlib的一些示例及其代码,是很好的学习工具。

用Python作科学计算的一些工具

标签:

原文地址:http://www.cnblogs.com/whatbeg/p/5390464.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/337552.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

adf开发_了解ADF生命周期中的ADF绑定

adf开发在这篇文章中,我将重点介绍ADF绑定层,并探讨当最初从浏览器请求带有一些数据的ADF页面时它如何工作。 Oracle ADF提供了自己的JSF生命周期扩展版。 实际上,ADF扩展了标准的JSF生命周期实现类,并提供了ADF阶段侦听器&#…

C语言实现计算器

点击蓝字关注我们1、实现逻辑首先创建菜单(menu),把我们需要实现的功能打印到运行栏屏幕上。实现加法计算实现减法计算实现除法计算实现乘法计算退出计算器当然以上都是属于最基本的计算,你当然还可以实现一些其它计算。例如:位运算(按位与、…

python怎么创建txt文件啊_python根据txt文本批量创建文件夹

前言 前言:想写这个代码的原因是因为实习的时候需要根据表格名创建对应的文件夹,如果只是很少个数文件夹的话,ctrlshiftn还可以接受吧,可是一次就要创建几百个文件夹,这就有点方方了。所以我写了一些代码解决实际的问题…

jpa的查询api_为JPA的本机查询API键入安全查询

jpa的查询api当您使用JPA时-有时-JPQL不能解决问题,您将不得不使用本机SQL。 从一开始,像Hibernate这样的ORM就为这些情况保留了开放的“后门”,并为Spring的JdbcTemplate , Apache DbUtils或jOOQ提供了类似的API,用于…

十道题带你手撕二叉树

点击蓝字关注我们1、单值二叉树题目:思路一:(遍历的方法)将根节点的值与二叉树中的每一个节点存储的val值进行比较,如果不同就返回false,如果全部相同,就返回true。代码:bool _isUni…

傅里叶变换及其应用 pdf_级数的欧拉变换及其应用

前言在学习级数的过程中,读到欧拉变换,觉得非常巧妙,而且在之后发散级数的学习中作者曾提出原级数在发散的情况下欧拉变换后的级数仍有可能收敛(例如1-11-11-...,当然这是Cesaro和意义下的结果或是解析延拓意义下的结果,其级数本身就是发散级数,这是毋庸置疑的,此级数的求和前提…

jpa 参数绑定布尔类型_使用Hibernate JPA的自定义布尔用户类型

jpa 参数绑定布尔类型ANSI SQL 1999标准引入了BOOLEAN数据类型(尽管遗憾的是仅作为可选功能)。 但是到目前为止,大多数主要的数据库系统仍未实现它。 结果,布尔列以各种方式实现。 例如,包含“ Y”或“ N”的CHAR列&am…

C语言实现面向对象编程 : 封装、继承、多态

点击蓝字关注我们不知道有多少人去了解过语言的发展史,早期C语言的语法功能其实比较简单。随着应用需求和场景的变化,C语言的语法功能在不断升级变化。虽然我们的教材有这么一个结论:C语言是面向过程的语言,C是面向对象的编程语言…

GCC-__attribute__()(一)属性机制

简介 __attribute__((option))是编译器对C语言的扩展,可以设置特定的函数、变量和类型的相关属性。 使用场景 主要用于优化代码,保证编码正确,优化程序逻辑,优化存储格式等,正常简单的项目都没必要使用。 属性列表&a…

python利用什么模块_什么是Python的heapq模块?

我尝试了“heapq”并得出结论,我的期望与我在屏幕上看到的不同.我需要有人解释它是如何工作的以及它在哪里有用. If you need to maintain a sorted list as you add and remove values, check out heapq. By using the functions in heapq to add or remove items from a list…

tomcat默认连接数_Tomcat的默认连接器

tomcat默认连接数Tomcat有几个连接器可供选择。 我将把APR连接器放在一边,而将重点放在BIO和NIO上。 BIO连接器(阻塞I / O)正在阻塞–它使用线程池,每个线程在该线程池中接收请求,处理请求,响应并返回到该…

图解python pdf_Python合并同一个文件夹下所有PDF文件的方法

一、需求说明 下载了网易云课堂的吴恩达免费的深度学习的pdf文档,但是每一节是一个pdf,我把这些PDF文档放在一个文件夹下,希望合并成一个PDF文件。于是写了一个python程序,很好的解决了这个问题。 二、数据形式三、合并效果四、py…

GCC-编译源文件

一、编译流程 一个C程序从源代码到可执行程序一共有四个过程:预处理->编译->汇编->链接 次序执行流程功能GCC命令1预处理展开头文件、宏替换、去掉注释、条件编译gcc - E main.c - o main.i2编译检查语法,生成汇编程序gcc - S main.i - o mai…

用C语言实现状态机设计模式

点击蓝字关注我们状态机模式是一种行为模式,在 《设计模式》 这本书中对其有详细的描述,通过多态实现不同状态的调转行为的确是一种很好的方法,只可惜在嵌入式环境下,有时只能写纯C代码,并且还需要考虑代码的重入和多任…

python的类是什么意思_Python 各种下划线都是啥意思_、_xx、xx_、__xx、__xx__、_classname_...

我们在定义一些变量或者方法的时候,常常会用到下划线,在 Python 中,下划线可是很有用处的哟,比如变量,有些是一个下划线开头的(_xx),有些是两个下划线开头的(__xx&#x…

c语言学习加强营(一):switch分支

#include <stdio.h> #include <stdlib.h>int main(int argc, char **argv) {int num 0;if (argc 2) {num atoi(argv[1]);}switch (num) {case 0 ... 59:printf("差\n");break;case 60 ... 74:printf("中\n");break;case 75 ... 84:printf(&…

jooq 入门_jOOQ,H2和Maven入门

jooq 入门本文是我们学院课程“ jOOQ –类型安全数据库查询”的一部分 。 在SQL和特定关系数据库很重要的Java应用程序中&#xff0c;jOOQ是一个不错的选择。 当JPA / Hibernate抽象过多而JDBC过于抽象时&#xff0c;这是一种替代方法。 它显示了一种现代的领域特定语言如何可…

这几行代码,惊为天人!

点击蓝字关注我们事情是这么一回事&#xff1a;国外有个大佬在StackExchange上发起了一个叫做 Tweetable Mathematical Art 的比赛。参赛者需要用C编写代表三原色的RD、GR、BL三个函数&#xff0c;每个函数都不能超过 140 个字符。每个函数都会接到 i 和 j 两个整型参数&#x…

线程并发库和线程池的作用_线程和并发介绍

线程并发库和线程池的作用本文是我们名为Java Concurrency Essentials的学院课程的一部分。 在本课程中&#xff0c;您将深入探讨并发的魔力。 将向您介绍并发和并发代码的基础知识&#xff0c;并学习诸如原子性&#xff0c;同步和线程安全性的概念。 在这里查看 &#xff01;…

快速搞定C/C++ 的条件编译

点击蓝字关注我们1、条件编译的时机我们都知道vscode其实是一个编辑器&#xff0c;你要在上面跑C或者C你需要配置编译器&#xff0c;拿编译器是怎样吧一个文本文件变成一个可执行文件的呢&#xff1f;那必然是经历以下这四步预处理&#xff1a;宏替换&#xff0c;头文件的展开&…