python数据分析知识点_Python数据分析--Pandas知识点(三)

本文主要是总结学习pandas过程中用到的函数和方法, 在此记录, 防止遗忘.

下面将是在知识点一, 二的基础上继续总结.

前面所介绍的都是以表格的形式中展现数据, 下面将介绍Pandas与Matplotlib配合绘制出折线图, 散点图, 饼图, 柱形图, 直方图等五大基本图形.

Matplotlib是python中的一个2D图形库, 它能以各种硬拷贝的格式和跨平台的交互式环境生成高质量的图形, 比如说柱状图, 功率谱, 条形图, 误差图, 散点图等. 其中, matplotlib.pyplot 提供了一个类似matlab的绘图框架, 使用该框架前, 必须先导入它.

19. 折线图

折线图: 数据随着时间的变化情况描点连线而形成的图形, 通常被用于显示在相等时间间隔下数据的趋势. 下面将采用两种方式进行绘制折线图, 一种是pandas中plot()方法, 该方法用来绘制图形, 然后在matplotlib中的绘图框架中展示; 另一种则是直接利用matplotlib中绘图框架的plot()方法.

19.1 采用pandas中的plot()方法绘制折线图

在pandas中绘制折线图的函数是plot(x=None, y=None, kind='line', figsize = None, legend=True,style=None, color = "b", alpha = None):

第一个: x轴的数据

第二个: y轴的数据

第三个: kind表示图形种类, 默认为折线图

第四个: figsize表示图像大小的元组

第五个: legend=True表示使用图例, 否则不使用, 默认为True.

第六个: style表示线条样式

第七个: color表示线条颜色, 默认为蓝色

第八个: alpha表示透明度, 介于0~1之间.

1 importpandas as pd2 importmatplotlib.pyplot as plt3 #第一步读取数据: 使用read_csv()函数读取csv文件中的数据

4 df = pd.read_csv(r"D:\Data\percent-bachelors-degrees-women-usa.csv")5 #第二步利用pandas的plot方法绘制折线图

6 df.plot(x = "Year", y = "Agriculture")7 #第三步: 通过plt的show()方法展示所绘制图形

8 plt.show()

在执行上述代码过程了报错ImportError: matplotlib is required for plotting, 若遇到请点击参考办法

最终显示效果:

1469712-20180929191212412-228318510.png

如果想将实线变为虚线呢, 可修改style参数为"--":

1 importpandas as pd2 importmatplotlib.pyplot as plt3 df = pd.read_csv(r"D:\Data\percent-bachelors-degrees-women-usa.csv")4 #添加指定的style参数

5 df.plot(x = "Year", y = "Agriculture", style = "--")6 plt.show()

1469712-20180929192514537-284791288.png

添加坐标轴标签以及标题:

1 importpandas as pd2 importmatplotlib.pyplot as plt3 df = pd.read_csv(r"D:\Data\percent-bachelors-degrees-women-usa.csv")4 df.plot(x = "Year", y = "Agriculture", style = "--")5 #添加横坐标轴标签

6 plt.xlabel("Year")7 #添加纵坐标轴标签

8 plt.ylabel("Percent")9 #添加标题

10 plt.title("Percent of American women earn Agriculture's degree")11 plt.show()

1469712-20180929193206020-1334775110.png

19.2 采用matplotlib.pyplot的plot()方法绘制折线图

matplotlib.pyplot.plot(x, y, style, color, linewidth)函数的参数分别表示: x轴数据, y轴数据, style线条样式, color线条颜色, linewidth线宽.

1 importpandas as pd2 importmatplotlib.pyplot as plt3 #第一步: 读取数据

4 df = pd.read_csv(r"D:\Data\percent-bachelors-degrees-women-usa.csv")5 #第二步: 将所需数据赋值给对应的变量

6 df_year, df_Agriculture = df["Year"], df["Agriculture"]7 #第三步: 用matplotlib中绘图框架的plot()方法绘制红色的折线图

8 plt.plot(df_year, df_Agriculture,"-", color = "r",linewidth = 10)9 #添加横坐标轴标签

10 plt.xlabel("Year")11 #添加纵坐标轴标签

12 plt.ylabel("Percent")13 #添加标题

14 plt.title("Percent of American women earn Agriculture's degree")15 plt.show()

显示效果:

1469712-20180929214029894-16838686.png

20. 散点图

散点图: 用两组数据构成多个坐标点, 考察坐标点的分布, 判断两变量之间是否存在某种关联或总结坐标点的分布模式. 各点的值由点在坐标中的位置表示, 用不同的标记方式表示各点所代表的不同类别.

20.1 采用pandas中的plot()方法绘制散点图

只需将plot()函数中的kind参数的值改为"scatter"即可.

1 importpandas as pd2 importmatplotlib.pyplot as plt3 #读取数据

4 df = pd.read_csv(r"D:\Data\Iris.csv")5 #原始数据中没有给出字段名, 在这里指定

6 df.columns = ['sepal_len', 'sepal_wid', 'petal_len', 'petal_wid','species']7 #指定x轴与y轴数据并绘制散点图

8 df.plot(x = "sepal_len", y = "sepal_wid", kind = "scatter")9 #添加横坐标轴标签

10 plt.xlabel("sepal length")11 #添加纵坐标轴标签

12 plt.ylabel("sepal width")13 #添加标题

14 plt.title("Iris sepal length and width analysis")15 plt.show()

1469712-20180929220748576-461060494.png

20.2 采用matplotlib.pyplot的plot()方法绘制散点图

1 importpandas as pd2 importmatplotlib.pyplot as plt3 df = pd.read_csv(r"D:\Data\Iris.csv")4 df.columns = ['sepal_len', 'sepal_wid', 'petal_len', 'petal_wid','species']5 #用绘图框架的plot()方法绘图, 样式为".", 颜色为红色

6 plt.plot(df["sepal_len"], df["sepal_wid"],".", color = "r")7 plt.xlabel("sepal length")8 plt.ylabel("sepal width")9 plt.title("Iris sepal length and width analysis")10 plt.show()

1469712-20180929221807997-1049156346.png

21. 饼图

饼图: 将一个圆形划分为多个扇形的统计图, 它通常被用来显示各个组成部分所占比例.

由于在绘制饼状图先要对数据进行分类汇总, 先查看数据的总体信息

1 importpandas as pd2 df = pd.read_csv(r"D:\Data\Iris.csv")3 df.columns = ['sepal_len', 'sepal_wid', 'petal_len', 'petal_wid','species']4 #查看数据总体信息

5 df.describe()

1469712-20180929230401782-918687886.png

可以看出每一列都是149个数据, 那么接下来对species列进行分类汇总

1 importpandas as pd2 df = pd.read_csv(r"D:\Data\Iris.csv")3 df.columns = ['sepal_len', 'sepal_wid', 'petal_len', 'petal_wid','species']4 #对species列进行分类并对sepal_len列进行计数

5 df_gbsp = df.groupby("species")["sepal_len"].agg(["count"])6 df_gbsp

1469712-20180930001946615-552894515.png

21.1 采用pandas中的plot()方法绘制饼状图

1 importpandas as pd2 importmatplotlib.pyplot as plt3 df = pd.read_csv(r"D:\Data\Iris.csv")4 df.columns = ['sepal_len', 'sepal_wid', 'petal_len', 'petal_wid','species']5 #对species列进行分类并对sepal_len列进行计数

6 df_gbsp = df.groupby("species")["sepal_len"].agg(["count"])7 #绘制图形样式为饼图, 百分比保留两位小数, 字体大小为20, 图片大小为6x6, subplots为True表示将数据每列绘制为一个子图,legend为True表示隐藏图例

8 df_gbsp.plot(kind = "pie", autopct='%.2f%%', fontsize=20, figsize=(6, 6), subplots = True, legend =False)9 plt.show()

1469712-20180930010320980-933962627.png

21.2 采用matplotlib.pyplot的pie()方法绘制饼状图

pie(x, explode = None, labels = None, colors=None, autopct=None)的参数分别表示:

第一个: x表示要绘图的序列

第二个: explode要突出显示的组成部分

第三个: labels各组成部分的标签

第四个: colors各组成部分的颜色

第五个: autopct数值显示格式

1 importpandas as pd2 importmatplotlib.pyplot as plt3 df = pd.read_csv(r"D:\Data\Iris.csv")4 df.columns = ['sepal_len', 'sepal_wid', 'petal_len', 'petal_wid','species']5 df["species"] = df["species"].apply(lambda x: x.replace("Iris-",""))6 df_gbsp = df.groupby("species",as_index = False)["sepal_len"].agg({"counts": "count"})7 #对counts列的数据绘制饼状图.

8 plt.pie(df_gbsp["counts"],labels = df_gbsp["species"], autopct = "%.2f%%")9 plt.show()

1469712-20180930025723579-59666819.png

22. 柱形图

柱形图: 又称为长条图, 是一种以长方形的长度为变量的统计图. 柱形图常用来比较两个或以上的数据不同时间或者不同条件).

22.1 采用pandas的plot()方法绘制柱形图

1 importpandas as pd2 importmatplotlib.pyplot as plt3 df = pd.read_csv(r"D:\Data\Iris.csv")4 df.columns = ['sepal_len', 'sepal_wid', 'petal_len', 'petal_wid','species']5 df["species"] = df["species"].apply(lambda x: x.replace("Iris-",""))6 #对species分组求均值

7 df_gbsp = df.groupby("species", as_index =False).mean()8 #绘制柱形图

9 df_gbsp.plot(kind = "bar")10 #修改横坐标轴刻度值

11 plt.xticks(df_gbsp.index,df_gbsp["species"],rotation=360)12 plt.show()

1469712-20180930193304567-321576279.png

当然也可以绘制横向柱形图

1 importpandas as pd2 importmatplotlib.pyplot as plt3 df = pd.read_csv(r"D:\Data\Iris.csv")4 df.columns = ['sepal_len', 'sepal_wid', 'petal_len', 'petal_wid','species']5 df["species"] = df["species"].apply(lambda x: x.replace("Iris-",""))6 df_gbsp = df.groupby("species", as_index =False).mean()7 #将bar改为barh即可绘制横向柱形图

8 df_gbsp.plot(kind = "barh")9 plt.yticks(df_gbsp.index,df_gbsp["species"],rotation=360)10 plt.show()

1469712-20180930193600362-604419749.png

若想要将样式改为堆积柱形图:

#修改stacked参数为True即可

df_gbsp.plot(kind = "barh", stacked = True)

1469712-20180930195128707-138191399.png

22.2 采用matplotlib.pyplot的bar()方法绘制柱形图

bar( x, height, width=0.8, color = None, label =None, bottom =None, tick_label = None)的参数分别表示:

第一个: x表示x轴的位置序列

第二个: height表示某个系列柱形图的高度

第三个: width表示某个系列柱形图的宽度

第四个: label表示图例

第五个: bottom表示底部为哪个系列, 常被用在堆积柱形图中

第六个: tick_label刻度标签

1 importpandas as pd2 importmatplotlib.pyplot as plt3 df = pd.read_csv(r"D:\Data\Iris.csv")4 df.columns = ['sepal_len', 'sepal_wid', 'petal_len', 'petal_wid','species']5 df["species"] = df["species"].apply(lambda x: x.replace("Iris-",""))6 df_gbsp = df.groupby("species").mean()7 #绘制"sepal_len"列柱形图

8 plt.bar(df_gbsp.index,df_gbsp["sepal_len"], width= 0.5 , color = "g")9 plt.show()

1469712-20180930213651046-264875366.png

绘制多组柱形图:

1 importnumpy as np2 importpandas as pd3 importmatplotlib.pyplot as plt4 df = pd.read_csv(r"D:\Data\Iris.csv")5 df.columns = ['sepal_len', 'sepal_wid', 'petal_len', 'petal_wid','species']6 df["species"] = df["species"].apply(lambda x: x.replace("Iris-",""))7 df_gbsp = df.groupby("species").mean()8 #计算有多少个列

9 len_spe =len(df_gbsp.count())10 #计算有多少行, 并生成一个步进为1的数组

11 index =np.arange(len(df_gbsp.index))12 #设置每组总宽度

13 total_width= 1.4

14 #求出每组每列宽度

15 width = total_width/len_spe16 #对每个字段进行遍历

17 for i inrange(len_spe):18 #得出每个字段的名称

19 het =df_gbsp.columns[i]20 #求出每个字段所包含的数组, 也就是对应的高度

21 y_values =df_gbsp[het]22 #设置x轴标签

23 x_tables = index * 1.5 + i*width24 #绘制柱形图

25 plt.bar(x_tables, y_values, width =width)26 #通过zip接收(x_tables,y_values),返回一个可迭代对象, 每一个元素都是由(x_tables,y_values)组成的元组.

27 for x, y inzip(x_tables, y_values):28 #通过text()方法设置数据标签, 位于柱形中心, 最顶部, 字体大小为10.5

29 plt.text(x, y ,'%.2f'% y ,ha='center', va='bottom', fontsize=10.5)30 #设置x轴刻度标签位置

31 index1 = index * 1.5 + 1/2

32 #通过xticks设置x轴标签为df_gbsp的索引

33 plt.xticks(index1 , df_gbsp.index)34 #添加图例

35 plt.legend(df_gbsp.columns)36 plt.show()

1469712-20181001172104799-805508697.png

绘制堆积柱形图

1 importnumpy as np2 importpandas as pd3 importmatplotlib.pyplot as plt4 df = pd.read_csv(r"D:\Data\Iris.csv")5 df.columns = ['sepal_len', 'sepal_wid', 'petal_len', 'petal_wid','species']6 df["species"] = df["species"].apply(lambda x: x.replace("Iris-",""))7 df_gbsp = df.groupby("species").mean()8 len_spe =len(df_gbsp.count())9 index =np.arange(len(df_gbsp.index))10 total_width= 1

11 width = total_width/len_spe12 ysum =013 for i inrange(len_spe):14 het =df_gbsp.columns[i]15 y_values =df_gbsp[het]16 #将x轴标签改为index/2, 之后在设置bottom为ysum.

17 plt.bar(index/2, y_values, width =width, bottom =ysum)18 ysum, ysum1= ysum+y_values, ysum19 #计算堆积后每个区域中心对应的高度

20 zsum = ysum1 + (ysum - ysum1)/2

21 for x, y , z in zip(index/2, y_values, zsum):22 plt.text(x, z ,'%.2f'% y ,ha='center', va='center', fontsize=10.5)23 plt.xticks(index/2, df_gbsp.index)24 plt.legend(df_gbsp.columns)25 plt.show()

1469712-20181001204110749-1580788563.png

bar()函数是用来绘制竖直柱形图, 而绘制横向柱形图用barh()函数即可, 两者用法相差不多

23. 直方图

直方图: 由一系列高度不等的长方形表示数据分布的情况, 宽度表示间隔, 高度表示在对应宽度下出现的频数.

23.1 采用pandas中的plot()方法绘制折线图

1 importnumpy as np2 importpandas as pd3 importmatplotlib.pyplot as plt4 df = pd.read_csv(r"D:\Data\Iris.csv")5 df.columns = ['sepal_len', 'sepal_wid', 'petal_len', 'petal_wid','species']6 df["species"] = df["species"].apply(lambda x: x.replace("Iris-",""))7 df_gbsp = df["sepal_len"]8 #绘制直方图

9 df_gbsp.plot(kind = "hist")10 plt.show()

1469712-20181001213433713-453825005.png

#可修改cumulative=True实现累加直方图, 以及通过bins参数修改分组数

df_gbsp.plot(kind = "hist", cumulative='True', bins = 20)

1469712-20181001214141646-609698699.png

23.2 采用matplotlib.pyplot的hist()方法绘制折线图

1 importnumpy as np2 importpandas as pd3 importmatplotlib.pyplot as plt4 df = pd.read_csv(r"D:\Data\Iris.csv")5 df.columns = ['sepal_len', 'sepal_wid', 'petal_len', 'petal_wid','species']6 df["species"] = df["species"].apply(lambda x: x.replace("Iris-",""))7 #hist()方法绘制直方图

8 plt.hist(df["sepal_wid"], bins =20, color = "k")9 plt.show()

1469712-20181001214656072-1738441111.png

#修改为累加直方图, 透明度为0.7

plt.hist(df["sepal_wid"], bins =20, color = "K", cumulative=True, alpha = 0.7)

1469712-20181001215101492-748616885.png

参考资料:

https://www.cnblogs.com/dev-liu/p/pandas_plt_basic.html

https://blog.csdn.net/qq_29721419/article/details/71638912

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/457928.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SPI通讯协议

SPI:高速同步串行口。是一种标准的四线同步双向串行总线。 SPI,是英语Serial Peripheral interface的缩写,顾名思义就是串行外围设备接口。是Motorola首先在其MC68HCXX系列处理器上定义的。SPI接口主要应用在 EEPROM,FLASH&#x…

基于MVVM的知乎日报应用安卓源码

使用data binding , dagger2 , retrofit2和rxjava实现的&#xff0c;基于MVVM的知乎日报APP运行效果&#xff1a; <ignore_js_op> 使用说明&#xff1a; 项目结构android data binding来实现MVVM。dagger2来完成依赖注入。retrofit2rxjava实现restful的http请求。第三方类…

php签入html出来的影响seo吗_搜索引擎优化_SEO必备6大技能+SEO误区讲解!

大家好&#xff0c;我是逆冬&#xff0c;今天来分享一下实战SEO需要掌握什么样的技能以及SEO知识误区&#xff0c;本篇文章仅代表逆冬本人几年的经验、不见得适合每一个SEOer!下面就让逆冬本人来分析一下实战型SEO到底需要掌握什么技能。第1点&#xff1a;SEO需要不需要熟练掌握…

一种M2M业务的架构及实现M2M业务的方法

http://www.cnblogs.com/coryxie/p/3849764.html 技术领域 [0001] 本发明涉及通信技术领域&#xff0c;尤其涉及一种M2M业务的架构及实现M2M业务的方法。 背景技术 [0002] 随着通信技术的飞速发展以及通信技术与互联网技术的进一步融合&#xff0c;移动业务以及移动互联网技术普…

第二章 mybatis使用注解实现in查询(mysql)

mybatis实现in查询&#xff0c;两种方法&#xff1a; xml形式&#xff08;推荐&#xff09;注解方式&#xff08;个人喜欢注解&#xff0c;但是in场景可能不太适合注解&#xff09;代码&#xff1a; 1 Select("<script>" 2 "SELECT ID…

python面试代码题_python面试基础篇80题

1.为什么学习python?3.Python和Java、PHP、C、C#、C等其他语言的对比&#xff1f; C语言由于其底层操作特性和历史的积累&#xff0c;在嵌入式领域是当之无愧的王者。 PHP跨平台&#xff0c;性能优越&#xff0c;跟linux/unix结合比跟windows结合性能强45%,开发成本低,php5已经…

javascript 变量作用域

为什么80%的码农都做不了架构师&#xff1f;>>> javascript中的变量的作用域不同于java/c的变量规则。 1、在java/c中&#xff0c;如果有一个全局变量与一个局部变量重名&#xff0c;那么在局部变量的作用域中&#xff0c;局部变量会覆盖掉全局变量的值。当离开局部…

七月算法--12月机器学习在线班-第五次课笔记—回归

七月算法--12月机器学习在线班-第五次课笔记—回归 七月算法&#xff08;julyedu.com&#xff09;12月机器学习在线班学习笔记 http://www.julyedu.com 转载于:https://www.cnblogs.com/sweet-dew/p/5491271.html

公司网络搭建及×××到公司配置

一、公司路由器及子网配置公司192.168.1.0/24子网用于服务器集群&#xff0c;192.168.0.0/24子网用于办公子网&#xff0c;两个子网物理上不在一块。公司开业时&#xff0c;申请了电信40Mbps专线光纤&#xff0c;5个IP地址&#xff0c;网关&#xff1a;*.168.112.9 255.255.25…

蓝鸥零基础学习HTML5第五讲 CSS的基础样式

蓝鸥零基础学习HTML5第五讲 CSS的基础样式1.border<!DOCTYPE html><html lang"en"><head><meta charset"UTF-8"><title>Document</title><style>div {width:0px;height:0px;/*background: url("img/1.jpg…

C# 使用Conditional特性而不是#if条件编译

概述 #if/#endif 语句常用来基于同一份源码生成不同的编译结果&#xff0c;其中最常见的就是debug版和release版。但是这些工具在实际应用中并不是非常友好&#xff0c;因为它们容易被滥用&#xff0c;其代码页进而难以理解或调试。C#设计中考虑到这个问题&#xff0c;并提供了…

python安装opencv出现错误_Python3安装OpenCV出错,如何解决?

$ sudo pip install opencv-python $ sudo pip install opencv-contrib-python 参考下&#xff1a;python作业毕设&#xff1a;安装人工智能图像处理工具OpenCV​zhuanlan.zhihu.compython版本安装 适合所有平台&#xff1a; $ sudo pip install opencv-python $ sudo pip inst…

ioread32函数有关知识

x86体系和ARM体系的寻址方式是有差别的&#xff1a; 在x86下&#xff0c;为了能够满足CPU高速地运行&#xff0c;内存与CPU之间通过北桥相连并通过地址方式访问&#xff0c;而外设通过南桥与CPU相连并通过端口访问。 在ARM下也实现了类似的操作&#xff0c;通过两条不同的总线…

FPGA开发全攻略—— 调试

原文链接&#xff1a; FPGA开发全攻略连载之十三&#xff1a;FPGA实战开发技巧&#xff08;12&#xff09; 5.6 大规模设计的调试经验 在大规模设计的调试应该按照和设计理念相反的顺序&#xff0c;从底层测试&#xff0c;主要依靠ChipScope Pro 工具。下面主要介绍ChipScope P…

oracle创建表空间和用户授权

确定数据文件的存储地址&#xff0c;有两种情况&#xff0c;一个是明确存储地址&#xff0c;一个是跟其他表空间存在一个地方&#xff0c;但是不知道地址&#xff0c;这时候可以根据如下SQL进行查找&#xff1a;select t.* from sys.dba_data_files t where t.tablespace_name…

linux驱动 cdev,inode结构体

前面我们学习了字符设备结构体cdev Linux 字符设备驱动开发 &#xff08;一&#xff09;—— 字符设备驱动结构&#xff08;上&#xff09; 下面继续学习字符设备另外几个重要的 数据结构。 先看下面这张图&#xff0c;这是Linux 中虚拟文件系统、一般的设备文件与设备驱动程…

如何在VS和CB中配置MySQL环境

这里&#xff0c;由于我的MySQL安装在D盘 MY SQL\MySQL Server 5.6该路径下&#xff0c;所以后面的路径均以D:\MY SQL\MySQL Server 5.6开头 在VS中配置MySQL环境 包含目录&#xff1a; D:\MY SQL\MySQL Server 5.6\include 库目录&#xff1a;D:\MY SQL\MySQL Server 5.…

点乘和叉乘的区别_关于延时和混响的区别与专用延时器与混响器的调控技巧

关于延时和混响的区别与专用延时器与混响器的调控技巧延时器与混响器是模拟室内声场声音信号特性的专用设备。在录音节目制作中&#xff0c;延时器和混响器可以在模拟的艺术声场中传递时间、空间、方位、距离等重要信息&#xff0c;并且可以制作某些特殊效果。延时器与混响器工…

rs232读取智能电表_三相电表怎么看度数 怎么计算总电量

现在的三相电表一般都是在屏幕上面直接看&#xff0c;屏幕上面是有文字提示显示的&#xff0c;三相电表的总度数&#xff0c;上面的文字提醒一般是“正向有功总电量”&#xff0c;三相电表一般屏幕旁边都会上翻键和下翻键&#xff0c;可以上下翻开电表里面的数据。如下图所示&a…

android 学习随笔十六(广播 )

1、广播接收者 BroadcastReceiver接收系统发出的广播现实中的广播&#xff1a;电台为了传达一些消息&#xff0c;而发送的广播&#xff0c;通过广播携带要传达的消息&#xff0c;群众只要买一个收音机&#xff0c;就可以收到广播了 Android中的广播&#xff1a;系统在运行过程中…