pandas to_csv参数详解_【Python基础】Pandas数据可视化原来也这么厉害

260d66a095abaee3ee06bd4b6aeddc4a.png

一、可视化概述

在Python中,常见的数据可视化库有3个:

matplotlib:最常用的库,可以算作可视化的必备技能库,比较底层,api多,学起来不太容易。

seaborn:是建构于matplotlib基础上,能满足绝大多数可视化需求,更特殊的需求还是需要学习matplotlib。

pyecharts:上面的两个库都是静态的可视化库,而pyecharts有很好的web兼容性,可以做到可视化的动态效果。并且种类也比较丰富。比如这个图,就非常厉害:画图神器pyecharts-旭日图

Pandas:而今天要讲的是Pandas的可视化,Pandas主要作为数据分析的库,虽然没有上述三个库那个强大,但是胜在方便,在数据分析的过程中,只要一行代码就能实现。并且图形也非常漂亮。

二、直接看案例

Pandas 中,有11个比较常见的图形可视化,还有几个比较进阶的,我们一个一个看看怎么画的

import pandas as pdimport numpy  as npdf= pd.DataFrame(np.random.rand(10, 4), columns=['A','B','C','D'])

01、柱状图-纵向

df.plot.bar()

       6aca7b28015b3933ddebda6ee4b6dd90.png      

stacked=True,画堆叠柱状图

df.plot.bar(stacked=True)

       660dfaad2d634f4a83cb05cf4807e34e.png      

02、柱状图-横向

df.plot.barh()

       c16dbb104e76b1260c66f077bab77a8d.png      

同样,stacked=True,画堆叠柱状图

df.plot.barh(stacked=True)

       260d66a095abaee3ee06bd4b6aeddc4a.png      

03、面积图

df.plot.area(alpha = 0.9)

       80e35df884ad4b3fc33da6f1394ba2c1.png      

df.plot.area(stacked=True,alpha = 0.9)

       33ae0e33f84b2e3b8e9180749533ff9d.png      

04、密度图-kde

df.plot.kde()

       528f91b0f556eb7eedf1cf2216c3855b.png      

05、密度图-density

df.plot.density()

       2313140d8525e2f1e99916a71f878b9e.png      

06、直方图

换个数据集

df = pd.DataFrame({'A': np.random.randn(1000) + 1,                   'B': np.random.randn(1000),                   'C': np.random.randn(1000) - 1},                  columns=['A', 'B', 'C']) df.plot.hist(bins=200)

       e9b7526ac275d195d76f18360dc54583.png      

df.plot.hist(stacked=True, bins=20)

       1b87fc7c3dfffcbfe89ef8229f3768d5.png      

df= pd.DataFrame(np.random.rand(1000, 4), columns=['A','B','C','D'])df.diff().hist(color='k', alpha=0.7, bins=50)

       555f2dc72d83d32a054daba2e11ac88a.png      

07、箱盒图

df= pd.DataFrame(np.random.rand(100, 4), columns=['A','B','C','D'])df.plot.box()

       09b63d806be40eac761b8e942d7e294e.png      

vert=False也可以换成横向

df.plot.box(vert=False)

       f5464cff9372b7ae7ed3ccbcceab7738.png      

08、散点图

df.plot.scatter(x='A',y='B')

       997cdc5085b5b4ece7cd15f6e7b9a458.png      

09、蜂巢图

df = pd.DataFrame(np.random.randn(1000, 2), columns=['a', 'b'])df['b'] = df['b'] + np.arange(1000)df.plot.hexbin(x='a', y='b', gridsize=25)

       9d2b2ed6ff7528577d659306a9fd3522.png      

07、饼图

series = pd.Series(3 * np.random.rand(4), index=['a', 'b', 'c', 'd'], name='series')series.plot.pie(figsize=(6, 6))

       3c75a7f8019a0a531999c835a2e8a23f.png      

series.plot.pie(labels=['AA', 'BB', 'CC', 'DD'], colors=['r', 'g', 'b', 'c'],autopct='%.2f', fontsize=20, figsize=(6, 6))

       71e40288fbfd9dee370d3ea7ac85c834.png      

08、矩阵散点图

from pandas.plotting import scatter_matrixdf = pd.DataFrame(np.random.randn(1000, 4), columns=['a', 'b', 'c', 'd'])scatter_matrix(df, alpha=0.2, figsize=(6, 6), diagonal='kde')

       fd63f8e2abb758f22e2b84618b37ce6a.png      

09、安德鲁斯曲线

加载自己的数据,关注公众号【AI入门学习】回复 iris 获取数据集

data = pd.read_csv('C:/Users/wuzhengxiang/Desktop/iris.csv')pd.plotting.andrews_curves(data , 'Name')

       39ac868cdad28b6d63bd46939cb0b53f.png      

andrews_curves(data, 'Name', colormap='winter')

       cad8b9f5f4e79808bb7188cc880d2ceb.png      

10、平行坐标图

该图也是使用自己加载的iris数据集

from pandas.plotting import parallel_coordinatesparallel_coordinates(data, 'Name', colormap='gist_rainbow')

       bb0dfb31c4393469444c736699c24d24.png      

11、Lag Plot

from pandas.plotting import lag_plotdf= pd.Series(0.1 * np.random.rand(1000) +        0.9 * np.sin(np.linspace(-99 * np.pi, 99 * np.pi, num=1000)))lag_plot(df)

       3b7f4ca4d44ea2b6655800b13b9fedfd.png      

12、默认函数plot

直接画图,默认为折线图

df= pd.DataFrame(np.random.rand(12, 4), columns=['A','B','C','D'])df.plot()

       daf1eb457e99d97950287113c3d3bcb1.png      

df.plot(subplots=True,layout=(2, 2), figsize=(15, 8))

       361660324bf7db56cfc92401e378229f.png

df= pd.DataFrame(np.random.rand(1000, 4), columns=['A','B','C','D'])df.plot()

       9a8aea9bf4d987f6701f39cf0ee76e64.png      

df.plot(subplots=True,layout=(2, 2), figsize=(15, 8))

       fdb6c36bf4873ca58189d234a173a5bf.png      

13、bootstrap_plot

s = pd.Series(np.random.uniform(size=100))pd.plotting.bootstrap_plot(s)

       936e73af7001e6f3b0a61697a0e904a6.png      

三、参数详解

1、官方文档

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.html

https://pandas.pydata.org/pandas-docs/version/0.18.1/visualization.html

2、参数介绍

DataFrame.plot(x=None, y=None, kind='line', ax=None, subplots=False, sharex=None, sharey=False, layout=None, figsize=None, use_index=True, title=None, grid=None, legend=True, style=None, logx=False, logy=False, loglog=False, xticks=None, yticks=None, xlim=None, ylim=None, rot=None, fontsize=None, colormap=None, position=0.5, table=False, yerr=None,xerr=None, stacked=True/False, sort_columns=False, secondary_y=False, mark_right=True, **kwds)
e, legend=True, style=None, logx=False, logy=False, loglog=False, xticks=None, yticks=None, xlim=None, ylim=None, rot=None, fontsize=None, colormap=None, position=0.5, table=False, yerr=None, xerr=None, stacked=True/False, sort_columns=False, secondary_y=False, mark_right=True, **kwds)

注意:每种绘图类型都有相对应的方法: df.plot(kind='line')与df.plot.line()等价

x : label or position, default None#指数据列的标签或位置参数

y : label, position or list of label, positions, default None

kind : str#绘图类型

‘line’ : line plot (default)#折线图

‘bar’ : vertical bar plot#条形图。stacked为True时为堆叠的柱状图

‘barh’ : horizontal bar plot#横向条形图

‘hist’ : histogram#直方图(数值频率分布)

‘box’ : boxplot#箱型图

‘kde’ : Kernel Density Estimation plot#密度图,主要对柱状图添加Kernel 概率密度线

‘density’ : same as ‘kde’

‘area’ : area plot#与x轴所围区域图(面积图)。Stacked=True时,每列必须全部为正或负值,stacked=False时,对数据没有要求

‘pie’ : pie plot#饼图。数值必须为正值,需指定Y轴或者subplots=True

‘scatter’ : scatter plot#散点图。需指定X轴Y轴

‘hexbin’ : hexbin plot#蜂巢图。需指定X轴Y轴

‘hexbin’ : hexbin plot#蜂巢图。需指定X轴Y轴

ax : matplotlib axes object, default None#**子图(axes, 也可以理解成坐标轴) 要在其上进行绘制的matplotlib subplot对象。如果没有设置,则使用当前matplotlib subplot**其中,变量和函数通过改变figure和axes中的元素(例如:title,label,点和线等等)一起描述figure和axes,也就是在画布上绘图。

subplots : boolean, default False#是否对列分别作子图

sharex : boolean, default True if ax is None else False#如果ax为None,则默认为True,否则为False

In case subplots=True, share x axis and set some x axis labels to invisible; defaults to True if ax is None otherwise False if an ax is passed in; Be aware, that passing in both an ax and sharex=True will alter all x axis labels for all axis in a figure!

sharey : boolean, default False#如果有子图,子图共y轴刻度,标签

In case subplots=True, share y axis and set some y axis labels to invisible

layout : tuple (rows, columns) for the layout of subplots#子图的行列布局

figsize : a tuple (width, height) in inches#图片尺寸大小

use_index : boolean, default True#默认用索引做x轴

title : string#图片的标题用字符串

Title to use for the plot

grid : boolean, default None#图片是否有网格

legend : False/True/’reverse’#子图的图例 (默认为True)

style : list or dict#对每列折线图设置线的类型

logx : boolean, default False#设置x轴刻度是否取对数

logy : boolean, default False

loglog : boolean, default False#同时设置x,y轴刻度是否取对数

xticks : sequence#设置x轴刻度值,序列形式(比如列表)

yticks : sequence#设置y轴刻度,序列形式(比如列表)

xlim : float/2-tuple/list#设置坐标轴的范围。数值(最小值),列表或元组(区间范围)

ylim : float/2-tuple/list

rot : int, default None#设置轴标签(轴刻度)的显示旋转度数  

fontsize : int, default None#设置轴刻度的字体大小

colormap : str or matplotlib colormap object, default None#设置图的区域颜色

colorbar : boolean, optional  #柱子颜色

If True, plot colorbar (only relevant for ‘scatter’ and ‘hexbin’ plots)

position : float  #条形图的对齐方式,取值范围[0,1],即左下端到右上端默认0.5(中间对齐) 

layout : tuple (optional)  #布局。layout=(2, 3)两行三列,layout=(2, -1)两行自适应列数

Eg. df.plot(subplots=True, layout=(2, -1), sharex=False)

table : boolean, Series or DataFrame, default False  #图下添加表。如果为True,则使用DataFrame中的数据绘制表格,并且数据将被转置以满足matplotlib的默认布局。。

yerr : DataFrame, Series, array-like, dict and str

See Plotting with Error Bars for detail.

xerr : same types as yerr.

stacked : boolean, default False in line and bar plots, and True in area plot. If True, create stacked plot. #前面有介绍

sort_columns : boolean, default False  #对列名称进行排序以确定绘图顺序

secondary_y : boolean or sequence, default False  #设置第二个y轴(右辅助y轴)

Whether to plot on the secondary y-axis If a list/tuple, which columns to plot on secondary y-axis

mark_right : boolean, default True

往期精彩回顾

适合初学者入门人工智能的路线及资料下载

机器学习及深度学习笔记等资料打印

机器学习在线手册

深度学习笔记专辑

《统计学习方法》的代码复现专辑

AI基础下载

机器学习的数学基础专辑

获取本站知识星球优惠券,复制链接直接打开:

https://t.zsxq.com/qFiUFMV

本站qq群704220115。

加入微信群请扫码:

99657268ff3ae37584402230a345e7b3.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/498884.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

oracle数据库重建em,oracle 11g em重建报唯一约束错误解决方法

oracle 11g em重建报唯一约束错误解决方法更新时间:2012年11月27日 15:07:33 作者:今天在手工配置Oracle11g的EM时总是报如下错误,也没有找到解决办法,以下是我的解决过程,希望可以帮助你们今天在手工配置Oracle11g的EM时总是报如下错误&am…

爬虫 404 try_Python爬虫MOOC笔记

写在前面的小于碎碎念最近在学习Python爬虫内容,其实很多知识在网上搜索一下都能查到,但是作为自己的一种学习记录,也是回顾与复习呀。这种东西真的变化超级快,以前可以直接爬取的内容,现在很多网站都增加了反爬机制&a…

python调用c++_python高性能编程之Cython篇 第一章

第一节 cython的潜能•Cython是一种编程语言,它将Python与C和C 的静态类型系统相结合。•Cython是一个将Cython源代码转换为高效的C或C 源代码的编译器。然后可以将此源代码编译为Python扩展模块或独立可执行文件。Cython的强大功能来自它结合了Python和C的方式&…

oracle获取序列并赋值,Oracle中序列的使用

数据库设计的三大范式第一条就是独立的表结构中必须有唯一主键来标识表中数据.在以往微软的SQL Server(duo版本)平台上.手动编码实现表中主键.并设定为自增列是极其简单.编码如下:typeidintnotnullprimarykeyidentity(1,1),在Oracle 10G中关于序列(Sequence)的使用.(A)Sequence…

oracle序时账是什么,序时账和明细账区别是什么

序时账和明细账区别:一、定义不同:1、明细账也称明细分类账,是根据总账科目所属的明细科目设置的,,用于分类登记某一类经济业务事项,提供有关明细核算资料。2、而序时账了,也称日记账,是指按照经济业务发生…

ui li 菜单 点击添加下级_【Qt开发】实现系统托盘,托盘菜单,托盘消息

概述系统托盘就是在系统桌面底部特定的区域显示运行的程序。windows在任务栏状态区域,linux在布告栏区域。应用程序系统托盘功能,是比较普遍的功能,本篇将详细的介绍如何实现该功能。演示Demo实现功能:1.应用启动后,任…

5g通用模组是什么_中国移动联合芯讯通发布5G终端、芯片及测试产业报告

11月19日,2020中国移动全球合作伙伴大会以“5G融入百业 数智引领未来”为主题在广州召开,从多个维度展现了中国移动运用5G技术驱动各行业转型升级的强大实力。并于21日在展会现场发布了《5G终端、芯片及测试产业报告》。5G终端、芯片及测试产业报告发布现…

dell网卡linux驱动,DELL R710 服务器 Linux 系统网卡驱动安装

DELL R710在装完AS4U7版本的Linux后发现,网卡没有识别出来。怀疑是网卡驱动没有装上,打电话给DELL的工程师,得到的答复是装系统前必须用随机带的引导盘来安装才能将网卡驱动装上。现在系统已经装完了,总不能重装一遍吧&#xff0c…

博客网站源代码_详解SEO布词以及网站排名优化技巧

首先,谈谈新手以及老手在认知上容易出现的SEO误区,我认为有以下几点因素,不容忽视。1、SEO优化就是为了排名、就是发外链不少人认为做SEO就是为了排名,完全不考虑网站文章的质量、可读性以及用户体验,甚至不惜使用一些…

惠普g260鼠标宏软件_黑爵电竞鼠标AJ337 电竞手残党福音 鼠标宏一键火力全开

2020年,可以说是英特尔最难受的一年,多年来的挤牙膏大法也不灵了,面对AMD更先进的7mm制程以及更多的线程数,加上本身更合理的售价,说实话就连一向占据处理器半壁江山的英特尔也感受到了很高的威胁。AMD撕裂者系列发布以…

linux tcp压测工具,02.监控和压测工具 - 2.4.压测工具 - 《Linux性能调优指南》 - 书栈网 · BookStack...

压测工具其它有用工具在这里,我们会讨论主要的压力测试工具,选择合适的压测工具,才能准确衡量系统性能。好的压测工具有很多,可能的功能如下:发起压力监控性能监控系统使用率生成报告基准测试无非就是看系统能力是否达…

斐讯n1刷linux服务器,斐讯N1刷机Linux(Armbian)

一、降级N1打开ADB链接开始降级。降级后版本号不变二、第三方固件依然是上面的链接(官改v2.2)USB双头线链接HDMI借口最近的USB和电脑的USB进入线刷模式(电视不会显示任何东西,但是电脑会显示设备已连接)。打开上面的刷机工具刷入官改v2.2。理论刷完后重启即可进入安…

在linux cuda安装教程,Ubuntu20.04安装cuda10.1的步骤(图文教程)

安装前准备cuda的主要用途是深度学习,而目前主流的深度学习框架tensorflow2最高支持cuda 10.1,因此本文讲解在ubuntu 20.04系统上安装cuda 10.1的主要过程。首先要查看你的nvidia显卡驱动是否支持cuda10.1版本。在终端执行以下命令:nvidia-sm…

代码重构的方法和经验_关于烂代码优化重构的几点经验

是否已经读过前面两篇关于烂代码和好代码的文章?这些让人抓狂的烂代码,你碰到几种?什么才是好代码、高质量代码?工作中,总会不可避免的接触到烂代码,就像之前说的,几乎没有程序员可以完全避免写…

moodle环境安装linux,在Ubuntu 18.04/Debian 9上安装Moodle的步骤

本文介绍在Ubuntu 18.04/Debian 9系统上安装Moodle的的详细步骤,需要准备PHP、Apache/Nginx Web服务器及MySQL/MariaDB数据库。简介Moodle是一个免费的开源学习管理系统,用PHP编写,并在GNU通用公共许可证下发布。从Moodle创建学习课程&#x…

linux跨版本升级,深度Deepin系统支持跨版本升级

很多以前安装有深度Deepin系统的用户提问,我使用的是Deepin 15.4或者是15.5、15.6版本能不能升级到Deepin 15.8,答案是能。深度Deepin系统是支持跨版本升级的,而不限于从Deepin 15.7升级到Deepin 15.8。在控制中心的更新选项中如果有新系统版…

正态分布概率表_三、统计概率思维

一、误差思维(只要有估计,就会有误差)1.误差永远存在,并且不可避免。2.多次测量用平均值的统计方式取得结果,尽量避免偶然因素的影响。二、置信区间(误差范围)1.统计学最核心思想:用…

高等数学同济第七版上册电子版_高等数学同济第七版(上册)第一章答案

第一章答案(猴博土高数不挂科视频可以联系公众号获取关于本书:《高等数学(第七版)》是同济大学数学系在第六版的基础上修订的。第七版修订遵循“坚持改革、不断锤炼、打造精品”的要求,对第六版中个别概念的定义,少量定理、公式的证明及定理的…

linux性能记录,Linux性能记录

说到一台Linux服务器的性能,大部分人关注的指标如下:CPU利用率,CPU LOAD,内存利用率,磁盘I/O等待率,网络带宽使用率。Jmeter作为性能测试的强大工具,在其插件JMeterPlugins-Standard和JMeterPlu…

linux gpu 电脑推荐,System76推出具有RTX GPU更大显示器的Oryx Pro Linux笔记本电脑

美国计算机制造商System76今天推出了更新版的Oryx Pro旗舰Linux笔记本电脑,采用了英特尔和Nvidia的最新技术,以及更大的显示器。Oryx Pro笔记本电脑已经更新了更新的图形和升级组件。继最近更新的System64的“Darter Pro”和“Serval WS”Linux笔记本电脑…