Pandas数据可视化详解:大案例解析(第27天)

系列文章目录

  1. Pandas数据可视化
  2. 解决不显示中文和负号问题
  3. matplotlib数据可视化
  4. seaborn数据可视化
  5. pyecharts数据可视化
  6. 优衣库数据分析案例

文章目录

  • 系列文章目录
  • 前言
    • 1. Pandas数据可视化
      • 1.1 案例解析:代码实现
    • 2. 解决不显示中文和负号问题
    • 3. matplotlib数据可视化
      • 1.1 案例解析:代码实现
    • 4. seaborn数据可视化
      • 1.1 案例解析:代码实现
    • 5. pyecharts数据可视化
      • 1.1 案例解析:代码实现
    • 6. 优衣库数据分析案例
      • 1.1 案例解析:代码实现


前言

本文主要通过大案例的方式详解了Pandas数据可视化,matplotlib数据可视化,seaborn数据可视化,pyecharts数据可视化。


提示:以下是本篇文章正文内容,下面案例可供参考

1. Pandas数据可视化

1.1 案例解析:代码实现

pandas的df和s对象绘图, 是通过内置matplotlib模块的pyplot类实现

# 导入模块
import pandas as pd
import matplotlib.pyplot as plt 
import seaborn as sns# 可以通过图表快速高效查看出数据之间的规律,潜在一些结论
# 加载数据集
df = sns.load_dataset('anscombe', data_home='./data/seaborn-data/')
df
# 查看每份子集中x和y列的统计描述信息
df.groupby('dataset').describe()
# 获取四份子集数据
df1 = df.query('dataset=="I"')
df2 = df.query('dataset=="II"')
df3 = df.query('dataset=="III"')
df4 = df.query('dataset=="IV"')
# 查建画布
# figsize设置图表的大小, 宽高
fig = plt.figure(figsize=(16, 8))
# 设置画布的标题
fig.suptitle('Anscombe Data')
# 创建四个子图
# 2,2 -> 两行两列,四个图
# 1,2,3,4 -> 每个子图所在的位置
axes1 = fig.add_subplot(2,2,1)
axes2 = fig.add_subplot(2,2,2)
axes3 = fig.add_subplot(2,2,3)
axes4 = fig.add_subplot(2,2,4)
# 绘制图形
axes1.plot(df1['x'], df1['y'], 'o')
axes2.plot(df2['x'], df2['y'], 'o')
axes3.plot(df3['x'], df3['y'], 'o')
axes4.plot(df4['x'], df4['y'], 'o')
# 给每个子图添加标题
axes1.set_title('dataset_1')
axes2.set_title('dataset_2')
axes3.set_title('dataset_3')
axes4.set_title('dataset_4')
plt.show()# pandas绘图
# df对象绘图
# 图形的x轴是df的行索引值
# 图形的y轴是每个数值列的值
# 当前df1有两列数值列, 绘制出两条折线
# 默认绘制折线图
df1.plot(kind='line')
plt.show()
# 柱状图
df1.plot(kind='bar')
# s对象绘图
# 图形x轴是s对象的索引值
# 图形y轴是s对象的值
df1['x'].plot()

2. 解决不显示中文和负号问题

  • 将 simhei.ttf 字体文件放到 /export/server/anaconda3/lib/python3.8/site-packages/matplotlib/mpl-data/fonts/ttf 目录下

    在这里插入图片描述

    在这里插入图片描述

    • 如何查看matplotlibrc文件所在位置

    • ttf目录是在 mpl-data/fonts

      import matplotlib
      matplotlib.matplotlib_fname()
      

      !在这里插入图片描述

  • 在 matplotlibrc 文件中增加以下内容

    font.family			 : sans-serif
    font.sans-serif		 : SimHei
    axes.unicode_minus   : False
    

    在这里插入图片描述

  • 删除缓存文件

    cd /root/.cache
    rm -rf matplotlib
    
  • 重启jupyter notebook

3. matplotlib数据可视化

1.1 案例解析:代码实现

# 绘制折线图, 默认图表 -> 两个变量之间的关系
# 不指定x轴和y轴值, x轴是使用行索引值, y中是数值列值
# df1.plot()
# df1.plot.line()
# df1.plot(kind='line')
# 指定图表的x轴值和y轴值
df1.plot(x='x', y='y')
plt.show()# 绘制柱状图  展示不同类别的信息情况
df1.plot.bar()
# 绘制堆积柱状图
df1.plot(kind='bar', stacked=True)
df1.plot.bar(x='x',y='y')
plt.show()# 水平条形图 -> 柱状图进行旋转
df1.plot.barh()
# 水平堆积条形图
df1.plot.barh(stacked=True, figsize=(16, 8), grid=True)
plt.show()# 绘制饼图 -> 查看不同类型的占比情况
# autopct:添加百分比标签
# radius:圆直径大小,最大1
df1.plot.pie(y='y', autopct='%.2f%%', radius=0.9, figsize=(16,8))
plt.show()# 散点图 -> 查看数据分布情况
# grid:添加网格线
df1.plot(kind='scatter',x='x',y='y', grid=True)
plt.show()# 气泡图 -> 通过散点图api绘制
# 在散点图二维平面上再通过点的大小增加第三个维度
# s:点的大小, 第三个维度
df1.plot.scatter(x='x', y='y', grid=True, s=df1['x']*100)# 面积图 
# 面积堆积图
df1.plot.area()
df1.plot.area(stacked=False)# 箱线图 -> 查看数据的最小值,最大值, 1/4分位值, 中位值, 3/4分位值, 离群值(异常值) 
# 异常值, 数据值普遍分布在 1~100, 有几个值为 1w, 2w, 这些值就是离群值
df1.boxplot()# 直方图 -> 统计不同组数据出现的次数, y轴次数
# bins=10:默认分成10组
df1.plot.hist()
plt.show()
df1['x'].plot.hist()
plt.show()# 蜂巢图 ->了解
# gridsize=12设定蜂箱格子的大小,数字越小格子越大
df1.plot.hexbin(x='x', y='y', gridsize=12)
plt.show()data = pd.read_csv('data/LJdata.csv')
data.head()
# 不同朝向的房源数量柱状图
temp_s = data.groupby(by='朝向')['区域'].count()
temp_s
temp_s.plot.bar(figsize=(16,8))# 前五朝向房源数量的饼图
sort_s = temp_s.sort_values(ascending=False).head()
sort_s.plot.pie(autopct='%.2f%%', radius=0.9, figsize=(12,6))
plt.show()

4. seaborn数据可视化

1.1 案例解析:代码实现

# 加载数据
tips_df = sns.load_dataset('tips', data_home='./data/seaborn-data')
tips_df# 散点图
fig = plt.figure(figsize=(16,8))
sns.scatterplot(data=tips_df, x='total_bill', y='tip', hue='sex', style='smoker', size='size')
plt.show()# 关系散点图
sns.relplot(data=tips_df, x='total_bill', y='tip') # 默认 kind='scatter'
sns.relplot(data=tips_df, x='total_bill', y='tip', kind='line')
plt.show()# 分类散点图
sns.stripplot(data=tips_df, x='time', y='total_bill')
# 不同日期用餐时间的分类散点图
sns.stripplot(data=tips_df, x='time', y='total_bill', jitter=True, dodge=True, hue='day')# 在同一个代码块中绘制多个图形, 借助matplotlib包
f = plt.figure()
axes1 = f.add_subplot(2,1,1)
axes2 = f.add_subplot(2,1,2)
# 按照x属性所对应的类别分别展示y属性的值,适用于分类数据
# 不同饭点的账单总金额的散点图
sns.stripplot(data=tips_df, x='time', y='total_bill', ax=axes1)
# hue通用参数按颜色划分
# jitter=True 当数据点重合较多时,尽量分散的展示数据点
# dodge=True 拆分分类
sns.stripplot(data=tips_df, x='time', y='total_bill', jitter=True, dodge=True, hue='day', ax=axes2)
plt.show()# 小提琴图
# 下图分别描述午餐账单、晚餐账单的最大值、最小值、三个四分位数,以及所有账单金额出现的次数(频率)
sns.violinplot(data=tips_df, x='time', y='total_bill')
plt.show()# 箱线图 下图分别描述午餐账单、晚餐账单的最大值、最小值、三个四分位数,以及所有账单金额出现的次数(频率)
sns.boxplot(data=tips_df, x='time', y='total_bill', hue='day')
plt.show()# 分类柱状图
# 下图中黑色的粗线条展示了数据的分布(误差线), 线条越短, 数据分布越均匀
# 下图中每个柱的顶点就是该分类y指定列的平均值 estimator
sns.barplot(data=tips_df, x='day', y='total_bill', estimator=max)
plt.show()# 分类计数图
# 按x指定的列值分组统计出现次数
# y轴就是出现的次数
sns.countplot(data=tips_df, x='time')
plt.show()# 矩阵热力图 -> 对df数据样式有要求, 通过透视表转换
# 男女在午餐晚餐的平均消费
new_df = tips_df.pivot_table(index='sex', columns='time', values='total_bill', aggfunc='mean')
print(new_df)
# 输出为热力图:男性在晚餐花费最多
sns.heatmap(data=new_df)
plt.show()# 成对关系图
sns.pairplot(tips_df)
#sns.pairplot(df) # 全部数值列进行两两组合
#sns.pairplot(df, vars=['列名1', '列名2']) # 指定要组合展示的列名
plt.show()
# 自行调整成对关系图的绘图图形
pair_grid = sns.PairGrid(tips_df)
# 中间轴线上的图设为kdeplot
pair_grid.map_diag(sns.kdeplot) 
# 右上设为lineplot
pair_grid.map_upper(sns.lineplot) 
# 左下设为scatterplot
pair_grid.map_lower(sns.scatterplot) 
plt.show()

5. pyecharts数据可视化

1.1 案例解析:代码实现

# 可以绘制酷炫的图形
# 绘图套路 -> 参考官方示例代码进行修改即可# 绘制2019年不同国家GDP值的词云图
# 准备要绘制词云图的数据 -> [(国家1, gdp值), (国家2, gdp值), ...]
data = pd.read_csv('data/1960-2019全球GDP数据.csv', encoding='gbk')
data
# 获取year列为2019的数据子集
data_2019= data.query('year==2019')
data_2019
# 通过zip函数将不同列表对应位置的值保存到元组中
a = [1,2,3]
b = [4,5,6]
list(zip(a, b))
data2 = list(zip(data_2019['country'], data_2019['GDP']))
data2from pyecharts import options as opts  # 配置选项
from pyecharts.charts import WordCloud  # 词云图
c = (WordCloud()# 添加数据.add(series_name="不同国家GDP", data_pair=data2, word_size_range=[6, 66])# 设置全局配置.set_global_opts(title_opts=opts.TitleOpts(title="不同国家GDP的词云图", title_textstyle_opts=opts.TextStyleOpts(font_size=10)),tooltip_opts=opts.TooltipOpts(is_show=True))# 将html格式的文件保存到指定为止
#     .render("basic_wordcloud.html")  
)
c.render_notebook()

6. 优衣库数据分析案例

1.1 案例解析:代码实现

# 导入模块
import pandas as pd# 加载数据集
uniqlo = pd.read_csv('data/uniqlo.csv')
uniqlo.head()
# 查看数据集基本信息
uniqlo.info()
# 查看数值列描述统计指标
uniqlo.describe()
# 查看非数值列描述统计指标
uniqlo.describe(include='object')
# 查看销售金额小于等于0的数据
uniqlo.query('销售金额<=0')
uniqlo[uniqlo['销售金额'] >= 5000]# 统计不同产品销售数量情况
# 统计不同产品的销售总量
# 分组聚合
uniqlo.groupby(by='产品名称')['产品数量'].sum().sort_values(ascending=False)
pd.pivot_table(data=uniqlo, index='产品名称', values='产品数量', aggfunc='sum')
# 不同产品不同城市销售数量
uniqlo.groupby(by=['产品名称', '城市'])[['产品数量']].sum()
pd.pivot_table(data=uniqlo, index='产品名称', columns='城市', values='产品数量', aggfunc='sum', margins=True)
# 不同产品不同城市以及不同销售渠道的销售数量
uniqlo.groupby(by=['产品名称', '城市', '销售渠道'])[['产品数量']].sum()
pd.pivot_table(data=uniqlo, index='产品名称', columns=['城市', '销售渠道'], values='产品数量', aggfunc='sum')# 统计不同销售渠道情况
# 统计不同销售渠道的条目数
uniqlo['销售渠道'].value_counts()
uniqlo.groupby(by='销售渠道')['城市'].count()
uniqlo.groupby(by='销售渠道')['城市'].count().plot(kind='bar')
# 统计不同城市不同销售渠道的条目数
uniqlo.groupby(by=['城市','销售渠道'])[['产品数量']].count()
pd.pivot_table(data=uniqlo, index='城市', columns='销售渠道', values='产品数量', aggfunc='count')
# 绘制sns的分类计数图
import matplotlib.pyplot as plt
import seaborn as sns
plt.figure(figsize=(16,8))
sns.countplot(data=uniqlo,y='城市',hue='销售渠道')
plt.show()
# 统计不同城市不同销售渠道的产品总数
uniqlo.groupby(by=['城市', '销售渠道'])[['产品数量']].sum()
pd.pivot_table(data=uniqlo, index='城市', columns='销售渠道', values='产品数量', aggfunc='sum', margins=True)# 用户消费时间分析
# 不同消费时间的条目数
uniqlo['消费时间'].value_counts()
uniqlo.groupby(by='消费时间')['城市'].count()
# 不同消费时间产品总数
uniqlo.groupby(by='消费时间')['产品数量'].sum()
# 不同城市不同消费时间的产品数量
uniqlo.groupby(by=['消费时间', '城市'])[['产品数量']].sum()
wkd_sales = pd.pivot_table(data=uniqlo,index='消费时间', columns='城市', values='产品数量', aggfunc='sum')
wkd_sales
# 获取第一行数据
wkd_sales.loc['Weekday', :]
wkd_sales.loc['Weekday']
# 统计不同城市不同消费时间日均产品数量
# 在wkd_sales基础上增加两行数据
# 获取一行数据得到s对象, s对象运算操作
wkd_sales.loc['Weekday_avg',:] = wkd_sales.loc['Weekday', :] / 5
wkd_sales.loc['Weekend_avg',:] = wkd_sales.loc['Weekend', :] / 2
wkd_sales# 销售额和成本之间的关系
# 获取多列数据
uniqlo[['销售金额', '单件成本']]
# 计算相关性系数
uniqlo[['销售金额', '单件成本']].corr()
# 销售金额是所有销售产品数量的总金额, 单件成本是一件产品成本
# 需要先计算单件销售金额 = 销售金额 / 产品数量
# 计算相关性需要先过滤掉异常数据
uniqlo2 = uniqlo[uniqlo['销售金额']>0]
uniqlo2
# 添加新的一列 单件销售金额 
uniqlo2['单件销售金额'] = uniqlo2['销售金额'] / uniqlo2['产品数量']
uniqlo2
# 计算单件销售金额和单件成本相关系数
uniqlo2[['单件销售金额', '单件成本']].corr()
# 绘制散点图
sns.scatterplot(data=uniqlo2, x='单件成本', y='单件销售金额')
# 绘制热力图
sns.heatmap(uniqlo2[['单件销售金额', '单件成本']].corr())

所需文件已经上传:第27天

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/41566.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ListBox自动滚动并限制显示条数

1、实现功能 限制ListBox显示的最大条数&#xff1b; ListBox自动滚动&#xff0c;显示最新行&#xff1b; 2、C#代码 using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.IO; using Syst…

JUC并发编程基础(包含线程概念,状态等具体实现)

一.JUC并发编程基础 1. 并行与并发 1.1 并发: 是在同一实体上的多个事件是在一台处理器上"同时处理多个任务"同一时刻,其实是只有一个事件在发生. 即多个线程抢占同一个资源. 1.2 并行 是在不同实体上的多个事件是在多台处理器上同时处理多个任务同一时刻,大家…

【C++】main函数及返回值深度解析

一.main函数介绍 1.main函数怎么写 #include <iostream>int main() {// 程序的代码放在这里std::cout << "Hello, World!" << std::endl;return 0; }在这个例子中&#xff1a; #include <iostream> 是预处理指令&#xff0c;它告诉编译器…

在昇腾服务器上使用llama-factory对baichuan2-13b模型进行lora微调

什么是lora微调 LoRA 提出在预训练模型的参数矩阵上添加低秩分解矩阵来近似每层的参数更新&#xff0c;从而减少适配下游任务所需要训练的参数。 环境准备 这次使用到的微调框架是llama-factory。这个框架集成了对多种模型进行各种训练的代码&#xff0c;少量修改就可使用。 …

小红书矩阵系统源码:赋能内容创作与电商营销的创新工具

在内容驱动的电商时代&#xff0c;小红书凭借其独特的社区氛围和用户基础&#xff0c;成为品牌营销和个人创作者不可忽视的平台。小红书矩阵系统源码&#xff0c;作为支撑这一平台的核心技术&#xff0c;提供了一系列的功能和优势&#xff0c;助力用户在小红书生态中实现更高效…

Windows 安装hadoop 3.4

目录 安装 下载 设置环境变量 配置 修改&#xff1a;hadoop-env.cmd 修改&#xff1a;core-sit.xml 修改&#xff1a;hdfs-site.xml 修改&#xff1a;mapred-site.xml 修改&#xff1a;yarn-site.xml 运行 格式化HDFS文件系统 启动&#xff1a;hadoop 启动&#xf…

python-21-零基础自学python 写了一个彩票 发现买彩票中了真的是天选

学习内容&#xff1a;《python编程&#xff1a;从入门到实践》第二版 知识点&#xff1a; from random import choice、choice&#xff08;&#xff09;函数用法、while循环 练习内容&#xff1a; 练习9-14&#xff1a;彩票 创建一个列表或元组&#xff0c;其中包含10个数…

JAVA基础知识(上)

# 一、说说&和&&的区别? 作为运算符&#xff1a;& 将二进制的每一位进行与运算 作为逻辑运算符&#xff1a;两者都是与&#xff0c;&& 如果左边为假则终止右边运算&#xff0c;即短路运算。& 则需要把两边的比较执行完 # 二、int和Integer的区…

Steam平台的辉煌轨迹:数字游戏革命的领航者

在数字世界的浩瀚星空中&#xff0c;有一颗恒星以其耀眼的光芒照亮了无数游戏爱好者的道路&#xff0c;它就是Valve公司的杰作——Steam平台。自2003年横空出世以来&#xff0c;Steam不仅颠覆了传统游戏分发的模式&#xff0c;更以其卓越的创新能力和前瞻性的战略眼光&#xff…

CSS - 深入理解选择器的使用方式

CSS基本选择器 通配选择器元素选择器类选择器id 选择器 通配选择器 作用&#xff1a;可以选中所有HTML元素。语法&#xff1a; * {属性名&#xff1b;属性值; }举例&#xff1a; /* 选中所有元素 */ * {color: orange;font-size: 40px; }在清除样式方面有很大作用 元素选择器…

JAVA基础知识(下)

一、String相关面试题 1. 为什么 String 在 java 中是不可变的? - 如果不是不可变的&#xff1a;这种情况根本不可能&#xff0c;因为在字符串池的情况下&#xff0c;一个字符串对象/文字&#xff0c;例如 “Test” 已被许多参考变量引用&#xff0c; 因此如果其中任何一个更…

ubuntu下载Nginx

一、Nginx下载安装&#xff08;Ubuntu系统&#xff09; 1.nginx下载 sudo apt-get install nginx2.nginx启动 启动命令 sudo nginx重新编译(每次更改完nginx配置文件后运行&#xff09;&#xff1a; sudo nginx -s reload3.测试nginx是否启动成功 打开浏览器访问本机80端口…

小酌消烦暑|人间正清欢

小暑是二十四节气之第十一个节气。暑&#xff0c;是炎热的意思&#xff0c;小暑为小热&#xff0c;还不十分热。小暑虽不是一年中最炎热的时节&#xff0c;但紧接着就是一年中最热的节气大暑&#xff0c;民间有"小暑大暑&#xff0c;上蒸下煮"之说。中国多地自小暑起…

openssh版本升级实战(修补ssh漏洞)基于RedHat8.4版本测试--已成功升级

升级前具有漏洞的的版本 通过命令查看目前系统的ssh和sshd版本&#xff1a; ssh -V sshd -V 注意&#xff1a;由于ssh是远程连接服务器的功能&#xff0c;在进行下面操作升级openssh前&#xff0c;请打开多个连接会话保持&#xff0c;如升级失败&#xff0c;可通过已连接的会话…

antd实现简易相册,zdppy+vue3+antd实现前后端分离相册

前端代码 <template><a-image:preview"{ visible: false }":width"200"src"http://localhost:8889/download/1.jpg"click"visible true"/><div style"display: none"><a-image-preview-group:previe…

粤港澳大湾区人工智能资本对接会”成功举办!

为促进惠州仲恺高新区人工智能产业的发展&#xff0c;推动惠深两地产业资源深度协同与合作&#xff0c;也为吸引更多的优质项目与投融资机构为惠州仲恺高新区产业发展注入动力&#xff0c;加速深圳人工智能相关产业资源落地仲恺。2024年06月26日&#xff0c;由仲恺高新区科技创…

UE5 视频播放(自动播放和自动清除MediaTexture)

媒体播放器的打开时播放和媒体纹理的自动清除 。 在UE5开发视频播放时&#xff0c;遇到了闪帧的现象。合理选择这两个功能可解决。

小阿轩yx-LVS+Keepalived群集

小阿轩yx-LVSKeepalived群集 Keepalived 双机热备份基础知识 起初是专门针对 LVS 设计的一款强大的辅助工具主要用来提供故障切换(Failover)和健康检査(HealthChecking)功能—判断LVS 负载调度器、节点服务器的可用性当 master 主机出现故障及时切换到backup 节点保证业务正常…

动手学深度学习(Pytorch版)代码实践 -循环神经网络-51序列模型

51序列模型 import torch from torch import nn from d2l import torch as d2l import matplotlib.pyplot as pltT 1000 # 总共产生1000个点 time torch.arange(1, T 1, dtypetorch.float32) x torch.sin(0.01 * time) torch.normal(mean0, std0.2, size(T,)) d2l.plot(…

ERROR | Web server failed to start. Port 8080 was already in use.

错误提示&#xff1a; *************************** APPLICATION FAILED TO START ***************************Description:Web server failed to start. Port 8080 was already in use.Action:Identify and stop the process thats listening on port 8080 or configure thi…