Python中的数据可视化艺术:用Matplotlib和Seaborn讲故事

Python中的数据可视化艺术:用Matplotlib和Seaborn讲故事

数据可视化不仅仅是图表的绘制,更是通过视觉形式传达复杂信息的一种艺术。使用Python中的两个强大的库——Matplotlib和Seaborn,可以将数据转化为清晰、优美的图表,帮助我们更好地理解数据,甚至讲述一个数据驱动的故事。在这篇博客中,我们将探讨如何使用这两个库进行数据可视化,讲述数据背后的故事。
在这里插入图片描述

1. 数据可视化的重要性

在数据科学领域,数据可视化被认为是理解数据的重要工具。它不仅能帮助分析者发现隐藏的模式,还能让普通观众直观地理解数据的含义。通过不同的图表类型(例如散点图、条形图、箱线图等),我们可以针对不同类型的数据讲述不同的故事。
在这里插入图片描述

2. Matplotlib简介

Matplotlib是Python中最基础的绘图库之一,灵活且功能强大,几乎可以绘制任何类型的图表。它的API相对底层,意味着用户可以完全控制图表的各个方面。

2.1 Matplotlib安装

在开始使用之前,需要确保安装了Matplotlib。你可以通过pip命令进行安装:

pip install matplotlib

2.2 基础绘图示例

首先,我们来看一个简单的折线图示例:

import matplotlib.pyplot as plt# 数据
years = [2015, 2016, 2017, 2018, 2019, 2020]
sales = [350, 410, 500, 590, 620, 710]# 创建图表
plt.plot(years, sales, marker='o', linestyle='-', color='b')# 添加标题和标签
plt.title('Yearly Sales')
plt.xlabel('Year')
plt.ylabel('Sales (in USD)')# 显示图表
plt.show()

在这段代码中,我们定义了年份和销售额数据,并通过plt.plot函数绘制折线图。marker='o'表示在每个数据点上加上一个圆圈,而linestyle='-'则定义了线型为实线。

2.3 定制图表

Matplotlib的灵活性允许我们对图表进行高度定制,例如设置颜色、线条样式、添加图例和网格线等:

# 增加图表细节
plt.plot(years, sales, marker='o', linestyle='--', color='g', label='Sales')# 添加网格线
plt.grid(True)# 添加图例
plt.legend()# 添加标题和标签
plt.title('Yearly Sales with Customizations')
plt.xlabel('Year')
plt.ylabel('Sales (in USD)')plt.show()

2.4 使用子图

Matplotlib还可以通过subplot功能将多个图表展示在同一个窗口中:

# 创建子图
fig, axs = plt.subplots(2)# 绘制第一个子图
axs[0].plot(years, sales, color='r')
axs[0].set_title('Sales Over Time')# 绘制第二个子图
profit = [50, 60, 70, 80, 85, 100]
axs[1].bar(years, profit, color='b')
axs[1].set_title('Profit Over Time')plt.tight_layout()
plt.show()

通过子图功能,你可以在一个窗口中呈现多个图表,便于对比和分析不同的数据集。
在这里插入图片描述

3. Seaborn简介

虽然Matplotlib功能强大,但在美观度和简洁性上有时稍显不足。Seaborn是基于Matplotlib构建的高级库,它提供了更为美观的默认图表,并且能够更方便地处理Pandas数据框数据。

3.1 Seaborn安装

安装Seaborn同样非常简单:

pip install seaborn

3.2 基础绘图示例

我们来看一个简单的Seaborn绘图示例——绘制散点图:

import seaborn as sns
import matplotlib.pyplot as plt# 示例数据
tips = sns.load_dataset("tips")# 使用seaborn绘制散点图
sns.scatterplot(x="total_bill", y="tip", data=tips)# 添加标题
plt.title('Scatter Plot of Total Bill vs Tip')plt.show()

在这个示例中,Seaborn使用了一个内置的“tips”数据集,并生成了总账单和小费之间的散点图。Seaborn的API设计非常简洁,自动处理了许多图表的美化细节。

3.3 主题和样式

Seaborn提供了多种内置的主题和样式,可以让图表看起来更加美观:

# 设置主题
sns.set_theme(style="darkgrid")# 重新绘制散点图
sns.scatterplot(x="total_bill", y="tip", data=tips)
plt.title('Scatter Plot with Darkgrid Theme')plt.show()

3.4 使用不同类型的图表

Seaborn非常适合绘制统计图表,以下是几个常见图表类型的示例:

  • 箱线图(Boxplot)
sns.boxplot(x="day", y="total_bill", data=tips)
plt.title('Boxplot of Total Bill by Day')
plt.show()
  • 直方图(Histogram)
sns.histplot(tips['total_bill'], bins=20)
plt.title('Histogram of Total Bill')
plt.show()
  • 热力图(Heatmap)
# 计算相关性矩阵
corr = tips.corr()# 绘制热力图
sns.heatmap(corr, annot=True, cmap='coolwarm')
plt.title('Heatmap of Correlations')
plt.show()

3.5 可视化分布

Seaborn可以通过distplot等函数可视化数据的分布情况。例如,查看总账单的分布:

sns.histplot(tips['total_bill'], kde=True)
plt.title('Distribution of Total Bill with KDE')
plt.show()

3.6 组合图表

Seaborn的pairplot函数可以轻松创建数据集中不同变量之间的组合图表:

sns.pairplot(tips)
plt.show()

pairplot能自动生成数据集中各变量两两组合的散点图,并在对角线上绘制每个变量的分布图,从而全面了解数据的关系。
在这里插入图片描述

4. 讲述数据故事

通过Matplotlib和Seaborn,你可以使用多种图表来传达数据背后的故事。关键在于根据数据的特点选择合适的图表类型,并在必要时组合多个图表,来揭示更深层次的模式或趋势。

例如,你可以结合使用箱线图和散点图,来分析不同类别中的数据分布及异常值,或者使用热力图和相关性分析图,来揭示变量之间的关系。
在这里插入图片描述

5. 总结

数据可视化不仅是数据分析中的工具,更是一门艺术。通过Matplotlib和Seaborn,我们可以构建精美的图表,将复杂的数据转化为易于理解的信息,帮助我们更好地讲述数据背后的故事。在实际应用中,根据不同的数据特点和目标,选择合适的可视化方法,能让你的数据分析更有说服力。

掌握了这两种库,你不仅可以绘制各种统计图,还可以通过多种方式定制、优化图表,从而更好地传达信息。在未来的数据分析工作中,不妨多花点心思在图表的设计上,让你的数据可视化真正成为一门讲故事的艺术。
为了进一步提升这篇博客的深度,我们可以探讨更多的数据可视化实战技巧,特别是结合Matplotlib和Seaborn来解决一些现实中的问题和需求。通过实际案例和多样化的图表类型,你可以更好地理解如何利用这些工具讲述数据背后的故事。
在这里插入图片描述

6. 实战:股票数据的可视化

假设我们要分析一家公司的股票数据,例如从股票价格、成交量等角度展示其变化趋势。首先,我们可以通过Pandas读取股票数据,并结合Matplotlib和Seaborn进行可视化。

6.1 数据准备

在这个例子中,我们将使用Yahoo Finance提供的股票数据。可以通过yfinance库来获取:

pip install yfinance

接着,我们可以用下面的代码来抓取和可视化股票数据:

import yfinance as yf
import matplotlib.pyplot as plt
import seaborn as sns# 下载股票数据
ticker = 'AAPL'
data = yf.download(ticker, start='2023-01-01', end='2023-10-01')# 查看前几行数据
print(data.head())# 绘制股票收盘价
plt.figure(figsize=(10, 6))
plt.plot(data.index, data['Close'], label=f'{ticker} Close Price')
plt.title(f'{ticker} Closing Price Over Time')
plt.xlabel('Date')
plt.ylabel('Price (USD)')
plt.grid(True)
plt.legend()
plt.show()

在这个实战中,我们下载了苹果公司(AAPL)的股票数据,绘制了其在2023年1月到2023年10月之间的收盘价走势。通过这样的可视化,投资者可以直观地看到股票价格的波动情况。

6.2 多图合并:价格与成交量

为了更全面地了解股票的走势,我们可以将价格和成交量放在同一个图中:

# 创建子图
fig, ax1 = plt.subplots(figsize=(10, 6))# 绘制收盘价
ax1.set_xlabel('Date')
ax1.set_ylabel('Close Price (USD)', color='tab:blue')
ax1.plot(data.index, data['Close'], label='Close Price', color='tab:blue')
ax1.tick_params(axis='y', labelcolor='tab:blue')# 创建另一个y轴用于成交量
ax2 = ax1.twinx()  
ax2.set_ylabel('Volume', color='tab:red')  
ax2.bar(data.index, data['Volume'], alpha=0.3, color='tab:red')
ax2.tick_params(axis='y', labelcolor='tab:red')plt.title(f'{ticker} Closing Price and Volume')
plt.show()

在这段代码中,我们使用了双y轴(twinx())来同时展示收盘价和成交量。这样一来,观众可以通过一张图同时看到价格的波动和成交量的变化,帮助我们理解价格变化背后是否伴随着交易量的显著增长。

6.3 用Seaborn展示分布和相关性

接下来,我们可以进一步分析不同价格指标之间的关系,比如开盘价、收盘价、最高价和最低价。使用Seaborn绘制这些指标的相关性热力图:

# 计算相关性矩阵
corr_matrix = data[['Open', 'High', 'Low', 'Close']].corr()# 绘制热力图
plt.figure(figsize=(8, 6))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', linewidths=0.5)
plt.title('Correlation Between Price Metrics')
plt.show()

通过相关性热力图,我们可以一目了然地看到这些价格指标之间的相关程度,帮助我们更好地理解股票市场的波动行为。

6.4 分析每日价格波动范围

股票市场中的波动性是投资者非常关心的指标之一。我们可以通过绘制每日的价格波动范围来分析股票的波动情况。

# 计算每日波动范围
data['Range'] = data['High'] - data['Low']# 绘制波动范围的时间序列图
plt.figure(figsize=(10, 6))
plt.plot(data.index, data['Range'], label='Daily Price Range', color='orange')
plt.title(f'{ticker} Daily Price Range Over Time')
plt.xlabel('Date')
plt.ylabel('Range (USD)')
plt.grid(True)
plt.legend()
plt.show()

在这段代码中,我们计算了股票每日的最高价与最低价的差值,并将其可视化。通过这个图表,观众可以直观地看到某些时间点股票价格的波动变得更加剧烈,从而揭示市场动荡时期。
在这里插入图片描述

7. 实战:天气数据的可视化

接下来我们探讨另一个实际应用——天气数据的可视化。假设我们有一个城市的每日气温数据,想要展示这一年的温度变化。

7.1 数据准备

你可以用Pandas读取天气数据文件,然后进行可视化:

import pandas as pd# 示例天气数据
data = pd.DataFrame({'Date': pd.date_range(start='2023-01-01', periods=365),'Temperature': np.random.normal(loc=20, scale=10, size=365)
})# 转换日期格式
data['Date'] = pd.to_datetime(data['Date'])# 绘制每日温度
plt.figure(figsize=(10, 6))
plt.plot(data['Date'], data['Temperature'], color='b', label='Temperature')
plt.title('Daily Temperature Over Time')
plt.xlabel('Date')
plt.ylabel('Temperature (°C)')
plt.grid(True)
plt.legend()
plt.show()

在这段代码中,我们随机生成了一年内的气温数据,并绘制了每日气温变化图。通过这个可视化,用户可以轻松看出气温的波动情况。

7.2 月度平均温度

为了更深入的分析,我们可以计算月度的平均温度,并通过条形图进行展示:

# 计算每月平均温度
data['Month'] = data['Date'].dt.month
monthly_avg_temp = data.groupby('Month')['Temperature'].mean()# 绘制月度平均温度条形图
plt.figure(figsize=(10, 6))
sns.barplot(x=monthly_avg_temp.index, y=monthly_avg_temp.values, palette='Blues_d')
plt.title('Average Monthly Temperature')
plt.xlabel('Month')
plt.ylabel('Temperature (°C)')
plt.show()

在这段代码中,我们利用Seaborn的barplot绘制了月度平均温度的条形图,帮助观众快速了解每个月的气温变化趋势。

7.3 热力图展示气温分布

我们还可以通过热力图来展示全年气温的分布:

# 创建一个二维数组表示每个月每天的气温
pivot_data = data.pivot_table(values='Temperature', index=data['Date'].dt.day, columns=data['Date'].dt.month)# 绘制热力图
plt.figure(figsize=(12, 8))
sns.heatmap(pivot_data, cmap='coolwarm', cbar=True)
plt.title('Heatmap of Daily Temperatures Throughout the Year')
plt.xlabel('Month')
plt.ylabel('Day')
plt.show()

在这个热力图中,每个格子表示一年中的某一天,其颜色代表当天的气温。通过这种可视化,我们可以很容易地发现全年气温的波动模式,例如炎热的夏季和寒冷的冬季。
在这里插入图片描述

8. 实战:可视化数据趋势和异常值

在某些场景下,我们不仅需要展示数据,还要发现数据中的趋势和异常值。例如,检测某些时段的异常波动,或者分析某个变量随时间的趋势变化。

8.1 识别趋势和异常

我们可以使用滚动平均线和上下限来展示趋势和异常值:

# 计算滚动平均和标准差
data['RollingMean'] = data['Temperature'].rolling(window=7).mean()
data['UpperBound'] = data['RollingMean'] + 2 * data['Temperature'].rolling(window=7).std()
data['LowerBound'] = data['RollingMean'] - 2 * data['Temperature'].rolling(window=7).std()# 绘制温度和趋势
plt.figure(figsize=(10, 6))
plt.plot(data['Date'], data['Temperature'], label='Daily Temperature', alpha=0.5)
plt.plot(data['Date'], data['RollingMean'], color='r', label='Rolling Mean')
plt.fill_between(data['Date'], data['UpperBound'], data['LowerBound'], color='gray', alpha=0.3, label='Normal Range')
plt.title('Temperature Trends and Anomalies')
plt.xlabel('Date')
plt.ylabel('Temperature (°C)')
plt.legend()
plt.show()

在这个可视化中,我们展示了每日气温的滚动平均线,并使用标准差定义了一个正常范围。这样,任何超出上下限的点都可以被认为是异常值,帮助我们识别数据中的异常模式。
在这里插入图片描述

9. 总结

在实际项目中,数据可视化不仅仅是展示数据的手段,更是通过图形化展示帮助我们更好地理解数据、发现模式和趋势、分析关联性、识别异常值等重要任务的关键工具。Matplotlib和Seaborn作为Python中最流行的数据可视化库,提供了丰富的功能和灵活的绘图选项,能够满足从简单到复杂的可视化需求。通过本文的实战案例,希望能够帮助你更好地掌握这些工具,为数据科学和分析工作提供更强有力的支持。

这篇博客总结了从基础到高级的数据可视化技术,帮助你用Matplotlib和Seaborn讲述数据的故事,展示数据的复杂关系和趋势变化。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/55977.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Kubernetes】常见面试题汇总(五十六)

目录 123. pod 创建失败? 124. kube-flannel-ds-amd64-ndsf7 插件 pod 的 status 为 Init:0/1 ? 特别说明: 题目 1-68 属于【Kubernetes】的常规概念题,即 “ 汇总(一)~(二十二&#x…

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-05

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-04 目录 文章目录 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-04目录1. LLM-Augmented Symbolic Reinforcement Learning with Landmark-Based Task Decomposition摘要研究背景问题与挑战如何…

『网络游戏』下线数据清理【29】

修改服务端脚本:ServerSession.cs 修改服务端脚本:ServerRoot.cs 修改服务端脚本:CacheSvc.cs 修改服务端脚本:LoginSys.cs 运行服务器 运行客户端 - 连续登录账号 本章结束

VSCode的常用插件(持续更新)

点击左边工具栏的“扩展”,在搜索栏中查找对应插件,点击“安装”,安装完成后右边界面的插件会显示“卸载”按钮。 1、中文(简体)语言包 2、Auto Rename Tag 修改开始标签,结束标签也会随之自动变化。 3、O…

docker+mysql创建用户名密码_docker里面的mysql 更换密码

进入mysql容器 操作vi etc/mysql/my.cnf 默认是不安装vi编辑器的,下面安装vi 更新安装包 apt-get update 安装vim 执行这条语句 apt-get install vim 到修改docker容器里面的mysql数据库密码了 启动mysql容器 docker exec -it mysql /bin/bash 编辑配置文件 我这里是…

【C++】第五节:内存管理

1、C/C内存分布 看下面一段代码 int globalVar 1; static int staticGlobalVar 1; void Test() {static int staticVar 1;int localVar 1;int num1[10] { 1, 2, 3, 4 };char char2[] "abcd";const char* pChar3 "abcd";int* ptr1 (int*)malloc(s…

与C++内存管理和STL简介的爱恨情仇

本文 1.C/C内存分布2.C语言中动态内存管理方式:malloc/calloc/realloc/free总结 3.C内存管理方式new/delete操作内置类型new和delete操作自定义类型 4.operator new与operator delete函数(重要点进行讲解)5.new和delete的实现原理内置类型自定…

制造业DT数字化之生产制造业务建模

一、工厂建模为何物? 对制造业人员(人)、设备(机)、材料(料)、工艺流程(法)、工厂环境(环)数据化管理的过程就叫工厂建模。 二、制造建模有哪几大…

【操作系统】引导(Boot)电脑的奇妙开机过程

🌹😊🌹博客主页:【Hello_shuoCSDN博客】 ✨操作系统详见 【操作系统专项】 ✨C语言知识详见:【C语言专项】 目录 什么是操作系统的引导? 操作系统的引导(开机过程) Windows操作系…

QD1-P2 HTML 编辑器:HBuilderX

本节学习: HTML课程内容介绍HBuilderX编辑器的使用 本节视频 www.bilibili.com/video/BV1n64y1U7oj?p2 HTML 内容 基础语法 标签整体架构DOCTYPE 常用标签 标题和水平线段落和换行列表div 和 span格式化标签图片超链接标签表格表单字符实体 编辑器 HBuilder…

设计测试用例的方法

目录 1、等价类 2、边界值 3、场景法 4、正交表法 5、设计正交表 6、判定表法 7、错误猜想法 1、等价类 在测试中选取一些数据作为等价类进行测试,如果测试通过,就代表测试通过,可以用少量代表性的测试数据取得较好的测试结果。 等价类…

智能扭矩系统在轨道交通行业的应用_SunTorque

【大家好,我是唐Sun,唐Sun的唐,唐Sun的Sun。一站式数智工厂解决方案服务商】 在现代轨道交通领域,安全、高效和可靠性是至关重要的考量因素。智能扭矩系统作为一项先进的技术,正逐渐在轨道交通行业中展现出其重要的应用…

【原创】java+springboot+mysql劳动教育网系统设计与实现

个人主页:程序猿小小杨 个人简介:从事开发多年,Java、Php、Python、前端开发均有涉猎 博客内容:Java项目实战、项目演示、技术分享 文末有作者名片,希望和大家一起共同进步,你只管努力,剩下的交…

使用Milvus和Llama-agents构建更强大的Agent系统

代理(Agent)系统能够帮助开发人员创建智能的自主系统,因此变得越来越流行。大语言模型(LLM)能够遵循各种指令,是管理 Agent 的理想选择,在许多场景中帮助我们尽可能减少人工干预、处理更多复杂任…

C++与Java Web开发的对比分析:优势与差异

目录 1. 引言 2. C的开发优势与特点 2.1 高性能与硬件控制 2.2 面向对象与多范式支持 2.3 跨平台能力 3. Java Web的开发优势与特点 3.1 跨平台与广泛的企业应用 3.2 丰富的生态系统与工具支持 3.3 安全性与稳定性 4. C与Java Web的差异对比 4.1 性能与效率 4.2 开发…

基于go开发的终端版即时通信系统(c-s架构)

项目架构图 类似一个聊天室一样 整体是一个客户端和服务端之间的并发多线程网络通信,效果可以翻到最后面看。 为了巩固基础的项目练手所以分为9个阶段进行迭代开发 版本⼀:构建基础Server 新建一个文件夹就叫golang-IM_system 第一阶段先将server的大…

LLM | Tokenization 从原理与代码了解GPT的分词器

声明:以上内容全是学习Andrej Karpathy油管教学视频的总结。 --------------------------------------------------------------------------------------------------------------------------------- 大家好。在今天我们学习llm中的Tokenization,即分…

使离医院最远的村庄到医院的路程最短

给定n个村庄之间的交通图,若村庄i和j之间有道路,则将顶点i和j用边连接,边上的Wij表示这条道路的长度,现在要从这n个村庄中选择一个村庄建一所医院,问这所医院应建在哪个村庄,才能使离医院最远的村庄到医院的…

HCIP--以太网交换安全(三)MAC地址漂移防止与检测

MAC地址漂移防止与检测 一、MAC地址漂移防止与检测知识点 1.1MAC地址漂移的概述 MAC地址漂移是指交换机上一个vlan内有两个端口学习到同一个MAC地址,后学习到的MAC地址表项覆盖原MAC地址表项的现象。 1.2.MAC地址漂移的防止方法 (1)配置…

Windows7 X64 成功安装 .NET Framework 4.8 的两种方法

Windows7 X64 成功安装 .NET Framework 4.8 的两种方法 windows7系统SP1安装完成后,在安装某软件时,提示需要先安装4.6以上的版本net-framework包,正好电脑里有个net-framework4.8软件包,于是打算用上,可是在安装时&a…