揭秘数据之美:【Seaborn】在现代【数学建模】中的革命性应用

目录

已知数据集 tips

生成数据集并保存为CSV文件 

数据预览:

导入和预览数据

步骤1:绘制散点图(Scatter Plot)

步骤2:添加回归线(Regression Analysis)

步骤3:分类变量分析(Categorical Variables)

步骤4:箱线图(Box Plot)

步骤5:小提琴图(Violin Plot)

步骤6:绘制热力图(Heatmap)

 ​编辑

总结

1. 生成数据集并保存为CSV文件

2. 导入和预览数据

3. 绘制散点图(Scatter Plot)

4. 添加回归线(Regression Analysis)

5. 分类变量分析(Categorical Variables)

6. 绘制箱线图(Box Plot)

7. 绘制小提琴图(Violin Plot)

8. 绘制热力图(Heatmap)


 

ce6fbd68767d465bbe94b775b8b811db.png

731bd47804784fa2897220a90a387b28.gif

 

专栏:数学建模学习笔记

python相关库的安装:pandas,numpy,matplotlib,statsmodels

总篇:【数学建模】—【新手小白到国奖选手】—【学习路线】

第一卷:Numpy

第二卷:Pandas

第三卷:Matplotlib

在数据科学和数学建模的过程中,数据可视化是非常重要的一环。通过可视化,我们能够更直观地理解数据的分布和关系,从而为后续的分析和建模打下坚实的基础。本篇文章将围绕一个具体的实例,详细讲解如何使用Seaborn库进行数据可视化。我们将使用Seaborn内置的数据集tips,该数据集包含了一些餐馆的小费数据。我们的目标是通过数据可视化,探索影响小费金额的因素,并尝试建立一个数学模型。

已知数据集 tips

tips 数据集包含以下几个主要字段:

  • total_bill: 总账单金额
  • tip: 小费金额
  • sex: 性别
  • smoker: 是否吸烟
  • day: 就餐日期
  • time: 就餐时间(午餐或晚餐)
  • size: 就餐人数

生成数据集并保存为CSV文件 

import pandas as pd
import numpy as np# 设置随机种子
np.random.seed(0)# 生成数据
n = 1000
total_bill = np.round(np.random.uniform(5, 50, n), 2)
tip = np.round(total_bill * np.random.uniform(0.1, 0.3, n), 2)
sex = np.random.choice(['Male', 'Female'], n)
smoker = np.random.choice(['Yes', 'No'], n)
day = np.random.choice(['Thur', 'Fri', 'Sat', 'Sun'], n)
time = np.random.choice(['Lunch', 'Dinner'], n)
size = np.random.randint(1, 6, n)# 创建DataFrame
tips = pd.DataFrame({'total_bill': total_bill,'tip': tip,'sex': sex,'smoker': smoker,'day': day,'time': time,'size': size
})# 保存数据集到CSV文件
tips.to_csv('tips.csv', index=False)# 显示数据集的前几行
print(tips.head())

数据预览

total_billtipsexsmokerdaytimesize
29.706.49FemaleNoFriLunch5
37.183.79FemaleYesThurLunch2
32.126.27FemaleNoThurLunch4
29.527.14FemaleNoFriLunch5
24.062.62FemaleYesSunDinner5

导入和预览数据

在生成数据后,我们导入必要的可视化库,并预览数据。

import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd# 读取本地示例数据集
tips = pd.read_csv('tips.csv')# 显示数据集的前几行
print(tips.head())

详解:

  1. 导入必要的库

    • seaborn: 用于数据可视化的主要库。
    • matplotlib.pyplot: Seaborn是基于Matplotlib构建的,所以我们需要同时导入Matplotlib来进行图表的展示。
  2. 读取数据

    • 使用pandas.read_csv函数从CSV文件中读取数据。
  3. 预览数据

    • 使用print(tips.head())函数来显示数据集的前几行,帮助我们快速了解数据的结构和内容。

步骤1:绘制散点图(Scatter Plot)

我们首先绘制一个散点图,展示总账单(total_bill)与小费(tip)之间的关系。

# 绘制散点图
sns.scatterplot(data=tips, x='total_bill', y='tip')
plt.title('Scatter plot of Total Bill vs Tip')
plt.xlabel('Total Bill')
plt.ylabel('Tip')
plt.show()

 

  1. 绘制散点图

    • 使用seaborn.scatterplot函数,其中data参数指定数据集,xy参数分别指定横轴和纵轴的数据字段。
  2. 设置图表标题和标签

    • 使用plt.title设置图表标题。
    • 使用plt.xlabelplt.ylabel分别设置横轴和纵轴的标签。
  3. 显示图表

    • 使用plt.show()函数来显示图表。

散点图是一种常用的图表类型,用于展示两个变量之间的关系。在这个例子中,使用seaborn.scatterplot函数绘制总账单(total_bill)与小费(tip)之间的散点图。通过散点图,可以直观地看到总账单和小费之间的关系。从图中可以看出,小费随总账单的增加而增加,但这种关系是否是线性的还需要进一步分析。

步骤2:添加回归线(Regression Analysis)

为了更好地了解总账单和小费之间的关系,我们可以使用Seaborn的 lmplot 函数来添加一条回归线。

# 绘制带回归线的散点图
sns.lmplot(data=tips, x='total_bill', y='tip')
plt.title('Total Bill vs Tip with Regression Line')
plt.xlabel('Total Bill')
plt.ylabel('Tip')
plt.show()

 

  1. 绘制带回归线的散点图

    • 使用seaborn.lmplot函数,其中data参数指定数据集,xy参数分别指定横轴和纵轴的数据字段。
    • lmplot函数不仅绘制散点图,还会自动添加一条回归线,用于展示两个变量之间的线性关系。
  2. 设置图表标题和标签

    • 同样使用plt.titleplt.xlabelplt.ylabel设置图表的标题和轴标签。
  3. 显示图表

    • 使用plt.show()函数来显示图表。

回归分析是一种统计方法,用于研究两个变量之间的关系。在这个例子中,使用Seaborn的lmplot函数来绘制带有回归线的散点图。通过添加回归线,可以更清楚地看到总账单和小费之间的线性关系。这条回归线表示小费随总账单增加的趋势,图中还会显示回归线的置信区间。

步骤3:分类变量分析(Categorical Variables)

接下来,我们分析性别、吸烟情况等分类变量对小费的影响。

# 使用hue参数根据性别绘制不同颜色的散点图
sns.scatterplot(data=tips, x='total_bill', y='tip', hue='sex')
plt.title('Total Bill vs Tip by Gender')
plt.xlabel('Total Bill')
plt.ylabel('Tip')
plt.show()

 

  1. 根据分类变量绘制散点图

    • 使用seaborn.scatterplot函数,通过hue参数指定分类变量(例如性别),从而根据不同类别绘制不同颜色的点。
  2. 设置图表标题和标签

    • 使用plt.titleplt.xlabelplt.ylabel设置图表的标题和轴标签。
  3. 显示图表

    • 使用plt.show()函数来显示图表。

分类变量(如性别、吸烟情况等)在数据分析中非常重要,因为它们能够提供关于数据分布的更多信息。在这个例子中,使用seaborn.scatterplot函数,根据性别绘制不同颜色的散点图。通过这种方式,可以看到性别对总账单和小费关系的影响。例如,可以观察到男性和女性在小费上的差异。

步骤4:箱线图(Box Plot)

箱线图可以帮助我们了解数据的分布及其异常值。

# 绘制箱线图展示不同日期的总账单分布
sns.boxplot(data=tips, x='day', y='total_bill')
plt.title('Box plot of Total Bill by Day')
plt.xlabel('Day')
plt.ylabel('Total Bill')
plt.show()

 

  1. 绘制箱线图

    • 使用seaborn.boxplot函数,其中data参数指定数据集,xy参数分别指定分类变量和连续变量。
    • 箱线图可以展示数据的中位数、四分位数及其异常值。
  2. 设置图表标题和标签

    • 使用plt.titleplt.xlabelplt.ylabel设置图表的标题和轴标签。
  3. 显示图表

    • 使用plt.show()函数来显示图表。

箱线图是一种统计图表,用于展示数据分布的五个统计量:最小值、第一四分位数、中位数、第三四分位数和最大值。箱线图还可以展示异常值。在这个例子中,使用seaborn.boxplot函数绘制不同日期(day)的总账单(total_bill)分布。通过箱线图,可以看到不同日期的总账单分布情况,并识别出哪些数据点是异常值。例如,可以观察到在某些日期,总账单的分布范围较广,而在另一些日期,分布范围较窄。

步骤5:小提琴图(Violin Plot)

小提琴图结合了箱线图和核密度图,可以提供关于数据分布的更多信息。

# 绘制小提琴图展示不同日期的小费分布
sns.violinplot(data=tips, x='day', y='tip')
plt.title('Violin plot of Tip by Day')
plt.xlabel('Day')
plt.ylabel('Tip')
plt.show()

  1. 绘制小提琴图

    • 使用seaborn.violinplot函数,其中data参数指定数据集,xy参数分别指定分类变量和连续变量。
    • 小提琴图展示了数据分布的核密度估计,并结合了箱线图的元素。
  2. 设置图表标题和标签

    • 使用plt.titleplt.xlabelplt.ylabel设置图表的标题和轴标签。
  3. 显示图表

    • 使用plt.show()函数来显示图表。

小提琴图结合了箱线图和核密度图的优点,可以更详细地展示数据分布的特征。在这个例子中,使用seaborn.violinplot函数绘制不同日期(day)的小费(tip)分布。通过小提琴图,可以看到不同日期的小费分布情况,并识别出数据分布的密度和异常值。例如,可以观察到在某些日期,小费的分布较为集中,而在另一些日期,分布较为分散。

步骤6:绘制热力图(Heatmap)

热力图适合展示矩阵数据,比如相关矩阵。例如,绘制数据集的相关矩阵:

# 选择数值列
numeric_tips = tips.select_dtypes(include='number')# 计算相关矩阵并绘制热力图
corr = numeric_tips.corr()
plt.figure(figsize=(10, 8))
sns.heatmap(corr, annot=True, cmap='coolwarm', linewidths=0.5)
plt.title('Heatmap of Correlation Matrix')
plt.show()

  1. 计算相关矩阵

    • 使用DataFrame.corr()函数计算数据集中数值变量之间的相关系数。
  2. 绘制热力图

    • 使用seaborn.heatmap函数绘制热力图。
    • corr:相关矩阵,作为热力图的数据输入。
    • annot=True:在每个单元格中显示相关系数的数值。
    • cmap='coolwarm':设置热力图的颜色映射,coolwarm颜色映射使得正相关和负相关的数据点能够通过颜色区分开来。
    • linewidths=0.5:设置每个单元格之间的间隔线宽度。
  3. 设置图表大小:使用plt.figure(figsize=(10, 8))设置图表的大小,确保图表清晰可读。

  4. 设置图表标题:使用plt.title设置图表的标题。

  5. 显示图表:使用plt.show()函数来显示热力图。

相关矩阵热力图解释:

  • 对角线:热力图的对角线上的值都是1,因为每个变量与自身的相关系数都是1。
  • 变量之间的相关性:热力图的非对角线单元格显示了不同变量之间的相关系数。颜色的深浅表示相关性强弱,颜色的方向(冷暖)表示正相关或负相关。

通过这些详细的步骤,我们能够全面地分析和可视化餐馆小费数据,深入了解影响小费的各种因素,为进一步的数学建模和决策提供有力的支持。

 

总结

1. 生成数据集并保存为CSV文件

首先,我们生成了一个包含餐馆小费信息的模拟数据集,并将其保存为CSV文件。数据集包含以下字段:total_billtipsexsmokerdaytimesize

2. 导入和预览数据

使用Pandas库读取本地CSV文件,并预览数据集的前几行,以了解数据的结构和内容。

3. 绘制散点图(Scatter Plot)

使用Seaborn的scatterplot函数绘制散点图,展示总账单(total_bill)与小费(tip)之间的关系。

4. 添加回归线(Regression Analysis)

使用Seaborn的lmplot函数在散点图上添加回归线,以更清晰地展示总账单和小费之间的线性关系。

5. 分类变量分析(Categorical Variables)

使用scatterplot函数的hue参数,根据性别绘制不同颜色的散点图,分析性别对总账单和小费关系的影响。

6. 绘制箱线图(Box Plot)

使用Seaborn的boxplot函数绘制箱线图,展示不同日期的总账单分布,帮助识别数据的中位数、四分位数及其异常值。

7. 绘制小提琴图(Violin Plot)

使用Seaborn的violinplot函数绘制小提琴图,结合箱线图和核密度图,提供更多关于数据分布的信息。

8. 绘制热力图(Heatmap)

计算数据集中数值变量之间的相关矩阵,使用Seaborn的heatmap函数绘制热力图,直观地展示各变量之间的相关性。

通过这些步骤,可以全面地分析和可视化餐馆小费数据,深入了解影响小费的各种因素,为进一步的数学建模和决策提供有力的支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/866613.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何查看MCU编译生成的elf(out)文件内容

一般地,我们想要知道单片机程序编译完后的结构我们可以查看map文件或者是elf/out文件,map文件不能看函数的汇编格式,只能查看编译完成后变量、代码的地址和占用空间大小,而elf文件里面更加详细,还包含了函数的汇编&…

MAS马氏数控制榫机控制面板维修显示屏MDK3113B

马氏数控榫头机触摸屏/显示面板维修型号:MX3810A;MDK3113B;MXK2815B MAS马氏数控开榫机触摸屏/显示面板维修型号: MX2108B;MD2108A;MJ105А 数控面板维修包括:马氏数控榫头机、开榫机、制榫机…

servlet学校会场预约系统-计算机毕业设计源码72972

摘要 学校会场预约是学校管理中的重要环节,但传统的手工预约方式存在效率低下和信息不准确等问题。为了提高预约效率和减少管理成本,许多学校开始采用基于Servlet技术的会场预约系统。本论文旨在设计和实现一种高效的Servlet学校会场预约系统&#xff0c…

开放式运动耳机推荐的品牌都有哪些?五款2024靠谱机型推荐!

​作为一位耳机领域的资深数码评测师,我极力推荐开放式耳机作为日常佩戴之选。这款耳机凭借其创新的非入耳设计,有效避免了传统入耳式耳机长时间佩戴导致的耳道不适和感染风险,同时提供了稳固舒适的佩戴体验,特别适合运动爱好者如…

阿里云邮件推送邮件发送失败的问题排查解决

阿里云邮件推送为何失败?解决邮件推送失败的步骤指南! 即便是功能强大的阿里云邮件推送服务,也可能在实际使用中遇到邮件发送失败的问题。AokSend将详细介绍如何排查和解决阿里云邮件推送邮件发送失败的问题。 阿里云邮件推送:验…

相关款式1111

一、花梨木迎客松 1. 风速打单 发现只有在兄弟店铺有售卖 六月份成交订单数有62笔 2. 生意参谋 兄弟店铺商品访客数:3548,支付件数:95件 二. 竹节茶刷(引流) 1. 风速打单 六月订单数有165笔 兄弟:…

SCI一区 | Matlab实现DBO-TCN-LSTM-Attention多变量时间序列预测

SCI一区 | Matlab实现DBO-TCN-LSTM-Attention多变量时间序列预测 目录 SCI一区 | Matlab实现DBO-TCN-LSTM-Attention多变量时间序列预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.【SCI一区级】Matlab实现DBO-TCN-LSTM-Attention多变量时间序列预测(程…

LVS+Keepalived 实现高可用负载均衡

前言 在业务量达到一定量的时候,往往单机的服务是会出现瓶颈的。此时最常见的方式就是通过负载均衡来进行横向扩展。其中我们最常用的软件就是 Nginx。通过其反向代理的能力能够轻松实现负载均衡,当有服务出现异常,也能够自动剔除。但是负载…

MViT(ICCV 2021, Meta)论文解读

paper:Multiscale Vision Transformers official implementation:https://github.com/facebookresearch/SlowFast 背景和出发点 这篇文章提出了多尺度视觉Transformer(Multiscale Vision Transformers, MViT)的概念&#xff0c…

全网视频下载之IDM下载安装,软破解

全网视频下载之IDM下载安装,软破解 介绍![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/c94f612f7a8845c8a649f74f6b18fd70.png)下载安装配置浏览器Google浏览器Ddge浏览器 界面如何下载不破解如何重复使用总结 介绍 今天给大家分享一个更加简便的全网视…

小型气象站在现代农业中的应用与前景

随着科技的飞速发展,智慧农业已成为现代农业发展的重要趋势。在这一背景下,小型气象站作为智慧农业的重要组成部分,正逐渐展现出其独特的价值和广阔的应用前景。本文将从小型气象站的定义、功能、应用案例以及未来展望等方面,探讨…

【数据结构/C++】位图

这里写自定义目录标题 哈希思想的应用位图位图概念经典面试题位图所开的空间大小STL库中的 bitset 位图 位图实现大框架位运算符<<左移 和 >>右移 移动的方位set()&#xff1a;把x映射的位标记成1set() 接口实现reset&#xff1a;把x映射的位标记成0reset() 接口te…

Static关键字的用法详解

Static关键字的用法详解 1、Static修饰内部类2、Static修饰方法3、Static修饰变量4、Static修饰代码块5、总结 &#x1f496;The Begin&#x1f496;点点关注&#xff0c;收藏不迷路&#x1f496; 在Java编程语言中&#xff0c;static是一个关键字&#xff0c;它可以用于多种上…

React+TS前台项目实战(二十三)-- 基于属性自定义数值显示组件Decimal封装

文章目录 前言Decimal组件1. 功能分析2. 代码详细注释3. 使用方式4. 效果展示 总结 前言 今天要封装的Decimal 组件&#xff0c;是通过传入的属性进行定制化显示数值&#xff0c;在渲染时&#xff0c;会根据不同的情况显示整数部分、小数部分和单位&#xff0c;支持自定义样式…

shell脚本awk中使用for循环

今天想使用shell脚本处理一ini文件下的ip地址&#xff0c;也就是INTRANET&#xff0c;前面的ip地址&#xff0c;折腾挺久。文件格式如下&#xff1a; 正确代码&#xff1a; grep -E INTRANET /home/aaaa/bbbb/hostinfo.ini | awk -F , {for(i1; i<NF; i) if($i~"INT…

全国现状建筑数据,选中范围即可查询下载,富含建筑物位置、层数、建筑物功能、名称地址等信息!

今天分享的是一个绘制范围即可下载范围内的建筑数据下载工具&#xff0c;内含高质量建筑数据数据源&#xff0c;助力场地建设规模一目了然。 数据可视化&#xff1a; 建筑物位置、层数、建筑轮廓地图可见&#xff0c;辅助分析。 数据字段&#xff1a; 建筑高度、层数、基地面…

2024年度最佳大型语言模型(LLMs)汇总大全

大型语言模型(LLMs)是人工智能文本处理的主要类型&#xff0c;也现在最流行的人工智能应用形态。ChatGPT是迄今为止最著名的使用LLM的工具&#xff0c;它由OpenAI的GPT模型的特别调整版本提供动力。但还有许多其他聊天机器人和文本生成器&#xff0c;包括从Google Bard和Anthro…

加速度传感器信号处理注意事项

1 传感器分类 对于压电式压力传感器而言&#xff0c;输出信号是最重要的选择标准之一。压电式压力传感器与电子电路相连&#xff0c;电子电路将传感器产生的电荷成比例转换为电压。 如果选用外部设备&#xff08;电荷放大器&#xff09;充当电子元件&#xff0c;则称其为电…

【毛发教程】使用 Maya、XGen 和虚幻引擎创建马尾辫发型

Malte Resenberger-Loosmann是国外一名首席艺术家&#xff0c;他负责指导整个艺术部门来制作独立游戏项目中的3D建模。在本文中&#xff0c;Loosmann展示了马尾辫发型背后的工作流程&#xff0c;分享了 Maya 和虚幻引擎中的场景设置&#xff0c;并解释了 GS CurveTools 如何帮助…

基于IIS的Windows系统Django项目本地部署

参考&#xff1a; 1. 基于Windows平台的Django本地部署和腾讯云服务器上部署&#xff08;1&#xff09;_如何在服务器上发布部署django程序 csdn-CSDN博客 2.Windows server iis部署Django详细操作 - Django中文 - 博客园 (cnblogs.com) 3.在IIS中部署pythonDjango项目时出…