《Python数据分析技术栈》第07章Python数据可视化 01 Matplotlib

01 Matplotlib

《Python数据分析技术栈》第07章Python数据可视化 01 Matplotlib

In the last chapter, we read about Pandas, the library with various functions for preparing data in order to make it ready for analysis and visualization. Visualization is a means to understand patterns in your data, identify outliers and other points of interest, and present our findings to an outside audience, without having to sift through data manually. Visualization also helps us to glean information from raw data and gain insights that would otherwise be difficult to draw.

在上一章中,我们了解了 Pandas,它是一个具有各种功能的库,用于准备数据,以便为分析和可视化做好准备。可视化是了解数据模式、识别异常值和其他兴趣点,以及向外部受众展示我们的发现的一种手段,而无需手动筛选数据。可视化还能帮助我们从原始数据中收集信息,获得原本难以得出的见解。

After going through this chapter, you will be able to understand the commonly used plots, comprehend the object-oriented and stateful approaches in Matplotlib and apply these approaches for visualization, learn how to use Pandas for plotting, and understand how to create graphs with Seaborn.

通过本章的学习,你将能够理解常用的绘图,理解 Matplotlib 中的面向对象和有状态方法,并将这些方法应用于可视化,学习如何使用 Pandas 进行绘图,并理解如何使用 Seaborn 创建图形。

技术要求 Technical requirements

In your Jupyter notebook, type the following to import the following libraries.

在 Jupyter 笔记本中键入以下内容,导入以下库。

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

Here, plt is a shorthand name or an alias for the pyplot module of Matplotlib that we use for plotting, sns is an alias for the Seaborn library, and pd is an alias for Pandas.

在这里,plt 是我们用于绘图的 Matplotlib 的 pyplot 模块的简称或别名,sns 是 Seaborn 库的别名,pd 是 Pandas 的别名。

In case these libraries are not installed, go to the Anaconda Prompt and install them as follows:

如果没有安装这些库,请转到 Anaconda 提示符并按以下步骤安装:

pip install matplotlib
pip install seaborn
pip install pandas

外部文件 External files

We use the Titanic dataset in this chapter to demonstrate the various plots.

在本章中,我们将使用泰坦尼克号数据集来演示各种绘图。

Please download the dataset using the following link: https://github.com/DataRepo2019/Data-files/blob/master/titanic.csv

请使用以下链接下载数据集: https://github.com/DataRepo2019/Data-files/blob/master/titanic.csv

Commonly used plots

Some of the basic plots that are widely used in exploratory or descriptive data analysis include bar plots, pie charts, histograms, scatter plots, box plots, and heat maps; these are explained in Table 7-1.

在探索性或描述性数据分析中广泛使用的一些基本图包括柱状图、饼图、直方图、散点图、箱形图和热图;表 7-1 对这些图进行了说明。

a bar chart enables visualization of categorical data, with the width or height of the bar representing the value for each category. the bars can be shown either vertically or horizontally.

条形图可以使分类数据可视化,条形的宽度或高度代表每个类别的值。

a histogram is used to visualize the distribution of a continuous variable. it divides the range of the continuous variable into intervals and shows where most of the values lie.

直方图用于直观显示连续变量的分布情况。它将连续变量的范围划分为若干区间,并显示大部分值所在的位置。

box plots help with visually depicting the statistical characteristics of the data. a box plot provides a five-point summary with each line in the figure representing a statistical measure of the data being plotted (refer to the figure on the right). these five measures are

  • Minimum value
  • 25th percentile
  • Median (50th percentile)
  • 75th percentile
  • Maximum value

方框图有助于直观地描述数据的统计特征。方框图提供了一个五点汇总,图中的每 条线都代表所绘制数据的一个统计量(参考右图)。

  • 最小值
  • 第 25 个百分位数
  • 中位数(第 50 个百分点)
  • 第 75 个百分点
  • 最大值

the small circles/dots that you see in the figure on the right represent the outliers (or extreme values).the two lines on either side of the box, representing the minimum and maximum values, are also called “whiskers”. any point outside these whiskers is called an outlier. the middle line in the box represents the median. a box plot is generally used for continuous (ratio/interval) variables, though it can be used for some categorical variables like ordinal variables as well.

右图中的小圆圈/小圆点代表离群值(或极端值)。方框两侧的两条线分别代表最小值和最大值,也称为 “晶须”。

a pie chart shows the distinct values of a variable as sectors within a circle. pie charts are used with categorical variables.

饼图以圆圈内的扇形显示变量的不同值。

a scatter plot displays the values of two continuous variables as points on the x and y axes and helps us visualize if the two variables are correlated or not.

散点图将两个连续变量的值显示为 x 轴和 y 轴上的点,帮助我们直观地看出这两个变量是否相关。

a heat map shows the correlation between multiple variables using a color-coded matrix, where the color saturation represents the strength of the correlation between the variables. a heat map can aid in the visualization of multiple variables at once.

热图使用彩色编码矩阵显示多个变量之间的相关性,其中颜色饱和度代表变量之间相关性的强弱。

Let us now have a look at some of the Python libraries that are used for visualization, starting with Matplotlib.

现在,让我们从 Matplotlib 开始,了解一些用于可视化的 Python 库。

Matplotlib

The main library for data visualization in Python is Matplotlib. Matplotlib has many visualization features that are similar to Matlab (a computational environment cum programming language with plotting tools). Matplotlib is mainly used for plotting twodimensional graphs, with limited support for creating three-dimensional graphs.

Matplotlib 是 Python 中数据可视化的主要库。Matplotlib 拥有许多与 Matlab(一种带有绘图工具的计算环境兼编程语言)类似的可视化功能。Matplotlib 主要用于绘制二维图形,对创建三维图形的支持有限。

Plots created using Matplotlib require more lines of code and customization of the parameters of the plot, as compared to other libraries like Seaborn and Pandas (which use some default setting to simplify the writing of code to create plots).

与其他库(如 Seaborn 和 Pandas,它们使用一些默认设置来简化创建绘图的代码编写)相比,使用 Matplotlib 创建的绘图需要更多行代码和自定义绘图参数。

Matplotlib forms the backbone of most of the visualizations that are performed using Python.

Matplotlib 是使用 Python 进行大多数可视化的基础。

There are two interfaces in Matplotlib, stateful and object-oriented, that are described in Table 7-2.

Matplotlib 中有两种接口:有状态接口和面向对象接口,表 7-2 对这两种接口进行了描述。

使用 Matplotlib 绘图的方法 Approach for plotting using Matplotlib

The object-oriented approach is the recommended approach for plotting in Matplotlib because of the ability to control and customize each of the individual objects or plots. The following steps use the object-oriented methodology for plotting.

在 Matplotlib 中,推荐使用面向对象的绘图方法,因为这种方法可以控制和自定义每个单独的对象或绘图。以下步骤使用面向对象方法进行绘图。

Create a figure (the outer container) and set its dimensions:The plt.figure function creates a figure along with setting itsdimensions (width and height), as shown in the following.

创建图形(外部容器)并设置其尺寸:plt.figure 函数创建图形并设置其尺寸(宽度和高度),如下所示。

fig=plt.figure(figsize=(10,5))

Determine the number of subplots and assign positions foreach of the subplots in the figure:In the following example, we are creating two subplots and placing them vertically. Hence, we divide the figure into two rows and one column with one subplot in each section.The fig.add_subplot function creates an axes object or subplot and assigns a position to each subplot. The argument –211 (for the add_subplot function that creates the first axes object - “ax1”) means that we are giving it the first position in the figure with two rows and one column.The argument -212 (for the add_subplot function that creates the second axes object - “ax2”) means that we are giving the second position in the figure with two rows and one column. Note that the first digit indicates the number of rows, the second digit indicates the number of columns, and the last digit indicates the position of the subplot or axes.

确定子绘图的数量并为图中的每个子绘图指定位置:在下面的示例中,我们将创建两个子绘图,并将它们垂直放置。fig.add_subplot函数创建了一个坐标轴对象或子图,并为每个子图分配了一个位置。参数 -211 (用于创建第一个坐标轴对象的 add_subplot 函数 - “ax1”)表示我们要给它在图中的第一个位置,即两行一列。参数 -212 (用于创建第二个坐标轴对象的 add_subplot 函数 - “ax2”)表示我们要给它在图中的第二个位置,即两行一列。请注意,第一位数字表示行数,第二位数字表示列数,最后一位数字表示子图或坐标轴的位置。

ax1=fig.add_subplot(211)
ax2=fig.add_subplot(212)

Plot and label each subplot:After the positions are assigned to each subplot, we move on to generating the individual subplots. We are creating one histogram (using the hist function) and one bar plot (using the bar function). The x and y axes are labeled using the set_xlabel and set_ylabel functions.

绘制并标注各子图:为各子图分配位置后,我们开始绘制各子图。我们将创建一个直方图(使用 hist 函数)和一个条形图(使用 bar 函数)。使用 set_xlabel 和 set_ylabel 函数标注 x 轴和 y 轴。

labelling the x axis
ax1.set_xlabel("Age")
#labelling the yaxis
ax1.set_ylabel("Frequency")
#plotting a histogram using the hist function
ax1.hist(df['Age'])
#labelling the X axis
ax2.set_xlabel("Category")
#labelling the Y axis
ax2.set_ylabel("Numbers")
#setting the x and y lists for plotting the bar chart
x=['Males','Females']
y=[577,314]
#using the bar function to plot a bar graph
ax2.bar(x,y)

Note that the top half of Figure 7-1 is occupied by the first axes object (histogram), and the bottom half of the figure contains the second subplot (bar plot).

请注意,图 7-1 的上半部分是第一个坐标轴对象(直方图),下半部分是第二个子图(条形图)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/641405.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SAP CAP篇十三:拥抱TypeScript

本文目录 本系列文章从新开始为啥要用TypeScript官方文档程序框架从package.json开始tsconfig.jsonJest的配置 jest.config.js服务的实现自动化测试setup.ts文件夹integration 执行及测试对应代码及branch 本系列文章 SAP CAP篇一: 快速创建一个Service,基于Java的…

小程序商城 免 费 搭 建之java商城 电子商务Spring Cloud+Spring Boot+二次开发+mybatis+MQ+VR全景+b2b2c

java SpringCloud版本b2b2c鸿鹄云商平台全套解决方案 使用技术: Spring CloudSpring BootMybatis微服务服务监控可视化运营 B2B2C平台: 平台管理端(包含自营) 商家平台端(多商户入驻) PC买家端、手机wap/公众号买家端 微服务(30个通用…

Unity中URP下的SimpleLit的 BlinnPhong高光反射计算

文章目录 前言一、回顾Blinn-Phong光照模型1、Blinn-Phong模型: 二、URP下的SimpleLit的 BlinnPhong1、输入参数2、程序体计算 前言 在上篇文章中,我们分析了 URP下的SimpleLit的 Lambert漫反射计算。 Unity中URP下的SimpleLit的 Lambert漫反射计算 我…

Java基于沙箱环境实现支付宝支付

一、支付宝沙箱环境介绍 沙箱环境是支付宝开放平台为开发者提供的安全低门槛的测试环境,开发者在沙箱环境中调用接口无需具备所需的商业资质,无需绑定和开通产品,同时不会对生产环境中的数据造成任何影响。合理使用沙箱环境,可以…

【2024最新-python3小白零基础入门】No5.python函数的使用

文章目录 一 定义一个函数二 函数语法三 函数举例3.1 让我们使用函数来输出"Hello World!":3.2 比较两个数,并返回较大的数: 四 函数调用五 函数参数传递5.1 可更改(mutable)与不可更改(immutable)对象5.2 python 传不可变对象实例…

Android14实战:调整A2DP音量曲线(五十三)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒体系统工程师系列【原创干货持续更新中……】🚀 人生格言: 人生从来没有捷径,只…

【Linux install】Ubuntu和win双系统安装及可能遇到的所有问题

文章目录 1.前期准备1.1 制作启动盘1.2关闭快速启动、安全启动、bitlocker1.2.1 原因1.2.2 进入BIOSshell命令行进入BIOSwindows设置中高级启动在开机时狂按某个键进入BIOS 1.2.3 关闭Fast boot和Secure boot 1.3 划分磁盘空间1.3.1 查看目前的虚拟内存大小 2.开始安装2.1 使用…

大模型的学习路线图推荐—多维度深度分析【云驻共创】

🐲本文背景 近年来,随着深度学习技术的迅猛发展,大模型已经成为学术界和工业界的热门话题。大模型具有数亿到数十亿的参数,这使得它们在处理复杂任务时表现得更为出色,但同时也对计算资源和数据量提出了更高的要求。 …

源 “MySQL 5.7 Community Server“ 的 GPG 密钥已安装,但是不适用于此软件包。请检查源的公钥 URL 是否配置正确

Is this ok [y/d/N]: y Downloading packages: 警告:/var/cache/yum/x86_64/7/mysql57-community/packages/mysql-community-server-5.7.44-1.el7.x86_64.rpm: 头V4 RSA/SHA256 Signature, 密钥 ID 3a79bd29: NOKEY 从 file:///etc/pki/rpm-gpg/RPM-GPG-KEY-mysql 检…

redis pipeline实现,合并多个请求,可有效降低redis访问延迟

上代码 import redistry:pool redis.ConnectionPool(hosthost, portport)r redis.Redis(connection_poolpool) except Exception as e:print(f"Failed to connect to {host} with error: {e}") try:pipeline r.pipeline(transactionFalse) # Use the last Redis…

RK3568 Ubuntu关于rootfs大小问题

有关如何移植Ubuntu可以参考博客: RK3568 移植Ubuntu-CSDN博客 但是移植完成之后会发现一个问题,就是文件系统的容量已经满了,若想安装软件和库是不可能的,所以需要在打包镜像文件那里做个修改,以及修改parameter.txt文件 打包镜像文件 1、创建空镜像文件,大小为2048…

Linux防火墙常用命令

1、CentOS-7 注意:下列命令要用root账号/权限执行 1.1、查看防火墙状态 systemctl status firewalld1.2、非永久性关闭防火墙 systemctl stop firewalld1.3、非永久性开启防火墙 systemctl start firewalld1.4、重启防火墙 systemctl restart firewalld1.5、设…

C语言代码 打印100-200之间的素数

打印100-200之间的素数 编程思路&#xff1a; 素数判断规则&#xff1a;只能被1和它本身整除的数 第一步&#xff1a;先找出100-200的整数。第二步&#xff1a;在这些数中筛选出只能被1和它本身出能整除的数打印出来。 代码示例&#xff1a; #include <stdio.h> #incl…

Spring Boot 2.x 到 3.2 的全面升级指南

Spring Framework 是一种流行的开源企业级框架&#xff0c;用于创建在 Java Virtual Machine (JVM) 上运行的独立、生产级应用程序。而Spring Boot 是一个工具&#xff0c;可以让使用 Spring 框架更快、更轻松地开发 Web 应用程序和微服务。随着 Spring Boot 的不断发展&#x…

canvas绘制旋转的椭圆花

查看专栏目录 canvas实例应用100专栏&#xff0c;提供canvas的基础知识&#xff0c;高级动画&#xff0c;相关应用扩展等信息。canvas作为html的一部分&#xff0c;是图像图标地图可视化的一个重要的基础&#xff0c;学好了canvas&#xff0c;在其他的一些应用上将会起到非常重…

MySQL-函数-日期函数

常见的日期函数 案例

Flutter中extension扩展类介绍及使用指南

Flutter 是一种流行的跨平台移动应用开发框架&#xff0c;由Google推出。在Flutter的世界中&#xff0c;扩展类(extension)是一种强大的工具&#xff0c;可以帮助开发者更好地组织和重用代码。本文将介绍Flutter中扩展类的基本概念&#xff0c;并展示如何在你的应用程序中有效地…

Hypervisor 和Docker 还有Qemu有什么区别与联系?

Hypervisor Hypervisor是一种运行在基础物理服务器和操作系统之间的中间软件层&#xff0c;可以让多个操作系统和应用共享硬件资源&#xff0c;也叫做虚拟机监视器&#xff08;VMM&#xff09;。 Hypervisor有两种类型&#xff1a;Type I和Type II。 Type I 直接运行在硬件上&a…

Http常用状态码

200 OK 请求成功。 201 Created 该请求已成功&#xff0c;并因此创建了一个新的资源。这通常是在PUT请求之后发送的响应。 204 No Content 服务器成功处理了请求&#xff0c;但不需要返回任何实体内容&#xff0c;并且希望返回更新了的元信息。响应可能通过实体头部的形式…

LabVIEW电火花线切割放电点位置

介绍了一个电火花线切割放电点位置分布评价系统&#xff0c;特别是在系统组成、硬件选择和LabVIEW软件应用方面。 本系统由两个主要部分组成&#xff1a;硬件和软件。硬件部分包括电流传感器、高速数据采集卡、开关电源、电阻和导线。软件部分则由LabVIEW编程环境构成&#xf…