爬虫项目基础知识详解

文章目录

  • Python爬虫项目基础知识
    • 一、爬虫与数据分析
      • 1.1 Python中的requests库
        • Requests 库的安装
        • Requests 库的 get() 方法
        • 爬取网页的通用代码框架
        • HTTP 协议及 Requests 库方法
        • Requests 库主要方法解析
      • 1.2 python中的json库
      • 1.3 xpath学习之python中lxml库
        • html了解
        • html结构
        • html标签
        • html属性
      • 1.4xpath
        • xpath定义
        • xpath常见使用方法
        • xpath的谓语结构
      • 1.5 表格操作openpyxl
        • 演示代码
        • 创建工作簿
        • 操作数据
        • 一个单元格
        • 多个单元格
        • 仅值
        • 数据存储
        • 保存到文件
        • 另存为流
        • 从文件加载
      • 1.5 python中的时间库time
    • 二、可视化
      • 2.1 matplotlib模块学习
        • 2.2.1 折线图
          • a. 设置画布大小:
          • b. 自定义x轴、y轴刻度
          • c. x轴显示中文
          • d. 轴标签和标题
          • e. 添加网格线
          • f. 同一图中同时绘制多条折线
          • g. 同时绘制两个图
          • h. 绘制数学函数图像
          • i. 设置字体大小
        • 2.2.2 散点图绘制
        • 2.2.3 柱状图
          • a. 多组柱状图
          • b. 垂直水平方向的柱状图
        • 2.2.4 直方图
        • 2.2.5 饼图
      • 2.2 seaborn模块学习
        • 2.2.1 relplot()函数
          • 散点型
          • 折线型
        • 2.2.2 分类型绘图
          • 条形图
        • 2.2.3 泰坦尼克号案例学习
        • 2.2.4 箱体型绘图
        • 2.2.5 分布型绘图
          • 四变量两两关系分布图
        • 2.2.3 泰坦尼克号案例学习
        • 2.2.4 箱体型绘图
        • 2.2.5 分布型绘图
          • 四变量两两关系分布图
      • 2.3 pyecharts模块学习

Python爬虫项目基础知识

仅供参考,合法爬取

一、爬虫与数据分析

1.1 Python中的requests库

Requests 库的安装

Win 平台:“以管理员身份运行” cmd,执行 pip install requests,等待安装

Requests 库的安装小测

image-20240118171338025

Requests 库的 get() 方法

image-20240118171354536

response n. 响应;反应;回答
Response 对象包含服务器返回的所有信息,也包含请求的 Request 信息

r = requests.get( url , params=None , **kwargs )
//---url:拟获取页面的 url 链接
//---params:url 中的额外参数,字典或字节流格式,可选
//---**kwargs:12 个控制访问的参数

[补充]:参考 get 方法的文档可以看出 get 方法使用了 request 方法进行封装,也就是说 request 库一共提供 7 常用方法,除了第一个 request 方法外,其它的 6 个方法都是通过调用 request 方法实现的。其实也可以这样认为 requests 库其实只有一个方法,就是 request 方法,但是为了让大家编写程序更方便,提供了额外 6 个方法。

Requests 库的 2 个重要对象

image-20240118171405196

Response 对象的属性

属性说明
r.status_codeHTTP请求的返回状态, 200表示连接成功, 404表示失败
r.textHTTP响应内容的字符串形式,即, url对应的页面内容
r.encoding从HTTP header中猜测的响应内容编码方式
r.apparent_encoding从内容中分析出的响应内容编码方式(备选编码方式)
r.contentHTTP响应内容的二进制形式

r.status_code:只要不是200其实都是连接失败的 !!!!

image-20240118171414007

在使用 get 方法获取网上资源的基本流程:

image-20240118171420242

理解 Response 的编码:

  • r.encoding:编码方式是从 http 的 heder 中的 charset 字段获得的,如果 header 中不存在 charset,则默认认为编码为 ISO-8859-1,这样的编码不能解析中文。r.text 根据 r.encoding 显示网页内容
  • r.apparent_encoding:根据 http 的内容部分,而不是头部分,去分析内容中出现文本可能的编码形式。即根据网页内容分析出的编码方式, 可以看作是 r.encoding 的备选

image-20240118171429462

image-20240118171439275

为什么将 r.apparent_encoding 解析出来的编码方式赋给 r.encoding 后,网页中的中文就可以分析出来,难道 r.text 是以 r.encoding 的方式进行编码的吗?为什么头部分析出来的编码方式会与内容解析出来的不同?
答:r.text 是以 r.encoding 的方式进行编码

爬取网页的通用代码框架

在介绍爬取网页的通用代码框架之前,我们需要理解 Requests 库的异常

image-20240118171447618

r.raise_for_status():在方法内部判断 r.status_code 是否等于 200,不需要增加额外的 if 语句,该语句便于利用 try-except 进行异常处理,如果状态码不是200,产生异常 requests.HTTPError。

import requests
def getHTMLText(url):try:r = requests.get(url)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:# print(r.status_code)return "产生异常!"
if __name__=="__main__":url = "http://www.baidu.com"print(getHTMLText(url))
HTTP 协议及 Requests 库方法

HTTP,HyperText Transfer Protocol,超文本传输协议。是一个基于 “请求与响应” 模式的、无状态的应用层协议。无状态指的是第一次请求与第二次请求之间并没有相关的关联。HTTP 协议采用 URL 作为定位网络资源的标识。

URL 格式如下:http://host[:port][path]
      host:合法的 Internet 主机域名或 IP 地址
      port:端口号,缺省端口为 80
      path:请求资源的路径
HTTP 实例:http://www.bit.edu.cn
      http://220,181,111,188/duty

文件的路径一样,只不过这个文件不在电脑里,在 internet 上,那每一个 URL,对应了 internet 上的一个数据资源。

HTTP 协议对资源的操作

image-20240118171454085

理解 PATCH 和 PUT 的区别
假设 URL 位置有一组数据 UserInfo,包括 UserID、UserName 等20个字段
需求:用户修改了 UserName,其他不变。
采用 PATCH,仅向 URL 提交 UserName 的局部更新请求。
采用 PUT,必须将所有 20 个字段一并提交到 URL,未提交字段被删除。
PATCH 的最主要好处:节省网络带宽(当 URL 对应的资源是很庞大资源的时候)

image-20240118171500682

HTTP 协议与 Requests 库

image-20240118171508561

Requests 库的 head() 方法

image-20240118171518220

  • r.headers : 以字典对象存储服务器响应头,但是这个字典比较特殊,字典键不区分大小写,若键不存在则返回 None
Requests 库主要方法解析

Requests 库的 7 个主要方法

方法说明
requests.request()构造一个请求,支撑以下各方法的基础方法
requests.get()获取HTML网页的主要方法,对应于HTTP的GET
requests.head()获取HTML网页头信息的方法,对应于HTTP的HEAD
requests.post()向HTML网页提交POST请求的方法,对应于HTTP的POST
requests.put()向HTML网页提交PUT请求的方法,对应于HTTP的PUT
requests.patch()向HTML网页提交PUT请求的方法,对应于HTTP的PATCH
requests.delete()向HTML页面提交删除请求,对应于HTTP的DELETE
requests.request(method, url, **kwargs)
  • method:请求方式,对应get/put/post等七种
    • r = requests. request('GET', url, **kwargs)
    • r = requests.request('HEAD', url, **kwargs)
    • r = requests.request('POST', url, **kwargs)
    • r = requests.request('PUT', url, **kwargs)
    • r = requests.request('PATCH', url, **kwargs)
    • r = requests.request('delete', url, **kwargs)
    • r = requests.request('OPTIONS', url, **kwargs)
  • OPTIONS:向服务器获取一些服务器跟客户端能够打交道的参数,并不与获取资源直接相关。
  • url:拟获取页面的url链接
  • **kwargs:控制访问的参数,共 13 个
    • params:字典或字节序列,作为参数增加到ur1中
    • data:字典、字节序列或文件对象,作为Request的内容
    • json:JSON格式的数据,作为Request的内容
    • headers:字典,HTTP定制头
    • cookies:字典或CookieJar,Request中的cookie
    • auth:元组,支持HTTP认证功能
    • files:字典类型,传输文件
    • timeout:设定超时时间,秒为单位
    • proxies:字典类型,设定访问代理服务器,可以增加登录认证
    • redirects:True/False,默认为 True,重定向开关
    • stream:True/False,默认为 True,获取内容立即下载开关
    • verify:True/False,默认为 True,认证 SSL 证书开关
    • cert:本地 SSL 证书路径

使用示例:

kv = {'cn': '导演', 'pcn': '娱乐明星'}
r = requests.request('GET', 'http://tieba.baidu.com/f/index/forumpark', params=kv)
r.encoding = r.apparent_encoding
print(r.url)

这两种方法是等价的:
r = requests.request("get", "http://www.baidu.com")
r = requests.get("http://www.baidu.com")

fs = {'file':open('data.x1s','rb')}
r = requests.request('pOST','http://python123.io/ws',files=fs) 
pxs = { 'http':'http://xxx:xxx''https':'https://xxxx:xxx'         }
r = requests.request('GET','http://www.baidu.com',proxies=pxs) 

http 协议中,向某一个 url 提交资源的功能在服务器上是严格受控的,因为这存在很大的安全问题。

网络爬虫的尺寸:

小规模,数据量小中规模,数据规模较大大规模,搜索引擎
爬取速度不敏感爬取速度敏感爬取速度关键
Requests 库Scrapy 库定制开发
爬取网页、玩转网页爬取网站、爬取系列网站爬取全网

1.2 python中的json库

  • json数据是一种只包含双引号的字符串格式,任何对象经过json序列化后单引号也会转成双引号。
import jsondic={'name':'xiaohu'}
print(json.dumps(dic))   #{"name": "xiaohu"}i=8
print(json.dumps(i))   # 8
print(type(json.dumps(i)))  #<class 'str'>s='hello'
print(json.dumps(s))   #"hello"
print(type(json.dumps(s)))  #<class 'str'>l=[12,34]
print(json.dumps(l))   #[11, 22]
  • JSON表示的对象就是标准的JavaScript语言的对象,JSON和Python内置的数据类型对应如下:

    JSON类型Python类型
    {}dict
    []list
    “string”str
    数字int 或者float
    true/falseTrue/False
    nullNone
  • dumps()和loads()函数

f=open('序列化对象','w')
f.write(j)  #-------------------打开、写入两步等价于json.dump(dic,f)
f.close()
#-----------------------------反序列化<br>
import json
f=open('序列化对象')
data=json.loads(f.read())   #  打开、读两步等价于data=json.load(f)
  • 无论数据是怎样创建的,只要满足json格式,就可以json.loads出来,不一定非要dumps的数据才能loads
  • json.dumps()中的ensure_ascii=False

在使用json.dumps时要注意一个问题

image-20240118171535061

输出的会是
‘中国’ 中的ascii 字符码,而不是真正的中文。

这是因为json.dumps 序列化时对中文默认使用的ascii编码.想输出真正的中文需要指定ensure_ascii=False:

image-20240118171544569

python数据格式切换json的方法

json.dumps(data) python ---->json 数据格式转换

json.dump(data, filename) python ---->json 将转换后的数据保存到filename文件中

json.loads(data) json —>python 数据格式转换

json.load(data, filename) json —>python 将转换后的数据保存到filename文件中

1.3 xpath学习之python中lxml库

html了解

超文本标记语言,是用来描述网页的一种语言。主要用于控制数据的显示和外观。HTML文档一定意义上可以被称为网页。但反过来说网页不仅仅是HTML,网页本质有三部分构成:负责内容结构的HTML,负责表现的CSS,以及负责行为的javascript。本文主要分享的是最核心的内容结构部分。

html结构

完整的HTML文件至少包括标签、标签、标签和标签,并且这些标签都是成对出现的,开头标签为<>,结束标签为</>,在这两个标签之间添加内容。通过这些标签中的相关属性可以设置页面的背景色、背景图像等。<br/> 例如,我们打开豆瓣首页,摁下键盘上的F12键,打开浏览器自带**“开发者工具”**,可以看到一个完整的html文档结构,如下图

image-20240118171552633

从上图可以看出,一个完整的html文档主要包含三部分:DTD文档头,head头部信息和body正文信息。其中DTD文档头用来告诉浏览器执行标准是什么(比如html4或是html5),head头部信息用来说明浏览器的编码方式和文档头名称,body顾名思义就是浏览器的正文部分。

html标签

作为开始和结束的标记,由尖括号包围的关键词,比如 ,标签对中的第一个标签是开始标签,第二个标签是结束标签。html中常见标签如下:

image-20240118171601142

其中, “< ul >< li >”是一种嵌套顺序,无序列表,成对出现;li的父元素必须是ul或者ol,不同之处在于ol是一种有序列列表,而ul是无序列表;

html属性

属性是用来修饰标签的,放在开始标签里里面,html中常见四大属性:

属性说明
class规定元素的类名,大多数时候用于指定样式表中的类
id唯一标识一个元素的属性,在html里面必须是唯一的
href指定超链接目标的url
src指定图像的url

1.4xpath

xpath定义

是一种路径查询语言,简单的说就是利用一个路径表达式从html文档中找到我们需要的数据位置,进而将其写入到本地或者数据库中。(可以将xpath类比为sql结构化查询语言)

xpath常见使用方法
符号功能
//表示在整个文本中查找,是一种相对路径
/表示则表示从根节点开始查找,是一种绝对路径
text()找出文本值
@找出标签对应的属性值,比如@href就是找出对应的href链接
.表示当前节点
表示当前节点的父节点

当然xpath除了上述常见用法外,还存两种比较特殊的用法:以相同的字符开头;标签套标签。

用法1:以相同的字符开头:starts-with(@属性部分,属性字符相同部分

用法2:标签套标签:string(.)

#以相同的字符开头
#比如我们想同时提取到下列html中三条文本内容的话,就需要使用starts-with方法
html1 = """
<!DOCTYPE html>
<html><head lang='en'><meta charest='utf-8'><title></title></head><body><div id="test-1">需要的内容1</div><div id="test-2">需要的内容2</div><div id="testfault">需要的内容3</div></body>
</html>
"""#爬取代码
from lxml import etree
selector = etree.HTML(html1)
content  = selector.xpath('//div[starts-with(@id,"test")]/text()')
for each in content:print each

还有一种是标签套标签形式,参考如下例子

html2 = """
<!DOCTYPE html>
<html><head lang='en'><meta charest='utf-8'><title></title></head><body><div id="test3">我左青龙,<span id='tiger'>右白虎<ul>上朱雀,<li>下玄武,</li></ul></span>龙头在胸口</div></body>
</html>
"""
#如果我们想爬取的内容是html文档中的所有文本的话,需要使用string方法进行提取
selector2 = etree.HTML(html2)
content2  = selector2.xpath('//div[@id="test3"]')[0] #列表,只有一个元素
info = content2.xpath('string(.)')
content3 = info.replace('\n','').replace(' ','')
print content3
xpath的谓语结构

所谓"谓语条件",就是对路径表达式的附加条件。所有的条件,都写在方括号"[]"中,表示对节点进行进一步的筛选。例如:

<?xml version="1.0" encoding="ISO-8859-1"?>
<bookstore><book><title lang="eng">Harry Potter</title><price>29.99</price></book><book><title lang="eng">Learning XML</title><price>39.95</price></book><book><title lang="eng">Harry Potter</title><price>29.99</price></book><book><title lang="eng">Learning XML</title><price>39.95</price></book><book><title lang="eng">Harry Potter</title><price>29.99</price></book><book><title lang="eng">Learning XML</title><price>39.95</price></book>
</bookstore>

下面从几个简单的例子让大家体会一下

  • /bookstore/book[1] :表示选择bookstore的第一个book子元素。
  • /bookstore/book[last()] :表示选择bookstore的最后一个book子元素。
  • /bookstore/book[last()-1] :表示选择bookstore的倒数第二个book子元素。
  • /bookstore/book[position()❤️] :表示选择bookstore的前两个book子元素。
  • //title[@lang] :表示选择所有具有lang属性的title节点。
  • //title[@lang=‘eng’] :表示选择所有lang属性的值等于"eng"的title节点。
<tr><td valign="top"><input type="radio" name="payment" value="1" checked="" iscod="0"></td><td valign="top"><strong>数加科技</strong></td>
</tr>
//strong[text()="数加科技"]/../../td[1]/input
函数说明举例
contains选取属性或者文本包含某些字符//div[contains(@id, ‘data’)] 选取 id 属性包含 data 的 div 元素 //div[contains(string(), ‘支付宝’)] 选取内部文本包含“支付宝”的 div 元素
starts-with选取属性或者文本以某些字符开头//div[starts-with(@id, ‘data’)] 选取 id 属性以 data 开头的 div 元素 //div[starts-with(string(), ‘银联’)] 选取内部文本以“银联”开头的 div 元素
ends-with选取属性或者文本以某些字符开头//div[ends-with(@id, ‘require’)] 选取 id 属性以 require 结尾的 div 元素 //div[ends-with(string(), ‘支付’)] 选取内部文本以“支付”结尾的 div 元素

1.5 表格操作openpyxl

用于读取和写入 Excel 2010 xlsx/xlsm/xltx/xltm 文件。通过 pip install openpyxl 命令下载 openpyxl 库。

演示代码

通过下面的演示代码,可以快速创建一个名为 sample.xlsx 的表格文件:

from openpyxl import Workbook
import datetime# 创建一个工作簿
wb = Workbook()
# 获取活动工作表
ws = wb.active
# 数据可以直接分配到单元格
ws['A1'] = 42
# 行也可以追加
ws.append([1, 2, 3])
# Python类型将自动转换
ws['A2'] = datetime.datetime.now()
# 保存文件
wb.save("sample.xlsx")

image-20240118171613207

创建工作簿

不需要提前在文件系统上创建文件,直接就可以使用 openpyxl 开始创建表格。先导入 Workbook 类,再使用 Workbook.active 方法获取一个工作表:

from openpyxl import Workbook
wb = Workbook()
ws = wb.active

默认情况下 Workbook.active(value) 方法中的 value0,即使用此方法获得第一个工作表,我们可以修改此值。也可以使用 Workbook.create_sheet() 方法创建新的工作表:

# 在末尾插入(默认)
ws1 = wb.create_sheet("Mysheet")
# 插入第一个位置
ws2 = wb.create_sheet("Mysheet", 0)
# 倒数第二个位置插入
ws3 = wb.create_sheet("Mysheet", -1)

我们可以随时通过 Worksheet.title 属性更改工作表名称:

ws.title = "New Title"

给工作表命名后,就可以将其作为工作簿的键值,以指向对应的工作表,并可以使用 Workbook.sheetname 属性查看工作簿中所有工作表的名称,亦可以遍历工作表:

ws3 = wb["New Title"]print(wb.sheetnames)  # ['Sheet2', 'New Title', 'Sheet1']for sheet in wb:print(sheet.title)

我们可以复制某个工作簿,创建一个副本。该行为仅复制单元格(值、样式、超链接、注释)和某些工作表属性(尺寸、格式、属性),如果工作簿以 read-onlywrite-only 只读模式打开,则不能复制工作表:

source = wb.active
target = wb.copy_worksheet(source)
操作数据

单元格可以直接作为工作表中的键值进行访问,例如返回 A4 处的单元格,如果不存在则创建一个单元格,可以直接分配值:

c = ws['A4']
ws['A4'] = 4
一个单元格

通过 Worksheet.cell() 方法可以使用 定位要访问的单元格:

d = ws.cell(row=4, column=2, value=10)
多个单元格

我们可以通过切片访问单元格范围,行或列的范围可以用类似方法获得:

cell_range = ws['A1':'C2']
colC = ws['C']
col_range = ws['C:D']
row10 = ws[10]
row_range = ws[5:10]

也可以使用 Worksheet.iter_rows()Worksheet.iter_cols() 方法获取行、列,但是由于性能原因,这两个方法在 只读 模式下不可用:

for row in ws.iter_rows(min_row=1, max_col=3, max_row=2):for cell in row:print(cell)
# <Cell Sheet1.A1>
# <Cell Sheet1.B1>
# <Cell Sheet1.C1>
# <Cell Sheet1.A2>
# <Cell Sheet1.B2>
# <Cell Sheet1.C2>
for col in ws.iter_cols(min_row=1, max_col=3, max_row=2):for cell in col:print(cell)
# <Cell Sheet1.A1>
# <Cell Sheet1.A2>
# <Cell Sheet1.B1>
# <Cell Sheet1.B2>
# <Cell Sheet1.C1>
# <Cell Sheet1.C2>

如果需要遍历所有行或列,则可以使用 Worksheet.rowsWorksheet.columns 属性,但是同样在 只读 模式下不可用:

ws = wb.active
ws['C9'] = 'hello world'
tuple(ws.rows)
# ((<Cell Sheet.A1>, <Cell Sheet.B1>, <Cell Sheet.C1>),
# (<Cell Sheet.A2>, <Cell Sheet.B2>, <Cell Sheet.C2>),
# (<Cell Sheet.A3>, <Cell Sheet.B3>, <Cell Sheet.C3>),
# (<Cell Sheet.A4>, <Cell Sheet.B4>, <Cell Sheet.C4>),
# (<Cell Sheet.A5>, <Cell Sheet.B5>, <Cell Sheet.C5>),
# (<Cell Sheet.A6>, <Cell Sheet.B6>, <Cell Sheet.C6>),
# (<Cell Sheet.A7>, <Cell Sheet.B7>, <Cell Sheet.C7>),
# (<Cell Sheet.A8>, <Cell Sheet.B8>, <Cell Sheet.C8>),
# (<Cell Sheet.A9>, <Cell Sheet.B9>, <Cell Sheet.C9>))
tuple(ws.columns)
# ((<Cell Sheet.A1>,
# <Cell Sheet.A2>,
# <Cell Sheet.A3>,
# <Cell Sheet.A4>,
# <Cell Sheet.A5>,
# <Cell Sheet.A6>,
# ...
# <Cell Sheet.C9>))
仅值

如果只需要工作表中的值,则可以使用 Worksheet.columns 属性,这会遍历工作表中的所有行,但仅返回单元格的值:

for row in ws.values:for value in row:print(value)

通过 Worksheet.iter_rows()Worksheet.iter_cols() 可以获取 values_only 参数,只返回单元格的值:

for row in ws.iter_rows(min_row=1, max_col=3, max_row=2, values_only=True):print(row)
# (None, None, None)
# (None, None, None)

如果我们只需要工作表的 最大行数最大列数,可以使用 max_rowmax_column 属性获取,例如一个4行15列的工作表:

print(ws.max_row)  # 4
print(ws.max_column)  # 15
数据存储

有了 Cell 就可以为其分配一个值:

c.value = 'hello, world'
print(c.value)  # 'hello, world'
d.value = 3.14
print(d.value)  # 3.14
保存到文件

保存工作簿的最简单、安全的方法是使用对象的 Workbook.save() 方法:

wb = Workbook()
wb.save('balances.xlsx')

如果文件已经存在,此操作将覆盖现有文件,不会抛出异常或警告。

另存为流

如果要将文件保存到流中,例如在使用Web应用程序(PyramidFlaskDjango)时,只需使用 NamedTemporaryFile() 方法即可:

from tempfile import NamedTemporaryFile
from openpyxl import Workbook
wb = Workbook()
with NamedTemporaryFile() as tmp:wb.save(tmp.name)tmp.seek(0)stream = tmp.read()

我们也可以指定属性 template=True,将工作簿另存为模板:

wb = load_workbook('document.xlsx')
wb.template = True
wb.save('document_template.xltx')

或将 template 属性设置为 False(默认),以另存为文档:

wb = load_workbook('document_template.xltx')
wb.template = False
wb.save('document.xlsx', as_template=False)
从文件加载

可以通过 openpyxl.load_workbook() 打开现有的工作簿:

from openpyxl import load_workbook
wb2 = load_workbook('test.xlsx')
print(wb2.sheetnames)  # ['Sheet2', 'New Title', 'Sheet1']

1.5 python中的时间库time

import time
store_date = time.strftime('%Y-%m-%d %H:%M:%S', time.localtime(int(time.time())))
print("今天是 beijingriqi_%s,%s" % (store_date, 'asda'))
[output]:
今天是 beijingriqi_2022-04-17 23:30:43,asda

二、可视化

2.1 matplotlib模块学习

快速安装

pip install matplotlib
2.2.1 折线图
import matplotlib.pyplot as plt
import randomx=range(10) # 定义x轴的数据 列表的数据类型
y=[random.uniform(15,35) for i in x] # 定义y轴的数据  # 列表的数据类型plt.plot(x, y) # 绘制图像
plt.savefig('a1.png') # 保存图像 在当前目录保存名为test.png的图片,必须在show方法前否则图片就是空白
# plt.show() # 展示图像

image-20240118171629356

a. 设置画布大小:

我们使用plt.figure()函数来设置画布大小,其参数如下:

  • figsize : 设置画布的大小,单位英寸 长,宽
  • dpi : 设置清晰度
import matplotlib.pyplot as plt
import randomx=range(10) # 定义x轴的数据
y=[random.uniform(15,35) for i in x] # 定义y轴的数据plt.figure(figsize=(20,8),dpi=80) # 设置画布大小与清晰度plt.plot(x, y) # 绘制图像
plt.show() # 展示图像

image-20240118171637095

b. 自定义x轴、y轴刻度

xticks,yticks使用自定义刻度的函数,它有两个参数:

  • ticks:要显示x轴的刻度
  • labels:给对应的x刻度设置一个标签,并且覆盖之前的刻度,与传入ticks的列表长度要相等。

x轴每隔2两个数显示

import matplotlib.pyplot as plt
import randomx=range(10) # 定义x轴的数据
y=[random.uniform(15,35) for i in x] # 定义y轴的数据plt.figure(figsize=(20,8),dpi=80) # 设置画布大小与清晰度plt.xticks(x[::1]) # 定义显示的x轴步长为1plt.plot(x, y) # 绘制图像
plt.show() # 展示图像

image-20240118171644583

c. x轴显示中文

matplotlib默认字体是不支持中文的需要更改,有多种方法,现在只提供一种

import matplotlib.pyplot as plt
import randomx=range(10) # 定义x轴的数据
y=[random.uniform(15,35) for i in x] # 定义y轴的数据plt.figure(figsize=(20,8),dpi=80) # 设置画布大小与清晰度plt.xticks(x[::2],["1月","2月","3月","4月","5月"]) # 第二个参数可以指定显示字符串,不过传入xticks的这两个参数长度要相等plt.plot(x, y) # 绘制图像
plt.show() # 展示图像

image-20240118171652537

修改matplotlib默认字体,使它支持显示中文

方法一:

import matplotlib.pyplot as plt
import randomplt.rcParams['font.sans-serif']=['SimHei']  # 用来正常显示中文标签x=range(10) # 定义x轴的数据
y=[random.uniform(15,35) for i in x] # 定义y轴的数据plt.figure(figsize=(20,8),dpi=80) # 设置画布大小与清晰度plt.xticks(x[::2],["1月","2月","3月","4月","5月"]) # 第二个参数可以指定显示字符串,不过传入xticks的这两个参数长度要相等plt.plot(x, y) # 绘制图像
plt.show() # 展示图像

方法二:

修改全局字体样式,需要使用 matplotlib 模块的 rcParamsfrom matplotlib import rcParamsrcParams['font.family'] = 'SimHei' # 黑体

常用字体

宋体:SimSun
黑体:SimHei
微软雅黑:Microsoft YaHei
微软正黑体:Microsoft JhengHei
新宋体:NSimSun
新细明体:PMingLiU
细明体:MingLiU
标楷体:DFKai-SB
仿宋:FangSong
楷体:KaiTi
隶书:LiSu
幼圆:YouYuan
华文细黑:STXihei
华文楷体:STKaiti
华文宋体:STSong
华文中宋:STZhongsong
华文仿宋:STFangsong
方正舒体:FZShuTi
方正姚体:FZYaoti
华文彩云:STCaiyun
华文琥珀:STHupo
华文隶书:STLiti
华文行楷:STXingkai
华文新魏:STXinwei
d. 轴标签和标题

xlabelylabel使用修改x,y轴标签

title可修改标题

import matplotlib.pyplot as plt
import randomplt.rcParams['font.sans-serif']=['SimHei']  # 用来正常显示中文标签x=range(10) # 定义x轴的数据
y=[random.uniform(15,35) for i in x] # 定义y轴的数据plt.figure(figsize=(20,8),dpi=80) # 设置画布大小与清晰度plt.xticks(x[::2],["1月","2月","3月","4月","5月"]) # 第二个参数可以指定显示字符串,不过传入xticks的这两个参数长度要相等plt.xlabel("时间变化") # 修改标签
plt.ylabel("温度变化")plt.title("我是标题") # 修改标题plt.plot(x, y) # 绘制图像
plt.show() # 展示图像

image-20240118171701090

e. 添加网格线

grid方法来设置图表中的网格线

import matplotlib.pyplot as plt
import randomplt.rcParams['font.sans-serif']=['SimHei']  # 用来正常显示中文标签x=range(60) # 定义x轴的数据
y=[random.uniform(15,18) for i in x] # 定义y轴的数据plt.figure(figsize=(20,8),dpi=80) # 设置画布大小与清晰度plt.plot(x, y) # 绘制图像plt.xticks(x[::5],["{}分钟".format(i) for i in x][::5]) # 第二个参数可以指定显示字符串,不过传入xticks的这两个参数长度要相等
plt.yticks(range(0,40,5)) # 自定义y轴刻度
plt.xlabel("时间变化") # 修改标签
plt.ylabel("温度变化")plt.title("我是标题") # 修改标题# 增加网格显示,0.5表示透明度为50%
plt.grid(linestyle="--",alpha=0.5)plt.show() # 展示图像

image-20240118171710232

f. 同一图中同时绘制多条折线

只是数据多准备一份罢了,基本什么区别
例外再添加上图例legend,可读性更好

import matplotlib.pyplot as plt
import randomplt.rcParams['font.sans-serif']=['SimHei']  # 用来正常显示中文标签x=range(60) # 定义x轴的数据
y_1=[random.uniform(15,18) for i in x] # 定义y轴的数据
y_2=[random.uniform(1,3) for i in x] # 定义y轴的数据plt.figure(figsize=(20,8),dpi=80) # 设置画布大小与清晰度plt.plot(x, y_1,label="上海") # 绘制图像
plt.plot(x, y_2,label="北京") # 绘制图像plt.xticks(x[::5],["{}分钟".format(i) for i in x][::5]) # 第二个参数可以指定显示字符串,不过传入xticks的这两个参数长度要相等
plt.yticks(range(0,40,5)) # 自定义y轴刻度plt.xlabel("时间变化") # 修改标签
plt.ylabel("温度变化")plt.title("我是标题") # 修改标题# 增加网格显示,0.5表示透明度为50%
plt.grid(linestyle="--",alpha=0.5)plt.legend() #绘制图例plt.show() # 展示图像

image-20240118171718829

g. 同时绘制两个图
import matplotlib.pyplot as plt
import randomplt.rcParams['font.sans-serif']=['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号# x,y轴的数据
x=range(60)
y_shanghai=[random.uniform(15,18) for i in x]
# 另一个城市
y_beijing=[random.uniform(1,3) for i in x]'''
fig 表示的是要绘制的一个画布,
ax 表示的是在fig这个画布的对象上,具体要绘制的对象子图。
'''
fig, ax = plt.subplots(1,2,figsize=(20,8),dpi=80) # 把画布分成一行两列ax[0].plot(x,y_shanghai,'b--',label='上海') 
ax[1].plot(x,y_beijing,'r',label='北京')# 图例,必须在plot后面 简单显示图例
ax[0].legend()
ax[1].legend()
# 修改x y刻度
x_label=["11点{}分".format(i) for i in range(60)]
ax[0].set_xticks(x[::5],x_label[::5])
ax[0].set_yticks(range(0,40,5))ax[1].set_xticks(x[::5],x_label[::5])
ax[1].set_yticks(range(0,40,5))
# 增加网格显示
ax[0].grid(linestyle="--",alpha=0.5)ax[1].grid(linestyle="--",alpha=0.5)# 添加描述信息
ax[0].set_xlabel('时间变化')
ax[0].set_ylabel('温度变化')
ax[0].set_title('上海城市11点到12点每分钟的温度变化状况1')ax[1].set_xlabel('时间变化')
ax[1].set_ylabel('温度变化')
ax[1].set_title('北京城市11点到12点每分钟的温度变化状况2')
plt.show()

image-20240118171725665

h. 绘制数学函数图像
import matplotlib.pyplot as plt
import numpy as np; x=np.linspace(-10,10,1000000)
y=x**2plt.figure(figsize=(8,8),dpi=80)
plt.grid(linestyle='--',alpha=0.5)
plt.plot(x,x**2) 
plt.show()

image-20240118171741397

i. 设置字体大小

在前面的例子中感觉显示的字体太小了,看的不舒服,现在来设置一下。
通过plt.rcParams['font.size']=18来指定字体的大小

import matplotlib.pyplot as plt
import randomplt.rcParams['font.sans-serif']=['SimHei']  # 用来正常显示中文标签
plt.rcParams['font.size']=18  # 设置字体大小
x=range(60) # 定义x轴的数据
y=[random.uniform(15,18) for i in x] # 定义y轴的数据plt.figure(figsize=(20,8),dpi=80) # 设置画布大小与清晰度plt.plot(x, y) # 绘制图像plt.xticks(x[::5],["{}分钟".format(i) for i in x][::5]) # 第二个参数可以指定显示字符串,不过传入xticks的这两个参数长度要相等
plt.yticks(range(0,40,5)) # 自定义y轴刻度
plt.xlabel("时间变化") # 修改标签
plt.ylabel("温度变化")plt.title("我是标题") # 修改标题# 增加网格显示,0.5表示透明度为50%
plt.grid(linestyle="--",alpha=0.5)plt.show() # 展示图像

image-20240118171753445

2.2.2 散点图绘制

主要使用scatter方法来绘制散点图,参数如下:
参数说明:

  • x,y:长度相同的数组,也就是我们即将绘制散点图的数据点,输入数据。
  • s:点的大小,默认 20,也可以是个数组,数组每个参数为对应点的大小。
  • c:点的颜色,默认蓝色 ‘b’,也可以是个 RGB 或 RGBA 二维行数组。
  • marker:点的样式,默认小圆圈 ‘o’。
  • cmap:Colormap,默认 None,标量或者是一个 colormap 的名字,只有 c 是一个浮点数数组的时才使用。如果没有申明就是 image.cmap。
  • norm:Normalize,默认 None,数据亮度在 0-1 之间,只有 c 是一个浮点数的数组的时才使用。
  • vmin,vmax::亮度设置,在 norm 参数存在时会忽略。
  • alpha::透明度设置,0-1 之间,默认 None,即不透明。
  • linewidths::标记点的长度。
  • edgecolors::颜色或颜色序列,默认为 ‘face’,可选值有 ‘face’, ‘none’, None。
  • plotnonfinite::布尔值,设置是否使用非限定的 c ( inf, -inf 或 nan) 绘制点。
  • **kwargs::其他参数。
import matplotlib.pyplot as plt
import numpy as np
plt.rcParams['font.size'] = 18
x = np.array([1, 2, 3, 4, 5, 6, 7, 8])
y = np.array([1, 4, 9, 16, 7, 11, 23, 18])
sizes = np.array([20,50,100,200,500,1000,60,90])
plt.figure(figsize=(8,8),dpi=80)
plt.scatter(x,y,s=sizes) # 绘制散点图
plt.show()# 注意:散点图的数据是一维矩阵 并非是列表数据类型

image-20240118171805569

2.2.3 柱状图

主要使用 bar() 方法来绘制柱形图。
bar() 方法语法格式如下:

  • x:浮点型数组,柱形图的 x 轴数据。
  • height:浮点型数组,柱形图的高度。
  • width:浮点型数组,柱形图的宽度。
  • bottom:浮点型数组,底座的 y 坐标,默认 0。
  • align:柱形图与 x 坐标的对齐方式,‘center’ 以 x 位置为中心,这是默认值。 ‘edge’:将柱形图的左边缘与 x 位置对齐。要对齐右边缘的条形,可以传递负数的宽度值及 align=‘edge’。
  • **kwargs::其他参数。
import matplotlib.pyplot as plt
import numpy as np
plt.rcParams['font.sans-serif']=['SimHei']  # 用来正常显示中文标签
movie_names = ['雷神3:诸神黄昏','正义联盟','东方快车谋杀案','寻梦环游记','全球风暴', '降魔传','追捕','七十七天','密战','狂兽','其它']
tickets = [73853,57767,22354,15969,14839,8725,8716,8318,7916,6764,52222]
x = range(len(movie_names))plt.figure(figsize=(20,8),dpi=80)
plt.bar(x,tickets,color=['b','g','r','c','m','y','k'])
plt.xticks(x,movie_names)
plt.title('电影票房收入对比')
plt.grid(linestyle='--',alpha=0.5)
plt.show()

image-20240118171821841

a. 多组柱状图
import matplotlib.pyplot as plt
import numpy as npplt.rcParams['font.sans-serif']=['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号movie_name = ['雷神3:诸神黄昏','正义联盟','寻梦环游记']
first_day = [10587.6,10062.5,1275.7]
first_weekend=[36224.9,34479.6,11830]plt.figure(figsize=(20,8),dpi=80)x=range(len(movie_name))
plt.bar(x,first_day,width=0.2,label='首日票房') # 绘制第一组柱状图
plt.bar([i+0.2 for i in x],first_weekend,width=0.2,label='首周票房') # 绘制第二组柱状图plt.legend() # 绘制图例plt.xticks([i+0.1 for i in x],movie_name) # 修改x轴刻度plt.show()

image-20240118171829046

b. 垂直水平方向的柱状图

垂直方向的柱状图可以使用barh() 方法来设置:

import matplotlib.pyplot as pltx = ["Runoob-1", "Runoob-2", "Runoob-3", "C-RUNOOB"]
y = [12, 22, 6, 18]
plt.figure(figsize=(20,8),dpi=80)
plt.barh(x,y)
plt.show()

image-20240118171836316

2.2.4 直方图

使用hist()方法来绘制直方图

import matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号import matplotlib.pyplot as plt# 电影时长分布状况
time = [131,  98, 125, 131, 124, 139, 131, 117, 128, 108, 135, 138, 131, 102, 107, 114, 119, 128, 121, 142, 127, 130, 124, 101, 110, 116, 117, 110, 128, 128, 115,  99, 136, 126, 134,  95, 138, 117, 111,78, 132, 124, 113, 150, 110, 117,  86,  95, 144, 105, 126, 130,126, 130, 126, 116, 123, 106, 112, 138, 123,  86, 101,  99, 136,123, 117, 119, 105, 137, 123, 128, 125, 104, 109, 134, 125, 127,105, 120, 107, 129, 116, 108, 132, 103, 136, 118, 102, 120, 114,105, 115, 132, 145, 119, 121, 112, 139, 125, 138, 109, 132, 134,156, 106, 117, 127, 144, 139, 139, 119, 140,  83, 110, 102,123,107, 143, 115, 136, 118, 139, 123, 112, 118, 125, 109, 119, 133,112, 114, 122, 109, 106, 123, 116, 131, 127, 115, 118, 112, 135,115, 146, 137, 116, 103, 144,  83, 123, 111, 110, 111, 100, 154,136, 100, 118, 119, 133, 134, 106, 129, 126, 110, 111, 109, 141,120, 117, 106, 149, 122, 122, 110, 118, 127, 121, 114, 125, 126,114, 140, 103, 130, 141, 117, 106, 114, 121, 114, 133, 137,  92,121, 112, 146,  97, 137, 105,  98, 117, 112,  81,  97, 139, 113,134, 106, 144, 110, 137, 137, 111, 104, 117, 100, 111, 101, 110,105, 129, 137, 112, 120, 113, 133, 112,  83,  94, 146, 133, 101,131, 116, 111,  84, 137, 115, 122, 106, 144, 109, 123, 116, 111,111, 133, 150]
plt.figure(figsize=(20,8),dpi=80)distince = 2 # 每组的间距
plt.hist(time,(max(time)-min(time))//distince)
plt.xticks(range(min(time),max(time)+2,distince))plt.grid(linestyle='--',alpha=0.5)
plt.xlabel('电影时长大小')
plt.ylabel('电影的数据量')
plt.title("电影时长分布")
plt.show()

image-20240118171844291

2.2.5 饼图

使用 pyplot 中的 pie() 方法来绘制饼图。
参数说明:

  • x:浮点型数组,表示每个扇形的面积。
  • explode:数组,表示各个扇形之间的间隔,默认值为0。
  • labels:列表,各个扇形的标签,默认值为 None。
  • colors:数组,表示各个扇形的颜色,默认值为 None。
  • autopct:设置饼图内各个扇形百分比显示格式,%d%% 整数百分比,%0.1f 一位小数, %0.1f%% 一位小数百分比, %0.2f%% 两位小数百分比。
  • labeldistance:标签标记的绘制位置,相对于半径的比例,默认值为 1.1,如 <1则绘制在饼图内侧。
  • pctdistance::类似于 labeldistance,指定 autopct 的位置刻度,默认值为 0.6。
  • shadow::布尔值 True 或 False,设置饼图的阴影,默认为 False,不设置阴影。
  • radius::设置饼图的半径,默认为 1。
  • startangle::起始绘制饼图的角度,默认为从 x 轴正方向逆时针画起,如设定 =90 则从 y 轴正方向画起。
  • counterclock:布尔值,设置指针方向,默认为 True,即逆时针,False 为顺时针。
  • wedgeprops :字典类型,默认值 None。参数字典传递给 wedge 对象用来画一个饼图。例如:wedgeprops={‘linewidth’:5} 设置 wedge 线宽为5。
  • textprops :字典类型,默认值为:None。传递给 text 对象的字典参数,用于设置标签(labels)和比例文字的格式。
  • center :浮点类型的列表,默认值:(0,0)。用于设置图标中心位置。
    frame :布尔类型,默认值:False。如果是 True,绘制带有表的轴框架。
    rotatelabels :布尔类型,默认为 False。如果为 True,旋转每个 label 到指定的角度。
import matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号movie_name = ['雷神3:诸神黄昏','正义联盟','东方快车谋杀案','寻梦环游记','全球风暴','降魔传','追捕','七十七天','密战','狂兽','其它']
place_count = [60605,54546,45819,28243,13270,9945,7679,6799,6101,4621,20105]
plt.figure(figsize=(20,8),dpi=80)
plt.pie(place_count,labels=movie_name,autopct='%1.2f%%')
plt.legend()
plt.axis('equal') # 确保饼图能化成一个圆
plt.show()

image-20240118171851989

2.2 seaborn模块学习

下载模块

pip install seaborn

引入模块

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

读取数据

tips = pd.read_csv('tips.csv')
tips.head()

image-20240118171900251

2.2.1 relplot()函数

seaborn.relplot()
这个函数功能非常强大,可以用来表示多个变量之间的关联关系。默认情况下是绘制散点图,也可以绘制线性图,具体绘制什么图形是通过kind参数来决定的。实际上以下两个函数就是relplot的特例:
散点类型:scatterplot -> relplot(kind=“scatter”)
线性类型:lineplot -> relplot(kind=“line”)

参数:x, y    vectors or keys in data指定x轴和y轴上位置的变量hue    vector or key in data将生成具有不同颜色的元素的分组变量。可以是按类别的(categorical),也可以是数字的,不过在后一种情况下,颜色映射的行为会有所不同。size    vector or key in data将生成不同大小元素的分组变量。可以是按类别的(categorical),也可以是数字的,在后一种情况下,大小映射的行为会有所不同。style   vector or key in data将生成具有不同样式的元素的分组变量。可以具有数字数据类型,但将始终被视为按类别的(categorical)。data    pandas.DataFrame, numpy.ndarray, mapping, or sequence输入数据结构。要么是可以分配给命名变量的向量的长形式集合,要么是将进行内部整形的宽形式数据集。row, col    vectors or keys in data定义要在不同面上绘制的子集的变量。col_wrap   int以该宽度“包裹”列变量,使列面跨越多行。与行方面不兼容。row_order, col_order   lists of strings按顺序组织网格中的行和/或列,否则将从数据对象推断顺序。palette   string, list, dict, or matplotlib.colors.Colormap映射色调时选择要使用的颜色的方法。字符串值传递给color_palete()。List或dict值表示按类别的映射,而colormap对象表示数字映射。hue_order   vector of strings指定色调语义分类级别的处理和打印顺序。hue_norm    tuple or matplotlib.colors.Normalize以数据单位设置归一化范围的一对值,或将从数据单位映射到[0,1]区间的对象。用法意味着数字映射。sizes  list, dict, or tuple确定使用大小时如何选择大小的对象。它始终可以是大小值列表或大小变量到大小的dict映射级别。当大小为数字时,它也可以是一个元组,指定要使用的最小和最大大小,以便在此范围内规范化其他值。size_order   list指定大小变量级别的出现顺序,否则将根据数据确定。大小变量为数字时不相关。size_norm   tuple or Normalize object当尺寸变量为数字时,以数据单位进行归一化,以缩放打印对象。style_order  list指定样式变量级别的外观顺序,否则将根据数据确定。当样式变量为数字时不相关。dashes  boolean, list, or dictionary用于确定如何为样式变量的不同级别绘制线。设置为True将使用默认的破折号代码,或者可以将破折号代码列表或样式变量的字典映射级别传递给破折号代码。设置为False将对所有子集使用实线。破折号在matplotlib中指定:一个(段、间隙)长度的元组,或一个用于绘制实线的空字符串。markers  boolean, list, or dictionary确定如何为样式变量的不同级别绘制标记。设置为True将使用默认标记,或者可以将标记列表或将样式变量的字典映射级别传递给标记。设置为False将绘制无标记线。标记在matplotlib中指定。legend    “auto”, “brief”, “full”, or False如何绘制图例。如果“简短”,数字色调和大小变量将用均匀分布的值样本表示。如果“已满”,每组将在图例中获得一个条目。如果为“自动”,则根据级别数在简短表示或完整表示之间进行选择。如果为False,则不添加图例数据,也不绘制图例。kind  stringKind of plot to draw(这是一种要绘制的图), corresponding to a seaborn relational plot. Options are {scatter and line}.height   scalar每个面的高度(英寸)aspect   scalar每个面的纵横比,因此纵横比*高度(aspect*height)表示每个面的宽度facet_kws  dict要传递到FacetGrid的其他关键字参数的字典.units  vector or key in data识别采样单位的分组变量。使用时,将为每个单元绘制一条具有适当语义的单独线,但不会添加图例条目。当不需要精确身份时,用于显示实验重复的分布。kwargs  key, value pairings其他关键字参数传递给底层plotting函数。Returns
散点型

需求1:分析每周每天花销总额与小费的关系

sns.relplot(x='total_bill',y='tip',data=tips).savefig('pngs/a1.png')

image-20240118171909263

可以发现:消费越高,小费越高;小费集中在1-5之间

需求2:按天分析每天花销总额与小费的关系(分类 hue=‘day’)

sns.relplot(x='total_bill',y='tip',data=data,hue='day').savefig('pngs/a1.png')

image-20240118171916183

可以发现:星期六花销最高,对应的小费也越高

需求3:按午餐和晚餐分类并按天分析每天花销总额与小费的关系(col= ‘time’)

sns.relplot(x='total_bill',y='tip',data = data,hue='day',col='time').savefig('pngs/a1.png')

image-20240118171923001

需求4:按性别分析午餐和晚餐,哪个性别付的小费最多(row=‘sex’)

sns.relplot(x='total_bill',y='tip',data = data,hue='day',col='time',row='sex').savefig('pngs/a1.png')

image-20240118171935877

折线型

案例1:

sns.relplot(x='total_bill',y='tip',data=data,kind='line').savefig('pngs/a1.png')

image-20240118171944124

案例2:

sns.relplot(x='total_bill',y='tip',data=data,kind='line',hue='day').savefig('pngs/a1.png')

image-20240118171950370

案例3:

sns.relplot(x='total_bill',y='tip',data=data,kind='line',hue='day',col='time').savefig('pngs/a1.png')

image-20240118171957272

案例4:

sns.relplot(x='total_bill',y='tip',data=data,kind='line',hue='day',col='time',row='sex').savefig('pngs/a1.png')

image-20240118172013711

案例5:

sns.relplot(x="timepoint", y="signal", data=fmri, kind="line", errorbar=('ci', 60), hue="region", col="event",style="region").savefig('pngs/a1.png')

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

案例6:

sns.relplot(x="timepoint",y="signal",data=fmri,kind="line",errorbar=('ci', 60),hue="region",col="event").savefig('pngs/a1.png')

image-20240118172020864

案例七:

sns.relplot(x="timepoint",y="signal",data=fmri,kind="line",errorbar=None,hue="region",col="event",style="region").savefig('pngs/a1.png')

image-20240118172030195

2.2.2 分类型绘图

分类统计图,则是根据分类,统计每个分类下的数据的个数或者比例。有以下几种方式:
条形图:barplot() (with kind=“bar”)
柱状图:countplot() (with kind=“count”)
点线图:pointplot() (with kind=“point”)

条形图

seaborn中的条形图具有统计功能,可以统计出比例,平均数,也可以按照你想要的统计函数来统计。

sns.catplot(x='day',y='total_bill',data = data).savefig('pngs/a1.png')

image-20240118172037852

sns.catplot(x='day',y='total_bill',data = data,hue='time').savefig('pngs/a1.png')

image-20240118172044322

sns.catplot(x='day',y='total_bill',data = data,hue='time',row = 'sex').savefig('pngs/a1.png')

image-20240118172054172

sns.catplot(x='day',y='total_bill',data = data,kind='bar').savefig('pngs/a1.png')

image-20240118172102638

sns.catplot(x='day',y='total_bill',data = data,kind='bar',estimator = sum).savefig('pngs/a1.png')

image-20240118172110152

sns.catplot(x='day',y='total_bill',data = data,kind='bar',estimator = sum,hue='time').savefig('pngs/a1.png')

image-20240118172118200

sns.catplot(x='day',y='total_bill',data = data,kind='bar',estimator = sum,hue='time',row='sex').savefig('pngs/a1.png')

image-20240118172128621

2.2.3 泰坦尼克号案例学习

需求1:分析男女获救比例

data1 = pd.read_csv('titanic.csv')
sns.catplot(x='sex',y='survived',data=data1,kind='bar').savefig('pngs/a1.png')

image-20240118172137365

需求2:按舱位分析,男女获救比例

sns.catplot(x='sex',y='survived',data=data1,kind='bar',hue='class').savefig('pngs/a1.png')

image-20240118172145105

可以发现:女性获救比例高于男性,说明人类在灾难面前,往往考虑更多的弱势群体。三等舱获救比例高于一二等舱,说明阶层越高获得的特权就越高

2.2.4 箱体型绘图
sns.boxplot(x='day',y='tip',data=data)

image-20240118172153299

可以发现:以星期天为例,小费平均值为3,最高值将近7,最低值低于1,全天无异常值。

2.2.5 分布型绘图

sns.distplot(),bins柱子分布个数

需求1:泰坦尼克号,所有乘客年龄分布状况

sns.distplot(data1['age'],bins=20)

image-20240118172201301

需求2:二变量分布图

sns.jointplot(x='total_bill',y='tip',data=data,kind='hex')

image-20240118172235455

'''
参数如下:
height图形大小设置
ratio主图和副图之间的比例
space 副图与主图之间的距离
'''sns.jointplot(x='total_bill',y='tip',data=data,kind='hex',gridsize=15,height=10,ratio=3,space=0,marginal_kws={"rug":True,"kde":True},color="red")

image-20240118172243222

四变量两两关系分布图
sns.pairplot(data)

image-20240118172258576

g(‘pngs/a1.png’)


[外链图片转存中...(img-klt2HOrv-1733294501869)]```python
sns.catplot(x='day',y='total_bill',data = data,kind='bar',estimator = sum,hue='time',row='sex').savefig('pngs/a1.png')

[外链图片转存中…(img-B5raV7HW-1733294501869)]

2.2.3 泰坦尼克号案例学习

需求1:分析男女获救比例

data1 = pd.read_csv('titanic.csv')
sns.catplot(x='sex',y='survived',data=data1,kind='bar').savefig('pngs/a1.png')

[外链图片转存中…(img-suebEPMu-1733294501869)]

需求2:按舱位分析,男女获救比例

sns.catplot(x='sex',y='survived',data=data1,kind='bar',hue='class').savefig('pngs/a1.png')

[外链图片转存中…(img-7EWEpfpl-1733294501869)]

可以发现:女性获救比例高于男性,说明人类在灾难面前,往往考虑更多的弱势群体。三等舱获救比例高于一二等舱,说明阶层越高获得的特权就越高

2.2.4 箱体型绘图
sns.boxplot(x='day',y='tip',data=data)

[外链图片转存中…(img-3m00zP2D-1733294501869)]

可以发现:以星期天为例,小费平均值为3,最高值将近7,最低值低于1,全天无异常值。

2.2.5 分布型绘图

sns.distplot(),bins柱子分布个数

需求1:泰坦尼克号,所有乘客年龄分布状况

sns.distplot(data1['age'],bins=20)

[外链图片转存中…(img-i3zi7EvU-1733294501869)]

需求2:二变量分布图

[外链图片转存中…(img-Zuyxo6sI-1733294501869)]

sns.jointplot(x='total_bill',y='tip',data=data,kind='hex')

[外链图片转存中…(img-LmPMQMTl-1733294501869)]

'''
参数如下:
height图形大小设置
ratio主图和副图之间的比例
space 副图与主图之间的距离
'''sns.jointplot(x='total_bill',y='tip',data=data,kind='hex',gridsize=15,height=10,ratio=3,space=0,marginal_kws={"rug":True,"kde":True},color="red")

[外链图片转存中…(img-L7pROiv7-1733294501869)]

四变量两两关系分布图
sns.pairplot(data)

[外链图片转存中…(img-ezmckPla-1733294501870)]

2.3 pyecharts模块学习

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/63214.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

结构型-组合模式(Composite Pattern)

什么是组合模式 又名部分整体模式&#xff0c;是用于把一组相似的对象当作一个单一的对象。组合模式依据树形结构来组合对象&#xff0c;用来表示部分以及整体层次。这种类型的设计模式属于结构型模式&#xff0c;它创建了对象组的树形结构。 结构 抽象根节点&#xff08;Co…

Wordpress设置固定链接形式后出现404错误

比如固定连接设置为 /archives/%post_id%.html 这种形式&#xff0c;看起来比较舒服。对搜索引擎也友好。 出现404需要设置伪静态

小程序项目的基本组成结构

分类介绍 项目根目录下的文件及文件夹 pages文件夹 用来存放所有小程序的页面&#xff0c;其中每个页面都由4个基本文件组成&#xff0c;它们分别是&#xff1a; .js文件&#xff1a;页面的脚本文件&#xff0c;用于存放页面的数据、事件处理函数等 .json文件&#xff1a;…

Agent AI: Surveying the Horizons of Multimodal Interaction---摘要、引言、代理 AI 集成

题目 智能体AI:多模态交互视野的考察 论文地址&#xff1a;https://arxiv.org/abs/2401.03568 图1&#xff1a;可以在不同领域和应用程序中感知和行动的Agent AI系统概述。Agent AI是正在成为通用人工智能&#xff08;AGI&#xff09;的一个有前途的途径。Agent AI培训已经证…

LRU Cache替换算法

目录 1.什么是LRU Cache&#xff1f; 2.LRU Cache 的底层结构 3.LRU Cache的实现 LRUCache类中的接口总览 构造函数 get操作 put操作 打印 4.LRU Cache的测试 5.LRU Cache相关OJ题 6.LRU Cache类代码附录 1.什么是LRU Cache&#xff1f; 首先我想解释一下什么是cach…

数字孪生与大型模型强强联合,共塑工业制造崭新前景

随着新一代信息技术与实体经济的加速融合&#xff0c;工业领域的数字化、智能化转型趋势愈发显著&#xff0c;孕育出一系列制造业数字化转型的新模式与新业态。在此背景下&#xff0c;数字孪生技术作为关键支撑力量&#xff0c;正在全球范围内迅速崛起并得到广泛应用&#xff0…

【笔记2-5】ESP32:freertos消息队列

主要参考b站宸芯IOT老师的视频&#xff0c;记录自己的笔记&#xff0c;老师讲的主要是linux环境&#xff0c;但配置过程实在太多问题&#xff0c;就直接用windows环境了&#xff0c;老师也有讲一些windows的操作&#xff0c;只要代码会写&#xff0c;操作都还好&#xff0c;开发…

Qt Chart 模块化封装曲线图

一 版本说明 二 完成示例 此文章包含:曲线轴设置,曲线切换,单条曲线显示,坐标轴。。。 三 曲线图UI创建 在UI界面拖放一个QWidget,然后在 Widget里面放一个 graphicsView 四 代码介绍 1 头文件 #include <QString> #include <QTimer> #include <QMessa…

a7678 食品添加剂健康小助手系统微信小程序的的设计与实现 后台php+mysql+layui+thinkphp 源码 配置 文档 全套资料

食品添加剂健康小助手 1.摘要2.开发目的和意义3.系统功能设计4.系统界面截图5.源码获取 1.摘要 食品添加剂健康小助手系统是一个能够帮助消费者更好地了解食品添加剂相关信息的智能系统。在现代食品生产过程中&#xff0c;许多食品添加剂被广泛使用&#xff0c;以提高食品的质…

HTTP(超文本传输协议)

HTTP是万维网通信的基础构成&#xff0c;是一个简单的请求相应协议&#xff0c;基于TCP之上80号端口 通信原理 DNS解析 将域名甩个DNS服务器解析&#xff0c;将域名化为IP访问 建立TCP连接 如图&#xff0c;客户端先发送一个sys置位seq为x&#xff08;任意值&#xff09;的…

如何设置合理的爬取频率避免被网站封锁?

要合理设置爬取频率以避免被网站封锁&#xff0c;可以采取以下几种策略&#xff1a; 遵守robots.txt规范&#xff1a;确保爬虫程序遵守目标网站的robots.txt文件中定义的爬取规则&#xff0c;避免爬取被网站禁止的内容。 设置请求头信息&#xff1a;在爬取时&#xff0c;设置合…

SpringBoot的validation参数校验

文章目录 前言一、引入validation 依赖二、validation中的注解说明 &#xff08;1&#xff09;Validated&#xff08;2&#xff09;Valid&#xff08;3&#xff09;NotNull&#xff08;4&#xff09;NotBlank&#xff08;5&#xff09;NotEmpty&#xff08;6&#xff09;Patte…

SSH克隆github项目

1、生成密钥 ssh-keygen -t rsa -C "你的邮箱xxx.com" 全程回车即可&#xff08;不用输入ras文件名及密码&#xff09;、为了方便下面的公钥查看 2、配置公钥 查看公钥内容 cat c:\Users\xxx\.ssh\id_rsa.pub(修改为自己的路径及名字) 将公钥内容复制并粘贴至…

CASAIM与中国航天携手合作,CASAIM IS全自动化光学测量系统交付中国航天山西工厂,助力航空航天零部件全自动化3D测量

近日&#xff0c;CASAIM与中国航天达成全自动化光学测量技术合作&#xff0c;并将CASAIM IS全自动化光学测量系统交付给中国航天科技集团山西工厂&#xff0c;这一合作标志着双方在智能制造和精密测量领域迈出了重要一步。 中国航天科技&#xff0c;是在中国战略高技术领域拥有…

基于Springboot+Vue的电子博物馆系统

基于SpringbootVue的电子博物馆系统 前言&#xff1a;随着信息技术的不断发展&#xff0c;传统博物馆的参观方式逐渐向数字化、在线化转型。电子博物馆作为这一转型的重要组成部分&#xff0c;能够通过信息化手段为用户提供更丰富、更便捷的博物馆参观体验。本文基于Spring Boo…

在Docker中部署禅道,亲测可用

1、确保centos中已安装docker docker -v 2、启动docker systemctl start docker 3、可设置docker开机启动 systemctl enable docker.service 4、获取最新版禅道开源版镜像 docker pull idoop/zentao 5、运行镜像生成禅道容器【创建 /data/www /data/data 目录】 doc…

vitepress组件库文档项目 markdown语法大全(修正版)

#上次总结的 有些语法是用在markdown文档中的 使用到vitepress项目中有些语法可能有出入 于是我再总结一版 vitepress项目中的markdown语法大全 在阅读本章节之前&#xff0c;请确保你已经对 Markdown 有所了解。如果你还不了解 Markdown &#xff0c;请先学习一些Markdown 教…

Blender导入下载好的fbx模型像的骨骼像针戳/像刺猬

为什么我下载下来的骨骼模型和我自己绑定的模型骨骼朝向完全不一样 左边是下载的模型 右边是我自己绑定的模型 左边的模型刚刚感觉都是像针一样往外戳的&#xff0c;像刺猬一样那种。 解决方法勾选自动骨骼坐标系

ASP.NET CORE API 解决跨域问题

环境 vs2022 .net 8 创建ASP.net Core API项目 配置跨域 编写ApiController 启动项目 得到服务器运行的 地址 在Hbuiler中创建web项目&#xff0c;编写代码 【运行】-【运行到浏览器】-选择一个浏览器,查看结果 正常显示 问题 如果允许所有源访问&#xff0c;有安全风险方…

【AI系统】MobileFormer

MobileFormer 在本文中&#xff0c;将介绍一种新的网络-MobileFormer&#xff0c;它实现了 Transformer 全局特征与 CNN 局部特征的融合&#xff0c;在较低的成本内&#xff0c;创造一个高效的网络。通过本节&#xff0c;让大家去了解如何将 CNN 与 Transformer 更好的结合起来…