4. seaborn-线性关系可视化

Seaborn本身并不是为了统计分析而生的,seaborn中的回归图主要用于添加视觉指南,以帮助在探索性数据分析EDA中强调存在于数据集的模式。

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warningssns.set(style='whitegrid', color_codes=True)
plt.rc("figure",autolayout=True,figsize=(6, 5),titlesize=18,titleweight='bold',
)
plt.rc("axes",labelweight="bold",labelsize="large",titleweight="bold",titlesize=16,titlepad=10,
)
%config InlineBackend.figure_format = 'retina'
warnings.filterwarnings('ignore')
tips = sns.load_dataset('tips',data_home='data',cache=True)
tips.head()
total_billtipsexsmokerdaytimesize
016.991.01FemaleNoSunDinner2
110.341.66MaleNoSunDinner3
221.013.50MaleNoSunDinner3
323.683.31MaleNoSunDinner2
424.593.61FemaleNoSunDinner4

绘制线性回归模型的函数

seaborn中主要通过regplot()lmplot()两个函数来显示线性回归关系,两个函数之间共享核心功能。但是,了解两者的不同之处非常重要,这样就可以快速为特定工作选择正确的工具。

在原始调用中,两个函数都绘制了两个变量xy,然后拟合回归模型y~x并绘制得到回归线和该回归的95%置信区间:

sns.regplot(x='total_bill', y='tip', data=tips)
<Axes: xlabel='total_bill', ylabel='tip'>

在这里插入图片描述

sns.lmplot(x='total_bill', y='tip', data=tips)
<seaborn.axisgrid.FacetGrid at 0x139b79510>

在这里插入图片描述

可以看到,除了图形形状不同,两幅图结果是完全一致的。需要了解的一个主要区别是regplot()接受多种格式的xy变量,包括简单的numpy数组,pandas的Series对象或者DataFrame对象。而lmplot()将data作为必须参数,xy变量必须被制定为字符串。这种数据格式被称为“长格式”或“整齐”数据。

当其中一个变量是离散值时,可以拟合线性回归。但是,这种数据集生成的简单散点图通常不是最优的:

sns.lmplot(x='size', y='tip', data=tips)
<seaborn.axisgrid.FacetGrid at 0x139dc6090>

在这里插入图片描述

一种选择是向离散值添加随机噪声(“抖动”),以使这些值分布更清晰。注意抖动仅用于散点图数据,不会影响回归线:

sns.lmplot(x='size', y='tip', data=tips, x_jitter=0.05)
<seaborn.axisgrid.FacetGrid at 0x139f87ad0>

在这里插入图片描述

第二种选择是综合每个离散箱中的观测值,以绘制集中趋势的估计值和置信区间;

sns.lmplot(x='size', y='tip', data=tips, x_estimator=np.mean)
<seaborn.axisgrid.FacetGrid at 0x13a1adad0>

在这里插入图片描述


拟合不同模型

上面使用的简单线性模型对于某些类型的数据集并不适用。Anscombe数据集展示了一些实例,其中简单线性模型回归提供了相同的关系估计,但却有肉眼可见的差异。例如,在第一种情况下,线性回归是一个很好的模型:

anscombe = sns.load_dataset('anscombe', data_home='data', cache=True)
anscombe.head()
datasetxy
0I10.08.04
1I8.06.95
2I13.07.58
3I9.08.81
4I11.08.33
sns.lmplot(x='x', y='y', data=anscombe.query("dataset=='I'"), ci=None, scatter_kws={'s':80})
<seaborn.axisgrid.FacetGrid at 0x13a23e590>

在这里插入图片描述

第二个数据集的线性关系是相同的,但是图表清楚地表明这并不是一个好模型:

sns.lmplot(x='x', y='y', data=anscombe.query("dataset=='II'"), ci=None, scatter_kws={'s':80})
<seaborn.axisgrid.FacetGrid at 0x13a5e35d0>

在这里插入图片描述

在这些存在高阶关系的情况下,regplot()lmplot()可以拟合多项式回归模型来探索数据集中的简单非线性趋势:

sns.lmplot(x='x', y='y', data=anscombe.query("dataset=='II'"), order=2, ci=None, scatter_kws={'s':80})
<seaborn.axisgrid.FacetGrid at 0x13db94950>

在这里插入图片描述

在存在异常值的情况下,拟合稳健回归可能会很有用,该回归使用了一种不同的损失函数来降低相对较大的残差的权重

sns.lmplot(x='x', y='y', data=anscombe.query("dataset=='III'"), robust=True, ci=None, scatter_kws={'s':80})
<seaborn.axisgrid.FacetGrid at 0x13dbc48d0>

在这里插入图片描述

y变量是二进制时,在这种情况下的解决方案是拟合逻辑回归:

tips['big_tip'] = (tips.tip / tips.total_bill) > .15sns.lmplot(x='total_bill', y='big_tip', data=tips, logistic=True, y_jitter=0.03)
<seaborn.axisgrid.FacetGrid at 0x13dd46550>

在这里插入图片描述

一种完全不同的方法是使用lowess smoother拟合非参数回归。尽管它是计算密集型的,这种方法的假设最少,因此目前置信区间根本没有计算:

sns.lmplot(x='total_bill', y='tip', data=tips, lowess=True)
<seaborn.axisgrid.FacetGrid at 0x13db8a550>

在这里插入图片描述

residplot()函数可以用作检查简单回归模型是否适合数据集的有效工具。它拟合并删除简单的线性回归,然后绘制每个观察值的残差值。理想情况下,这些值应在y=0周围随机散步:

sns.residplot(x='x', y='y', data=anscombe.query("dataset=='I'"), scatter_kws={'s':80})
<Axes: xlabel='x', ylabel='y'>

在这里插入图片描述

如果残差存在结构形状,则表明简单的线性回归不合适

sns.residplot(x='x', y='y', data=anscombe.query("dataset=='II'"), scatter_kws={'s':80})
<Axes: xlabel='x', ylabel='y'>

在这里插入图片描述


其他变量关系

上面的图显示了探索一对变量之间关系的许多方法。然而,一个更有趣的问题是“这两个变量之间的关系如何随第三个变量的变化而变化?”这就是regplot()lmplot()最大的区别所在。regplot()总是表现单一的关系,lmplot()regplot()FacetGrid结合,以提供一个简单的界面,显示"facet"图的线性回归,使得可以探索最多三个其他分类变量的交互。

分离关系的最佳方法是在同一轴上绘制两个级别并使用颜色来区分它们:

sns.lmplot(x='total_bill', y='tip', hue='smoker', data=tips)
<seaborn.axisgrid.FacetGrid at 0x1488b2b50>

在这里插入图片描述

再添加另一个变量,可以绘制多个facet,其中每个级别的变量出现在网格的行或列中:

sns.lmplot(x='total_bill', y='tip', hue='smoker', col='time', data=tips)
<seaborn.axisgrid.FacetGrid at 0x148895950>

在这里插入图片描述

sns.lmplot(x='total_bill', y='tip', hue='smoker', col='time', row='sex', data=tips)
<seaborn.axisgrid.FacetGrid at 0x13feba550>

在这里插入图片描述


控制绘图的大小和形状

之前我们注意到regplot()lmplot()生成的默认图看起来相同,但却有不同的大小和形状。这是因为regplot()是一个“轴级”函数,它绘制在特定的轴上。这意味着我们可以自己制作多面板图形并精确控制回归图的位置。如果没有明确提供轴对象,它只使用“当前活动”轴,这就是默认绘图与大多数其他 matplotlib 函数具有相同大小和形状的原因。要控制大小,就需要先创建一个图形对象。

f, ax = plt.subplots(figsize=(5,6))
sns.regplot(x='total_bill', y='tip', data=tips, ax=ax)
<Axes: xlabel='total_bill', ylabel='tip'>

在这里插入图片描述

相比之下,lmplot()图的大小和形状是通过sizeaspect参数控制,这些参数适用于绘图中的每个facet,而不是整个图形本身。

sns.lmplot(x='total_bill', y='tip', col='day', data=tips, col_wrap=2, height=3)
<seaborn.axisgrid.FacetGrid at 0x1488a9a10>

在这里插入图片描述

sns.lmplot(x='total_bill', y='tip', col='day', data=tips, aspect=.5)
<seaborn.axisgrid.FacetGrid at 0x14e4c8410>

在这里插入图片描述


其他绘制回归的方法

joinplot()可以通过传递kind="reg"来显示轴上的线性回归拟合。

sns.jointplot(x='total_bill', y='tip', data=tips, kind='reg')
<seaborn.axisgrid.JointGrid at 0x14e433d10>

在这里插入图片描述

使用pairplot()函数与参数kind="reg"regplot()PairGrid结合起来,来显示数据集中变量的线性关系。请注意这与lmplot()的不同之处。在下图中,两个轴在第三变量上的两个级别上没有显示相同的关系。

sns.pairplot(tips, x_vars=['total_bill', 'size'], y_vars=['tip'], height=5, aspect=.8, kind='reg')
<seaborn.axisgrid.PairGrid at 0x14e990110>

在这里插入图片描述

lmplot()相同,但不同于joingplot(),额外的分类变量调节是通过hue参数内置在pairplot()中的。

sns.pairplot(tips, x_vars=['total_bill', 'size'], y_vars=['tip'], hue='smoker', height=5, aspect=.8, kind='reg')
<seaborn.axisgrid.PairGrid at 0x14ef3b990>

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/638146.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JDK 版本切换工具 JEnv

1. 下载 JEnv 包 下载地址&#xff1a; JEnv-for-Windows 下载 JEnv.zip 然后解压缩&#xff0c;放到一个目录下&#xff0c;我这里放到了目录&#xff1a;D:\Program Files\JEnv 2. 将 JEnv 添加到环境变量 首先先在自己的电脑上去下载 JAVA 的各个版本&#xff0c;我这里…

二、简单控件

二、简单控件 #mermaid-svg-TR8KwIeb54zOjfmt {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-TR8KwIeb54zOjfmt .error-icon{fill:#552222;}#mermaid-svg-TR8KwIeb54zOjfmt .error-text{fill:#552222;stroke:#55222…

正反转控制电路图

1、倒顺开关正、反转控制电路图 倒顺开关直接接在主电路中&#xff0c;不适合用作大容量的电动机控制&#xff0c;一般用在额定电流10A、功率3kW以下的小容量电动机控制电路中。 2、接触器联锁正、反转控制电路图 接触器联锁正、反转控制电路的主电路中连接了两个接触器KM1和…

从零开始c++精讲:第四篇——模板初阶

文章目录 一、泛型编程二、函数模板2.1函数模板概念2.2函数模板格式2.3函数模板原理2.4函数模板实例化2.5函数模板匹配原则 三、类模板3.1类模板的定义格式3.2类模板的实例化 一、泛型编程 如何实现一个通用的交换函数呢&#xff1f; void Swap(int& left, int& righ…

linux内核源码编译2.6失败

centos7环境 iso选择 https://mirrors.tuna.tsinghua.edu.cn/centos/7/isos/x86_64/CentOS-7-x86_64-DVD-2009.iso 自带qemu&#xff0c;未实测是否可用 选择编译版本2.6 下载地址 遇到的编译错误解决 yum list | grep curses yum install ncurses-devel.x86_64 -y yum i…

最优传输学习及问题总结

文章目录 参考内容lam0.1lam3lam10lam50lam100lam300画图线性规划matlabpython代码 参考内容 https://blog.csdn.net/qq_41129489/article/details/128830589 https://zhuanlan.zhihu.com/p/542379144 我主要想强调的是这个例子的解法存在的一些细节问题 lam0.1 lam 0.1P,…

[java基础揉碎]进制

目录 进制 进制的图示 进制的转换: 第一组 二进制转换成十进制示例 八进制转换成十进制示例 十六进制转换成十进制示例 ​第二组 十进制转换成二进制 十进制转换成八进制 十进制转换成十六进制 第三组 二进制转换成八进制 二进制转换成十六进制 第四组 八进制…

一文读懂JavaScript DOM节点操作(JavaScript DOM节点操作详解)

一、什么是节点 二、节点类型 1、元素节点 2、属性节点 3、文本节点 4、节点类型、名字、值表格 三、通过文档对象方法获取节点 1、通过id属性获取节点 2、通过标签名字获取节点 3、通过类名获取节点 4、通过name属性获取节点 四、通过层级关系获取节点 1、子节点 …

网络安全防护部署所需要注意的几点

顶层设计概念 考虑项目各层次和各要素&#xff0c;追根溯源&#xff0c;统揽全局&#xff0c;在最高层次上寻求问题的解决之道 顶层设计”不是自下而上的“摸着石头过河”&#xff0c;而是自上而下的“系统谋划” 网络安全分为 物理、网络、主机、应用、管理制度 边界最强 接…

【C++】List模拟实现过程中值得注意的点

&#x1f440;樊梓慕&#xff1a;个人主页 &#x1f3a5;个人专栏&#xff1a;《C语言》《数据结构》《蓝桥杯试题》《LeetCode刷题笔记》《实训项目》《C》《Linux》《算法》 &#x1f31d;每一个不曾起舞的日子&#xff0c;都是对生命的辜负 目录 前言 1.List迭代器 2.适…

格密码基础:详解LWE问题(2)

目录 一. LWE问题的标准式 二. LWE单向函数与SIS单向函数 2.1 SIS问题的标准型 2.2 SIS与LWE标准型之间的关系 三. LWE问题有多难&#xff1f; 3.1 结论 3.2 归约过程 四. LWE归约性质 五. LWE问题的两个版本 一. LWE问题的标准式 系列文章&#xff1a; 格密码基础&…

Java SE入门及基础(25)

目录 方法带参&#xff08;续第24篇&#xff09; 6.方法参数传递规则 方法传参来自官方的说明 基本数据类型传值案例 基本数据类型传值时传递的是值的拷贝 引用数据类型传值案例 引用数据类型传值时传递的是对象在堆内存上的空间地址 Java SE文章参考:Java SE入门及基础知…

文件操作和IO(1)

认识文件 先来认识狭义上的文件(存储在硬盘(磁盘)上).针对硬盘这种持久化的I/O设备,当我们想要进行数据保存时,往往不是保存成一个整体,而是独立成一个个的单位进行保存,这个独立的单位就被抽象成文件的概念,就类似办公桌上的一份份真实的文件一般. 注意:硬盘 ! 磁盘 磁盘属于…

基于C++11的数据库连接池【C++/数据库/多线程/MySQL】

一、概述 概述&#xff1a;数据库连接池可提前把多个数据库连接建立起来&#xff0c;然后把它放到一个池子里边&#xff0c;就是放到一个容器里边进行维护。这样的话就能够避免数据库连接的频繁的创建和销毁&#xff0c;从而提高程序的效率。线程池其实也是同样的思路&#xf…

Java-NIO篇章(4)——Selector选择器详解

Selector介绍 选择器&#xff08;Selector&#xff09;是什么呢&#xff1f;选择器和通道的关系又是什么&#xff1f;这里详细说明&#xff0c;假设不用选择器&#xff0c;那么一个客户端请求数据传输那就需要建立一个连接&#xff0c;为了避免线程阻塞&#xff0c;那么每个客…

【Linux】进程间通信——system V 共享内存、消息队列、信号量

需要云服务器等云产品来学习Linux的同学可以移步/–>腾讯云<–/官网&#xff0c;轻量型云服务器低至112元/年&#xff0c;优惠多多。&#xff08;联系我有折扣哦&#xff09; 文章目录 写在前面1. 共享内存1.1 共享内存的概念1.2 共享内存的原理1.3 共享内存的使用1.3.1 …

磁盘分区机制

lsblk查看分区 Linux分区 挂载的经典案例 1. 虚拟机增加磁盘 点击这里&#xff0c;看我的这篇文章操作 添加之后&#xff0c;需要重启系统&#xff0c;不重启在系统里看不到新硬盘哦 出来了&#xff0c;但还没有分区 2. 分区 还没有格式化 3. 格式化磁盘 4. 挂载 5. 卸载…

国标GB28181安防视频监控EasyCVR级联后上级平台视频加载慢的原因排查

国标GB28181协议安防视频监控系统EasyCVR视频综合管理平台&#xff0c;采用了开放式的网络结构&#xff0c;可以提供实时远程视频监控、视频录像、录像回放与存储、告警、语音对讲、云台控制、平台级联、磁盘阵列存储、视频集中存储、云存储等丰富的视频能力&#xff0c;同时还…

一、用户管理中心——前端初始化

一、Ant Design Pro初始化 1.创建空文件夹 2.打开Ant Design Pro官网 3.打开终端进行初始化 在终端输入npm i ant-design/pro-cli -g 在终端输入pro create myapp 选择umi3 选择simple 项目创建成功后&#xff0c;在文件夹中出现myapp 4.安装依赖 使用vscode打开项目 …

STL中的stack、queue以及deque

目录 一、关于deque容器&#xff08;双端队列&#xff09; 1、deque的底层实现 2、deque的缺点 3、关于stack与squeue默认使用deque容器 二、stack简介 1、stack的成员函数&#xff08;接口&#xff09; 2、stack的模拟实现 三、queue简介 1、queue的成员函数&#xff08…