python统计分析——多解释变量的方差分析

参考资料:用python动手学统计学

1、导入库

# 导入库
# 用于数值计算的库
import numpy as np
import pandas as pd
import scipy as sp
from scipy import stats
# 用于绘图的库
from matplotlib import pyplot as plt
import seaborn as sns
sns.set()
# 用于估计统计模型的库
import statsmodels.formula.api as smf
import statsmodels.api as sm

2、数据准备

本次数据为准预测销售额的模型,包含湿度、气温、天气(晴或雨)、价格4个解释变量。天气为分类变量,其余为连续变量。

sales=pd.read_csv(r"文件路径")
sales

3、数据可视化展示

        在进行数据分析时,第一步永远是可视化。统计、模型化等工作都要放在后面做。由于及时变量有多个,因此这里绘制散点图矩阵。如下

sns.pairplot(data=sales,hue='weather')

        在矩阵图中,可以看出除了气温湿度有明显的正相关关系外,其他因素间没有明显的关系。

4、多解释变量模型

# 拟合多解释变量的模型
# 在定义多解释变量的模型时,解释变量之间用加号连接
lm_sales=smf.ols("sales~weather+humidity+temperature+price",data=sales).fit()
# 输出估计参数
lm_sales.params

5、模型选择

在typeⅠ ANOVA中,如果改变解释变量的顺序,检验结果会不一样。在方差分析中,解释变量的效应是基于残差量化的,变量个数增加时所减少的残差平方和决定了变量的效应。在多解释变量模型中,变量个数增加时所减少的残差平方和决定了变量的效应大小,在这种情况下变量平方和的值会因其添加的顺序不同而不同,对于解释变量是否存在显著性影响的判断也不同。对多解释变量模型进行type Ⅰ ANOVA可能会导致错误的结论。具体示例请查阅:《用python动手学统计学》一书。

type Ⅱ ANOVA是方差分析的一种,它的结果不会因解释变量顺序的不同而不同。typeⅡ ANOVA 根据解释变量减少时所增加的残差平方和量化解释变量的效应。即使解释变量的顺序不同,这种方法的效果也不会改变。通过这种方法得到的组间偏差平方和就叫作调整平方和。

当解释变量只有一个时,type Ⅰ ANOVA与type Ⅱ ANOVA的结果相等。

6、方差分析

# 输出方差分析表
print(sm.stats.anova_lm(lm_sales,typ=2))

由此方差分析表可知,humidity的p值为0.578,湿度对销售额没有显著影响。

结合前面的可视化作图,可知气温和湿度的相关性很强,因此可能存在这种情况:如果模型中包含了气温,就无法认为湿度会对销售额产生显著影响。下面我们继续对不含湿度的模型进行方差分析。

# 拟合不含湿度的模型
mod_non_humi=smf.ols('sales~weather+temperature+price',data=sales).fit()
#输出方差分析表
print(sm.stats.anova_lm(mod_non_humi,typ=2).round(3))

 由上表可知,目前所有变量都是必要的,至此,变量的选择结束。

系数等结果的解读应该使用变量选择后的模型进行,不应该将通过错误的变量组合进行模型化的结果用于预测或解读。

因此,本例的模型参数如下:

mod_non_humi.params

7、使用AIC进行变量选择

如果使用AIC 进行变量选择,就没有必要像方差分析那样更滑计算方法,直接建模并计算AIC即可。

print('包含所有变量的模型:',lm_sales.aic.round(3))
print('不含湿度的模型:',mod_non_humi.aic.round(3))

不含湿度的模型的AIC更小,所以湿度不应该包含在销售额预测模型中。原则上应该对比所有变量组合的AIC。

使用AIC进行变量选择的过程是比较固定的。它和系数t检验不同,多水平的变量不会导致多重假设检验问题,所得模型的含义永远是“对未知数据的预测误差最小的变量组合”。AIC也没有检验的非对称性问题。不过,与不能过度信任p值类似,我们也不能过度信任AIC,还应该从系数的含义、变量选择的结果、残差等多个方面综合评估模型。

8、多重共线性

在解释变量之间相关性很强时出现的问题就是多重共线性。在本例中,气温与湿度就是相关的,在解读类似模型时需要注意这一点。

多重共线性问题最简单的解决方案就是去掉强相关变量中的一个。多重共线性会对系数的解读造成干扰,我们应该先进行变量选择再解读结果。

在变量选择的过程中有时会使用检验,但如果变量之间强相关(如相关系数接近1),检验所得的p值也会收到干扰。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/702856.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux基础命令—进程管理

基础知识 linux进程管理 什么是进程 开发写代码->代码运行起来->进程 运行起来的程序叫做进程程序与进程区别 1.程序是一个静态的概念,主要是指令集和数据的结合,可以长期存放在操作系统中 2.进程是一个动态的概念,主要是程序的运行状态,进程存在生命周期,生命周期结…

Seata分布式事务实战XATCC模式

目录 XA模式 XA 模式的使用 Spring Cloud Alibaba整合Seata XA TCC模式 TCC模式接口改造 TCC如何控制异常 Spring Cloud Alibaba整合Seata TCC XA模式 整体机制 在 Seata 定义的分布式事务框架内,利用事务资源(数据库、消息服务等)对…

【Python从入门到进阶】49、当当网Scrapy项目实战(二)

接上篇《48、当当网Scrapy项目实战(一)》 上一篇我们正式开启了一个Scrapy爬虫项目的实战,对当当网进行剖析和抓取。本篇我们继续编写该当当网的项目,讲解刚刚编写的Spider与item之间的关系,以及如何使用item&#xff…

【python】0、超详细介绍:json、http

文章目录 一、json二、http2.1 json 读取 request 序列化 三、基本类型3.1 decimal 四、图像4.1 颜色格式转换 一、json import json f open(data.json) # open json file data json.load(f) # 读出 json object for i in data[emp_details]: # 取出一级属性 emp_details, …

云尚办公-0.3.0

5. controller层 import pers.beiluo.yunshangoffice.model.system.SysRole; import pers.beiluo.yunshangoffice.service.SysRoleService;import java.util.List;//RestController:1.该类是控制器;2.方法返回值会被写进响应报文的报文体,而…

ChatRTX安装教程

介于本人一直想将现有的智慧城市的文档结合大模型RAG实现知识库问答助手,借着Chat With RTX的风潮正好将机器人和知识库合二为一,方便以后对众多文件进行查阅。 一、概要 Chat With RTX 是一个 Demo,用来将您自己的资料(文档、笔…

第三节:kafka sarama 遇到Bug?

文章目录 前言一、先上结果二、刨根问底总结 前言 前面两节,我们已经简单应用了sarama的两个类型Client和ClusterAdmin,其中有一个案例是获取集群的ControllerId,但是在后面的测试过程过程中,发现一个问题,返回的Cont…

【PyQt5桌面应用开发】3.Qt Designer快速入门(控件详解)

一、Qt Designer简介 Qt Designer是PyQt程序UI界面的实现工具,可以帮助我们快速开发 PyQt 程序的速度。它生成的 UI 界面是一个后缀为 .ui 的文件,可以通过 pyiuc 转换为 .py 文件。 Qt Designer工具使用简单,可以通过拖拽和点击完成复杂界面…

仿12306校招项目业务二(列车检索)

目录 验证数据 加载城市数据 查询列车站点信息 查询列车余票信息 构建列车返回数据 12306 项目中列车数据检索接口路径 &#xfeff; TicketController的pageListTicketQuery&#xfeff;。 GetMapping("/api/ticket-service/ticket/query")public Result<T…

查看笔记本电池健康状态-windows11

在 Windows 11 中获取详细的电池报告 Windows 11 中内置的 Powerfg 命令行选项来生成电池报告。 在任务栏上选择“搜索”&#xff0c;键入“cmd”&#xff0c;长按&#xff08;或右键单击&#xff09;“命令提示符”&#xff0c;然后选择“以管理员身份运行” ->“是”。 …

Mac使用K6工具压测WebSocket

commend空格 打开终端&#xff0c;安装k6 brew install k6验证是否安装成功 k6 version设置日志级别为debug export K6_LOG_LEVELdebug执行脚本&#xff08;进入脚本所在文件夹下&#xff09; k6 run --vus 100 --duration 10m --out csvresult.csv script.js 脚本解释&…

自定义神经网络三之梯度和损失函数激活函数

文章目录 前言梯度概述梯度下降算法梯度下降的过程 optimize优化器 梯度问题梯度消失梯度爆炸 损失函数常用的损失函数损失函数使用原则 激活函数激活函数和损失函数的区别激活函数Relu-隐藏层激活函数Sigmoid和Tanh-隐藏层Sigmoid函数Tanh&#xff08;双曲正切&#xff09; &l…

【前端】nginx 反向代理,实现跨域问题

前面讲跨域的问题&#xff0c;这篇 C# webapi 文章里面已经说过了。在上述文章中是属于从服务器端去允许访问的策略去解决跨域问题。而这里是从客户端的角度利用反向代理的方法去解决跨域问题。 反向代理&#xff1a;其原理就是将请求都接收到一个中间件&#xff08;中间地址&a…

IO 作业 24/2/26

1>思维导图 1> 使用消息队列完成两个进程间相互通信 #include<myhead.h> //定义一个消息类型 struct msgbuf {long mtype; //消息类型char mtext[1024]; //消息正文 }; //定义一个宏&#xff0c;表示消息正文大小 #define MSGSIZE sizeof(struct msgbuf…

人工智能 — 点云模型

目录 一、点云模型1、三维图像2、点云1、概念2、内容 3、点云处理的三个层次1、低层次处理方法2、中层次处理方法3、高层次处理方法 二、Spin image 一、点云模型 1、三维图像 三维图像是一种特殊的信息表达形式&#xff0c;其特征是表达的空间中三个维度的数据。 和二维图像…

荣耀手机如何开启地震预警功能

1、打开荣耀手机&#xff0c;进入“设置”&#xff0c;在搜素栏输入“地震”。 2、进入“安全-应急预警通知”功能栏。 3、开启“地震预警”。 4、查看“预警演示教程”。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/e207e356bb634c11adf926c6a53e48cc.png…

Mysql学习之事务日志redolog深入剖析

Mysql 事务日志 redo log 事务有4种特性&#xff1a;原子性、一致性、隔离性和持久性。那么事务的四种特性到底是基于什么机制实现的呢&#xff1f; 事务的隔离性由锁机制实现。而事务的原子性、一致性和持久性由事务的redo日志和undo日志来保证。 REDO LOG 称为重做日志&…

OpenGL ES (OpenGL) Compute Shader 计算着色器是怎么用的?

OpenGL ES (OpenGL) Compute Shader 是怎么用的? Compute Shader 是 OpenGL ES(以及 OpenGL )中的一种 Shader 程序类型,用于在GPU上执行通用计算任务。与传统的顶点着色器和片段着色器不同,Compute Shader 被设计用于在 GPU 上执行各种通用计算任务,而不是仅仅处理图形…

挑战杯 基于情感分析的网络舆情热点分析系统

文章目录 0 前言1 课题背景2 数据处理3 文本情感分析3.1 情感分析-词库搭建3.2 文本情感分析实现3.3 建立情感倾向性分析模型 4 数据可视化工具4.1 django框架介绍4.2 ECharts 5 Django使用echarts进行可视化展示5.1 修改setting.py连接mysql数据库5.2 导入数据5.3 使用echarts…

供应链大数据:穿越经济迷雾的指南针

随着经济形势的变幻莫测&#xff0c;企业运营面临着前所未有的挑战。在这个充满不确定性的时代&#xff0c;供应链大数据如同一盏明亮的指南针&#xff0c;为企业提供精准的方向指引。下面&#xff0c;我们将深入探讨供应链大数据如何帮助企业洞察市场趋势、优化库存管理、降低…