数据分析实战 | 泊松回归——航班数据分析

目录

一、数据及分析对象

二、目的及分析任务

三、方法及工具

四、数据读入

五、数据理解

六、数据准备

七、模型训练

八、模型评价


一、数据及分析对象

CSV文件:o-ring-erosion-only.csv

数据集链接:https://download.csdn.net/download/m0_70452407/88524654

该数据集给出了挑战者航天飞机的O型圈(O-Ring)数据,主要属性如下:

(1)Number of O-ring at risk on a given flight:航班上存在潜在风险的O形环数量。

(2)Number experiencing thermal distress:出现热损伤的O形环数量。

(3)Launch temperature(degrees F):发射温度(华氏度)。

(4)Leak-check pressure(psi):捡漏压力(psi)。

(5)Temporal order of flight:航班时序。

二、目的及分析任务

理解机器学习方法在数据分析中的应用——采用泊松回归方法进行回归分析。

(1)以全部记录为训练集进行泊松回归建模。

(2)对模型进行假设检验和可视化处理,验证泊松回归建模的有效性。

三、方法及工具

Python语言及其第三方包pandas、NumPy和statsmodels

四、数据读入

由于原数据没有表头,因此在读取CSV文件时通过names参数手动生成表头。

import pandas as pd
df_erosion=pd.read_csv("D:\\Download\\JDK\\数据分析理论与实践by朝乐门_机械工业出版社\\第3章 回归分析\\o-ring-erosion-only.csv",names=['Number of O-ring at risk on a given flight','Number experiencing thermal distress','Launch temperature(degrees F)','Leak-check pressure(psi)','Temporal order of flight'])
df_erosion.head()

五、数据理解

对数据框df_erosion进行探索性分析:

df_erosion.describe()

其中,预测变量"Number experiencing thermal distress"的最大值为2,最小值为0,平均热损伤O形环数为0.391。

除了describe()方法,还可以调用shape属性和columns属性对数据框进行探索性分析。

df_erosion.shape
(23, 5)
df_erosion.columns
Index(['Number of O-ring at risk on a given flight','Number experiencing thermal distress', 'Launch temperature(degrees F)','Leak-check pressure(psi)', 'Temporal order of flight'],dtype='object')

绘制直方图来查看因变量“Number experiencing thermal distress”数据的连续性,通过调用mayplotlib.pyplot包中数据框(DataFrame)的hist()方法创建频数直方图。

import matplotlib.pyplot as plt
plt.rcParams['font.family']="simHei"   #汉字显示 字体设置
plt.hist(df_erosion['Number experiencing thermal distress'],bins=10,facecolor="blue",edgecolor="black",alpha=0.7)
plt.xlabel('区间')
plt.ylabel('频数')
plt.title("因变量‘Number experiencing thermal distress’频数分布直方图")

通过调用NumPy包中数据框(DataFrame)的mean()方法和var()方法查看因变量“Number experiencing thermal distress”的均值和方差。

import numpy as np
print(np.mean(df_erosion['Number experiencing thermal distress']))
print(np.var(df_erosion['Number experiencing thermal distress']))
0.391304347826087
0.41209829867674863

可以看到方差约等于平均值,避免了在泊松分布中发生过度分散或分散不足的情况。泊松分布的一个重要特征是均值和方差相等,称为分散均衡。只有分散均衡的数据才能使用泊松分布模型。均值小于方差称为分散过度,所有分布向左侧倾斜,数值较小的数据出现概率较高。均值大于方差的称为分散不足。

六、数据准备

进行泊松回归分析前,应准备好模型所需的特征矩阵(X)和目标向量(y)。这里采用Python的统计分析包statsmodels进行自动你类型转换,数据对象y即可使用。若采用其他包(如scikit-learn等需要采用np.ravel()方法对y进行转换)。

原始数据集中列名过长,需要对其重新命名。同时遵从习惯调整特征顺序,将因变量调至最后一列。

df_erosion.rename(columns={'Number of O-ring at risk on a given flight':'num_rings','Launch temperature(degrees F)':'temperature','Leak-check pressure(psi)':'pressure','Number experiencing thermal distress':'num_distress','Temporal order of flight':'order'},inplace=True)
order=['num_rings','temperature','pressure','order','num_distress']
df_erosion=df_erosion[order]
df_erosion.head()

七、模型训练

以航班上存在潜在风险的O形环数量num_rings、发射温度temperature、捡漏压力pressure和航班时许order作为自变量,飞行中热损伤O形环的数量num_distress作为因变量对数据进行泊松回归建模。这里采用的实现方式为调用Python的统计分析包statsmodels中的GLM()方法进行建模分析。

import statsmodels.formula.api as smf

statsmodels.GLM()方法的输入有3个,第一个形参为formula,具体形式为y~x,在这里即为“num_distress~num_rings+temperature+pressure+order"。第二个参数是模型训练所用的数据集df_erosion。最后一个参数为创建GLM模型所用的Poisson()模型。这里通过调用NumPy库的column_stack()方法对各自变量矩阵按列合并创建特征矩阵X。

x=np.column_stack((df_erosion['num_rings'],df_erosion['temperature'],df_erosion['pressure'],df_erosion['order']))

在自变量x和因变量y上使用GLM()方法进行泊松回归。

import statsmodels.api as sm
glm=smf.glm('num_distress~num_rings+temperature+pressure+order',df_erosion,family=sm.families.Poisson())

然后获取拟合结果,并将回归拟合的摘要全部打印出来。

results=glm.fit()
print(results.summary())
   Generalized Linear Model Regression Results                  
==============================================================================
Dep. Variable:           num_distress   No. Observations:                   23
Model:                            GLM   Df Residuals:                       19
Model Family:                 Poisson   Df Model:                            3
Link Function:                    Log   Scale:                          1.0000
Method:                          IRLS   Log-Likelihood:                -15.317
Date:                Sat, 11 Nov 2023   Deviance:                       15.407
Time:                        12:45:43   Pearson chi2:                     23.4
No. Iterations:                     5   Pseudo R-squ. (CS):             0.2633
Covariance Type:            nonrobust                                         
===============================================================================coef    std err          z      P>|z|      [0.025      0.975]
-------------------------------------------------------------------------------
Intercept       0.0984      0.090      1.094      0.274      -0.078       0.275
num_rings       0.5905      0.540      1.094      0.274      -0.468       1.649
temperature    -0.0883      0.042     -2.092      0.036      -0.171      -0.006
pressure        0.0070      0.010      0.708      0.479      -0.012       0.026
order           0.0115      0.077      0.150      0.881      -0.138       0.161
===============================================================================

第二部分的coef列所对应的Intercept、num_rings、temperature、pressure和order就是计算出的回归模型中各自变量的系数。

除了读取回归摘要外,还可以调用params属性查看拟合结果。

results.params
Intercept      0.098418
num_rings      0.590510
temperature   -0.088329
pressure       0.007007
order          0.011480
dtype: float64

八、模型评价

通过模型摘要可以看到,只有自变量temperature的p值小于0.05,通过了T检验。这意味着其他解释变量在控制temperature的前提下,对因变量的影响不显著。

建立的泊松回归模型如下:

num\_distress=exp(0.098418+0.590510\times num\_rings-0.88329\times temperature+0.007007\times pressure+0.11480\times order)

模型的预测结果如下:

df_erosion['predict_result']=results.predict(df_erosion)
df_erosion['predict_result']=df_erosion['predict_result'].apply(lambda x:round(x,3))
df_erosion

最后采用均方根误差(RMSE)来评估模型预测结果。

from sklearn.metrics import mean_squared_error
print("RMSE:",np.sqrt(mean_squared_error(df_erosion.predict_result,df_erosion.num_distress)))
RMSE: 0.4895481057323038

 此结果说明该模型的均方根误差为0.490,表明该模型有一定的预测能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/139788.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网络安全之文件包含漏洞及其防护

一、引言 文件包含漏洞也是一种注入型漏洞,其本质就是输入一段用户能够控制的脚本或者代码,并让服务端执行。举个例子,PHP为例,我们常常把可重复使用的函数写入到单个文件中,在使用该函数时,直接调用此文件…

基于 Gin 的 HTTP 代理 demo

上次用 TCP 模拟了一个 HTTP 代理之后,感觉那样还是太简陋了,想着是不是可以用框架来做一个有点实际用处的东西。所以,就思索如何用 golang 的 Gin 框架来实现一个?嗯,对的你没有听错,是 gin 框架。你可能会…

Java 数据结构篇-实现双链表的核心API

🔥博客主页: 小扳_-CSDN博客 ❤感谢大家点赞👍收藏⭐评论✍ 文章目录 1.0 双链表的说明 1.1 双链表 - 创建 1.2 双链表 - 根据索引查找节点 1.3 双链表 - 根据索引插入节点 1.4 双链表 - 头插节点 1.5 双链表 - 尾插 1.6 双链表 - 根据索引来…

Dell戴尔灵越Inspiron 7700 AIO一体机电脑原厂预装Windows10系统

链接:https://pan.baidu.com/s/1-slgR9t4Df_eko0Y6xaeyw?pwdmk0p 提取码:mk0p 灵越7700一体机原装出厂系统自带声卡驱动、无线网卡驱动、面部识别等所有驱动、出厂主题壁纸、系统属性专属LOGO标志、Office办公软件、MyDell等预装程序 由于时间关系,…

Spring 事务失效的场景

1.直接new出来的对象添加事务不起作用,因为只有spring定义的bean才接受事务。 2.由于mysql的引擎用Myisam不支持事务,所以如果使用mysql的myisam引擎的话,事务不起作用。 3.如果Transaction注解到非public方法上,事务不起作用&…

【数据库设计和SQL基础语法】--导论

一、什么是数据库设计和SQL 1.1. 数据库设计: 数据库设计是指在创建和管理数据库系统时,通过合理的规划和设计来组织、存储和管理数据的过程。一个好的数据库设计能够确保数据的有效性、完整性、一致性和可扩展性,同时提高系统的性能和可维护…

RT-Thread上部署TinyMaix推理框架,使MCU赋予AI能力

概要 当谈到微控制器(MCU)和人工智能(AI)的结合,我们进入了一个激动人心的领域。传统上,AI应用程序需要大型计算机或云服务器的处理能力,但随着技术的发展,现在可以将AI嵌入到微控制器中。这为嵌入式系统、物联网设备、机器人和各种其他应用开启了新的可能性。 MCU A…

Linux如何修改主机名(hostname)(亲测可用)

文章目录 背景Linux如何修改主机名(hostname)方法方法1. 使用 hostnamectl 命令示例 2. 编辑 /etc/hostname 文件注意事项 背景 我创建虚拟机的时候没设置主机名,现在显示localhost,有点尴尬😅: 需要重新设…

冒泡排序

贵阳这个地方的天气变化好大呀,前两天晒大太阳,今天就冷的脚抖,简直不要太冷,但是不管怎么样,还是要学习的哟! 冬天来了,春天确实还有一点远! 好了,话不多说,…

SpringBoot 缓存之 @Cacheable 详细介绍

一、简介 1、缓存介绍 Spring 从 3.1 开始就引入了对 Cache 的支持。定义了 org.springframework.cache.Cache 和 org.springframework.cache.CacheManager 接口来统一不同的缓存技术。并支持使用 JCache(JSR-107)注解简化我们的开发。 其…

由浅入深学习统计学 - 常用统计图形学习

学习笔记 第一章- 信息图形化 图形化(可视化) 在一堆数据中,自己发现了这些数据的规律,但是无法表述给其他人知道,图形化就是便于他人理解数据的规律的展示的手段。 或者说我们也可以从统计的数据图形中发现某些没有…

城市内涝积水预防,万宾科技内涝监测仪如何预警?

近几年来城市内涝所引发的安全隐患极为突出,影响着城市道路安全,而且也让市民心中多有惶恐。一旦城市内涝问题出现背后不仅是路面积水问题,更会导致城市无法正常运行,导致市民日常生活和工作受到影响。所以对于排水防涝设施的建设…

Linux之基础开发工具gdb调试器的使用(三)

文章目录 一、Linux调试器-gdb使用1、安装gdb2、背景3、Debug和release4、区分Debug和release 二、Linux调试器-gdb命令演示1、显示指定行之后的代码(自动记录最后一条指令)2、断点1、打印断点2、查看断点3、删除断点4、使能(禁用/开启&#…

C语言—逻辑运算符中的短路求值

在利用 && 和 || 等操作运算符进行逻辑运算时,只要最终的运算结果可以确定,运算就终止。 比如: a3,b3,那么(a3)&&(b3),因为两边均为真,所以…

智能一体化管网水位监测仪怎么样?

城市排水管网是城市正常运行的关键环节,这是地上和地下通道的连接点,一旦出现问题便会影响城市生命线建设的工程进展。在复杂的地下管道内想要了解水位数据,对于政府部门来讲是一个管理难题。如果可以采取智能产品在其中发挥作用,…

Java的流操作:让数据处理更简单,更高效

Java 8引入了一种新的抽象概念——流(Stream),它允许我们以声明式方式处理数据集合。通过使用流,可以更简洁、更易读地编写代码来对集合进行复杂的操作,如过滤、映射、排序等。本文将介绍Java 8的流操作的基本概念和使…

设计模式 -- 观察者模式

说明 author blog.jellyfishmix.com / JellyfishMIX - githubLICENSE GPL-2.0 定义 观察者模式(Observer Design Pattern) 也被称为发布订阅模式(Publish-Subscribe Design Pattern)。在 GoF 的《设计模式》一书中,它的定义是这样的: Define a one-to-many depe…

docker.service配置docker镜像加速

加速器配置方法很多,小白我用的是docker.service文件,所以直接在里面配置啊 配置以后,要systemctl daemon-reload下 ,然后docker info 下看下镜像地址是否是自己已配置的 docker run --privilegedtrue --name mytomcat -p 8080…

改进YOLO系列 | YOLOv5/v7 引入反向残差注意力模块 iRMB | 《ICCV 2023 最新论文》

论文地址:https://arxiv.org/abs/2301.01146 代码地址:https://github.com/zhangzjn/EMO 本论文着重于开发现代、高效、轻量级的模型,用于进行密集预测,同时在参数、FLOPs和性能之间进行权衡。倒置残差块(IRB)作为轻量级CNN的基础设施,但在基于注意力的研究中尚未找到对…

电脑版微信收到的图片怎么样自动保存到指定文件夹中?

8-5 在平时的工作中,如果你每天都需要接收并保存很多同事发来的图片,如何实现自动保存在微信上接收到的图片呢?本文的方法也许适合你,它可以自动把微信上收到的图片、视频、文件帮你保存到指定地方,可以大大地提高工作…