Python数据分析-航空公司客户满意度分析

一、研究背景

随着航空业的快速发展,航空公司之间的竞争愈发激烈。航空公司不再仅仅依靠价格、航班时间等基本要素来吸引客户,而更多地关注如何提升客户体验与满意度。乘客的飞行体验和满意度不仅影响了他们的忠诚度,也对航空公司在市场中的竞争力产生了直接影响。近年来,越来越多的航空公司开始通过收集和分析乘客反馈,改进服务流程,优化航班运营,以提升客户的整体满意度。
客户满意度的研究主要集中在多个维度,如机上服务、座位舒适度、航班延误等。这些因素共同决定了乘客对航空公司服务的感知与评价。尤其是在当今全球化竞争日益加剧的背景下,了解哪些服务维度对乘客的满意度影响最大,可以帮助航空公司更好地制定服务策略,提升市场份额。

二、研究意义

本研究的意义主要体现在以下几个方面:

  1. 提升客户忠诚度:通过对乘客满意度的深入分析,航空公司能够更好地了解影响客户忠诚度的关键因素。例如,通过分析忠诚客户和不忠诚客户之间的差异,可以为公司提供定向改善服务的指导,从而提高客户留存率。

  2. 改善客户体验:本研究识别了哪些因素最能影响乘客的满意与否。通过对这些因素的优化,航空公司可以在客户服务中做出更具针对性的调整。例如,改善机上娱乐、座位舒适度或登机服务质量等都能显著提高客户的满意度。

  3. 优化资源配置:通过了解客户对不同服务的满意度,航空公司可以更科学地分配资源,集中提升最具影响力的服务项目。比如,发现乘客对航班延误和机上服务特别敏感,航空公司可以相应地投入更多资源来优化这些方面。

  4. 数据驱动的决策:本研究为航空公司提供了基于数据的决策依据,使其能够通过数据分析识别出最优的服务改进方案,而不是依靠传统的主观经验或反馈。数据驱动的服务提升能够让航空公司在市场中保持竞争力。

三、实证分析

数据和代码

此数据集包含航空公司乘客满意度调查。哪些因素与满意(或不满意)的乘客高度相关?

数据集内容
性:乘客性别(女性、男性)
客户类型:客户类型 (忠诚客户、不忠诚客户)
年龄:乘客的实际年龄
旅行类型:乘客的飞行目的(个人旅行、商务旅行)
类:乘客飞机上的旅行舱位(商务舱、Eco、Eco Plus)
飞行距离:此旅程的飞行距离
机上 wifi 服务:机上 wifi 服务的满意度 (0:不适用;1-5)
出发/到达时间方便:满意程度 出发 / 到达 时间 方便
在线预订的便利性:在线预订的满意度
登机口位置:登机口位置的满意度
食物和饮料:食品和饮料的满意度
网上登机:网上登机满意度
座椅舒适度:座椅舒适度满意度
机上娱乐:机上娱乐满意度
机上服务:On-board 服务的满意度
腿部客房服务:Leg room 服务的满意度
行李处理:行李处理满意度
值机服务:值机服务的满意度
机上服务:机上服务满意度
清洁:清洁度满意度
出发延误(分钟):出发时延误的分钟数
到达延迟(分钟):到达时延迟的分钟数
满意:航空公司满意度(满意、中立或不满意)
首先导入数据集分析的包

import pandas as pd
import numpy as np 
import seaborn as sns 
import matplotlib.pyplot as plt
import warnings
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, classification_report ,confusion_matrix , precision_score, recall_score, f1_score, classification_reportfrom sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from xgboost import XGBClassifier
from sklearn.ensemble import BaggingClassifier
df= pd.read_csv(r"test.csv" )df.T

数据预处理

df.set_index("Unnamed: 0" , inplace=True)
df.drop('id', axis=1, inplace=True)print(df.shape)
print("The number of rows : " , df.shape[0])
print("The number of columns : " , df.shape[1])

再查看数据信息

 

查看数据缺失值情况:

df.isna().sum()

 

发现Arrival Delay in Minutes存在缺失值

接下来对缺失值进行均值填充

df["Arrival Delay in Minutes"].isna().sum()
df["Arrival Delay in Minutes"].fillna(df["Arrival Delay in Minutes"].mean() , inplace=True)

数据集描述性统计分析

 接下来进行可视化,首先对年龄进行可视化

plt.figure(figsize=(8, 5),dpi=200)
n, bins, patches = plt.hist(df["Age"], bins=20, edgecolor='black')
cmap = plt.get_cmap('Blues')
norm = plt.Normalize(vmin=min(bins), vmax=max(bins))for patch, bin_value in zip(patches, bins):color = cmap(norm(bin_value))patch.set_facecolor(color)plt.xticks(ticks=np.arange(0, df["Age"].max(), step=5), fontsize=12)
plt.xlabel("Age", fontsize=14)
plt.ylabel("Frequency", fontsize=14)plt.show()

 对年龄进行分箱操作

cut_series = pd.cut(df['Age'], bins=[5, 15, 30, 45, 60, 75, 85], labels=['5-15', '15-30', '30-45', '45-60', '60-75', '75-85'])
value_counts = cut_series.value_counts()percentage_distribution = (value_counts / df['Age'].shape[0]).mul(100).round(2)print("Distribution (Counts):")
print(value_counts)
print("\nDistribution (Percentage):")
print(percentage_distribution)

 

查看满意度占比

df.satisfaction.value_counts()colors = plt.get_cmap('Pastel1_r').colorsdf.satisfaction.value_counts().plot(kind='pie', autopct='%1.1f%%', figsize=(7,5), title='Distribution of Test Results', explode=(0.08,0) , shadow=True , colors=colors)
plt.show()

 

colors = plt.get_cmap('Pastel1').colors
df["Customer Type"].value_counts().plot(kind='pie', autopct='%1.1f%%', figsize=(10,5), title='Distribution of Customer Type', explode=(0.11,0 ) , shadow=True , colors=colors)
plt.show()

plt.figure(figsize=(9, 5),dpi=200)
n, bins, patches = plt.hist(df["Flight Distance"], bins=20, edgecolor='black')
cmap = plt.get_cmap('Blues')
norm = plt.Normalize(vmin=min(bins), vmax=max(bins))for patch, bin_value in zip(patches, bins):color = cmap(norm(bin_value))patch.set_facecolor(color)plt.xticks(ticks=np.arange(0, df["Flight Distance"].max(), step=500), fontsize=12)
plt.xlabel("Flight Distance", fontsize=14)
plt.ylabel("Frequency", fontsize=14)plt.show()

 

plt.figure(figsize=(5, 3),dpi=200)
sns.boxplot(x=df["Flight Distance"], color="#9DBDFF")
plt.xlabel("Flight Distance", fontsize=12)
plt.title("飞行箱线图", fontsize=16)
plt.show()

plt.figure(figsize=(9, 5),dpi=200)
sns.histplot(data=df, x="Flight Distance", bins=20, edgecolor='black', hue="Type of Travel", palette="pastel")
plt.xlabel("Flight Distance", fontsize=14)
plt.ylabel("Frequency", fontsize=14)plt.show()

cut_series = pd.cut(df['Flight Distance'], bins=[0, 1000, 2000, 3000, 4000, 5000], labels=['0-1000', '1000-2000', '2000-3000', '3000-4000', '4000-5000'])
distribution_counts = pd.crosstab( cut_series , df["Type of Travel"])
distribution_percentages = pd.crosstab(cut_series, df["Type of Travel"], normalize='columns').mul(100).round(2)

 

该图表显示了一些隐含的要点,可用于制定决策或构建策略。

1. 市场营销和销售规划:
   - 定向营销:此信息可用于专门针对在其旅行距离内的关键客户。例如,一个针对进行短途试飞的男性的营销软件包。
   - 特别优惠:提供在时间和温度方面个性化的航班特别优惠,以激励人们前往更远的地方旅行。

2. 改善航线网络规划:
   - 此数据可用于规划航班、其频率,尤其是基本要素。例如,可以增加覆盖距离小于1000英里的短途旅行的数量。

 

satisfaction_4_5 = df["Inflight wifi service"].isin([4, 5]).sum()
satisfaction_3 = df["Inflight wifi service"].isin([3]).sum()low_satisfaction = df["Inflight wifi service"].isin([1, 2]).sum()
No_rated = df["Inflight wifi service"].isin([0]).sum()sizes = [No_rated, low_satisfaction, satisfaction_3, satisfaction_4_5]
label_name = np.array(["No rated", "low Satisfaction", "middle Satisfaction", "high Satisfaction"])plt.figure(figsize=(11, 4), dpi=200)plt.subplot(1, 2, 2)
plt.title("Satisfaction level of Ease of Inflight wifi service", loc="right")
plt.pie(sizes, labels=label_name, autopct='%1.1f%%', startangle=90, colors=["#F9E8C9", "#FEECE2", "#FFDBB5", "#E7D4B5"], explode=(0, 0.05, 0, 0))plt.subplot(1, 2, 1)
ax = sns.countplot(x='Inflight wifi service', data=df, palette={0: "#F7DCB9", 1: "#E7D4B5", 2: "#F9E2AF", 3: "#FFDBB5", 4: "#FFBF78", 5: "#DEAC80"})
# 不再使用 width 参数,因为出现错误total = df['Inflight wifi service'].count()
percentages = (df['Inflight wifi service'].value_counts() / total) * 100ax.spines['top'].set_position(('axes', 1.03))def addlabels(rects, percentages):for rect, percent in zip(rects, percentages):height = rect.get_height()plt.text(rect.get_x() + rect.get_width()/2, height + 5, f'{percent:.1f}%', ha='center', va='bottom')addlabels(ax.patches, percentages)plt.xlabel("Inflight wifi service", fontsize=13)
plt.ylabel("Count", fontsize=12)plt.tight_layout()
plt.show()

 查看一下相关系数

plt.figure(figsize=(10, 6))
sns.heatmap(crosstab, annot=True, fmt='d', cbar=True ,edgecolor="black")plt.title('性别 vs 登机口位置分布')
plt.xlabel('Gate Location')
plt.ylabel('Gender')
plt.show()

 

services = ['Inflight wifi service', 'Food and drink', 'Seat comfort', 'Inflight entertainment', 'On-board service', 'Leg room service', 'Baggage handling', 'Checkin service', 'Inflight service', 'Cleanliness']plt.figure(figsize=(15, 10))
for i, service in enumerate(services):plt.subplot(3, 4, i+1)sns.boxplot(data=df, x='satisfaction', y=service)plt.title(f'{service} vs Satisfaction')plt.xlabel('Satisfaction')plt.ylabel(service)plt.tight_layout()
plt.show()

 

划分训练集和测试集,建立机器学习预测模型

X = df.drop('satisfaction', axis=1)  
y = df['satisfaction']  columns_to_scale = ['Flight Distance', 'Age', 'Departure Delay in Minutes', 'Arrival Delay in Minutes']
scaler = StandardScaler()
X[columns_to_scale] = scaler.fit_transform(X[columns_to_scale])X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

逻辑回归模型

log_reg = LogisticRegression(random_state=42)log_reg.fit(X_train, y_train)y_pred_log_reg = log_reg.predict(X_test)accuracy_log_reg = accuracy_score(y_test, y_pred_log_reg)
print(f'Logistic Regression Accuracy: {accuracy_log_reg * 100:.2f}%')
print(classification_report(y_test, y_pred_log_reg))

 

决策树模型

clf = DecisionTreeClassifier(random_state=42)
clf.fit(X_train, y_train)y_pred = clf.predict(X_test)accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy * 100:.2f}%')print(classification_report(y_test, y_pred))

 随机森林模型

rf_clf = RandomForestClassifier(random_state=42)
rf_clf.fit(X_train, y_train)
y_pred_rf = rf_clf.predict(X_test)accuracy_rf = accuracy_score(y_test, y_pred_rf)
print(f'Random Forest Accuracy: {accuracy_rf * 100:.2f}%')
print(classification_report(y_test, y_pred_rf))

 

XGBOOST

xgb_clf = XGBClassifier(random_state=42)xgb_clf.fit(X_train, y_train)y_pred_xgb = xgb_clf.predict(X_test)accuracy_xgb = accuracy_score(y_test, y_pred_xgb)
print(f'XGBoost Accuracy: {accuracy_xgb * 100:.2f}%')print(classification_report(y_test, y_pred_xgb))

  

feature_importances = model.feature_importances_plt.figure(figsize=(10, 6))
plt.barh(X.columns, feature_importances,color='skyblue')
plt.title('特征重要性 - XGBoost 模型')
plt.xlabel('Importance')
plt.ylabel('Features')
plt.show()

 模型预测

y_pred = model.predict(X_test)print("Confusion Matrix:")
cm=confusion_matrix(y_test, y_pred)
print(cm)
cm = confusion_matrix(y_test, y_pred)plt.figure(figsize=(8, 6),dpi=180)
sns.heatmap(cm,   cmap='Blues', cbar=False, annot_kws={"size": 16})plt.title('混淆矩阵', fontsize=18)
plt.xlabel('Predicted Label', fontsize=14)
plt.ylabel('True Label', fontsize=14)plt.text(0.5, 0.5, f'TP: {cm[1, 1]}', ha='center', va='center', fontsize=12, color='black')
plt.text(0.5, 1.5, f'FN: {cm[1, 0]}', ha='center', va='center', fontsize=12, color='black')
plt.text(1.5, 0.5, f'FP: {cm[0, 1]}', ha='center', va='center', fontsize=12, color='black')
plt.text(1.5, 1.5, f'TN: {cm[0, 0]}', ha='center', va='center', fontsize=12, color='black')plt.show()

 

precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)print(f"Precision: {precision:.2f}")
print(f"Recall: {recall:.2f}")
print(f"F1-Score: {f1:.2f}")

 

四、研究结论

通过对航空公司客户满意度数据的实证分析,研究得出以下关键结论:

  1. 飞行距离与客户满意度的关系显著:较短或较长的飞行距离对乘客的满意度有明显影响,尤其是对于商务舱乘客,飞行距离和航班舒适度具有很强的关联性。商务旅行的乘客更在意舒适的座椅和娱乐服务,而个人旅行的乘客则更多关注航班时间和登机便利性。

  2. 服务质量对客户满意度至关重要:机上服务、座位舒适度和清洁度等因素与客户的总体满意度有高度关联。通过相关性分析,研究发现,机上WiFi服务、机上娱乐、座椅舒适度等服务的满意度对客户整体满意度的影响较为显著,尤其对于忠诚客户来说,这些因素是决定其是否继续选择该航空公司的关键。

  3. 延误对满意度的负面影响明显:航班出发和到达延误对客户满意度有显著的负面影响,尤其是在航班延误超过30分钟的情况下,不满意的比例大幅上升。航空公司应更加重视航班准点率的管理,减少延误时间,以提高客户满意度。

  4. 忠诚客户与不忠诚客户的满意度差异显著:忠诚客户的满意度明显高于不忠诚客户,这表明航空公司提供的会员奖励计划或忠诚客户优惠措施在提升客户满意度方面效果显著。通过针对不忠诚客户提供更具个性化的服务和优惠,有助于将其转化为忠诚客户。

  5. 模型XBOOST的预测效果相较于其他模型效果较好,Precision为0.955,Recall为0.94,F1-Score为0.95。

总的来说,航空公司在改善客户体验和提升客户满意度方面应当采取针对性措施,尤其是对机上服务、座位舒适度和航班准时性等重点因素进行优化。这不仅能提升客户忠诚度,还能提高公司在市场中的竞争力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/56499.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IJKPlayer源码分析-整体结构

根据我们的之前的老方法,采用结构化的方式来对IJKPlayer源码做个分析,首先,我们从整体的角度先把IJKPlayer的整体架构和流程讲下,让大家先有个整体的印象。 本地JNI入口 在Android环境下,JVM层载入一个本地so库流程大致…

【C++11】包装器:深入解析与实现技巧

C 包装器:深入解析与实现技巧 个人主页 C专栏 目录 引言包装器的定义与用途C 包装器的常见应用场景实现包装器的技巧使用 RAII 实现资源管理案例分析:智能指针模板包装器的应用包装器与设计模式性能优化更多应用案例总结 引言 C 是一门灵活且强大的语…

vue后台管理系统从0到1搭建(4)各组件的搭建

文章目录 vue后台管理系统从0到1搭建(4)各组件的搭建Main.vue 组件的初构 vue后台管理系统从0到1搭建(4)各组件的搭建 Main.vue 组件的初构 根据我们的效果来看,分析一下,我们把左边的区域分为一个组件&am…

Learn OpenGL In Qt之纹理

竹杖芒鞋轻胜马,谁怕?一蓑烟雨任平生~ 公众号: C学习与探索 | 个人主页: rainInSunny | 个人专栏: Learn OpenGL In Qt 文章目录 纹理纹理坐标纹理环绕方式纹理采样多级渐远纹理 纹理加载和创建加载纹理创建纹理 应用纹理 纹理 纹理坐标…

【AWS AMI跨境备份】跨境使用 S3 备份和还原 AMI 镜像

文章目录 一、实验场景二、实验目标三、实验架构图四、涉及到AWS服务五、演示操作5.1 创建EC2实例5.2 创建映像5.3 备份AMI至Global S35.4 复制AMI从Global S3至 CN S35.5 还原AMI5.6 测试AMI 六、参考链接 一、实验场景 将 AWS Global区域的EC2实例备份至 AWS CN区域。 备份…

苍穹外卖学习笔记(二十五)

文章目录 Spring Task介绍应用场景: cron表达式例如: 入门案例 订单状态定时处理处理超时订单处理一直配送中的订单OrderMapper WebSocket介绍HTTP协议和WebSocket协议对比应用场景:入门案例1. 使用websocket.html作为WebSocket客户端2. 导入…

前端打印功能(vue +springboot)

后端 后端依赖生成pdf的方法pdf转图片使用(用的打印模版是带参数的 ,参数是aaa)总结 前端页面 效果 后端 依赖 依赖 一个是用模版生成对应的pdf,一个是用来将pdf转成图片需要的 <!--打印的--><dependency><groupId>net.sf.jasperreports</groupId>&l…

LCD补充

LCD补充 目录 LCD补充 tip:随着我们学的越来越多&#xff0c;代码长度越来越长&#xff0c;编译越来越慢&#xff0c;有没有超过内存是我们比较关心的一件事&#xff0c;通过以下方法可以实时看到写的代码的大小 回顾LCD LCD补充功能 -- 1、有关在LCD上显示动图&#xff…

前端使用Canvas实现网页电子签名(撤销、下载)

前言&#xff1a;一般在一些后台的流程资料以及审核的场景中会需要电子签名&#xff0c;介绍一种用canvas实现的电子签名&#xff0c;此案例用的是原生js 效果展示&#xff1a; 一、html和css&#xff1a; <div class"divCla2"><canvas id"myCanvas&q…

数据结构-排序算法

基于交换的排序算法 快速排序&#xff1a; 最优情况 最优情况下&#xff0c;每次找到的参考轴把数据分成均匀的两半&#xff0c;最后应该是一个平衡二叉树状态&#xff1b;二叉树的层数&#xff08;logn&#xff09;即为递归需要进行的次数&#xff0c;并且每轮递归结束时&…

Java语言-抽象类

目录 1.抽象类概念 2.抽象类语法 3.抽象类特性 4.抽象类作用 1.抽象类概念 在面向对象的概念中&#xff0c;所有的对象都是通过类来描绘的&#xff0c;但是反过来&#xff0c;并不是所有的类都是用来描绘对象的&#xff0c; 如果 一个类中没有包含足够的信息来描绘一个具体…

115.WEB渗透测试-信息收集-ARL(6)

免责声明&#xff1a;内容仅供学习参考&#xff0c;请合法利用知识&#xff0c;禁止进行违法犯罪活动&#xff01; 内容参考于&#xff1a; 易锦网校会员专享课 上一个内容&#xff1a;114.WEB渗透测试-信息收集-ARL&#xff08;5&#xff09; httpd就是apache环境&#xff0…

跨平台音摄像头|屏幕推送选OBS还是SmartPublisher?

好多开发者希望搞明白OBS和 SmartPublisher的区别和使用场景差别&#xff0c;本文就二者差别做个对比&#xff1a; OBS OBS&#xff08;Open Broadcaster Software&#xff09;是一款免费且开源的跨平台流媒体和视频录制软件。以下是关于它的详细介绍&#xff1a; 功能特点&a…

音乐播放器项目专栏介绍​

1.简介 本专栏使用Qt QWidget作为显示界面&#xff0c;你将会学习到以下内容&#xff1a; 1.大量ui美化的实例。 2.各种复杂ui布局。 3.常见显示效果实现。 4.大量QSS实例。 5.Qt音频播放&#xff0c;音乐歌词文件加载&#xff0c;展示。 6.播放器界面换肤。 相信学习了本专栏…

Oracle Expdp按条件导出-指定表数据

1.场景描述 业务需求&#xff1a;导出A机构、2024的数据&#xff0c;以dmp格式&#xff0c;保留导出日志。首先&#xff0c;需要分析库中需要导出的表清单、表的机构字段约束、表的时间约束&#xff1b;然后再导出。 2.方案分析 本次采用Oracle的expdp数据泵方式导出&#xf…

基于Docker的FRP内网穿透部署

服务器搭建&#xff08;FRPS&#xff09; 创建配置文件 # 创建存放目录 sudo mkdir /etc/frp # 创建frps.ini文件 nano /etc/frp/frps.ini frps.ini内容如下&#xff1a; [common] # 监听端口 bind_port 7000 # 面板端口 dashboard_port 7500 # 登录面板账号设置 dashboa…

《数字信号处理》学习09-部分分式展开法计算z 逆变换

在之前的文章中&#xff0c;我已经学习了使用留数法&#xff08;围线积分法&#xff09;来计算z逆变换 《数字信号处理》学习08-围线积分法&#xff08;留数法&#xff09;计算z 逆变换-CSDN博客 接着学习第二种计算z变换的方法&#xff1a;部分分式展开法。 目录 一&…

决策智能与强化学习:重放比率(replay ratio)

知乎&#xff1a;DILab决策实验室&#xff08;已授权&#xff09;链接&#xff1a;https://zhuanlan.zhihu.com/p/898641863 0. 概览 近年来&#xff0c;深度强化学习&#xff08;Deep Reinforcement Learning, DRL&#xff09;在诸多领域取得了显著的成果。然而&#xff0c;随…

域环境模拟实验搭建

1. 域环境搭建 总体来说下一步下一步即可 域&#xff1a;统一的管理计算机的集群&#xff0c;中心管理机器&#xff08;域控制器 DC&#xff09;管理整个内网&#xff08;域内成员机器&#xff09; 条件&#xff1a;1. 需要一台域控制器 -- windows server版本&#xff08;w…

高级英语1第四版教材全解pdf课后答案+课文翻译张汉熙

《高级英语1》是张汉熙教授编著的一本英语教材&#xff0c;广泛用于国内高校英语专业高年级学生的教学。这本书以提高学生的英语综合能力为目标&#xff0c;注重语言知识的系统性和实用性&#xff0c;同时强调跨文化交际能力的培养。书中选材丰富&#xff0c;涵盖了文学、历史、…