一、研究背景
随着航空业的快速发展,航空公司之间的竞争愈发激烈。航空公司不再仅仅依靠价格、航班时间等基本要素来吸引客户,而更多地关注如何提升客户体验与满意度。乘客的飞行体验和满意度不仅影响了他们的忠诚度,也对航空公司在市场中的竞争力产生了直接影响。近年来,越来越多的航空公司开始通过收集和分析乘客反馈,改进服务流程,优化航班运营,以提升客户的整体满意度。
客户满意度的研究主要集中在多个维度,如机上服务、座位舒适度、航班延误等。这些因素共同决定了乘客对航空公司服务的感知与评价。尤其是在当今全球化竞争日益加剧的背景下,了解哪些服务维度对乘客的满意度影响最大,可以帮助航空公司更好地制定服务策略,提升市场份额。
二、研究意义
本研究的意义主要体现在以下几个方面:
-
提升客户忠诚度:通过对乘客满意度的深入分析,航空公司能够更好地了解影响客户忠诚度的关键因素。例如,通过分析忠诚客户和不忠诚客户之间的差异,可以为公司提供定向改善服务的指导,从而提高客户留存率。
-
改善客户体验:本研究识别了哪些因素最能影响乘客的满意与否。通过对这些因素的优化,航空公司可以在客户服务中做出更具针对性的调整。例如,改善机上娱乐、座位舒适度或登机服务质量等都能显著提高客户的满意度。
-
优化资源配置:通过了解客户对不同服务的满意度,航空公司可以更科学地分配资源,集中提升最具影响力的服务项目。比如,发现乘客对航班延误和机上服务特别敏感,航空公司可以相应地投入更多资源来优化这些方面。
-
数据驱动的决策:本研究为航空公司提供了基于数据的决策依据,使其能够通过数据分析识别出最优的服务改进方案,而不是依靠传统的主观经验或反馈。数据驱动的服务提升能够让航空公司在市场中保持竞争力。
三、实证分析
数据和代码
此数据集包含航空公司乘客满意度调查。哪些因素与满意(或不满意)的乘客高度相关?
数据集内容
性:乘客性别(女性、男性)
客户类型:客户类型 (忠诚客户、不忠诚客户)
年龄:乘客的实际年龄
旅行类型:乘客的飞行目的(个人旅行、商务旅行)
类:乘客飞机上的旅行舱位(商务舱、Eco、Eco Plus)
飞行距离:此旅程的飞行距离
机上 wifi 服务:机上 wifi 服务的满意度 (0:不适用;1-5)
出发/到达时间方便:满意程度 出发 / 到达 时间 方便
在线预订的便利性:在线预订的满意度
登机口位置:登机口位置的满意度
食物和饮料:食品和饮料的满意度
网上登机:网上登机满意度
座椅舒适度:座椅舒适度满意度
机上娱乐:机上娱乐满意度
机上服务:On-board 服务的满意度
腿部客房服务:Leg room 服务的满意度
行李处理:行李处理满意度
值机服务:值机服务的满意度
机上服务:机上服务满意度
清洁:清洁度满意度
出发延误(分钟):出发时延误的分钟数
到达延迟(分钟):到达时延迟的分钟数
满意:航空公司满意度(满意、中立或不满意)
首先导入数据集分析的包
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, classification_report ,confusion_matrix , precision_score, recall_score, f1_score, classification_reportfrom sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from xgboost import XGBClassifier
from sklearn.ensemble import BaggingClassifier
df= pd.read_csv(r"test.csv" )df.T
数据预处理
df.set_index("Unnamed: 0" , inplace=True)
df.drop('id', axis=1, inplace=True)print(df.shape)
print("The number of rows : " , df.shape[0])
print("The number of columns : " , df.shape[1])
再查看数据信息
查看数据缺失值情况:
df.isna().sum()
发现Arrival Delay in Minutes存在缺失值
接下来对缺失值进行均值填充
df["Arrival Delay in Minutes"].isna().sum()
df["Arrival Delay in Minutes"].fillna(df["Arrival Delay in Minutes"].mean() , inplace=True)
数据集描述性统计分析
接下来进行可视化,首先对年龄进行可视化
plt.figure(figsize=(8, 5),dpi=200)
n, bins, patches = plt.hist(df["Age"], bins=20, edgecolor='black')
cmap = plt.get_cmap('Blues')
norm = plt.Normalize(vmin=min(bins), vmax=max(bins))for patch, bin_value in zip(patches, bins):color = cmap(norm(bin_value))patch.set_facecolor(color)plt.xticks(ticks=np.arange(0, df["Age"].max(), step=5), fontsize=12)
plt.xlabel("Age", fontsize=14)
plt.ylabel("Frequency", fontsize=14)plt.show()
对年龄进行分箱操作
cut_series = pd.cut(df['Age'], bins=[5, 15, 30, 45, 60, 75, 85], labels=['5-15', '15-30', '30-45', '45-60', '60-75', '75-85'])
value_counts = cut_series.value_counts()percentage_distribution = (value_counts / df['Age'].shape[0]).mul(100).round(2)print("Distribution (Counts):")
print(value_counts)
print("\nDistribution (Percentage):")
print(percentage_distribution)
查看满意度占比
df.satisfaction.value_counts()colors = plt.get_cmap('Pastel1_r').colorsdf.satisfaction.value_counts().plot(kind='pie', autopct='%1.1f%%', figsize=(7,5), title='Distribution of Test Results', explode=(0.08,0) , shadow=True , colors=colors)
plt.show()
colors = plt.get_cmap('Pastel1').colors
df["Customer Type"].value_counts().plot(kind='pie', autopct='%1.1f%%', figsize=(10,5), title='Distribution of Customer Type', explode=(0.11,0 ) , shadow=True , colors=colors)
plt.show()
plt.figure(figsize=(9, 5),dpi=200)
n, bins, patches = plt.hist(df["Flight Distance"], bins=20, edgecolor='black')
cmap = plt.get_cmap('Blues')
norm = plt.Normalize(vmin=min(bins), vmax=max(bins))for patch, bin_value in zip(patches, bins):color = cmap(norm(bin_value))patch.set_facecolor(color)plt.xticks(ticks=np.arange(0, df["Flight Distance"].max(), step=500), fontsize=12)
plt.xlabel("Flight Distance", fontsize=14)
plt.ylabel("Frequency", fontsize=14)plt.show()
plt.figure(figsize=(5, 3),dpi=200)
sns.boxplot(x=df["Flight Distance"], color="#9DBDFF")
plt.xlabel("Flight Distance", fontsize=12)
plt.title("飞行箱线图", fontsize=16)
plt.show()
plt.figure(figsize=(9, 5),dpi=200)
sns.histplot(data=df, x="Flight Distance", bins=20, edgecolor='black', hue="Type of Travel", palette="pastel")
plt.xlabel("Flight Distance", fontsize=14)
plt.ylabel("Frequency", fontsize=14)plt.show()
cut_series = pd.cut(df['Flight Distance'], bins=[0, 1000, 2000, 3000, 4000, 5000], labels=['0-1000', '1000-2000', '2000-3000', '3000-4000', '4000-5000'])
distribution_counts = pd.crosstab( cut_series , df["Type of Travel"])
distribution_percentages = pd.crosstab(cut_series, df["Type of Travel"], normalize='columns').mul(100).round(2)
该图表显示了一些隐含的要点,可用于制定决策或构建策略。
1. 市场营销和销售规划:
- 定向营销:此信息可用于专门针对在其旅行距离内的关键客户。例如,一个针对进行短途试飞的男性的营销软件包。
- 特别优惠:提供在时间和温度方面个性化的航班特别优惠,以激励人们前往更远的地方旅行。
2. 改善航线网络规划:
- 此数据可用于规划航班、其频率,尤其是基本要素。例如,可以增加覆盖距离小于1000英里的短途旅行的数量。
satisfaction_4_5 = df["Inflight wifi service"].isin([4, 5]).sum()
satisfaction_3 = df["Inflight wifi service"].isin([3]).sum()low_satisfaction = df["Inflight wifi service"].isin([1, 2]).sum()
No_rated = df["Inflight wifi service"].isin([0]).sum()sizes = [No_rated, low_satisfaction, satisfaction_3, satisfaction_4_5]
label_name = np.array(["No rated", "low Satisfaction", "middle Satisfaction", "high Satisfaction"])plt.figure(figsize=(11, 4), dpi=200)plt.subplot(1, 2, 2)
plt.title("Satisfaction level of Ease of Inflight wifi service", loc="right")
plt.pie(sizes, labels=label_name, autopct='%1.1f%%', startangle=90, colors=["#F9E8C9", "#FEECE2", "#FFDBB5", "#E7D4B5"], explode=(0, 0.05, 0, 0))plt.subplot(1, 2, 1)
ax = sns.countplot(x='Inflight wifi service', data=df, palette={0: "#F7DCB9", 1: "#E7D4B5", 2: "#F9E2AF", 3: "#FFDBB5", 4: "#FFBF78", 5: "#DEAC80"})
# 不再使用 width 参数,因为出现错误total = df['Inflight wifi service'].count()
percentages = (df['Inflight wifi service'].value_counts() / total) * 100ax.spines['top'].set_position(('axes', 1.03))def addlabels(rects, percentages):for rect, percent in zip(rects, percentages):height = rect.get_height()plt.text(rect.get_x() + rect.get_width()/2, height + 5, f'{percent:.1f}%', ha='center', va='bottom')addlabels(ax.patches, percentages)plt.xlabel("Inflight wifi service", fontsize=13)
plt.ylabel("Count", fontsize=12)plt.tight_layout()
plt.show()
查看一下相关系数
plt.figure(figsize=(10, 6))
sns.heatmap(crosstab, annot=True, fmt='d', cbar=True ,edgecolor="black")plt.title('性别 vs 登机口位置分布')
plt.xlabel('Gate Location')
plt.ylabel('Gender')
plt.show()
services = ['Inflight wifi service', 'Food and drink', 'Seat comfort', 'Inflight entertainment', 'On-board service', 'Leg room service', 'Baggage handling', 'Checkin service', 'Inflight service', 'Cleanliness']plt.figure(figsize=(15, 10))
for i, service in enumerate(services):plt.subplot(3, 4, i+1)sns.boxplot(data=df, x='satisfaction', y=service)plt.title(f'{service} vs Satisfaction')plt.xlabel('Satisfaction')plt.ylabel(service)plt.tight_layout()
plt.show()
划分训练集和测试集,建立机器学习预测模型
X = df.drop('satisfaction', axis=1)
y = df['satisfaction'] columns_to_scale = ['Flight Distance', 'Age', 'Departure Delay in Minutes', 'Arrival Delay in Minutes']
scaler = StandardScaler()
X[columns_to_scale] = scaler.fit_transform(X[columns_to_scale])X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
逻辑回归模型
log_reg = LogisticRegression(random_state=42)log_reg.fit(X_train, y_train)y_pred_log_reg = log_reg.predict(X_test)accuracy_log_reg = accuracy_score(y_test, y_pred_log_reg)
print(f'Logistic Regression Accuracy: {accuracy_log_reg * 100:.2f}%')
print(classification_report(y_test, y_pred_log_reg))
决策树模型
clf = DecisionTreeClassifier(random_state=42)
clf.fit(X_train, y_train)y_pred = clf.predict(X_test)accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy * 100:.2f}%')print(classification_report(y_test, y_pred))
随机森林模型
rf_clf = RandomForestClassifier(random_state=42)
rf_clf.fit(X_train, y_train)
y_pred_rf = rf_clf.predict(X_test)accuracy_rf = accuracy_score(y_test, y_pred_rf)
print(f'Random Forest Accuracy: {accuracy_rf * 100:.2f}%')
print(classification_report(y_test, y_pred_rf))
XGBOOST
xgb_clf = XGBClassifier(random_state=42)xgb_clf.fit(X_train, y_train)y_pred_xgb = xgb_clf.predict(X_test)accuracy_xgb = accuracy_score(y_test, y_pred_xgb)
print(f'XGBoost Accuracy: {accuracy_xgb * 100:.2f}%')print(classification_report(y_test, y_pred_xgb))
feature_importances = model.feature_importances_plt.figure(figsize=(10, 6))
plt.barh(X.columns, feature_importances,color='skyblue')
plt.title('特征重要性 - XGBoost 模型')
plt.xlabel('Importance')
plt.ylabel('Features')
plt.show()
模型预测
y_pred = model.predict(X_test)print("Confusion Matrix:")
cm=confusion_matrix(y_test, y_pred)
print(cm)
cm = confusion_matrix(y_test, y_pred)plt.figure(figsize=(8, 6),dpi=180)
sns.heatmap(cm, cmap='Blues', cbar=False, annot_kws={"size": 16})plt.title('混淆矩阵', fontsize=18)
plt.xlabel('Predicted Label', fontsize=14)
plt.ylabel('True Label', fontsize=14)plt.text(0.5, 0.5, f'TP: {cm[1, 1]}', ha='center', va='center', fontsize=12, color='black')
plt.text(0.5, 1.5, f'FN: {cm[1, 0]}', ha='center', va='center', fontsize=12, color='black')
plt.text(1.5, 0.5, f'FP: {cm[0, 1]}', ha='center', va='center', fontsize=12, color='black')
plt.text(1.5, 1.5, f'TN: {cm[0, 0]}', ha='center', va='center', fontsize=12, color='black')plt.show()
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)print(f"Precision: {precision:.2f}")
print(f"Recall: {recall:.2f}")
print(f"F1-Score: {f1:.2f}")
四、研究结论
通过对航空公司客户满意度数据的实证分析,研究得出以下关键结论:
-
飞行距离与客户满意度的关系显著:较短或较长的飞行距离对乘客的满意度有明显影响,尤其是对于商务舱乘客,飞行距离和航班舒适度具有很强的关联性。商务旅行的乘客更在意舒适的座椅和娱乐服务,而个人旅行的乘客则更多关注航班时间和登机便利性。
-
服务质量对客户满意度至关重要:机上服务、座位舒适度和清洁度等因素与客户的总体满意度有高度关联。通过相关性分析,研究发现,机上WiFi服务、机上娱乐、座椅舒适度等服务的满意度对客户整体满意度的影响较为显著,尤其对于忠诚客户来说,这些因素是决定其是否继续选择该航空公司的关键。
-
延误对满意度的负面影响明显:航班出发和到达延误对客户满意度有显著的负面影响,尤其是在航班延误超过30分钟的情况下,不满意的比例大幅上升。航空公司应更加重视航班准点率的管理,减少延误时间,以提高客户满意度。
-
忠诚客户与不忠诚客户的满意度差异显著:忠诚客户的满意度明显高于不忠诚客户,这表明航空公司提供的会员奖励计划或忠诚客户优惠措施在提升客户满意度方面效果显著。通过针对不忠诚客户提供更具个性化的服务和优惠,有助于将其转化为忠诚客户。
-
模型XBOOST的预测效果相较于其他模型效果较好,Precision为0.955,Recall为0.94,F1-Score为0.95。
总的来说,航空公司在改善客户体验和提升客户满意度方面应当采取针对性措施,尤其是对机上服务、座位舒适度和航班准时性等重点因素进行优化。这不仅能提升客户忠诚度,还能提高公司在市场中的竞争力。