一、背景介绍
研究背景:在快速发展和高度竞争的电信行业中,客户流失已成为运营商面临的主要挑战之一。电信服务的普及和用户选择的多样性使得保持客户忠诚度变得越来越困难。在这种背景下,准确预测客户流失并采取相应措施,对于运营商保持市场竞争力至关重要。。。
二、研究意义
研究意义:提高客户留存率:通过预测和识别可能流失的客户,电信运营商可以采取针对性的措施来提高客户留存率,比如提供定制化服务或优惠。优化市场策略:深入分析用户行为和特征有助于运营商更好地理解市场需求,从而优化其产品和服务,提高市场竞争力。。。。
三、研究问题
在当前的市场环境下,电信运营商面临的一个主要问题是如何准确预测并有效减少客户流失(churn)。客户流失不仅直接影响运营商的收入,还可能引起品牌价值和市场份额的下降。。。。
四、实证分析
本文数据集的原始图如下:
数据和完整代码
报告代码数据
据集具体指标含义如下:
使用月数:某段时间用户使用服务月数;
流失用户:观测期内用户是否已经流失。1=是,0=否;
套餐金额:用户购买的月套餐金额,1为96元以下,2为96~225 元,3为225 元以上;
额外通话时长:实际通话时长减去套餐内通话时长的月均值(单位:min),这部分需要额外交费;
额外流量:实际流量减去套餐内流量的月均值(单位:ME),这部分需要额外交费;
改变行为:是否曾经更改过套餐金额,1=是,0=否;
服务合约:是否与运营商签订过服务合约,1=是,0=否;
关联购买:用户在移动服务中是否同时办理其他业务(主要是固定电话和宽带业务),1=同时办理一项其他业务,2=同时办理两项其他业务,0=没有办理其他业务;
集团用户:办理的是否是集团业务,相比个人业务,集体办理的号码在集团内拨打有一定优惠。1=是,0=否。
首先导入基础的包:
随后读取数据,并展示数据前后5行:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
plt.rcParams['font.sans-serif'] = ['KaiTi'] #中文
plt.rcParams['axes.unicode_minus'] = False #负号
查看数据集整体形状:
其中包括4975个用户,每个用户包括8个特征。
随后查看一下数据类型:
接下来进行描述性统计分析,使用describe()函数:
data.describe()
该函数会将数据集的总计数值、最大最小值、中位数、均值、分位数等等展示计算出来。每列的统计数据描述了该列数据的分布情况。例如,“ID”列显示的计数是4975,意味着数据集中有4975个观测值。。。。
接下来进行数据集的缺失值的可视化:
import missingno as msno
msno.matrix(data)
发现数据集很完整,并没有缺失值。
但是为了流程的完整性继续进行处理:
#若是有一行全为空值就删除
data.dropna(how='all',inplace=True)
#缺失到一定比例就删除
miss_ratio=0.3
for col in data.columns:if data[col].isnull().sum()>data.shape[0]*miss_ratio:print(col)data.drop(col,axis=1,inplace=True)
。。。
填充缺失值:
缺失值有很多填充方式,可以用中位数,均值,众数。
也可以就采用那一行前面一个或者后面一个有效值去填充空的。
data.fillna(data.median(),inplace=True) #mode,mean
data.fillna(method='ffill',inplace=True) #pad,bfill/backfill
接下来进行特征工程,首先对训练集取出y。
#剩下的变量独热处理
data=pd.get_dummies(data)
我们还要画图查看每个X的分布,查看特征变量的箱线图分布。
dis_cols = 4 #一行几个
dis_rows = len(columns)
plt.figure(figsize=(4 * dis_cols, 4 * dis_rows))for i in range(len(columns)):plt.subplot(dis_rows,dis_cols,i+1)sns.boxplot(data=data[columns[i]], orient="v",width=0.5)plt.xlabel(columns[i],fontsize = 20)
plt.tight_layout()
#plt.savefig('特征变量箱线图',formate='png',dpi=500)
plt.show()
然后还需要查看响应变量y的分布
plt.figure(figsize=(6,2),dpi=128)
plt.subplot(1,3,1)
y.plot.box(title='响应变量箱线图')
plt.subplot(1,3,2)
y.plot.hist(title='响应变量直方图')
plt.subplot(1,3,3)
y.plot.kde(title='响应变量核密度图')
#sns.kdeplot(y, color='Red', shade=True)
#plt.savefig('响应变量.png')
plt.tight_layout()
plt.show()
箱形图(左图):显示了单个变量的五数概括(最小值、第一四分位数、中位数、第三四分位数和最大值)以及离群点。在这个箱形图中,可以看到一个明显的离群点。直方图(中图):显示了数据的分布情况,这里几乎所有的数据都集中在一个单一的值上
然后对X异常值处理,先标准化:
scaler = StandardScaler()
X_s = scaler.fit_transform(data)
相关系数热力图查看
深紫色的格子表示两个变量之间有较强的负相关性。相关系数可能是-0.97、-0.98这样的低值,意味着这些变量之间存在强烈的反向关系,一个变量的增加往往伴随着另一个变量的减少。。。。。
接下来模型构建与评估
from sklearn.naive_bayes import BernoulliNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import AdaBoostClassifier ##自适应提升Adaboost
for i in range(3):model_C=model_list[i]name=model_name[i]model_C.fit(X_train_s, y_train)s=model_C.score(X_val_s, y_val)print(name+'方法在验证集的准确率为:'+str(s))
第一个模型的评分为0.914572864321608。
第二个模型的评分为0.9668341708524714。
第三个模型的评分为0.9829145728643216。
分析这些结果,我们可以看出:
所有模型在验证集上的得分都相当高,意味着它们对数据有很好的预测能力。
第三个模型具有最高的评分(约0.983),这可能表明它在这三个模型中预测验证集的效果最好。从以上结果可以看出,三种机器学习方法的最终预测结果都较好,准确率均在90%以上,其中分类情况最优的是自适应提升方法随后是KNN,其次是二项朴素贝叶斯。
五、总结
在这个案例中,我们针对某电信运营商的用户手机号码的使用数据进行了分析和研究,旨在预测客户是否会在未来一段时间内流失。我们采用了三种机器学习模型,包括二项朴素贝叶斯模型、K最近邻(KNN)模型和自适应提升模型,并对它们的预测效果进行了比较。最终,我们发现自适应提升模型在预测客户流失方面表现最优。。。。。