python 数据分析电信_实例 | 教你用Python写一个电信客户流失预测模型

原标题：实例 | 教你用Python写一个电信客户流失预测模型

CDA数据分析师出品

作者：真达、Mika

数据：真达

【导读】

今天教大家如何用Python写一个电信用户流失预测模型。公众号后台，回复关键字“电信”获取完整数据。

之前我们用Python写了员工流失预测模型，这次我们试试Python预测电信用户的流失。

👇👇👇员工一言不合就离职怎么办？我用Python写了个员工流失预测模型

商业理解

流失客户是指那些曾经使用过产品或服务，由于对产品失去兴趣等种种原因，不再使用产品或服务的顾客。

电信服务公司、互联网服务提供商、保险公司等经常使用客户流失分析和客户流失率作为他们的关键业务指标之一，因为留住一个老客户的成本远远低于获得一个新客户。

预测分析使用客户流失预测模型，通过评估客户流失的风险倾向来预测客户流失。由于这些模型生成了一个流失概率排序名单，对于潜在的高概率流失客户，他们可以有效地实施客户保留营销计划。

下面我们就教你如何用Python写一个电信用户流失预测模型，以下是具体步骤和关键代码。

数据理解

此次分析数据来自于IBM Sample Data Sets，统计自某电信公司一段时间内的消费数据。共有7043笔客户资料，每笔客户资料包含21个字段，其中1个客户ID字段，19个输入字段及1个目标字段-Churn（Yes代表流失，No代表未流失），输入字段主要包含以下三个维度指标：用户画像指标、消费产品指标、消费信息指标。字段的具体说明如下：

回复关键字“电信”

获取本期详细数据和代码

数据读入和概览

首先导入所需包。

# 数据处理

importnumpy asnp

importpandas aspd

# 可视化

importmatplotlib.pyplot asplt

importseaborn assns

importplotly aspy

importplotly.graph_objs asgo

importplotly.figure_factory asff

# 前处理

fromsklearn.preprocessing importLabelEncoder

fromsklearn.preprocessing importStandardScaler

# 建模

fromsklearn.linear_model importLogisticRegression

fromsklearn.neighbors importKNeighborsClassifier

fromsklearn.tree importDecisionTreeClassifier

fromsklearn importtree

fromsklearn.ensemble importRandomForestClassifier

fromsklearn.naive_bayes importGaussianNB

fromsklearn.neural_network importMLPClassifier

fromsklearn.svm importSVC

fromlightgbm importLGBMClassifier

fromxgboost importXGBClassifier

# 模型评估

fromsklearn.model_selection importtrain_test_split, GridSearchCV

fromsklearn.metrics importconfusion_matrix, accuracy_score, classification_report

fromsklearn.metrics importroc_auc_score, roc_curve, scorer

fromsklearn.metrics importrecall_score, precision_score, f1_score, cohen_kappa_score

pd.set_option( 'display.max_columns', None)

读入数据集

df = pd.read_csv('./Telco-Customer-Churn.csv')

df.head

数据初步清洗

首先进行初步的数据清洗工作，包含错误值和异常值处理，并划分类别型和数值型字段类型，其中清洗部分包含：

OnlineSecurity、OnlineBackup、DeviceProtection、TechSupport、StreamingTV、StreamingMovies：错误值处理

TotalCharges：异常值处理

tenure：自定义分箱

定义类别型和数值型字段

# 错误值处理

repl_columns = [ 'OnlineSecurity', 'OnlineBackup', 'DeviceProtection',

'TechSupport', 'StreamingTV', 'StreamingMovies']

fori inrepl_columns:

df[i] = df[i].replace({ 'No internet service': 'No'})

# 替换值SeniorCitizen

df[ "SeniorCitizen"] = df[ "SeniorCitizen"].replace({ 1: "Yes", 0: "No"})

# 替换值TotalCharges

df[ 'TotalCharges'] = df[ 'TotalCharges'].replace( ' ', np.nan)

# TotalCharges空值：数据量小，直接删除

df = df.dropna(subset=[ 'TotalCharges'])

df.reset_index(drop= True, inplace= True) # 重置索引

# 转换数据类型

df[ 'TotalCharges'] = df[ 'TotalCharges'].astype( 'float')

# 转换tenure

deftransform_tenure(x):

ifx <= 12:

return'Tenure_1'

elifx <= 24:

return'Tenure_2'

elifx <= 36:

return'Tenure_3'

elifx <= 48:

return'Tenure_4'

elifx <= 60:

return'Tenure_5'

else:

return'Tenure_over_5'

df[ 'tenure_group'] = df.tenure.apply(transform_tenure)

# 数值型和类别型字段

Id_col = [ 'customerID']

target_col = [ 'Churn']

cat_cols = df.nunique[df.nunique < 10].index.tolist

num_cols = [i fori indf.columns ifi notincat_cols + Id_col]

print( '类别型字段：n', cat_cols)

print( '-'* 30)

print( '数值型字段：n', num_cols)

类别型字段：

[ 'gender', 'SeniorCitizen', 'Partner', 'Dependents', 'PhoneService', 'MultipleLines', 'InternetService', 'OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport', 'StreamingTV', 'StreamingMovies', 'Contract', 'PaperlessBilling', 'PaymentMethod', 'Churn', 'tenure_group']

------------------------------

数值型字段：

[ 'tenure', 'MonthlyCharges', 'TotalCharges']

探索性分析

对指标进行归纳梳理，分用户画像指标，消费产品指标，消费信息指标。探索影响用户流失的关键因素。

1. 目标变量Churn分布

经过初步清洗之后的数据集大小为7032条记录，其中流失客户为1869条，占比26.6%，未流失客户占比73.4%。

df['Churn'].value_counts

No5163

Yes1869

Name: Churn, dtype: int64

trace0 = go.Pie(labels=df[ 'Churn'].value_counts.index,

values=df[ 'Churn'].value_counts.values,

hole= .5,

rotation= 90,

marker=dict(colors=[ 'rgb(154,203,228)', 'rgb(191,76,81)'],

line=dict(color= 'white', width= 1.3))

)

data = [trace0]

layout = go.Layout(title= '目标变量Churn分布')

fig = go.Figure(data=data, layout=layout)

py.offline.plot(fig, filename= './html/整体流失情况分布.html')

2.性别

分析可见，男性和女性在客户流失比例上没有显著差异。

plot_bar(input_col= 'gender', target_col= 'Churn', title_name= '性别与是否流失的关系')

3. 老年用户

老年用户流失比例更高，为41.68%，比非老年用户高近两倍，此部分原因有待进一步探讨。

plot_bar(input_col= 'SeniorCitizen', target_col= 'Churn', title_name= '老年用户与是否流失的关系')

4. 是否有配偶

从婚姻情况来看，数据显示，未婚人群中流失的比例比已婚人数高出13%。

plot_bar(input_col= 'Partner', target_col= 'Churn', title_name= '是否有配偶与是否流失的关系')

5. 上网时长

经过分析，这方面可以得出两个结论：

用户的在网时长越长，表示用户的忠诚度越高，其流失的概率越低；

新用户在1年内的流失率显著高于整体流失率，为47.68%。

plot_bar(input_col= 'tenure_group', target_col= 'Churn', title_name= '在网时长与是否流失的关系')

6. 付款方式

支付方式上，支付上，选择电子支票支付方式的用户流失最高，达到45.29%，其他三种支付方式的流失率相差不大。

pd.crosstab( df['PaymentMethod'], df['Churn'])

plot_bar(input_col= 'PaymentMethod', target_col= 'Churn', title_name= '付款方式与是否流失关系')

7. 月费用

整体来看，随着月费用的增加，流失用户的比例呈现高高低低的变化，月消费80-100元的用户相对较高。

plot_histogram(input_col= 'MonthlyCharges', title_name= '月费用与是否流失关系')

8. 数值型属性相关性

从相关性矩阵图可以看出，用户的往来期间和总费用呈现高度相关，往来期间越长，则总费用越高。月消费和总消费呈现显著相关。

plt.figure(figsize=( 15, 10))

sns.heatmap(df.corr, linewidths= 0.1, cmap= 'tab20c_r', annot= True)

plt.title( '数值型属性的相关性', fontdict={ 'fontsize': 'xx-large', 'fontweight': 'heavy'})

plt.xticks(fontsize= 12)

plt.yticks(fontsize= 12)

plt.show

特征选择

使用统计检定方式进行特征筛选。

# 删除tenure

df = df.drop('tenure', axis=1)

from feature_selection import Feature_select

# 划分X和y

X = df.drop(['customerID', 'Churn'], axis=1)

y = df['Churn']

fs = Feature_select(num_method='anova', cate_method='kf', pos_label='Yes')

x_sel = fs.fit_transform(X, y)

2020 09:30:02 INFO attr selectsuccess!

Afterselectattr: [ 'DeviceProtection', 'MultipleLines', 'OnlineSecurity', 'TechSupport', 'tenure_group', 'PaperlessBilling', 'InternetService', 'PaymentMethod', 'SeniorCitizen', 'MonthlyCharges', 'Dependents', 'Partner', 'Contract', 'StreamingTV', 'TotalCharges', 'StreamingMovies', 'OnlineBackup']

经过特征筛选，gender和PhoneService字段被去掉。

建模前处理

在python中，为满足建模需要，一般需要对数据做以下处理：

对于二分类变量，编码为0和1;

对于多分类变量，进行one_hot编码；

对于数值型变量，部分模型如KNN、神经网络、Logistic需要进行标准化处理。

# 筛选变量

select_features = x_sel.columns

# 建模数据

df_model = pd.concat([df['customerID'], df[select_features], df['Churn']], axis=1)

Id_col = ['customerID']

target_col = ['Churn']

# 分类型

cat_cols = df_model.nunique[df_model.nunique < 10].index.tolist

# 二分类属性

binary_cols = df_model.nunique[df_model.nunique == 2].index.tolist

# 多分类属性

multi_cols = [i for i in cat_cols if i not in binary_cols]

# 数值型

num_cols = [i for i in df_model.columns if i not in cat_cols + Id_col]

# 二分类-标签编码

le = LabelEncoder

for i in binary_cols:

df_model[i] = le.fit_transform(df_model[i])

# 多分类-哑变量转换

df_model = pd.get_dummies(data=df_model, columns=multi_cols)

df_model.head

模型建立和评估

首先使用分层抽样的方式将数据划分训练集和测试集。

# 重新划分

X = df_model.drop([ 'customerID', 'Churn'], axis=1)

y = df_model[ 'Churn']

# 分层抽样

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0, stratify=y)

print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

#修正索引

fori in[X_train, X_test, y_train, y_test]:

i.index = range(i.shape[0])

(5625, 31) (1407, 31) (5625,) (1407,)

# 保存标准化训练和测试数据

st= StandardScaler

num_scaled_train= pd.DataFrame(st.fit_transform(X_train[num_cols]), columns=num_cols)

num_scaled_test= pd.DataFrame(st.transform(X_test[num_cols]), columns=num_cols)

X_train_sclaed= pd.concat([X_train.drop(num_cols, axis= 1), num_scaled_train], axis= 1)

X_test_sclaed= pd.concat([X_test.drop(num_cols, axis= 1), num_scaled_test], axis= 1)

然后建立一系列基准模型并比较效果。

假如我们关注roc指标，从模型表现效果来看，Naive Bayes效果最好。

我们也可以对模型进行进一步优化，比如对决策树参数进行调优。

parameters = { 'splitter': ( 'best', 'random'),

'criterion': ( "gini", "entropy"),

"max_depth": [* range( 3, 20)],

}

clf = DecisionTreeClassifier(random_state= 25)

GS = GridSearchCV(clf, parameters, scoring= 'f1', cv= 10)

GS.fit(X_train, y_train)

print(GS.best_params_)

print(GS.best_score_)

{ 'criterion': 'entropy', 'max_depth': 5, 'splitter': 'best'}

0.585900839405024

clf = GS.best_estimator_

test_pred = clf.predict(X_test)

print('测试集：n', classification_report(y_test, test_pred))

测试集：

precisionrecallf1-scoresupport

0 0 .860 .860 .861033

1 0 .610 .610 .61374

accuracy0 .791407

macroavg0 .730 .730 .731407

weightedavg0 .790 .790 .791407

将这颗树绘制出来。

importgraphviz

dot_data = tree.export_graphviz(decision_tree=clf, max_depth= 3,

out_file= None,

feature_names=X_train.columns,

class_names=[ 'not_churn', 'churn'],

filled= True,

rounded= True

)

graph = graphviz.Source(dot_data)

输出决策树属性重要性排序：

imp = pd.DataFrame(zip(X_train.columns, clf.feature_importances_))

imp.columns = ['feature', 'importances']

imp = imp.sort_values('importances', ascending=False)

imp = imp[imp['importances'] != 0]

table = ff.create_table(np.round(imp, 4))

py.offline.iplot(table)

后续优化方向：

数据：分类技术应用在目标类别分布越均匀的数据集时，其所建立之分类器通常会有比较好的分类效能。针对数据在目标字段上分布不平衡，可采用过采样和欠采样来处理类别不平衡问题；

属性：进一步属性筛选方法和属性组合；

算法：参数调优；调整预测门槛值来增加预测效能。

关注CDA数据分析师公众号

回复关键字“电信”

获取详细数据代码

CDA数据分析师

本文出品：CDA数据分析师（ID: cdacdacda）返回搜狐，查看更多

责任编辑：

python 数据分析电信_实例 | 教你用Python写一个电信客户流失预测模型

相关文章

人机融合智能与深度态势感知

java大数模板_java大数模板

20162317 2016-2017-2 《程序设计与数据结构》第8周学习总结

sql return的用法_【实用技能】Seacms 8.7版本SQL注入分析

国科大UCAS胡包钢教授《信息论与机器学习》课程第二讲：信息论基础一

java 翻转句子_Java编程-句子反转

通讯录分组名称大全简单_公司起名取名：建筑公司名称大全简单大气

java ssl 无证书_java – 如何修复SSL – 没有可用的证书

美国发布《量子网络战略愿景》

[bzoj2127]happiness

python错误代码翻译查询_完成自动查找翻译单词的python源代码

mysql sql实现原理_Mysql的数据库原理

Jürgen Schmidhuber眼中的深度学习十年，以及下一个十年展望

AC日记——数据流中的算法 51nod 1785

docker pidfile_Zabbix5监控Docker

Deployment Pay

6种java垃圾回收算法_被说烂了的Java垃圾回收算法，我带来了最“清新脱俗”的详细图解...

Gartner：2020 年 AI 平台魔力象限：意外多多

CentOS6.9编译安装LNMP环境

python实现号码簿_使用Python进行号码簿的格式转换

python 数据分析 电信_实例 | 教你用Python写一个电信客户流失预测模型

相关文章

python 数据分析电信_实例 | 教你用Python写一个电信客户流失预测模型