关注一下~,更多商业数据分析案例等你来撩
前言
利用逻辑回归进行客户流失预警建模中涵盖了许多比较细的知识点,思维导图只展示了极小的一部分,相关知识点链接将穿插在文中。(源数据源代码空降文末获取)
数据读入
数据属性说明
数据探索
简洁版本,只是为了一元逻辑回归做的探索,毕竟实际情况中数据分析师们80%的时间可能都是用来清洗数据和结合具体业务来探索数据,所以探索数据方面并不是我们的侧重点。
churn 流失与否 是否与 posTrend 流量使用上升趋势有关 猜想:posTrend 为 1,即流量使用有上升趋势时,更不容易流失(用得越多越不容易流失)
交叉表分析
卡方检验
建模流程
一元逻辑回归
拆分测试集与训练集
statsmodels 库进行逻辑回归
使用建模结果进行预测
检验预测结果
建模结果越靠近左上角越好,模型精度比较高。
多元逻辑回归
逐步向前法筛选变量
当然,这里的变量还不算特别特别多,还可以使用分层抽样,假设检验,方差分析等方法筛选,这里不用多解释了。逻辑回归的逐步向前法已有优秀前人的轮子,直接拿来用即可。篇幅原因就不完全展示了。文末获取源数据与含有详细注释的源代码
方差膨胀因子检测
多元逻辑回归中也会存在多元共线性的干扰,其具体含义可查看如下文章:
再次进行建模与模型精度的检验
重复一元逻辑回归的步骤即可。
本公众号后续将继续更新数据科学与商业实践中常见的案例
注:相关数据源和超详细的代码(python,Jupyter Notebook 版本 + 详细注释)已经整理好,在 “ 数据分析与商业实践 ” 公众号后台回复 “ 逻辑流失 ” 即可获取。