配色: 字号:
电信客户流失的相关性因素分析讲解
2020-08-12 | 阅:  转:  |  分享 
  
电信客户流失的相关性因素分析电子商务141陈燕楠31401130061.读取数据以电信客户流失情况数据(文件名为“电信客户流失数据.sav
”)为例,将文件导入到数据流中,读取文件。2.调整变量名称由于原始数据中的变量名称为英文,不便于理解,因此,将变量名称替换成中文。
将“tenure”替换为“在网月数”,将“custcat”替换为“客户种类”,将“churn”替换为“是否流失”,将“ed”替换为
“教育水平”,将“employ”替换为“当前工作年限”,将“retire”替换为“是否退休”,将“gender”替换为“性别”,将
“reside”替换为“家庭人数”。3.变量角色说明将“在网月数”“当前工作年限”“家庭人数”设为“连续”,将“客户种类”“是否
流失”“性别”设为“名义”,将“教育水平”“有序”,将“是否流失”角色设置为“目标”。读取值。4.规范变量取值对各变量逐个添加标签
,以规范变量的取值。如“客户种类”字段中,“1”表示基本服务,“2”表示上网服务,“3”表示附加服务,“4”表示所有服务。性别字段
中“0”代表男性,“1”代表女性。其他名义类型字段中,“0”均表示“否”,“1”均表示“是”。“教育水平”字段中,“1”表示低于高
中水平,“2”表示高中,“3”表示大学,“4”表示学士,“5”表示硕士。5.生成新变量为了更直观了解样本的用户忠诚度,对用户的在
网月数进行了多级评定计算。选择【字段选项】——【导出】节点,与数据流链接。双击【导出】节点,选择“多个”模式,导出自“在校得分”,
导出为“名义”,字段类型“名义”。通过建立【输出】——【表】节点可以浏览评级结果。5.生成新变量结果数据7.样本的分类汇总通过对
样本数据进行分类汇总,可以观察不同的性别用户在使用电信宽带的时间上的不同。选择汇总节点,与数据流链接。双击【汇总】节点,关键字段选
择“性别”、汇总字段选择“在网月数”、勾选“总数”“平均值”“标准差”选项。通过建立【输出】——【表】节点可以浏览评级结果。8.计
算描述统计量在这里,对电信用户数据的分析目标是:“在网月数”“客户种类”“性别”“教育水平”“当前工作年限”“是否退休”“家庭人数
”的基本描述统计量,计算上述变量与“是否流失”变量之间的相关性。8.计算描述统计量运行结果9.绘制散点图根据散点图更加直观地观察家
庭人数、当前工作年限与是否流失之间的关系。选择图形卡中的“图”,在X字段与Y字段框中选择散点图的X轴变量和Y轴变量,分别选择“家庭
人数”“当前工作年限”。在交叠字段框中指定交叠字段变量,选择“流失”,并用不同颜色表示。10.两分类变量相关性的数值分析种类3(选
择了附加服务的用户的流失率最小)的客户基数最大,但流失率最小。281名选择了附加服务的客户中,流失的人数为44,仅占16.058%
。10.两分类变量相关性的数值分析教育水平为高中的用户数量最多,占到了30.854%。并且从图中可以发现,随着受教育水平的上升,客
户流失率也随之提高,可见受教育水平越高的用户越容易流失。10.两分类变量相关性的数值分析在没有退休的953名客户中,未流失的占71
.563%;而在退休的44名用户中,未流失的占到了93.617%。说明未退休用户较退休用户更容易流失。10.两分类变量相关性的数值
分析可以看出,两个性别在流失情况上的差异并不大,基本可以判断电信用户的流失与性别的相关性不大。11.决策树C5.0分析从决策树C5
.0来看,在这些因素中,最重要的是“当前工作年限”,比较重要的是“教育水平”,其次是“客户种类”。11.决策树C5.0分析教育水平
低于高中,高中和大学的399名用户中,流失人数为121人,置信度为30.326%;教育水平达到学士和硕士的221名用户中,流失的人
数为105人,置信度为47.511%。选择了基本服务或所有服务的138名用户中,流失人数为62人,置信度为55.072%;选择了上
网服务或附加服务的83名用户中,流失的人数为29人,置信度为34.940%。当前工作年限小于11年的620名用户中,流失人数为22
6人,置信度为36.452%;当前工作年限大于11年的380名用户中,流失的人数为48人,置信度为12.632%。12.Logis
tic分析显示了logistic回归分析第一步时回归方程显著性检验的情况,个数据项的含义依次是似然比卡方的观测值、自由度、概率-P
值。似然比卡方的观测值为185.106,概率-P值为0.000。如果显著性水平为0.05.由于概率-p值小于显著性水平,应拒绝0假
设,认为所有回归系数不同时为0,解释变量的全体和LogitP之间的线性关系显著,采用该模型合理。12.Logistic分析显示了当
前模型拟合优度方面的指标,各个数据项的含义依次为-2倍的对数似然值,Cox&SnellR2及NagelkerkeR2倍的对数似
然值越小则拟合优度越高,该表值为1201.188.NagelkerkeR2值接近0,拟合效果一般。12.Logistic分析显
示的是模型的错判矩阵。在没有流失的726人中,模型正确识别了698人,错误识别28人,正确率为96.1%。在没有流失的274人中,
模型正确识别2人,错误识别272人,正确率为0.7%。模型总的正确预测率为70%。因为预测概率值大于0.5,所以输出变量的分类预测
值为1.12.Logistic分析显示了模型中各个回归系数检验方面的指标,显著性水平为0.05,因为性别的概率-P值大于显著性水平,不应该拒绝0假设;而是否退休的概率-P值小于显著性水平,拒绝0假设。进一步证明了用户流失与其性别无相关性,而与是否退休存在着相关性。Thanks!
献花(0)
+1
(本文系白夜走客原创)