配色: 字号:
电信客户流失的相关性因素分析
2020-08-12 | 阅:  转:  |  分享 
  
电信客户流失的相关性因素分析摘要:随着市场体制的不断完善,行业竞争的加剧,为了不断吸引新的客户,许多行业愈来愈重视对客户流失管理的研究。本文
主要采用SPSSModeler作为处理工具,对已获取的电信企业客户流失情况与相关因素的数据作出相关性分析,目的是为了探究客户流
失与哪些方面有关,进而得出相关结论与建议。关键词:SPSSModeler;相关性;客户流失目录一、引言6(一)研究背景6(二)
研究的问题和意义6二、数据处理7(一)数据来源71.读取数据72.修改变量名称8(二)变量定义81.变量角色说明82.规范变量取值
93.生成新变量10(三)数据处理111.样本的分类汇总112.计算描述统计量123.绘制散点图144.两分类变量相关性的数值分析
155.决策树C5.0分析176.Logistic回归分析19三、研究结论与建议21(一)研究结论211.从基本描述统计量来看21
2.从决策树C5.0分析来看223.从Logistic回归分析看22(二)建议22参考文献24附录251.部分原始数据252.课程
论文成绩评定标准26引言研究背景数据挖掘数据挖掘是近年来伴随着人工智能和数据库技术发展而出现的一门新兴技术。它的核心功能是从巨大的
数据集或数据仓库中获取有用信息,以供企业分析和处理各种复杂的数据关系。随着电信市场竞争的日益加剧,运营商普遍开始向“客户驱动”管理
模式转变。(2)SPSSModeler软件SPSSModeler(12.0以前叫Clementine)是一个业界领先的数据挖掘
平台。SPSSModeler拥有直观的操作界面、自动化的数据准备和成熟的预测分析模型。SPSSModeler14.1相比
SPSSModeler13.0,在数据可视化和算法可视化方面做了改进和完善,这样更便于数据挖掘工作者进行数据探索和模型的优化
。同时,增强了数据源连接、数据处理、建模分析等功能。(3)相关性分析相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡
量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。相关性不等于因果性,也不是简单的个性
化,相关性所涵盖的范围和领域几乎覆盖了我们所见到的方方面面,相关性在不同的学科里面的定义也有很大的差异。研究的问题和意义所谓电信行
业的客户流失,传统观念认为就是电信客户从某一运营商退网或转网。电信市场的竞争愈来愈激烈,为使企业的利润最大化,各通信运营商都把争取
更多的客户作为营销的最终目标。但是随着竞争的不断加剧,客户流失成为各企业运营过程中面临的主要问题,不仅使市场份额减少,还会出现客户
恶意离网产生欠费行为,增加了企业的运营成本,造成严重的经济损失。有分析称,开发一个新的客户比挽留一个老的客户所产生的成本高很多倍。
因此,做好客户关系管理,防止客户流失是通信行业提升企业核心竞争力的有效手段。本文搜集了大量电信客户的基本信息与流失情况的数据,利用
SPSSModeler作为分析工具,通过对数据的基本分析,以及建立决策树C5.0和Logistic模型系统分析客户流失的相关性因
素。针对以往客户关系管理过程中无法监控客户流失的问题,将数据挖掘技术应用到通信客户流失预警分析中,利用其强大的数据分析手段,建立客
户消费特征等属性与客户流失可能性之间的关联模型,可实现对客户状态的实时监控。数据处理数据来源本案例采用的是来自互联网的1000份电
信客户流失数据,有一定的真实性和研究分析价值。1.读取数据将“电信客户流失数据.sav”文件导入到数据流中,读取文件。图2.1原
始数据导入结果浏览2.修改变量名称由于原始数据中的变量名称为英文,不便于理解,因此,将变量名称替换成中文。将“tenure”替换为
“在网月数”,将“custcat”替换为“客户种类”,将“churn”替换为“是否流失”,将“ed”替换为“教育水平”,将“emp
loy”替换为“当前工作年限”,将“retire”替换为“是否退休”,将“gender”替换为“性别”,将“reside”替换为“
家庭人数”。图2.2修改变量名称变量定义变量角色说明将“在网月数”“当前工作年限”“家庭人数”设为“连续”,将“客户种类”“是否
流失”“性别”设为“名义”,将“教育水平”“有序”,将“是否流失”角色设置为“目标”。读取值。图2.3变量角色说明规范变量取值
对各变量逐个添加标签,以规范变量的取值。如“客户种类”字段中,“1”表示基本服务,“2”表示上网服务,“3”表示附加服务,“4”表
示所有服务。性别字段中“0”代表男性,“1”代表女性。其他名义类型字段中,“0”均表示“否”,“1”均表示“是”。“教育水平”字段
中,“1”表示低于高中水平,“2”表示高中,“3”表示大学,“4”表示学士,“5”表示硕士。图2.4规范“客户种类”变量取值图2
.5规范“教育水平”变量取值生成新变量为了更直观了解样本的用户忠诚度,对用户的在网月数进行了多级评定计算。选择【字段选项】——【
导出】节点,与数据流链接。双击【导出】节点,选择“多个”模式,导出自“在校得分”,导出为“名义”,字段类型“名义”。通过建立【输出
】——【表】节点可以浏览评级结果。图2.6生成新变量参数设置图2.7生成新变量结果浏览数据处理样本的分类汇总通过对样本数据进行
分类汇总,可以观察不同的性别用户在使用电信宽带的时间上的不同。选择汇总节点,与数据流链接。双击【汇总】节点,关键字段选择“性别”、
汇总字段选择“在网月数”、勾选“总数”“平均值”“标准差”选项。通过建立【输出】——【表】节点可以浏览评级结果。由图可以看到,男性
用户的平均在网月数略低于女性用户。图2.7样本的分类汇总结果浏览计算描述统计量数据分析通常是从基本描述分析开始。通常对数值型变量
,应计算基本描述统计量以准确把握变量的集中趋势和离散程度。描述集中趋势的统计量一般有均值、中位数、众数等,描述离散程度的统计量包括
方差、标准差、极差等。在这里,对电信用户数据的分析目标是:“在网月数”“客户种类”“性别”“教育水平”“当前工作年限”“是否退休”
“家庭人数”的基本描述统计量,计算上述变量与“是否流失”变量之间的相关性。选择输出——统计量节点,与数据流链接。双击统计量节点,检
查:“在网月数”“客户种类”“性别”“教育水平”“当前工作年限”“是否退休”“家庭人数”,导出自“在网月数”“客户种类”“性别”“
教育水平”“当前工作年限”“是否退休”“家庭人数”,相关:“是否流失”,统计其“计数”、“最大值”、“最小值”、“平均值”、“范围
”、“方差”、“标准差”以及“平均值标准误差”。在相关设置中选择“按重要性(1-p)定义相关强度”。运行后生成新窗口,可以浏览计算
结果。图2.8描述统计量参数设置图2.9描述统计量计算结果浏览从结果上,我们可以得到“在网月数”“客户种类”“性别”“教育水平
”“当前工作年限”“是否退休”“家庭人数”和“是否流失”都存在相关性。其中“在网月数”“教育水平”“当前工作年限”“是否退休”与
“是否流失”相关性强,而“性别”“客户种类”“家庭人数”则与“是否流失”相关性弱。绘制散点图根据散点图更加直观地观察家庭人数、当前
工作年限与是否流失之间的关系。选择图形卡中的“图”节点并将其接到数据流恰当的位置,鼠标右击“图”节点,选择弹出菜单中的编辑选项。在
X字段与Y字段框中选择散点图的X轴变量和Y轴变量,分别选择“家庭人数”“当前工作年限”。在交叠字段框中指定交叠字段变量,以期在散点
图中观测交叠字段变量不同取值样本点的分布情况,这里选择了“流失”,并用不同颜色表示。图2.10散点图绘制参数设置图2.11散点
图绘制结果浏览从结果上来看,图中点的分布没有明显的线性趋势,可见变量间的相关性并不高。两分类变量相关性的数值分析为了更精准分析数值
,我们将对数据进行列连分析。分析目标是“性别”、“是否是党员”“是否当过干事”与“是否流失”相关。选择【输出】——【矩阵】节点,与
数据流链接。双击【矩阵】节点,行:“是否流失”,列:“客户种类”、“教育水平”“是否退休”“性别”,选择“交叉列表”。【应用】后点
击【运行】生成新窗口,可以浏览计算结果。图2.12客户种类与是否流失相关性结果浏览从图2.12可以看出,种类3(选择了附加服务的
用户的流失率最小)的客户基数最大,但流失率最小。281名选择了附加服务的客户中,流失的人数为44,仅占16.058%。图2.13
教育水平与是否流失相关性结果浏览从图2.13可以看出,教育水平为高中的用户数量最多,占到了30.854%。并且从图中可以发现,随着
受教育水平的上升,客户流失率也随之提高,可见受教育水平越高的用户越容易流失。图2.14是否退休与是否流失相关性结果浏览从图2.1
4可以看出,在没有退休的953名客户中,未流失的占71.563%;而在退休的44名用户中,未流失的占到了93.617%。说明未退休
用户较退休用户更容易流失。图2.15性别与是否流失相关性结果浏览从图2.15可以看出,两个性别在流失情况上的差异并不大,基本可以
判断电信用户的流失与性别的相关性不大。决策树C5.0分析决策树分析法是一种运用概率与图论中的树对决策中的不同方案进行比较,从而获得
最优方案的风险型决策方法。图论中的树是连通且无回路的有向图,入度为0的点称为树根,出度为0的点称为树叶,树叶以外的点称为内点。决策
树由树根(决策节点)、其他内点(方案节点、状态节点)、树叶(终点)、树枝(方案枝、概率枝)、概率值、损益值组成。构造决策树的方法是
采用自上而下的递归构造。其基本思路是:(1)以代表训练样本的单个结点开始建树;(2)若样本都在同一个类中,则该结点为叶子结点,并用
该类标记;(3)否则,算法使用信息增益作为启发信息,选择能够最好地将样本分类的属性,作为该结点的“测试”或“判定”属性;(4)对测
试属性的每一个已知的值,创建一个分支,并据此划分样本;(5)算法使用同样的过程,递归地形成每一个划分上的样本决策树;(6)递归划分
步骤,当下列条件之一成立时停止:①给定结点的所有样本属于同一类;②没有剩余属性可以用来进一步划分样本;③该分支没有样本。具体操作是
:从源中引入Statiscs节点,选择电信客户流失数据.sav输入数据,输出表查看结果。选择“建模”选项卡中的C5.0节点与Sta
tiscs节点相连接,右击鼠标进行参数设置。选择“是否流失”为输出变量,选取相关性较大的“当前工作年限”“教育水平”“客户种类”为
输入变量。图2.16规则集运行结果浏览从决策树C5.0来看,在这些因素中,最重要的是“当前工作年限”,比较重要的是“教育水平”,
其次是“客户种类”。图2.17决策树C5.0运行结果1当前工作年限小于11年的620名用户中,流失人数为226人,置信度为36.
452%;当前工作年限大于11年的380名用户中,流失的人数为48人,置信度为12.632%。图2.18决策树C5.0运行结果2
教育水平低于高中,高中和大学的399名用户中,流失人数为121人,置信度为30.326%;教育水平达到学士和硕士的221名用户中,
流失的人数为105人,置信度为47.511%。图2.19决策树C5.0运行结果3选择了基本服务或所有服务的138名用户中,流失人
数为62人,置信度为55.072%;选择了上网服务或附加服务的83名用户中,流失的人数为29人,置信度为34.940%。Logis
tic回归分析将数据sav文件导入数据流中,将sav与类型节点连接起来,编辑类型,读取值,将“是否流失”,将类型节点与建模中的lo
gistic节点连接起来,编辑logistic节点,使用类型节点设置,过程选择二项式,方法选择进入法,字段输入“性别”“是否退休”
,应用并运行。图2.20Logistic模型运行结果1图2.20显示了logistic回归分析第一步时回归方程显著性检验的情况,
个数据项的含义依次是似然比卡方的观测值、自由度、概率-P值。似然比卡方的观测值为185.106,概率-P值为0.000。如果显著性
水平为0.05.由于概率-p值小于显著性水平,应拒绝0假设,认为所有回归系数不同时为0,解释变量的全体和LogitP之间的线性关系
显著,采用该模型合理。图2.21Logistic模型运行结果2图2.21显示了当前模型拟合优度方面的指标,各个数据项的含义依次为
-2倍的对数似然值,Cox&SnellR2及NagelkerkeR2倍的对数似然值越小则拟合优度越高,该表值为1201.188
.NagelkerkeR2值接近0,拟合效果一般。图2.22Logistic模型运行结果3图2.22显示的是模型的错判矩阵。
在没有流失的726人中,模型正确识别了698人,错误识别28人,正确率为96.1%。在没有流失的274人中,模型正确识别2人,错误
识别272人,正确率为0.7%。模型总的正确预测率为70%。因为预测概率值大于0.5,所以输出变量的分类预测值为1.图2.23L
ogistic模型运行结果4图2.23显示了模型中各个回归系数检验方面的指标,显著性水平为0.05,因为性别的概率-P值大于显著性
水平,不应该拒绝0假设;而是否退休的概率-P值小于显著性水平,拒绝0假设。进一步证明了用户流失与其性别无相关性,而与是否退休存在着
相关性。研究结论与建议研究结论本文通过对1000份电信用户流失情况的调查数据来看,对“在网月数”“客户种类”“性别”“教育水平”“
当前工作年限”“是否退休”“家庭人数”等七个因素与“是否流失”进行相关性分析,得出以下结论:1.从基本描述统计量来看“在网月数”“
教育水平”“当前工作年限”“是否退休”与“是否流失”相关性强,而“性别”“客户种类”“家庭人数”则与“是否流失”相关性弱。原因可以
考虑到,在网月数直接关系到客户的忠诚度,忠诚度高的客户自然不易流失。而客户受教育的水平,工作年限以及客户是否退休,都与其收入有着一
定的联系,受教育水平高,工作年限久,尚未退休的客户自然有更多的可支配收入,对于服务选择面更广,较容易流失。2.从决策树C5.0分析
来看规则集显示在这些因素中,最重要的是“当前工作年限”,比较重要的是“教育水平”,其次是“客户种类”。相对来说,当前工作年限小于
11年的用户更容易流失;受教育水平达到学士或硕士的也更容易流失,进一步证明了从两分类变量相关性因素分析中得到的“受教育水平越高的用
户越容易流失”的推论。而从客户类型上来说,选择了上网服务和附加服务的用户流失率相对较小。3.从Logistic回归分析看二项式过程
我们选择了进入法,在这个模型中,解释变量的全体和LogitP之间的线性关系显著,拟合优度方面的指标拟合效果一般,分析结论是“性别”
对“是否流失”无显著影响。“是否退休”对“是否流失”显著性影响比较大。建议大数据时代下的信息具有体量大、复杂性高、更新速度快的特点
,从具有如此复杂特性的信息中挖掘出用户所需的情报,难度较以往有了很大的提升。要在发展中抢占先机,在大数据时代获取竞争优势,就必须对
原有的情报分析思路进行必要的升级改造,以满足信息的情报属性。电信行业在提取有用信息分析客户特征时,应注意:一是样本数据的选取,尤其
客户流失所占的比重应该跟实际值相符。二是应该对缺失值以及异常值的处理和对不显著信息进行过滤。三是应该选择合适的模型和算法。这样才能
得出科学合理的结论。客户流失是通信行业运行过程中常见的问题,直接影响到运营商的企业效益。数据挖掘可以根据客户信息、消费行为等历史数
据判断客户流失的可能性,避免因营销手段的盲目性造成的成本浪费。得出客户流失预警规则或者建立预警模型都是为了挽留客户,防止流失。从本
文研究结果来看,收入因素和客户流失呈正相关。电信行业竞争加剧,但因为客户的受教育水平和收入有了提高,客户对价格敏感度降低了,某一网
内客户大规模重新选择运营商、品牌或套餐而造成的移动电话用户数大幅度增减变化的现象越来越普遍。面对这样的情况,首先,电信运营商要合理
定价,并且时刻关注竞争对手的定价策略和营销方式,及时对自己的服务作出调整,弥补现有的不足,提高客户忠诚度。对那些价值高流失倾向大的
客户优先采取相应的挽留措施,以保证优质客户的持有率。参考文献[1]薛薇,陈欢歌.SPSSModeler数据挖掘方法及应用[M]
.电子工业出版社[2]余路.电信客户流失的组合预测模型.华侨大学学报:自然科学[N].2016,37(5);637-640[3]
吴占福.统计分析软件SPSS介绍:河北北方学院学报[N].2012-12[4]刘洋.如何减少移动客户流失:中国电信业[N].
2013-4;74-77[5]谭宏伟.Logistic回归模型的影响分析[J].数理统计与管理[6]施朝健.Logist
ic回归模型分析[M].计算机辅助工程[7]纪希禹.数据挖掘技术应用实例[M].机械工业出版社[7]旷岭.电信客户流失数
据分析方案设计与应用研究.中南林业科技大学学报:自然科学版[N],2011,31(6);207-211[8]王晓佳,杨善林,陈志
强.大数据时代下的情报分析与挖掘技术研究——电信客户流失情况分析.情报学报[N],2013,32(6);564-574[9]顾光
同,王力宾,费宇.电信客户流失预警规则及其信度测定实证研究——以云南电信为例.云南财经大学学报[N],2010,(6);94-98
[10]赵京辉,李媛,冉宏坤.数据挖掘在电信客户流失分析中的应用.信息通信[J],2014,(1);223-223附录部分原始数据
在网月数客户种类是否流失教育水平当前工作年限是否退休性别家庭人数13.0001.0001.0004.0005.0000.0000.
0002.00011.0004.0001.0005.0005.0000.0000.0006.00068.0003.0000.000
1.00029.0000.0001.0002.00033.0001.0001.0002.0000.0000.0001.0001.0
0023.0003.0000.0001.0002.0000.0000.0004.00041.0003.0000.0002.0001
6.0000.0001.0001.00045.0002.0001.0002.0004.0000.0001.0005.00038.0
004.0000.0002.00010.0000.0000.0003.00045.0003.0000.0004.00031.000
0.0000.0005.00068.0002.0000.0001.00022.0000.0000.0003.0005.0001.0
001.0004.0005.0000.0001.0001.0007.0003.0000.0002.00015.0000.0001.
0001.00041.0001.0000.0002.0009.0000.0001.0003.00057.0004.0001.000
4.00023.0000.0001.0003.0009.0001.0000.0001.0008.0000.0001.0002.00
029.0002.0000.0005.0001.0000.0000.0004.00060.0003.0000.0002.00030
.0000.0000.0001.00034.0003.0000.0002.0006.0000.0001.0003.0001.000
1.0000.0001.0003.0000.0000.0001.00026.0004.0001.0004.0002.0000.00
00.0004.0006.0002.0001.0003.0001.0000.0001.0001.00068.0001.0000.0
001.00024.0000.0000.0002.00053.0004.0000.0005.0004.0000.0001.0002
.00055.0001.0000.0001.00025.0000.0000.0003.00014.0003.0000.0001.0
005.0000.0000.0005.0001.0003.0000.0002.0000.0000.0001.0003.00042.
0004.0000.0002.0008.0000.0001.0001.00025.0003.0000.0001.0005.0000
.0000.0004.0009.0001.0000.0002.0002.0000.0001.0003.00013.0002.0000.0004.0000.0000.0001.0002.00056.0002.0000.0001.00013.0000.0001.0002.00071.0004.0000.0005.00012.0000.0000.0002.00035.0003.0000.0002.00021.0000.0001.0004.00011.0002.0000.0005.0000.0000.0000.0003.00060.0004.0000.0003.00024.0000.0000.0002.000课程论文成绩评定标准评价内容具体要求分值评分得分ABCDE选题选题具有实际价值,能结合专业知识与社会需求进行分析。10108642逻辑结构结构合理,层次分明,条理清晰,逻辑性强。10108642分析与阐述问题的能力所阐述问题清楚,突出重点,论文表现出对实际问题有较强的分析能力和概括能力,并所论述的事项有说服力。202018151310知识运用所学的数据挖掘方法的应用程度。25252015105撰写质量语句通顺,语言准确,书写工整,达到论文要求的字数,符合书写格式要求。2020151053撰写论文的态度及完成情况积极、主动查阅有关资料,认真进行撰写,并能够按规定的日期完成论文撰写工作。151510853总分评语:教师:
献花(0)
+1
(本文系白夜走客原创)