使用分类模型，如何精选指标？

kieojk 2016-07-24

展开全文

编辑推荐

还记得我们之前一再撰文介绍的二分类预测模型吗？二分类预测模型是解决很多业务问题的杀手锏，可谓百试不厌~ 面对分类模型中可能堪称海量的自变量，我们要如何有效筛选，从而提高建模的效率和精度呢？本期邀请团队内统计学博士教你实用建模技巧。

分类模型是我们在数据挖掘中经常使用的方法，比如二分类及多分类的logistic模型、probit模型以及判别分析等，它们都属于分类模型的范畴，这些模型在信用评分、精准营销、反欺诈等领域有着极为广泛的应用。比如，我们之前的文章也有介绍，银行对客户的信用评分工作就经常使用probit模型、logit模型等。

在分类模型建模时，我们手头可能有许多备选的自变量，其中有些变量与其他变量反应的信息高度重叠，属于冗余变量；有些变量则根本对因变量没有预测作用，属于无关变量。在建模之前，我们必须对初始的变量进行筛选，剔除无关变量和冗余变量，以便减少模型的训练时间，提高预测的精度和效率。

目前，用于筛选变量的主要思路是逐一判断每个自变量对因变量的影响程度或者相关性。对于变量之间关系的衡量，如果这两个变量都是连续变量，pearson相关系数和spearman秩相关系数是最常用的方法；如果两个变量都是离散变量，可以直接利用IV值或者卡方检验进行判断。但是，对于离散变量和连续变量之间关系的判断，我们一般先对连续变量进行离散化处理，再根据IV信息量或者卡方检验来判断两个变量之间的关系。由于分类模型的因变量是离散的分类变量，因此IV值及卡方检验在实践中被广泛应用。

一、IV值及卡方检验

IV信息量是Information Value的简称，主要处理因变量是二分变量时自变量的选择问题，该方法在信用风险评分领域应用极为广泛。不妨假设某个离散自变量（包括分类变量和有序变量）有n个不同的取值，IV信息量可以表示为：

DistrBadi表示在该离散指标上取第i个值的申请者中，违约客户占样本中所有违约客户的比例；相应地，DistrGoodi衡量的则是正常客户的占比。我们用一个简单的例子来讲述该指标的计算，详见下表：

类别	违约	正常	DistrBadi	DistrGoodi	计算IV值
屋主	107	365	0.3934	0.4545	0.0088
租客	53	131	0.1949	0.1631	0.0056
其他	112	307	0.4118	0.3823	0.0022
合计	272	803			0.0167

这里的自变量有“屋主”、“租客”和“其他”三种分类取值，因变量只有“违约”和“正常”两种取值，例如，屋主的DistrBadi等于107/272=0.3934。最后的IV值为0.0088+0.0056+0.0022=0.0167。指标的IV信息量的值越大，说明该指标对因变量的预测能力越强，越应该被保留下来。IV信息量大小与指标判别力有一个经验的规则：

若IV信息量取值小于0.02，认为该指标对因变量没有预测能力，应该被剔除；

若IV信息量取值在0.02与0.1之间，认为该指标对因变量有较弱的预测能力；

若IV信息量取值在0.1与0.3之间，认为该指标对因变量的预测能力一般；

若IV信息量取值大于0.3，认为该指标对因变量有较强的预测能力。

实际应用时，可以保留IV值大于0.1的指标。

卡方检验是检验变量之间是否独立的方法，如果某自变量与因变量之间独立，则可以将该自变量剔除，由于该方法属于传统的统计学方法，我们这里就不对其进行详细的理论介绍了。

卡方检验与IV信息量原则操作简单，计算量较小，但缺陷在于没有考虑指标之间的交互效应。例如，两个完全一样的指标都对因变量有较强的预测能力，利用IV信息量或卡方检验进行指标选择，这两个指标都会被选入最终的指标体系，导致完全的共线性问题；另外，某几个变量可能单独对因变量没有明显的预测能力，但是结合起来却有较好的效果。因此，下面我们从全局最优的角度来思考问题，基于一致性比率的方法，从所有指标中选出最优的指标子集。

二、基于一致性比率的指标选择方法

与上面介绍的思路不一样，一致性比率法是筛选出最优的指标子集，考察的是指标集合对因变量的影响，假设因变量有1,2，…,k种取值，衡量指标子集优劣的标准是一致性比率：

s是代表某个特定的指标子集，N是样本总数，J是指标子集s取值组合个数，表示s的第i个取值组合中因变量取1的样本个数，表示s的第i个取值组合中因变量取2的样本个数，其余依次类推。ni表示s的第i个取值组合中所有的样本个数，满足：

一致性比率表示，如果某些样本对s的取值相同，且这些样本的类别也趋于一致，那么一致性比率就越大，指标集s也就越重要。如果两个特征子集的一致性比率相同，则选择指标个数较少的指标子集，这样可以通过比较一致性比率找到具有判别力且没有冗余信息的指标体系。事实上，初始指标集合的一致性比率最大，如果进行穷尽搜索，可以找到一致性比率与初始指标集合相同的最小的指标子集。我们下面举例来加深对这种方法的理解。

三、举例说明

假设有一个指标子集X1和X2，X1可能的取值为A1和A2，X2可能的取值为B1和B2，Y也只有1和0两种取值，为了方便叙述，先将X1、X2与Y的列联表表示出来：

X1	X2	Y取1的观测数	Y取0的观测数
A1	B1	1	2
A1	B2	3	4
A2	B1	5	6
A2	B2	7	8

根据我们前面的理论介绍，指标子集X1和X2的一致性比率为：C(s)=(2+4+6+8)/36=0.56。为了对比，我们不妨将上面表格的数据进行改变：

X3	X4	Y取1的观测数	Y取0的观测数
A1	B1	0	3
A1	B2	2	5
A2	B1	4	7
A2	B2	6	9

这里客户的总数还是36，但是在每一个组合中Y取1和0的分布数差异加大了，这说明X3与X4这个指标子集对因变量的识别作用比X1和X2要强一些，而新的一致性比率C(s)=(3+5+7+7)/36=0.67>0.56，指标的计算结果与定性分析结果吻合。

四、结语

从指标的构造来看，IV信息量只能适用于因变量是二分类的分类模型，而且因变量与自变量的交叉单元格不能出现为0的情况，否则该指标无法计算出来。对于卡方检验来讲，在样本量较小时，如果因变量与自变量的交叉单元格出现为0的情况，该方法也是失效的。

一致性比率则克服了以上缺陷，本身计算起来也比较简单，但是由于是在所有变量中选择最优子集，备选的指标集合数量庞大，因此效率问题是必须要考虑的；在实际应用中，除了穷尽法以外，我们还可以使用前进法、后退法、爬山法等方法尽快地找到最优子集。

目前，在一些二分类模型的应用领域、比如信用风险评分建模中，IV信息量仍是变量选择中的主流方法。读完本文之后，你一定也意识到了，这样的方法并没有考虑指标之间的交互作用。我们认为，充分利用一致性比率可以为这些领域的建模提供更合理的指标选择方法。

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自： kieojk > 《数据挖掘》

举报/认领

0条评论

发表

请遵守用户评论公约

类似文章 更多

kieojk

关注对话

TA的最新馆藏

[转] 【论文解读】UniLM:一种既能阅读又能自动生成的预训练模型
鼻毛变白
减肥期老便秘，怎么办？
选错沙拉酱，小心越吃越胖！10 款好吃不易胖沙拉酱推荐
如何给孩子断夜奶
中国婴幼儿睡眠健康指南：优质睡眠建议“33”法则

喜欢该文的人也喜欢更多

热门阅读换一换