分类模型是我们在数据挖掘中经常使用的方法,比如二分类及多分类的logistic模型、probit模型以及判别分析等,它们都属于分类模型的范畴,这些模型在信用评分、精准营销、反欺诈等领域有着极为广泛的应用。比如,我们之前的文章也有介绍,银行对客户的信用评分工作就经常使用probit模型、logit模型等。 在分类模型建模时,我们手头可能有许多备选的自变量,其中有些变量与其他变量反应的信息高度重叠,属于冗余变量;有些变量则根本对因变量没有预测作用,属于无关变量。在建模之前,我们必须对初始的变量进行筛选,剔除无关变量和冗余变量,以便减少模型的训练时间,提高预测的精度和效率。 目前,用于筛选变量的主要思路是逐一判断每个自变量对因变量的影响程度或者相关性。对于变量之间关系的衡量,如果这两个变量都是连续变量,pearson相关系数和spearman秩相关系数是最常用的方法;如果两个变量都是离散变量,可以直接利用IV值或者卡方检验进行判断。但是,对于离散变量和连续变量之间关系的判断,我们一般先对连续变量进行离散化处理,再根据IV信息量或者卡方检验来判断两个变量之间的关系。由于分类模型的因变量是离散的分类变量,因此IV值及卡方检验在实践中被广泛应用。 一、IV值及卡方检验 IV信息量是Information Value的简称,主要处理因变量是二分变量时自变量的选择问题,该方法在信用风险评分领域应用极为广泛。不妨假设某个离散自变量(包括分类变量和有序变量)有n个不同的取值,IV信息量可以表示为: DistrBadi表示在该离散指标上取第i个值的申请者中,违约客户占样本中所有违约客户的比例;相应地,DistrGoodi衡量的则是正常客户的占比。我们用一个简单的例子来讲述该指标的计算,详见下表:
这里的自变量有“屋主”、“租客”和“其他”三种分类取值,因变量只有“违约”和“正常”两种取值,例如,屋主的DistrBadi等于107/272=0.3934。最后的IV值为0.0088+0.0056+0.0022=0.0167。指标的IV信息量的值越大,说明该指标对因变量的预测能力越强,越应该被保留下来。IV信息量大小与指标判别力有一个经验的规则: 若IV信息量取值小于0.02,认为该指标对因变量没有预测能力,应该被剔除; 若IV信息量取值在0.02与0.1之间,认为该指标对因变量有较弱的预测能力; 若IV信息量取值在0.1与0.3之间,认为该指标对因变量的预测能力一般; 若IV信息量取值大于0.3,认为该指标对因变量有较强的预测能力。 实际应用时,可以保留IV值大于0.1的指标。 卡方检验是检验变量之间是否独立的方法,如果某自变量与因变量之间独立,则可以将该自变量剔除,由于该方法属于传统的统计学方法,我们这里就不对其进行详细的理论介绍了。 卡方检验与IV信息量原则操作简单,计算量较小,但缺陷在于没有考虑指标之间的交互效应。例如,两个完全一样的指标都对因变量有较强的预测能力,利用IV信息量或卡方检验进行指标选择,这两个指标都会被选入最终的指标体系,导致完全的共线性问题;另外,某几个变量可能单独对因变量没有明显的预测能力,但是结合起来却有较好的效果。因此,下面我们从全局最优的角度来思考问题,基于一致性比率的方法,从所有指标中选出最优的指标子集。 二、基于一致性比率的指标选择方法 与上面介绍的思路不一样,一致性比率法是筛选出最优的指标子集,考察的是指标集合对因变量的影响,假设因变量有1,2,…,k种取值,衡量指标子集优劣的标准是一致性比率: s是代表某个特定的指标子集,N是样本总数,J是指标子集s取值组合个数, 一致性比率表示,如果某些样本对s的取值相同,且这些样本的类别也趋于一致,那么一致性比率就越大,指标集s也就越重要。如果两个特征子集的一致性比率相同,则选择指标个数较少的指标子集,这样可以通过比较一致性比率找到具有判别力且没有冗余信息的指标体系。事实上,初始指标集合的一致性比率最大,如果进行穷尽搜索,可以找到一致性比率与初始指标集合相同的最小的指标子集。我们下面举例来加深对这种方法的理解。 三、举例说明 假设有一个指标子集X1和X2,X1可能的取值为A1和A2,X2可能的取值为B1和B2,Y也只有1和0两种取值,为了方便叙述,先将X1、X2与Y的列联表表示出来:
根据我们前面的理论介绍,指标子集X1和X2的一致性比率为:C(s)=(2+4+6+8)/36=0.56。为了对比,我们不妨将上面表格的数据进行改变:
这里客户的总数还是36,但是在每一个组合中Y取1和0的分布数差异加大了,这说明X3与X4这个指标子集对因变量的识别作用比X1和X2要强一些,而新的一致性比率C(s)=(3+5+7+7)/36=0.67>0.56,指标的计算结果与定性分析结果吻合。 四、结语
从指标的构造来看,IV信息量只能适用于因变量是二分类的分类模型,而且因变量与自变量的交叉单元格不能出现为0的情况,否则该指标无法计算出来。对于卡方检验来讲,在样本量较小时,如果因变量与自变量的交叉单元格出现为0的情况,该方法也是失效的。 一致性比率则克服了以上缺陷,本身计算起来也比较简单,但是由于是在所有变量中选择最优子集,备选的指标集合数量庞大,因此效率问题是必须要考虑的;在实际应用中,除了穷尽法以外,我们还可以使用前进法、后退法、爬山法等方法尽快地找到最优子集。 目前,在一些二分类模型的应用领域、比如信用风险评分建模中,IV信息量仍是变量选择中的主流方法。读完本文之后,你一定也意识到了,这样的方法并没有考虑指标之间的交互作用。我们认为,充分利用一致性比率可以为这些领域的建模提供更合理的指标选择方法。
|
|