作者:Natasha Mashanovich, 基本原理计算机算法
假设数据准备和初始变量选择过程(过滤)已经完成,并且过滤的训练数据集可用于模型构建过程,评分卡开发描述了如何将数据转换为评分卡模型。开发过程包括四个主要部分:变量转换,使用逻辑回归的模型训练,模型验证和尺度。 图1.标准评分卡开发过程
变量转换“如果你对数据进行足够长时间的折磨,它就会承认任何事情。” (罗纳德科斯,经济学家) - 基于逻辑回归的标准记分卡模型是一个加法模型; 因此,需要特殊的变量转换。通常采用的转换 - 精细分类,粗略分类,以及哑编码或证据权重(WOE)转换 - 形成一个顺序过程,提供易于实现和向业务解释的模型结果。此外,这些转换有助于将自变量和因变量之间的非线性关系转换为线性关系 - 业务经常要求的客户行为。 精细的分类 粗略分类 哑编码 证据权重(WOE)转换 但是要注意,当手动执行时,最佳分箱,虚拟编码和证据变换权重是耗时的过程。因此,用于分箱,优化和WOE转换的软件包非常有用并且非常值得推荐。 图2.使用World Programming Software进行自动最佳分箱和WOE转换
模型训练和比例Logistic回归是信用评分中用于解决二元分类问题的常用技术。在模型拟合之前,变量选择的再一次迭代对于检查新的WOE变换变量是否仍然是良好的模型候选变量是有价值的。优选的候选变量是具有较高信息值(通常在0.1和0.5之间)的变量,与因变量具有线性关系,在所有类别中具有良好的覆盖率,具有正态分布,包含显著的总体贡献,并且与业务相关。 许多分析供应商在其软件产品中包含逻辑回归模型,通常具有广泛的统计和图形功能。例如,WPS中SAS语言PROC LOGISTIC的实现为自动变量选择,模型参数限制,加权变量,不同段的单独分析,不同数据集评分,生成自动部署代码提供了一整套选项。 模型一旦对齐,下一步就是将模型调整到业务所需的比例。这称为缩放。缩放作为一种测量工具,可以在不同的评分卡中提供分数的一致性和标准化。最低和最高分数值以及分数范围有助于风险解释,并应向业务部门报告。通常,业务要求是对多个评分卡使用相同的分数范围,因此它们都具有相同的风险解释。 一种流行的评分方法以对数方式创建离散分数,其中几率在预定数量的点处加倍。这需要指定三个参数:基点,例如600点,基准赔率,例如50:1,并指出赔率加倍,例如20。分数点对应于模型变量的每个区间,而模型截距是翻译成基点。具有表格分配点的缩放输出表示实际评分卡模型。 图3.评分卡缩放
模型表现模型评估是模型构建过程的最后一步。它由三个不同的阶段组成:评估,验证和接受。 评估准确性 - 我是否构建了正确的模型? - 是第一个要求测试模型的问题。评估的关键指标是统计测量,包括模型准确性,复杂性,错误率,模型拟合统计,变量统计,显著性值和优势比。 验证稳健性 - 我是否构建了正确的模型? - 从分类准确性和统计评估转向排名能力和业务评估时,是下一个要问的问题。 验证度量的选择取决于模型分类器的类型。二元分类问题最常见的指标是增益图,提升图,ROC曲线和Kolmogorov-Smirnov图。ROC曲线是可视化模型性能的最常用工具。它是一个多用途工具,用于:
通过绘制灵敏度与不同阈值的误报概率(误报率)来创建ROC曲线。评估不同阈值下的性能指标是ROC曲线的理想特征。根据业务策略,不同类型的业务问题将具有不同的阈值。 ROC曲线下面积(AUC)是指示分类器预测能力的有用度量。在信用风险中,0.75或更高的AUC是行业认可的标准和模型验收的先决条件。 图4.模型性能指标
接受有用性 - 模型是否会被接受? - 是最后一个问题,以便测试该模型是否对商业前景有价值。这是数据科学家必须将模型结果回放给业务并“捍卫”其模型的关键阶段。关键评估标准是模型的商业利益,因此,效益分析是呈现结果的核心部分。数据科学家应该尽一切努力以简洁的方式呈现结果,因此结果和发现很容易理解。如果不能实现这一点,可能会导致模型拒绝,从而导致项目失败。
|
|