信用评分：第五部分

卜范涛讲风险 2022-03-21

展开全文

作者：Natasha Mashanovich,

基本原理

计算机算法

假设数据准备和初始变量选择过程（过滤）已经完成，并且过滤的训练数据集可用于模型构建过程，评分卡开发描述了如何将数据转换为评分卡模型。开发过程包括四个主要部分：变量转换，使用逻辑回归的模型训练，模型验证和尺度。

图1.标准评分卡开发过程

变量转换

“如果你对数据进行足够长时间的折磨，它就会承认任何事情。” （罗纳德科斯，经济学家） - 基于逻辑回归的标准记分卡模型是一个加法模型; 因此，需要特殊的变量转换。通常采用的转换 - 精细分类，粗略分类，以及哑编码或证据权重（WOE）转换 - 形成一个顺序过程，提供易于实现和向业务解释的模型结果。此外，这些转换有助于将自变量和因变量之间的非线性关系转换为线性关系 - 业务经常要求的客户行为。

精细的分类
适用于所有连续变量和具有高基数的离散变量。这是通常在20到50个细粒度箱之间进行初始分箱的过程。

粗略分类
将分箱过程应用于细粒度箱以合并具有相似风险的箱并创建更少的箱，通常最多10个箱。目的是通过创建更少的箱子来实现简化，每个箱箱具有明显不同的风险因素，同时最小化信息损失。但是，为了创建一个对过度拟合具有弹性的健壮模型，每个箱应该包含来自总帐户的足够数量的观察结果（大多数从业者建议的最小值为5％）。这些相反的目标可以通过最优分箱形式的优化来实现，该分级在粗分类过程期间使变量的预测能力最大化。最佳分箱利用变量选择期间使用的相同统计度量，例如信息值，基尼和卡方统计量。最受欢迎的措施是：信息价值，尽管两种或更多种措施的组合通常是有益的。缺失值（如果它们包含预测信息）应该分为单独的类或者合并到具有类似风险因素的分箱。

哑编码
为引用类之外的所有粗类创建二元（哑）变量的过程。这种方法可能存在问题，因为额外的变量需要更多的存储器和处理资源，并且由于自由度降低，偶尔会出现过度拟合。

证据权重（WOE）转换
另一种更有利的虚拟编码方法，用风险值替换每个粗类，然后将风险值折叠成单个数字变量。数值变量描述了自变量和因变量之间的关系。WOE框架非常适合于逻辑回归建模，因为两者都基于对数概率计算。此外，WOE变换标准化所有自变量，因此，可以直接比较后续逻辑回归中的参数。这种方法的主要缺点是只考虑每个箱的相对风险，而不考虑每个箱中的帐户比例。可以使用信息值来评估每个箱的相对贡献。
哑编码和WOE变换都给出了类似的结果。选择哪一个主要取决于数据科学家的偏好。

但是要注意，当手动执行时，最佳分箱，虚拟编码和证据变换权重是耗时的过程。因此，用于分箱，优化和WOE转换的软件包非常有用并且非常值得推荐。

图2.使用World Programming Software进行自动最佳分箱和WOE转换

模型训练和比例

Logistic回归是信用评分中用于解决二元分类问题的常用技术。在模型拟合之前，变量选择的再一次迭代对于检查新的WOE变换变量是否仍然是良好的模型候选变量是有价值的。优选的候选变量是具有较高信息值（通常在0.1和0.5之间）的变量，与因变量具有线性关系，在所有类别中具有良好的覆盖率，具有正态分布，包含显著的总体贡献，并且与业务相关。

许多分析供应商在其软件产品中包含逻辑回归模型，通常具有广泛的统计和图形功能。例如，WPS中SAS语言PROC LOGISTIC的实现为自动变量选择，模型参数限制，加权变量，不同段的单独分析，不同数据集评分，生成自动部署代码提供了一整套选项。

模型一旦对齐，下一步就是将模型调整到业务所需的比例。这称为缩放。缩放作为一种测量工具，可以在不同的评分卡中提供分数的一致性和标准化。最低和最高分数值以及分数范围有助于风险解释，并应向业务部门报告。通常，业务要求是对多个评分卡使用相同的分数范围，因此它们都具有相同的风险解释。

一种流行的评分方法以对数方式创建离散分数，其中几率在预定数量的点处加倍。这需要指定三个参数：基点，例如600点，基准赔率，例如50：1，并指出赔率加倍，例如20。分数点对应于模型变量的每个区间，而模型截距是翻译成基点。具有表格分配点的缩放输出表示实际评分卡模型。

图3.评分卡缩放

模型表现

模型评估是模型构建过程的最后一步。它由三个不同的阶段组成：评估，验证和接受。

评估准确性 - 我是否构建了正确的模型？ - 是第一个要求测试模型的问题。评估的关键指标是统计测量，包括模型准确性，复杂性，错误率，模型拟合统计，变量统计，显著性值和优势比。

验证稳健性 - 我是否构建了正确的模型？ - 从分类准确性和统计评估转向排名能力和业务评估时，是下一个要问的问题。

验证度量的选择取决于模型分类器的类型。二元分类问题最常见的指标是增益图，提升图，ROC曲线和Kolmogorov-Smirnov图。ROC曲线是可视化模型性能的最常用工具。它是一个多用途工具，用于：

冠军挑战者选择最佳表现模式的方法;
在看不见的数据上测试模型性能并将其与训练数据进行比较;
选择最佳阈值，最大化真阳性率，同时最小化假阳性率。

通过绘制灵敏度与不同阈值的误报概率（误报率）来创建ROC曲线。评估不同阈值下的性能指标是ROC曲线的理想特征。根据业务策略，不同类型的业务问题将具有不同的阈值。

ROC曲线下面积（AUC）是指示分类器预测能力的有用度量。在信用风险中，0.75或更高的AUC是行业认可的标准和模型验收的先决条件。

图4.模型性能指标

接受有用性 - 模型是否会被接受？ - 是最后一个问题，以便测试该模型是否对商业前景有价值。这是数据科学家必须将模型结果回放给业务并“捍卫”其模型的关键阶段。关键评估标准是模型的商业利益，因此，效益分析是呈现结果的核心部分。数据科学家应该尽一切努力以简洁的方式呈现结果，因此结果和发现很容易理解。如果不能实现这一点，可能会导致模型拒绝，从而导致项目失败。