案例丨基于集成学习技术的反洗钱甄别应用

shenhaoyun 2023-07-07 发布于上海

展开全文

文 / 厦门国际银行科技开发部郭梁

目前我国反洗钱可疑交易的主要识别方式是基于规则的过滤和识别，通过人工方式制定洗钱预警规则，当客户信息或交易信息与反洗钱规则匹配后，即执行相应的业务策略。这种管理模式下的反洗钱规则存在一定的局限性，不能枚举所有业务场景，无法全面覆盖各类洗钱行为。与此对应，洗钱团伙会针对性地规避已有规则，导致专家规则部分失效，或只能通过事后不断补充新规则“修补”，无法及时应对新型洗钱手段。而且，当专家规则积累到一定数量后，预警率和误报率通常会比较高，需要安排大量人工复核，导致商业银行人力物力浪费，影响实际风险决策和业务开展，成为反洗钱可疑交易识别工作的一大挑战。

机器学习作为人工智能时代的核心技术，是人类科技发展的一大方向。金融业处于信息科技的前沿阵地，积极应用机器学习技术是抢占金融科技制高点的主要途径，也是提升反洗钱效率的重要手段。在此背景下，厦门国际银行自主研发了反洗钱机器学习模型，并已正式投产应用。该模型以客户信息和交易往来为中心，从时间、交易频度、金额等多维度出发构造特征，通过随机森林、GBDT和XGboost等多种算法构建模型，实现客户信息及交易的分析及甄别。

反洗钱机器学习模型构建

基于厦门国际银行对私及对公客户行为和交易数据，反洗钱机器学习模型采用有监督机器学习的算法，对客户基本信息、相关账户信息和交易明细等近3年历史存量数据进行分析探索，开发反洗钱可疑案例识别模型。开发流程如图1所示。

图1 反洗钱机器学习模型开发流程

1.标签和时间窗口定义。在开发反洗钱预测模型前，对标签的合理定义至关重要，不仅影响模型开发过程中对数据分析的结果以及模型评估的各项指标，也关乎模型最终应用成效，是数据分析与模型开发的前提。

在近半年的模型开发过程中，我们经过多次探索、验证和迭代优化，结合反洗钱专家的业务经验以及历史存量数据的分析结果，形成最终正负样本的标签定义。综合考虑是否被上报为可疑案例、交易时间跨度、累计交易金额、平均交易量等多个维度进行判定，最大程度保证标签的合理性和准确性。

在搭建训练框架时，需要根据模型的上线应用方式设计时间窗口。以对私常规洗钱模型为例，根据业务经验，在实际预测时，并不是每次预测全量客户，而是只关注预测日期之前1个月内有主动交易的客户（排除结息交易），针对这批活跃客户提取近半年内的交易数据进行处理与特征工程。为保证训练数据和预测数据提取方式的一致，本模型采用的时间窗口提取方式如图2所示。

图2 对私常规洗钱模型时间窗口提取方式

2.数据探索与特征工程。窗口和标签定义是模型开发的基本前提，而数据探索与特征工程则决定了机器学习模型识别能力的上限。反洗钱模型在数据探索过程中需要对客户基本信息、客户账户信息、客户交易行为信息等进行详细统计和分析，包括但不限于主键唯一性检查、缺失率检查、分布检查、极值统计、直方图统计、联合分布透视图等，以求充分了解数据。

在反洗钱模型特征分析过程中，捕捉用户的潜在洗钱行为更多依赖的是客户动账交易行为的时间切片统计信息，比如常见的结构化交易：分散转入，集中转出，快进快出等行为。因此在特征设计过程中，要根据实际数据情况，从客户的基本信息和交易切片数据两大角度进行设计与衍生，特征衍生思维导图如图3所示。

图3 反洗钱模型特征衍生

经设计，初步形成超过500个特征进入反洗钱候选特征变量库，接着对500多个特征再次进行科学计算与分析，首先生成特征分布视图，以便更直观了解特征分布情况。其次通过特征信息价值（IV值）和特征稳定性（PSI）剔除信息价值低以及稳定性差的特征，并结合随机森林算法选择重要性较高的特征，利用SHAP工具处理特征归因方法不一致的问题。最后综合以上特征分析结果选中近200个入模特征变量。

3.模型训练、优化与验证。在模型开发过程中，由于每个日期上报的客户数远小于非上报，样本非平衡问题明显。因此在训练集样本提取过程中，每个上报日期并未选取同期有交易的全量非上报客户作为负样本，而是按比例选取了一定倍数的负样本，进行了一个降采样的过程，经过多轮模型迭代与测试，对比模型验证结果，综合模型相关参数的选取，最终设定正负样本比为1:100，同时采用smote算法，对正样本进行增强。

在对私反洗钱模型设计中，使用RF/GBDT/XGB等模型进行测试和对比，使用网格搜索和交叉验证的方式进行模型调优。经过多轮模型迭代、优化与验证，最终确定各个算法的超参数，并从精准性、稳定性、召回率、泛化能力等多个维度比较这三个算法的优劣。其中GBDT算法和XGBoost算法都属于boosting的串行集成树算法，但多次验证效果显示GBDT均劣于XGBoost。进一步考察模型的稳定性和泛化能力，由于时间外验证中的洗钱上报案例非常少，且上报原因差异性大，因此模型的泛化能力显得尤为重要。通过验证发现，随机森林模型虽然在训练集以及验证集上的效果稍逊于XGBoost，但是模型在预测集上的召回率要优于XGBoost，且方差比较小,预测结果泛化性能更优且较为稳定。考虑到模型实际应用效果，我们最终选择随机森林算法构建反洗钱模型。

由于正负样本比极端悬殊，常用的AUC和KS值都失去了意义。因此，选取回测月份洗钱概率处于头部客户的命中情况及尾部客户的拒绝率作为评估指标。反洗钱月累计上报可疑案例不能由某一天的预测结果决定，因此在模型回测验证效果时，需要选择多个日期，对近一个月存在主动交易的客户进行预测，最后按照客户号进行聚合，取每个客户的最大概率作为最终洗钱概率，再进行排序，进而评估洗钱概率TOPN的客户召回率。另外，上报可疑案例往往存在滞后性，根据我行实际情况结合历史数据分析，滞后性最长不超过3个月。

4.模型自动迭代。根据可疑交易监测要求，结合内外部风险提示、模型预测结果及业务人员日常监测中发现的问题，检视模型监测的有效性、数据的准确性，并持续跟进模型迭代、优化情况，从而形成模型建立、验证、上线、优化的工作闭环，进一步提升模型的有效性、准确性、适用性。

此次模型开发使用集成学习技术，能将大量弱变量集成为强分类器，解决强变量不足问题，能比较显著地提升模型区分能力。但其因使用变量较多，且多为弱变量，模型稳定性相对较差，需要频繁迭代，如采用人工方式，耗时耗力，无法有效应对数据变化。若能实现自动化迭代，则可扬长避短，弥补集成学习模型短板。我行开发人员群策群力、攻坚克难，在反洗钱模型上实现了模型自动迭代和更新。每季度末通过滑窗机制自动获取近3年的建模正负样本，经过自动化数据预处理和特征衍生及分析工具，对反洗钱特征变量库中超过500个特征自动进行重要性、IV值、关联性、PSI稳定性的分析计算，筛选参数配置工具，最终生成最优入模特征进行迭代。经过半年多的投产验证，自动迭代更新模型取得了很好效果。

模型实际应用场景

1.通过风险信息展示，提升反洗钱监测分析效率。通过每日模型自动跑批，对客户进行多维度特征分析及甄别，综合计算客户洗钱风险概率得分，按照可疑程度由高到低将客户进行排序；同时展示出相关客户的重要异常风险特征信息，并将评分结果及风险特征信息输入反洗钱综合业务处理系统，供业务人员日常甄别使用。采用机器学习模型预测的高洗钱风险客群仅占传统规则预警客群数量的四分之一，即可覆盖80%的上报可疑案例。

目前采取“机器学习模型+传统规则模型”双引擎模式进行洗钱交易核查。业务人员可重点关注机器学习模型预测的较高洗钱风险客户，同时过滤规则预警风险很低的客户，将反洗钱工作资源向可疑程度较高的预警案例倾斜，达到有效提高识别准确率、降低人工成本的目标。

2.通过关联客户分析，提升团伙甄别有效性。为提升对关联客户的挖掘、分析，机器学习平台根据设备定位、使用人数、使用频度等规则，对客户交易所使用的设备进行评分，根据评分结果生成曾使用过相关高危设备的客户清单。此外，每日根据模型跑批获取洗钱风险概率得分靠前的客户信息，结合交易对手、使用IP及设备情况，挖掘与上述可疑客户存在关联的本行其他客户信息。业务人员可直接对高危设备及可疑客户关联客户清单中的客户进行分析甄别，从而将原先的由业务人员手动导数、人工筛选出关联客户的甄别方式，改为由系统自动跑批、精准定位可疑程度高的关联客户。经过近一年的投产应用，至少提升了10%以上的模型总体召回率，同时大幅减轻了业务人员的工作压力、提升了团伙洗钱监测的准确性。

3.通过虚假开户识别，防控异常客户开户风险。借鉴同业对个人虚假开户识别经验，结合我行客户信息留存情况，通过同机构当天开户人数、当天手机前N位相同开户人数、M天内手机前N位相同开户人数、是否虚拟号段等指标，使用GBDT算法构建虚假开户模型，按日计算出新增个人客户虚假开户概率，形成个人虚假开户清单。

虚假开户的客群特征比较明显，易被模型发现。经过对2019年和2020年模型预测结果TOP300的客户进行核对与分析，超过95%的虚假开户客户均在TOP300名单中。业务人员可通过清单中列出的客户虚假开户概率、排名及可疑点，对新增个人客户开户情况进行综合分析，关注异常客户。

总结与展望

利用机器学习技术进行反洗钱风险监测已是大势所趋，但机器学习算法模型现阶段并不是完美和万能的，模型依赖历史存量数据，在训练、生成过程中易受数据样本中的噪声干扰（如人的习惯、偏见、失误等），这就需要在数据清洗和特征工程阶段使用恰当的数据分析方法以减少干扰。此外，依赖历史数据的机器学习算法模型对未来数据分布的变化缺乏应变能力，监管环境、风险环境或风险策略等基础条件的变化可能导致模型性能下降甚至失效。因此，需要及时对数据分布和模型性能进行监控，并根据监控指标及时优化和更新模型。

未来，随着人工智能在监管场景中的深化应用，综合利用各类AI技术，研发智能化、可视化的反洗钱甄别分析工具，能够准确有效地展示全链路交易情况。比如，基于自然语言处理技术的分析挖掘体系，将分析对象拓展至文本数据等非结构化数据，实现对新型风险的布控及快速反应；依托知识图谱算法等技术，研发智能化反洗钱监测工具，关联人、交易、行为等一体化信息。这些AI技术的不断发展和应用，必能持续优化甚至深刻改变客户洗钱风险评估方式及可疑交易监测方法，提高洗钱风险识别的有效性，将反洗钱风控体系提升至一个全新层次。

（栏目编辑：张丽霞）