分享

反洗钱 | 可疑交易模型评估(上)

 shenhaoyun 2023-07-07 发布于上海

基于业务、技术和数学三重视角下的可疑交易模型评估探讨。

在金融机构的日常反洗钱业务中,可疑交易监测上报是其中一个基础而重要的环节。作为监测的核心—“模型”,不仅对交易监测结果的全面性和准确性有着重要的影响,同样影响着反洗钱人员及各项管理资源在未来的合理化配置。

什么是“模型”,本身就是个较为复杂的问题。业界关于模型的讨论很多,不论从业务人员角度,或者从技术人员角度,对于模型概念及其本质可能存在理解上的模糊和偏差。因此,如果在此模糊和偏差的基础上探讨”模型评估“,则更加是一个难度系数高、充满不确定性和结论未知的工作。
模型不仅涉及业务需求的理解,也涉及技术方法的选择,同时还关乎技术背后的数学原理,现实当中兼具这三重背景且达到一定高度的人非常少。因此,不同主体各自学术背景和主观理解上的偏差,也给模型的评估带来了一定的挑战。
图片

本文将从两个部分展开对于模型评估的论述:第一部分尝试厘清现有的各类模型,及其背后的大致原理;第二部分在第一部分的基础之上,结合业务视角和技术视角,探讨模型评估的方法。

同时,本文将摒弃一些所谓流行但模糊不清的概念,力求以简洁和通俗的语言进行描述。不论是技术模型,还是业务经验,在不了解概念本质的前提下,过多的概念只会带来不必要的干扰。

作者: 王静 企查查科技有限公司高级业务顾问 | 方彦 企查查科技有限公司金融产品经理 | 龚朝辉 企查查科技有限公司AI工程师

目  录

第一部分  模型  
  一. 模型的“层次”划分
  二. 模型的“类型”划分
  三. 模型的“内涵”理解  四. 现状及问题
第二部分  评估  
  一. 政策要求  
  二. 评估意义与目标  
  三. 评估类型  
  四. 评估过程      
        1.输入环节
        2.转换环节        
            2.1 分值层面        
            2.2 逻辑层面     
        3.输出环节
            3.1 评估指标        
            3.2 样本选择        
            3.3 问题分析        
            3.4 案例积累
结语参考及注释

第一部分. 模型

一. 模型的“层次”划分

目前,市面上应用较多的模型有线性模型、树模型、图模型等等。从业务人员角度,可能较为熟知的是机器学习、深度学习(神经网络)、有监督(决策树)/无监督学习、联邦学习、知识图谱等一系列概念,我们试着将这些概念从模型角度,界定为不同的“层次”。

“层次”可以分为哪些?笔者按照个人的理解梳理了一下模型的两个层次,仅供参考。

图片
二. 模型的“类型”划分

从业务场景来看,假设我们将模型按照“用途”来进行分类,大致可以分为“现状描述型”和“未来预测型”两种。“现状描述型”是指模型描述了过往的业务形态或者是现实场景,而“未来预测性”是指模型基于对过往的业务形态等一系列给定条件,生成的对于未来的预测或者判断。

反洗钱可疑交易模型属于后者,通过输入给定的条件,以“预警”或者“案例”的形式最终生成对“可疑”的未来预测。

三. 模型的“内涵”理解

为什么需要理解模型的“内涵”?由于模型本身更倾向于技术语言的表达,对于业务人员而言,在不能完整理解技术语言的前提下,对实际的模型构建过程并不能够完全掌控。而技术人员在构建模型的过程中,由于业务需求理解上的偏差,在底层的代码实现上也不一定能够完全表达业务需求的真实目标。

从没有模型构建经验的业务人员角度,实际最终看到的只是模型输出的结果,但中间的过程是基于什么原理而得出的结论,其实并不清楚。从技术人员角度,需要达成业务人员的最终诉求,对于一些参数、指标和特征维度的创建,在没有原始数据或者足够样本支撑的前提下,也是勉为其难。

因此,模型在现实业务当中,更多体现为一种类似“黑箱”的运作方式,这种黑箱式的运作方式,客观上导致了模型误报率过高或漏报等一系列问题,这也是需要进行后续评估和调整的原因之一。

这里切换下视角尝试理解模型的“内涵”。模型从根本上来说,是用来为人工“服务”的,这里的“服务”也可以体现为上述的两种用途分类。要么是用来刻画现状,要么是用来预测未来。但为什么能够刻画现状或者描述未来呢?需要借用数学当中“概率”这一概念。

概率,是现实世界中解释很多客观现象或者人工主观经验的底层逻辑。为什么?以可疑交易甄别为例,具备一定甄别分析经验的业务人员,基于过往的经验,在面对当下出现的类似可疑交易往来时,往往会形成一定的初步判断。这种判断是基于过去经验所形成的概率推论,“折射”到当下的一种反馈。因为以往见过,当再次见到同类的交易形态时,据此推测是属于“可疑”,还是属于“正常”。

因此,技术模型也好,人工经验也罢,“概率”是作为其底层逻辑而存在。只是“模型”将这种“概率”以图形化或者信息化的形式输出,让人可以通过图形或者信息加以认知。

上述对于模型的层次、类型以及内涵做了简要的分析。如开篇中所述,模型这一概念本身仍在业界存有一定的争议。因此,上文中提出的观点仅作为下文模型评估的基本假设,不代表任何立场或者观点。

四. 现状及问题

金融机构的可疑交易监测模型,传统的方法是基于规则建立的监测模型,进阶版的是以机器学习为基础建立的监测模型。

反洗钱系统中的可疑交易模型,在现实业务场景中的问题,体现为诸如漏预警大额或可疑交易、可疑交易(案例)误报率过高、成案率低等问题。下表列举了《2019年中国反洗钱报告》中与之相关的数据:

图片

业务人员在日常可疑交易处理中,遇到的类似场景如下:ⅰ.存款排名前十的客户由于资金交易量大,经常性触发交易警报,特别是一些单独针对资金交易设计的指标,预警频繁;ⅱ.定期及理财类产品客户由于年龄偏大,触发“年龄与网银渠道不匹配”等指标预警;ⅲ.业务人员较为熟悉身份背景的客户,因为偶发的一次清晨交易,触发系统预警;ⅳ.预警客户占存量客户比例过高,例如10名自然人客户中,近一半曾经触发过系统预警等。

产生误报率高或错报等现象的原因有多种,从模型的输入输出角度来看,包含了:ⅰ前道“输入”、ⅱ中间“转换”和ⅲ结果“输出”三个不同的环节,每个环节当中存在的问题均可能导致模型预测结果的偏差。

因此,下文将基于模型的“输入”、“转换”和“输出”三个不同的环节,从“评估”的视角分别予以阐述,同时文中所探讨的模型将基于线性模型的逻辑展开。

所谓线性模型,是指通过赋予多重指标(体现为可疑交易的具体特征)不同的权重和分值,加权汇总以后触发模型预警的阈值界限,亦可称之为“规则模型”。举例来说,A模型的设计分值为50分,在某一时间点,客户甲的账户及其身份特征对应的多项指标计算总分为54分,则触发模型,并生成最终的案例。示例如下图:

图片
以上为简要的模型设计图,实际在模型应用的过程中,可能还包含了一些关键特征的组合触发预警。例如上图中的“身份特征2”和“交易特征2”同为关键性特征,当这两者同时被触发时,也会导致系统预警可疑案例。

第二部分. 评估

由于该部分涉及业务和技术两个不同领域的术语,先行将个别术语及其解释列出,供读者参考。具有模型建构经验的人员亦可跳过该表。

图片
一. 政策要求

根据《义务机构反洗钱交易监测标准建设工作指引》(银发〔2017〕108号)要求,义务机构应当至少每年对监测标准及其运行效果进行一次全面评估,并根据评估结果完善监测标准。触发场景包括以下五种:

图片

可疑交易报告的触发,从源头上追溯,多是由于系统模型预警的结果,现实中也存在一些可疑交易报告的触发,是源自于外部有权机关或者监管机关的指令等。

本文探讨的重点是系统模型预警触发的可疑交易报告。

二. 评估意义与目标

模型评估的意义在哪里?从一个相对的时间周期来看,模型属于一种“静态”的判断。但风险其实是“动态”变化的。随着时间和外部风险状况的不断变化,新型的洗钱行为也需要及时对现有的静态模型进行评估和调整,以适应不断变化的外部风险状况。模型的时效性是需要对之进行评估的原因之一。

模型评估,离不开业务人员和技术人员的理解与配合,当下做一次充分且完整的模型评估和论证过程,在面对未来交易和数据体量不断扩大的趋势之下,对各项管理资源的有效配置具有长远的意义。

模型评估的目标,最终是为了实现提高可疑交易模型预测的准确率。准确率的提高具体表现为:ⅰ.降低漏报(漏报属于合规漏洞);ⅱ.控制误报(误报过高导致资源瓶颈)。这部分内容将在第三部分“输出”环节的评估进行详细讨论。

三. 评估类型

从不同的人员视角,模型评估分为两类。一类为“业务评估”。业务人员对于可疑交易的判断,往往是基于客户身份背景、交易行为等分析基础之上,结合自身经验判断,通俗称之为“专家经验”。依据专家经验对指标设计、分值权重合理性进行评估;还有一类为“技术评估”,侧重于从技术方法和代码实现等角度,诸如参数配置、技术指标观测等等,通俗称之为“技术调参”。

以下的评估过程章节当中,是从业务人员角度出发,予以的分析和阐述。涉及到的技术语言,例如ROC曲线(Receiver operating characteristiccurve)、AUC指标(Area Under Curve)、召回率recall、精确率Precision等,尽量转化为业务人员可理解的表达形式,例如通过示例和图片等形式予以展现。

四. 评估过程

模型的评估,由于同时涉及业务和技术两个不同的层面,下文着重从业务视角层面展开论述。因为现实中可疑交易案例的样本数量,相对金融机构总体的客户交易体量而言,仍属于“小样本”范围,即占比较少。这也是为什么需要进行特征指标分值或权重调整的原因。因为样本范围有限,其代表性不够强,会导致由此得出的模型不能够完全反映实际情况,所以需要进行特征指标的权重或者分值的评估以及调整。

此外,模型评估中涉及的技术调参部分,建议由行内科技(自研系统)或外部厂商(系统外包)进行,下文中不对技术调参做具体论述,仅从业务视角展开。

1. 输入环节

模型在进行后续的运算之前,首先需要考虑的是“输入”的问题。

假设从“渠道来源”的角度来定义“输入”,将“输入”分为“来自上游系统的输入”和“系统(例如反洗钱)自身的输入”两种类型。

· 来自上游系统的输入,如上游交易系统的交易数据、客户系统的客户数据等。

· 系统自身输入,包括了内设参数的配置、规则编码的定义等。例如交易模型中有关交易周期的回溯时间周期定义为10天,这里的10天可能成为一个公共的参数定义。

从上述两种类型的“输入”出发。

问题表现一:上游系统的原始数据字段不支持后续的模型逻辑计算。

例如,有一条交易监测规则为“交易对方账户是POS商户签约账户”,那这个“POS商户签约账户”是否可以从《交易对手表》中取到对应的字段值需要考虑。如果《交易对手表》中本身并不存在“POS商户签约账户”这一字段,则可能无法在后续的模型逻辑中进行有效计算。

问题表现二:“客户”是否进行了有效的分类?

针对“系统自身输入”的初始参数的评估,例如其中一项初始参数的内容为“交易周期的回溯时间周期为10天”。交易,源自于客户触发,而客户又分为新客户和存量客户,对新客户而言,其账户交易形态不能跟存量客户同日而语。换言之,新客户的交易可能在短短的10天内尚不具备加载到后续逻辑判断的条件。在未对“客户”进行有效分类的前提下,直接将“交易”按照固定参数和逻辑进行计算,必然导致误报率过高等问题。

从技术角度而言,不论是基础的线性模型,还是类似于决策树的树模型,均需要进行样本群体的划分,将“同质性”更高的群体分类之后(技术语言称之为“特征工程”),再进行后道的逻辑计算。

举例来说,位于行业头部的大型企业和末端的小微企业,资金交易体量不能同日而语,在进入逻辑计算前,需要先进行“客户”群体的有效分类。但目前应用较多的线性模型由于具备较高的灵活性,并不需要事先进行“客户”群体的分类,间接导致无效预警占比过高的模型,使得模型的预警筛选功能失效。

从技术角度来看,线性模型的底层算法本身并不存在问题,问题出在业务需求的转化上。比如,业务需求要将客户先行分类,再进行逻辑计算。那么“客户的分类”如何在进行计算之前,进行有效的分类逻辑设计,这个环节成为了最终模型判断结果出错的原因。换言之,算法本身并没有错,错在模型的整体构建上可能存在的维度缺失。

2. 转换环节

这里所说的转换,是指系统在经过上述的“输入”步骤以后,将数据加工处理成最终的预警或者案例的形式对外输出,这个加工处理的过程称之为“转换”。

2.1 分值层面

依据文章开篇中给到的流程图示例,线性模型本质上是在处理“相关性”的概率大小。

何为“相关性”?相关性是指:第一,各种身份、可疑交易或者行为特征(以数据形式体现)被“输入”模型以后;第二,最终是否构成对“可疑”的判断,上述两者之间是否相关。如果相关性高,触发预警或者案例的可能性越大。反之,相关性低,触发预警或者案例的可能性越小。

例如“午夜或凌晨交易”是一项可疑交易行为的特征,并且这个特征在多个模型中均有应用。这项特征与可疑交易行为的相关性较大,被赋予的权重和分值也较大。通俗一点来说,也可以用“概率”来比喻这种“相关性”。类似上述的午夜或凌晨交易,这项特征出现时,异常交易行为的概率相对较大。那么在模型当中,又是如何体现这种“概率”大小的呢?具体到模型当中,以“分值”或者“权重”的形式将特征赋值,并纳入后期的计算。

上述三者的逻辑关系如下图所示:

图片

因此,评估“相关性”大小是否合理,更进一步说权重以及指标分值的赋值是否合理,成为评估中间“转换”环节的关键所在。

2.2 逻辑层面

系统生成最终的可疑交易案例,存在两种不同的逻辑判断方式。一种判断方式,为上文中所提到的“模型”触发,即组合多项指标加权汇总以后,满足模型设计的分值条件将触发最终的可疑交易案例。

还有一种判断方式为,以“特征”作为案例生成的判断条件,特征满足即触发最终的案例生成,例如统计“十天内对公客户转入(转出)笔数八笔以上,金额120万以上的”,这项特征的参数阈值均为固定值,同样在不考虑客户特性以及业务背景的前提下,直接进行逻辑判断,必然导致误报。

对于中间“转换”环节的评估与控制,建议关注模型逻辑构造的完备性。在分值和权重等参数的合理性考量方面,建议通过最终模型的输出结果反向进行论证。正如开篇中<现状及问题>章节所述,预警客户占全量客户比例过高,从常理角度判断与现实情况存在偏离。

下篇将从“输出”环节进行阐述,并对全文进行总结。

参考及注释

1.《义务机构反洗钱交易监测标准建设工作指引》(银发〔2017〕108号)

2.中国人民银行《2019年中国反洗钱报告》

3.Feature engineering is the process of using domainknowledge of the data to create features that make machine learning algorithmswork.from Wikipedia特征工程是利用数据领域的相关知识,来创建能够使机器学习算法达到最佳性能的特征的过程。

4.《金融机构大额交易和可疑交易报告管理办法》(中国人民银行令〔2016〕第3号)

5.精确率、召回率、F1 值、ROC、AUC 各自的优缺点是什么?

https://www.zhihu.com/question/30643044/answer/554917862

6.罗璠.对武汉市金融机构可疑交易监测工作的思考.2019

7.赵肖杭.反洗钱可疑交易报告有效性评估研究.2019

8.夏浩淳.邓红.宋疆.瞿清华.基于机器学习的洗钱可疑交易监测实践

9.高增安.基于交易的可疑洗钱行为模式与反洗钱对策研究.2007

10.吴玉霞.牟援朝基于两阶段聚类的洗钱行为识别.2010

11.刘鸿斌.基于纵向联邦逻辑回归的可疑交易监测方法及装置.2021

12.汪加才.谷瑞军.金融机构可疑交易监测分析的策略与方法研究.2012

13.刘鸿斌.可疑交易监测模型特征提取方法及装置.2020

14.徐姗姗.我国反洗钱可疑交易报告工作困境与改进建议.2015

15.黄守成.我国金融机构可疑交易监测的有效性分析.2011

16.刘鸿斌.一种反洗钱可疑交易监测方法和装置.2020

17.周春英.朱明杰.闵薇.唐溶.胡宸章.一种基于半监督图神经网络的智能可疑交易监测方法.2019

图片

点这里 助力您的反洗钱实务

咨询热线 400-088-8275

商务邮箱 pro@greatld.com

图片

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多