1. 【风控:互联网金融的痛点】 过去3年P2P行业放款规模增长率均保持在200%以上,2015年全国P2P网贷成交额达1.18万亿,快速增长背后意味着强劲的市场需求。但是,融360网贷评级报告中披露的数据显示,部分P2P平台坏账率高达20%以上,信用类贷款逾期率更是惊人,个别知名平台的个人信用贷坏账率近期已超30%。信贷风险难以控制,成为整个互联网金融行业面临的共同难题。 人人信用管理有限公司(简称“人人信”)是独立的第三方信用评级机构,于2014年开始,利用大数据技术在百万量级信贷客户样本、上万量级原始维度数据的基础上,搭建起用于线上审批的风险控制系统:知更鸟系统。目前,该系统已自动审批信贷申请30余万件,较人工审批预计坏账率降低50%。 2. 【玩转大数据】 风控领域引入大数据技术,人人信面临以下几方面挑战: 1)大数据不单是数据大,如何综合运用结构化和非结构化的数据,将其匹配、关联、消歧后加以利用,数据仓库技术已不再适用。 2)随着新增数据源不断加入,数据的维度不断扩展。如何将多维数据有效的加以运用,使得信用评分越来越准确?如何依据数据和场景快速的更新模型?传统金融领域的风控建模方法论已显得捉襟见肘。 3)做为一家初创公司,在避免资源过度投入的同时又要保障系统的高可用性,应对线上业务流量指数级的增长。技术团队应按需的选择分布式技术,清晰的规划出架构演进路线。 以下我们将从数据管理、信用评分、高可用性三个方面分享风控实战中遇到的问题和解决经验。 2.1 数据管理 不同于传统金融行业内使用的数据仓库技术,互联网金融面临的是来自多个数据源、不同质量、不同格式的异构数据,要想玩转这些数据,需要在全局范围内对数据的流转、加工、回溯、跟踪进行统一管控,并且明确不同类型数据在不同环节的功能定位。 知更鸟系统中的数据在逻辑上分为以下几层: 1)原始层:系统外部的原始数据,包括互联网上的公开网页、app或web页面上的用户行为、合作机构的结构化数据。该层数据是我们获取的对象。 2)获取层:通过开发网络爬虫、商务合作等方式获得原始层数据,并且按照数据所表示的业务含义的不同而分开存储,采用的存储方案包括MongoDB和MySQL,大量的小文件直接存储于HDFS之上。该层的数据可用于按照来源做统计和按照业务含义做查询。 3)汇聚层:用于对同一真实客户的来自不同数据源的数据做匹配、数据类型的归一化处理、强制性的数据消歧。其中的实名库包含了客户的敏感信息(如身份证号、联系方式、家庭住址等),需做加密处理后为客户分配全局统一编号。客户的其他属性存储于属性库。 4)加工层:汇聚层的数据经过核验后,将其中高质量的数据迁移至加工层的核心库。核心库中的数据会根据不同的应用场景需求做不同策略下的标签化处理,处理之后供应用层访问。汇聚层和加工层均采用HBase Hive的方式,同时支持应用和统计。 5)访问层:对上述3层所有数据的访问均需要经过访问层对外提供的接口,除了鉴权和访问接口外,该层还提供日常报表、数据质量实时监控、临时性的统计分析、数据流转日志查看等工具包。 图1:数据流转架构 2.2 信用评分 风控不单是技术问题或管理问题,而是一项复杂的系统工程。其中在信用评分环节上,我们采用了机器学习模型 规则引擎的处理方式。 图2:信用评分处理框架 运用机器学习的算法,我们在一百万信贷客户数据的基础上得到训练模型。机器学习的优势在于可以发现业务专家无法总结到的规律,并且将其量化;缺点是必须基于历史的老旧数据,其理论基础是大数定理和独立同分布的假设,而实际业务环境可能会随时间发生变化。因此,仍需加入一部分由业务专家总结的规则来做辅助判断,一方面保障业务上的灵活性,应对突发情况和系统性风险,另一方面验证客户资料的真实性,避免欺诈风险。 在机器学习算法的选择问题上,我们同时选择了几种不同的算法。传统金融行业在风控模型上绝大多数是使用线性模型以得到较好的可解释性(如Logistic Regression、GLM),为了尽可能保证模型的稳定性,还会分析各个变量的稳定性指标和变量间的相关系数,进而选取最具代表性的强变量,一般会将变量个数控制在20个之内。 在以线上业务为主的互联网金融领域里,业务方可以在一定程度上牺牲模型的可解释性,而且面临的数据源多种多样,要想充分利用大数据带来的红利,将变量数量限制在20个之内是不现实的。 另外,来自互联网的客户行为数据与来自人民银行个人征信报告数据相比,其中更多呈现的是非线性关系。因此,我们同时训练了线性模型和几种非线性模型,并且将多个模型集成起来得到综合评分结果。 在上述思想的指导下,人人信算法团队自行开发出一套机器学习工具包,并依据金融领域数据的特点对一些机器学习算法做了改进。实验证明,这套利用大数据的集成模型比仅用央行征信报告的线性模型在准确率上有显著提升,较之前的人工审批在同样的核准率下预计可降低坏账率约50%。 2.3 高可用性 为了提高产品的开发效率和服务端系统的高可用性,人人信逐步引入一些开源技术,演进出一套适合自己的架构体系。目前涉及到的开源工具如图3所示。后台系统目前全部采用虚拟化技术,按照功能划分为如下几个区域: 1)开发区:用于做产品开发、模型训练,该区域对CPU、内存的资源要求较高; 2)测试区:用于产品上线前的代码自动化提交编译、功能测试、自动化测试、准生产环境平行发布; 3)生产区:该区域分为几个层次,最上边的应用层为web和app产品提供服务器端服务,需要考虑做负载均衡和主备。然后是逻辑层,其中包含各类独立的服务模块,均按照统一的服务框架开发,服务框架本身提供了可配置性、性能的可监控性、分布式部署、统一鉴权、负载均衡等通用功能。采集层中部署了大量的网络爬虫服务,用于从互联网上采集数据,对CPU线程数目、网络带宽要求较高。 4)数据区:如“数据管理”一节所述,该区域为其它各区提供统一的存储服务,对敏感数据做统一管理,将不同数据融合后对外提供统一的访问接口。 图3:前后端协议栈 3. 【大数据光环下的那些坑】 毋庸置疑当前是个“互联网 ”时代,是个“大数据”时代,传统行业纷纷拥抱互联网,言必称大数据。然而,大数据光环下往往隐藏着一些暗坑,我们将其中主要的几点经验总结如下: 1) 外部数据源质量评测:引入外部数据前我们会在几个不同维度上分别测试,包括:匹配率、稀疏性、有效性、真实性、一致性、稳定性、时效性、安全性、可替代性、性价比、压力测试。 2) 数据预处理:传统金融领域建模人员往往缺乏非线性模型的驾驭能力;而机器学习领域算法工程师往往缺乏金融类数据预处理的经验,一些细节会对模型最终的线上性能带来很大影响,如:响应变量定义、时间窗选取、格式转换、缺失值处理、值域分析后不同的归一化处理、分箱选择、特征稳定性分析、时间戳匹配等。 3) 架构演进:分布式技术多种多样,选择技术框架时需根据已有人员的技能积累做取舍,将社区支持程度和可运维性置于技术先进性之前。另外,在做灾备预案时需在不同层次上同时考虑,如:单个虚拟机、虚拟化整体方案、物理机、物理磁盘、数据库、存储、应用服务器、机房等。开发框架选取时应考虑到跨语言支持、多协议支持,为以后的架构演进留出足够空间。 4. 【展望】
人人信目前已经积累起多项核心优势,如:百万量级信用数据、亿级实名用户金融属性数据、已落地应用的高准确度信用模型、广泛的外部数据源、强大的技术支持团队。未来人人信将更加专注于做独立的第三方征信机构和信用服务撮合平台,为各类场景服务机构提供获客服务和征信服务。 (人人信技术团队欢迎各种形式的技术交流和商务洽谈,每周四晚技术沙龙对外开放。有意参加者可邮件联系 zhangjie@rrx360.com) 作者:张杰博士,加入阳光前就职于华为中央研究院,从事机器学习、自然语言处理方向的算法研究,国内外发表学术论文十余篇,申请发明专利二十余项;现就职于人人信技术部,专注于大数据风控与个人征信方向。 注:数据阳光原创,转载请注明出处。
|
|
来自: 昵称30485026 > 《文件夹1》