编辑整理:黄乐平 出品平台:DataFunTalk、AI启蒙者 导读:58同城的风控业务从2010年开始搭建平台,到2012年正式成立信息质量部,经历过了10年的发展,三代系统变革,目前已经是全集团最重要的中台之一,肩负了每天百亿级别数据的风险控制。本次分享将主要解析在不同业态、不同年代下,风控治理的不同思路,进而打造出不同平台的过程。 01 58做风控的起因一个分类信息平台,其主要是以内容和流量为核心,包括上下游两大类用户:B端用户(供应端)——生产内容以及C端(消费端)用户——使用内容。在信息的产生和消费两端,都会面临许多问题,诸如诈骗、羊毛党、刷单、刻章、办证、发票、微信吸粉、广告、水贴等一系列非正常流量行为。 面临的问题:
02 58风控发展历程58风控发展历程主要包括4个阶段:
第一阶段:微量机审+人工审核 第一阶段平台业务较少,主要为58信息、企业发布以及简历发布,采用人工审核配合部分机器审核的手段。此阶段主要规范了系统的边际,包括UGC产生后的一系列流程操作。经过在线检测后,分成了两个分支,其一经过离线检测,其二经过人工审核,并行操作,两者的结果最终通过判断执行模块进行审核执行操作。 为了加强对外部情势的感知,主要主动采用“卧底”黑产群,通过购买各类黑产软件,探索平台漏洞,对系统进行更新迭代。 暴露问题: 该阶段对于系统中的“变”和“不变”部分缺乏抽象,主要是采用硬编码的方式,这使得开发频次及成本较高,策略上线周期上,开发速度远远无法跟上黑产破解的速度。 第二阶段:配置化机审+人工审核 第二阶段主要是在前一阶段的基础上,明确了策略层的运营能力,以特征为基础,规则和条例为抓手,同时也增加了部分算法的能力,诸如图像算法、文本算法以及行为聚类等。在此基础上形成了三大模块,包括简化特征开发的平台用于风险发现、可运营的策略管理用于风险评估以及集中化的风险处理。 暴露问题:
第三阶段:机审人审融合、分场景治理 第三阶段目前运行至今,主要包括三方面,包括
第三阶段整体实现了毫秒级的响应速度、目前已支撑千级别业务场景、全场景内容服务覆盖、上万节点集群规模、百亿量级离线分析能力以及全自助平台管理。 第四阶段:专家指挥、智能审核 第四阶段为正在实现中以及对未来的规划方面,包括:
整体而言,风控的能力提升有很大的空间,这对技术储备要求很高,需要多职能跨部门、跨组织合作,从而实现高并发、高可用需求下的快速风控能力。当然,风控其实是一个不断对抗的过程,版本的迭代需要足够快,以交付为目标,避免过度设计导致长时间的对抗真空期。 03 后续答疑① 能否举一个58同城黑产攻防案例? 答:常见的攻防案例一般是敌方攻击、我方防守,对抗的过程。 当时有遇到一个案例,房产业务因为流量大,关注度很高,有利用工具批量发布信息的行为。开始阶段能够从中发现,其发布内容行为与正常人发布有一定的偏差,常见的手段就是通过模拟批量Post请求提交数据,但这种情况下上报的数据中缺乏正常用户的行为数据,很容易可以识别到为非真人发布而进行拦截。后续,对方也会逐渐升级手段,寻找可突破点,诸如采用按键精灵,通过浏览器进行提交,用模拟点击的方式。我们解决方案则是通过寻找相似点以及用户行为时间序列来发现非真人操作,之后采用动作随机化,这时从单一用户的角度已经很难着手,我们开始从单一用户转向群体用户行为的分析,挖掘某时间段内存在大量异常行为的账户,通过诸如验证码、认证等手段增加对抗的成本,黑产也在升级过程中采用包括打码平台等方式提高刷帖成功率,我们则增加验证的方式,用更复杂的人机交互等,可以看出这过程是不断对抗,提升作恶成本的过程。 ② 详细介绍下当前风控架构? 答:最上层为业务层,包括58信息、企业发布、简历发布、同镇信息、交友直播、微聊信息、房产三网、部落视频等上千级别业务;针对每个业务集合,我们会提供一站式运营平台,包括完整的工具集、处理集、人工审核布局以及运营能力服务;在此基础上,针对多业务间并存的服务能力进行抽象,整合出包括基础工具、风险处理集合、数据增广、行为聚类、文本算法、图像算法等通用化服务能力。 ③ 风控团队如何对接业务侧,如何说服业务侧接入,投入产出比如何计算等? 答:早期所有的风控均处于风控部门,既承担裁判员的职责,又做运动员的工作,即做风控并评判风控收益,会存在与业务侧产生冲突矛盾的地方。这其中包括业务侧不认可风控的输出能力,认为引入后为带来大量的误杀,影响业务发展等各类问题。后期通过中台能力的搭建以及与业务部门责任共担,实现了双方合作共赢。投入产出比可以通过对线上数据的巡查,以及数据部门的分析,因其中包含了部分业务因素,我们也会采用三方数据、申诉反馈等综合收集信息客观反映风控能力。 今天的分享就到这里,谢谢大家。 |
|