2017年1月13日,“飞蝉智投高校联盟”第一期活动正式开展,中山大学统计学硕士朱进受邀来到飞蝉智投,结合在参与“融360'天机'金融风控大数据竞赛”中预测用户二次贷款的经验,详细阐述了如何利用特征工程分析用户金融数据,预测用户行为。 “高校联盟”是由飞蝉智投发起的,与中山大学等高等本科院校共同开展的深度合作,其填补了高校与企业的断层,让高校的学生能了解到企业具体的业务需求和困境,将研究理论落地,解决实际问题;同时,也能让企业接触到最新的前沿技术和理论,享受到高校的人才和科研优势。 此次的分享嘉宾朱进是华南统计科学研究中心成员,同时也是中山大学数学学院统计学专业的硕士生,在数据分析、R语言、编程方面有着丰富的研究经验。在中心的学习工作过程中,朱进负责过基因数据、金融数据、医疗疾病数据、社会人口学数据、用户行为数据等项目研究,对数据分析与数据挖掘形成了独特的见解。 一、数据挖掘提高二次贷款准确度判断 在此次竞赛中,朱进团队利用AUC对真实的借贷用户数据进行分析,包括用户修改记录数据、消费数据、行为标签数据以及社交数据等,预测用户是否进行二次贷款。 这一过程所需的样本数量非常大,维度高。以用户修改数据为例,每个用户可能会有很多次修改记录,如果用全部数据去处理,维度可能会特别高。因此,朱进同学采用特征工程的方法,对数据进行整合降维,并根据特征对用户行为进行预测。 比如将一个人所填的所有年龄取平均数,平均年龄就是这个用户的特征,即将一个用户多条数据整合成一个用户一条数据,变成用机器学习的方法去做。 朱进同学还指出,在对数据进行预处理的过程中,发现有些数据非常异常,而数据异常可能是有信息的异常,这时候就要深入数据,挖掘异常数据背后的信息。 而在此次利用特征工程进行时间变量处理的过程中,朱进同学发现,在某一用户进行修改的相邻时间段中有一批用户也有相同的行为,这批用户之间可能没有空间上的联系,但是表现出从众现象,得出了从众性评估网络的结论,并将用户修改时间套入结论模型中,对其行为进行预测。 二、大规模技术和算法改进更新建模 在利用特征工程进行用户行为预测过程中,朱进同学围绕用户开展多维度的考察,准确性高,主观影响较小。但这还不是一个完美的方案。主要存在两个方面的问题: 1.模型处于静态层面,而数据还在不断更新,模型更新有困难。因此,在处理过程中还需要考虑长期因素和短期因素,将长短期因素结合起来分析,优化建模过程,通过大规模计算和算法改进,实现建模更新。 2.样本数据多,计算机灵活性和维护比较差,需要通过改进算法解决。 在改进算法过程中,朱进主要提出了三个方向: 1.利用Data Combined ,将变量交叉,一个变量做不好,变量交叉可能就做好了。 2.Lasso是一个比较前沿的模型,可以当成提取工具,进行降维,将各个特征糅合成一个特征,利用公式算出用户是否二次贷款的概率。 3.利用CART把不必要的东西去掉,进行降维处理,简化过程。 分享会过程中,飞蝉智投团队成员对分享内容表现出浓烈的兴趣,展开深入探讨,朱进同学也针对智投团队的问题深入思考、悉心讲解,现场气氛热烈。 分享结束后,朱进同学和飞蝉智投CTO“Jack船长”以及其他数据挖掘的同事进行了交流和经验分享。 未来,飞蝉智投将与各大高等院校展开合作,汲取最新研究理论精华,提升技术水平,通过大数据、机器学习等Fintech技术,对用户金融数据进行挖掘分析,构建用户画像,帮助券商进行精准营销,提升转化效果。 想了解更多关于智能投顾以及机器学习的技巧,可添加微信号【feichanzhitou】,来勾搭小编哦! |
|