分享

大数据的复杂生态与未来发展浅析

 grewowo 2017-05-25

面对纷繁复杂的大数据生态,人们常常用乱花渐欲迷人眼的字样来描述。因所处背景和位置差异,每个人对大数据的反应也各有不同,或疑惑、或欣喜、或鄙视、或无奈。大数据很通俗,每个人都可以聊聊。大数据也很神秘,很多观点其实并不清楚在表达什么。


本文尝试从生态视角聊一下大数据的现状,并以反欺诈模型为例简述一下大数据挖掘的未来发展。希望聊大数据的时候能处于同一平面,浮于表面的观点或鸡同鸭讲的交流都属于浪费时间。


金融科技“四大俗”


大数据的火爆,以及大数据给人造成的反感,一个很大原因在于其内在偏虚。我们不能光说价值,总得拿出点看得见摸得着的东西。大数据不是独立存在,还要关注几个相关的领域。从逻辑上看,大数据的下面可以是云计算和区块链,上面是人工智能,这就是之前在朋友圈随口说的的金融科技“四大俗”。俗的一个原因是由媒体爆炒引发了连锁反应,鄙视不负责任的忽悠和开的比瓢都大的脑洞。为人处事需要好好学学基本道理,“两学一做”其实不错。


四个热门领域都是我关注的,实际上这四个处于不同的发展阶段。目前云计算已经比较实在了,企业可能已经关注盈利了。大数据整体还在稳步发展,关注的是多行业、多领域的应用。人工智能离科幻电影里面的AI还很遥远,目前火爆的是特定领域的应用。至于区块链,还是以概念、模式为主,killerapplication还没有,理论和实践都需要持续完善。



关于四者的结构关系,画了两个图。左边的是层次分割,从基础到应用。右边的是以大数据为核心,硬的环绕软的,将大数据作为原油或血液的比喻了;其实还可以加上物联网,不过在金融科技里面谈的还不是太多。



当我们开始讨论大数据的时候


相比云计算的踏实,人工智能和区块链的高冷,只有大数据是真的“俗”。似乎所有的人都可以聊聊,有人专心聊思维,有人聊商业模式,有人做数据治理,有的人聊数据资产。当然,更多的人集中在技术和应用上面。总体而言,大数据应用是核心驱动力,基于新思维、新技术开采数据资源,并构建相应的商业模式;过程中数据治理贯穿始终,确保各层协同一致,保障数据价值创造。



至于整体生态则表现的过于繁杂,大数据生态圈、hadoop生态圈,甚至有人一听到生态就头大,因为还会加上业务生态。实际上也想不到更好的描述,生态说明了这个系统的复杂性。在生态里面的玩家很多,形形色色,各讲各话。我建议还是少关心些模式、战略,多研究些问题和技术。三年前还比较好混,比如光靠说别人听不明白的话就可以混混;但现在不行了,理论和实践综合起来才可以继续愉快的刷“存在感”。


穷理的过程中,大数据领域有一个容易陷入的误区就是以偏概全,从一个点出发就对全局下一个判断,诸如大数据是万能的,或者大数据是无能的,这样的结论看的多了自然就会厌倦。当然,还是那句话,形形色色,存在即合理,尊重每个人的观点。


纷繁复杂的大数据生态


Matt Turck发布了最新的2017年大数据版图,原图很大就不浪费流量了。大数据生态图谱中包括889家公司/产品,具体分布如下。首先要了解整体布局,然后有时间可以逐个走一遍,挑感兴趣再查查资料,这样就能了解整体生态的基本情况了。如同学科交叉的发展,今年大数据生态里面包含了更多AI的内容;数据科学、机器学习、人工智能,是大数据发挥价值的关键。


ps1: 高清版下载地址——http:///wp-content/uploads/2017/04/Big-Data-Landscape-2017-Matt-Turck-FirstMark.png

ps2: 图片上具体产品的说明需要到明细网址查看,并非所有的内容都画到了图上。


基础设施领域主要是多了一个Data Governance,领头羊是Informatica和IBM。

难道大家建了一堆数据湖之后开始关心治理了,不得而知。另外最近的热点是Spanner及其开源版本CockRoach,集成sql和nosql的优势,很神奇。还有就是银行常用来与TD edw配套的GreenPlum,归属于Cloud EDW;查了查资料,大概是MPP已经不足以反映GP的技术优势,还加入了云、敏捷开发等新技术。


分析这部分与2016年的版本大体一致,多了点中国元素,face++和Mobvoi。


应用部分更加细化,金融部分居然包括三个单元,不愧为大数据的头号炒作行业。


开源部分也进一步细化了,尤其是增加了AI/DL单元。


大数据挖掘的昨天、今天和明天


数据挖掘是大数据发挥价值的关键,如果企业没有成功的数据挖掘,那无论如何是不该说已经具备大数据能力的。以反欺诈挖掘建模为例,聊聊大数据挖掘的发展,也就是过去、现在和未来。



传统反欺诈管理中主要依赖专家经验,通过人工方式制定检测规则,当申请或交易信息与反欺诈规则匹配后即执行相应的业务策略。这种管理模式得出的反欺诈规则存在一定的局限性,不能枚举所有业务场景,无法对各类欺诈行为进行全面覆盖。当专家规则积累达到一定数量后误报率通常会比较高,能够影响到实际风险决策制定和实际业务开展。


目前的主流做法是应用机器学习技术进行欺诈风险管理,机器学习是一种研究机器获取新知识和新技能并识别现有知识的方法。可以结合大数据理念从整体视角对欺诈风险进行评估,实现风险的精准预测并以此作为应对欺诈风险的强力手段;同时可根据模型结果进一步提炼异常规则,发现未知欺诈模式。


未来伴随大数据与人工智能的持续发展,可以期待能够识别各类欺诈模式的“真正”人工智能模型。魔高一尺,道高一丈,模型具备自主学习和进化能力,实现欺诈风险的提前预判(想到了少数派报告)。在这个状态下,单纯的大数据已经没有意义,替代的是一个个智能解决方案,大数据和人工智能会融入同一个生态图谱。



大数据之路漫漫


相比之下,国内大数据行业的整体规模还不算大,说的多,做的少,掏钱的更少,整体还是起步阶段。换句话说,就是killer application还比较少。插一句负责任的话,现在看到的文章和案例水分都很大;当然,不深入进去可能不太容易识别出来。


现在无论大数据治理还是大数据应用,无论咨询公司还是实施公司,干货真的不多,以至于交流的时候会忍不住吐槽几句。大数据进入银行视野超过五年了,所以交流的时候需要干货,这等同于诚意的表现。踏踏实实的做点事还真不太容易,因为项目里不确定因素太多,只能确保自己尽量靠谱一点。


当然,在大数据领域,无论如何都要保持足够的谦卑,学会选择。在践行过程中懂了一些,就会发现不懂的更多。从2012年开始,每年的想法都会变,所幸螺旋式的上升也会逐步到达融会贯通的境界。




写在最后


原稿写于去年7月,当时的题目叫《Too Damn Big》。最近重读一下,动手进行了补充和完善。整体上观点变化不大,大数据实践之路还很漫长。


我的日常工作以大数据为核心,同时关注金融科技的其他领域。这里陆陆续续写些关于大数据的东西,不会细说模式和概念,更不会谈Hadoop、Spark的技术细节,更多还是聊一些感想吧。从实际工作出发,对于大数据的认知和实践是持续性的,写东西与此保持同步,并且乐此不疲。


盘点一下做过的模型,三种创新模式都有了。信用卡评分对应老问题新方法,外包风险预测则是新问题老方法,还有渠道无监督和智能反欺诈对应为新问题新方法。大数据挖掘的未来很有潜力,企业需要持续的投入和支持,才能发挥实践成果的真实价值。如果做的东西很好,但就是不能做大做实,那损失的其实是企业。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多