分享

郭炜 | 大数据领域缺的是分析人才

 天道酬勤YXJ1 2016-09-19

郭炜: 我是北大的本科、研究生,毕业的时候就选择了做数据这条路,我印象很深刻,我的毕业论文写的是基于过程神经网络的客户流失分析做法,那个时候就在做数据挖掘。毕业以后十多年经历了IBM、Teradata、中金、万达电商、联想这样几家公司。其中在万达电商和联想负责大数据平台的建设。现在加盟了易观,我过去的经历基本上是这样的。

郭炜:加入易观,我也和我们的CEO一样考虑了很久。因为我从大学开始到现在一直在做数据相关的事情。我自己想去创业的时候,也调研过,也想过。现在大数据特别火,从我这个角度来讲,数据这件事情有高峰、低谷、高峰这个过程。我一直在想,最终什么东西是不变的,从十年前我们的技术,当时叫做数据仓库,数据挖掘。这些东西随着技术变化,不断的翻新,技术这件事是可变的。很多人说大数据得有数,你调研会发现有数据的公司越来越多,未来每一家公司都会成为数据公司。

从这个角度来看,有数这件事,尽管是一个门槛;但是有数的公司也越来越多,它也不是一个门槛。从我十多年的从业经验来看,什么东西一直是最难的,在整个数据和大数据行业里面,最缺的是什么,不是缺数,而是数的背后能看出什么结果,人怎么拿它的结果反馈到真正应用生产流程里面,中间这个过程我们叫做分析,而这样一个分析的人才,在国内或者是国际,他都是非常或缺的人才。而易观恰巧在这个点上是他最强的优势,因为它有非常庞大的分析师团队,有很深的分析的方法论,很强大的分析平台和分析报告,这些在大数据时代是不可或缺的。当时也是跟我们CEO聊,大数据各方面,过去很多都是人在做一些分析。现在易观有自己的大数据了,它有7.5亿的设备,每月有1.5亿的月活,把分析师建的人的模型,通过程序化的算法变成自动化的东西,出来人可以理解的结果,再看人怎么做决策,最终通过机器的算法去学习人的这些决策,形成一个闭环。将来让机器自己做决策闭环,让成长插上比特的翅膀,让它自己的决策流程迅速转起来,这件事情我觉得从大数据领域来讲是不可或缺的,所以我在这个时候加盟易观,让它完成由人的模型变成机器化的算法,自动化的东西,这样一个过程。

郭炜: 目前整个易观的目标,叫做互联网大数据分析公司。它现在自己有的数据主要是来自于移动客户端。我们会基于这些移动客户端各种各样的行为,来做一些分析的报告,帮助企业做相应的分析、运营的优化。过去大家看到易观的分析报告都是某个行业,都是通过当年的调研问卷、访谈来做的。现在不是了,现在易观所有的分析报告尽管还是分析师加上对行业的理解,但是他的排名和领域已经是基于易观现有的大数据来计算出来的结果。比如易观会发榜单TOP500,以前大家是通过访谈和定向抽样调查做的,现在是通过7.5亿的客户端行为做的,已经发生了比较大的变革。

郭炜: 我们现在在用混合云的架构,把整个数据,手机端的SDK,云端数据的接收,云端大数据的实时运算,以及最后加工的展现和存储是一套的东西,易观已经不是过去大家想的,只是做报告的、全是分析师的公司了,它已经是一个技术产品公司,现在技术产品在易观已经接近一半的人员,另一半是分析师。所以易观已经不是过去大家所想的公司了。它后面是一整套完整的底层的系统在支撑所有的分析。

郭炜: 前面说了为什么做混合云,一开始易观是一家强调云化的公司,我们一直希望我们所有的系统都是云化的。今天我看到现场有很多云化的公司,我们特别支持云化,也特别愿意跟云的厂商合作。但是我们的数据量级非常大,大数据已经迁移过几次了,发现我们想要的是国内非常成熟的大数据的云服务,不仅仅是IaaS或者是软件的PaaS,我希望是DaaS,就是data as a service,希望它能够给我提供云化的,无论是Hadoop也好,或者spark也好,我们直接用它的服务,来做上面我们自己的Analysis as a service,就是分析云,底层我们希望通过合作伙伴来做,我们只做分析、模型的这块,底下的大数据希望云的厂商给我们提供,原来我们也是这么执行的,但是后来发现数据量级到PB级以后,云化的厂商提供的性能都是有限的。我们特别希望现有的云的厂商能提供像Hadoop一样好的公有云的服务,而且是非常稳定的服务,我们非常愿意试。这是第一个坑,就是发现尽管在国外已经有这样的服务,也已经试过,国内的技术稍微还有点差距,所以我们才变成了混合云。现在我们混合云的方式,云端用公有云,通过一些连接的方式直通到我们自己的大数据集群,既享受了云端混合云的优势,可以按需增加服务器,也能享受到下面大数据平台高性能的计算,通过这个方式来实现整个业务和基础框架。

郭炜:第二个就是我刚才说的迁移,大数据迁移和普通数据迁移不太一样。一是它的量级大,PB级的数据,你怎么迁,从云端迁到线下。二是混合云的迁移一定会涉及到公有云和线下集群的同步,这种同步不是数据迁移同一个idc机房里从一个机架到另一个机架,它是互联网的大数据同步。同时我要求我们的数据存在一个并行机,并不是简单两个系统同时跑,因为我们面向的是互联网接收的,目前我们数据的接收频次不能算QPS,QPS是每次请求的数,我们是传数据。现在传输的终端每秒是80万次,高峰是100万次,这么大的数据怎么能并行起来,我们试了各种方式,最后才选择了今天要分享的混合云迁移的一些办法来解决这样的问题。我相信将来无论是哪家大数据公司或者是任何一家企业,在做云化或者是混合云的时候一定会面临跟我们一样的问题,就是他们把怎么大数据,无论是私有云到共有云,私有云到混合云,还是公有云到混合云这种迁移是怎么做的,这件事是我们踩的第二个坑,也是今天跟大家分享的话题,中间有很多坑,希望大家不要再踩了。

郭炜: 先说安全性的问题,因为所有做大数据的公司都会涉及到隐私的问题。我们是通过三层优化把这个优化掉。首先因为我们做的是统计分析报告,对于我们来讲,个人在进入采集的时候,首先就会模糊掉个人的信息,不会入到整个库里面。第二层是会优化渠道,因为我们要看整个趋势排行是怎么样,究竟是从哪个渠道接进来的,这些渠道我们会模糊掉,到里面你不会看到到底从哪个渠道上传上来的。第三个是做计算池,模糊掉人和渠道以后,不是所有人的东西都可以到计算池里面变成分析报告的来源,要去掉有人故意刷单,有的人可能终端数据不稳定,这些其实都不是我们的目标统计池人群,我们把这些东西放到统计池里面再变成相关的统计报告分析,这时候你基本上看不到相关的信息了,也保证了数据质量的问题,也保证统计池里面的数据全都是干净、稳定的数据。

郭炜:现在统计池的数据量大概是多大的量级呢?这个不能完全公布,我们整个设备数是7.5亿,其中很大一部分是在统计池里面的。

郭炜: 大家可以看到易观各种分析报告,看到日活、月活,上升的趋势,你的留存,你自己的用户画像,要对这些做一些分析。可以看到你自己的APP,你的画像究竟是怎么样的,这些有一些相关的支持。因为对于每一个开发者来讲,其实他很关心自己的APP活跃程度到底怎么样,用户到底长怎么样,用户的消费潜力到底如何,这些易观有相关的易观方舟产品,提供的基础功能是免费的,大家都可以使用这样的工具。

郭炜: 对。我觉得日活和月活,大家一般都知道。但是用户画像和应用评级,这两件事可能普通开发者很难找到相关的服务,易观主要在这方面提供了相关的服务,能够把你app的用户究竟是什么样的,他早上起来打开什么样的APP,怎么样更好的运营你的APP,做一些相关的活动,这些是他们比较关注的。因为易观原来就做分析报告,他有很强大的分析模型,在行业报告里面有一些分析。现在我们把这些模型摘出来以后,能让他针对自己的APP来看,他的用户潜力价值是多少,AMC模型如何,这是易观的模型,通过程序化的算法现在提供免费的服务,将来可能有一部分高级功能会收费,但是现在这种是免费的。

郭炜: 现在最受欢迎的,我们叫TGI指数。现在我们一共有278个领域,拿金融证券来讲,金融证券里面行业,我们能看到你的用户和全互联网用户的倾向性怎么样,我能告诉你,你的用户里面80%在互联网金融领域的TGI指数非常高,意味着你的客群很多人都倾向于跟互联网金融下载相关的APP、活跃度高。如果你是普通的APP开发者,你将来可能跟互联网金融公司达成一些合作。基于TGI我们也会生成一些标签,比如这个人究竟是金融的喜好,还是喜好旅游,因为现在人的很多行为是通过APP来看的,我们把这些指数当成很重要的用户画像的基础和评估一个APP应用评价的基础,这是我们目前最受欢迎的分析模型,同时我们把分析师的分析模型程序化和自动化。

郭炜: 刚才提到了两个创新的产品,一个是易观方舟的用户画像,我刚才在场内转了一圈,目前没有一家提供这样的功能。你的APP用户究竟是什么样的,可以画出来。再一个是应用评级,这是易观模型程序化的算法,给你的APP通过程序来自动化的跑一遍,相当于易观的分析师给你做专门的服务,只不过他是通过程序化的方法来做的。

郭炜:应用评级有几方面,一方面是用户的价值,比如说你的APP,你的媒体价值怎么样,将来投广告你的收入可能有多高,你的游戏价值,你的客户是游戏的厂商,跟你可能有合作关系,因为你的用户大多数都非常喜欢玩游戏,可以买很多东西。还有一些消费价值,比如说网购;以及应用价值,APP使用的程度怎么样,目前开放了四个,将来会有越来越多的模型来评价你的APP如何。实际是易观第三方的背书,易观的分析师告诉你的APP评级如何,当然还有日活和月活,如果你愿意把自己的东西拿出来,给你的投资者或者给你的客户看,这是易观给我的认证,月活如何,日活如何。第三个AMC模型,你的行业上升的潜力如何,这些都是投资界非常认可易观的模型,易观过去十来年的积累,只不过现在我们把它程序化了,这三点都是应用评级功能大家最喜欢的热点。

郭炜: 前面我已经讲了,混合云就不说了,国内做自己的混合云打法不多,大部分要么是公有云,要么是私有云。现在我们唯一把两边全部打通,这是其中的一点。再一个是在做大数据计算的时候,很多人想实时的查到非常大量数据的统计结果,这些东西在过去不太容易算,特别对于每家公司他的集群是有限的,不像BAT那样几千台服务器,我们想做到高并发,而且有很好的客户体验。比如有人会问说我是APP开发者,我的用户里面90后、女性、爱购物、喜欢玩游戏的人,晚上十点钟经常打开哪些APP,TOP50多少,这个是非常自定义的查询,你要在7.5亿的大池子里查是非常困难的,而且他希望能看到实时的结果,这个时候我们有的用到抽样计算、模糊计算的方式,有的用图计算的方式来满足客户的需求,这些东西是我们现在通过在大数据时代,先把小数据分析做到极致,在这个时代里面把这件事做起来,再通过小数据给人的反馈做决策,然后通过算法模拟人的决策,是这样来做这件事情的。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多