分享

干货 | 《数据科学实战指南》读书会文字版精华来啦!

 树悲风 2019-06-14

越来越多的企业开始利用数据科学来驱动业务,但是数据团队所面临的工作对象特殊,他们与客户沟通交流的方式或工作产出都比较特别,所以需要专门的工作流程和专业的协作工具去进行帮助,当然也需要有相关的专业考核。

《数据科学实战指南》沉淀了TalkingData在大数据行业多年的实践经验,从数据、人才、工具三个维度帮助企业数据团队去完成从端到端的数据科学项目部署。

6月4日,我们荣幸的邀请到了TalkingData CEO 崔晓波以及红杉资本专家合伙人车品觉老师,为我们带来了数据科学实践的读书分享。

智能数据时代,企业如何面对数字化转型?

TalkingData 专家顾问、红杉资本中国基金专家合伙人车品觉

谈到企业,我们首先要定位是什么样的企业?有些企业是从传统企业转型过来的。而有些一出生就是数据企业。比如滴滴,滴滴的商业模式中自然而然使用了很多数据。还有一些企业可以选择不使用数据,数据对它来说没有很大的驱动力,不使用数据也可以生存,影响并不大。

我们今天讨论的是数据驱动型企业面对的挑战。

当大家要使用今天的科技时,对于弱人工智能跟强人工智能之间的距离不是这么清楚。原本你要使用一个今天就可用的技术,反过来却使用了一个其实现在还不太成熟的人工智能技术。这样的情况风险很大,你用了一个还没稳定的技术作为核心成果的因素,会很困难。

举个例子,比如说智能客服,如果使用chatbox去了解顾客、去问问题是很容易的。但如果对方是打电话进来的,相对来讲有两个问题要解决,第一个是口音,要把这些话翻译成为文字,第二是文化的差异,在香港这样说,在北京又是另外一种说法,要数字化的时候非常困难,但是如果是直接从chatbox里面进来的,根本没有语音转文字这一步,就没有科技方面的困难了。

所以当选择做一个应用的时候,要考虑一个很重要的问题,就是到底今天的科技是不是已经走到这一步了。这就是强人工智能与弱人工智能之间的距离。

第二点挑战没有这么明显,是数据分析与综合数据分析之间的距离。

现在企业中一般分为两种分析,一种是业务分析,另外一种是决策分析。

业务分析一般是每个业务部门的leader决定。决策分析一般是在企业的战略部、公司中最高管理层去制定,更多是综合分析的能力。当你谈到综合分析的时候,必然会涉及到竞品分析,这时不管是数据的量,还是对业务的理解,都要非常的深入。

我个人是做大数据的,特别是电子商务方向的大数据。如果你和我讨论物流,我不太敢说我完全懂。如果说要把电子商务的大数据迁移到金融领域,我就又差一点,如果再讲到医疗,就又差一点。这就说明大数据在不同行业之间是有差异的。如果对行业不理解,特别是在做综合分析的时候就会觉得很困难。

企业的管理层实际上不太关心数据到底是怎么样的,他们关心的是公司里发生了什么事?需不需要我处理?或者这些事代表了公司现在是什么状态?也就是说管理层在意的不是数据,而是数据表达出来的结果,状态,让我更好的了解公司的情况。

如果做决策分析、综合分析,没有考虑在数据分析的时间点下公司出现过什么疑问的话,这个结果是没有意义的。在2010年到2012年,大数据很多都还没开始使用机器学习,而在机器学习出现以后,如果有完备的事件跟踪系统,结合数据就会非常有意义。

回到企业面对的挑战,有一些数据和一些技术其实到今天还没到发挥真正作用的时候,由于很多厂商一直在大肆鼓吹,让大家误以为已经真的可以使用。

行业里目前分为两种模式,第一是汇管用,先汇聚了足够的数据,然后把数据治理好(管),最后去使用,去发挥它的价值。但我个人到今天都不喜欢这种方式。我会选择第二种模式--从应用角度出发去考虑到底需要什么数据,以及如何基于应用治理数据。这样你会发现其实并不需要非常巨大的数据,而且数据也会很好管理。当你应用了很多次,有足够经验以后,再开始考虑多一些数据量会不会产生更大的力量。所以这种模式是应用带动数据的收集汇总,而不是收集大量的数据去产生应用。

最起码冷启动时是不能这样做的,失败的概率很高。但如果你已经做过很多次,有足够的手感,而且是在细分领域下,了解推荐系统需要什么样的数据种类,设计引擎大概需要什么数据种类,这个时候数据架构就不难了。尽管我有这种能力,但我还是会以应用带动数据,而不太会去冒险,因为收集数据需要成本,希望收集到的数据可以尽量通用。大部分数据能通用的部分很小,他们都是贴近自己场景的,越精炼、与场景越近,就越好用。

数据多的时候既能产生应用,也可以以应用场景去丰富数据。很多企业还需要思考一个问题:基于公司未来的方向,到底怎么基于业务战略产生公司的数据战略?首先需要理解公司的盈利模式。比如淘宝的盈利模式应该是GMV=UV * 购买转化率 *客单价。如果要提高GMV,就提高UV,是不是就好了?

但万一UV提高,购买转化率下降,这样此消彼长反而做的不好。原因是什么?比如可能是UV质量不好,引进来的新流量都是不会购买的的垃圾流量。当你知道这套盈利模式的核心点是什么,如何用人工智能和大数据去解决这些点?

如果基于这样的模式,形成了自己的数据战略,企业在数字化过程中的挑战自然会减少。如果连去哪里都不知道,就说企业要数字化,是没有方向的。

企业可以通过这样的思考方式把面临的挑战分解到不同的过程中。第一信息时代的时候,还可以通过猜测赚到钱。现在在高信息时代,特别是行业内竞争对手都知道数据化的方法,企业面对的挑战可能是精细化能力的竞争。比如今天很多共享经济,大部分是数字化的企业。他们的竞争就不是说谁有数据化谁没有数据化,未来的企业很少有可以做到别人做不了的事情。

企业应具备什么样的数据思维

刚才提到的汇管用,我觉得管的前面还差了一个叫做“通”,数据即使全了,不代表数据是通的,往往受限于组织架构,数据很难互通。举个例子,很多企业的数据思维还停留在数据是我部门的,不是公司的,为什么我们部门要拿出来数据共享?

这样的思维在很多传统企业甚至互联网企业都存在着。如果数据互通没有打破,就很难作为数字化转型的一部分。但话说回来,在一家企业或者智慧城市,到底是不是要把数据汇在中央才有能力把这些数据都管理好?现在还有另外一种改变的想法,比如数据联邦,或者TalkingData的数联网,大家的数据都不出门,就没有数据安全的问题,这种情况下数据之间的价值能不能互通?这就是另外的话题了。

这两个话题我没有答案。如果你问我,我会说以目前的技术,我希望数据尽量放在中央比较好处理。成本比较低。

小结

  • 强人工智能和弱人工智能的区别

  • 数据分析和综合数据分析的区别

  • 是否可以使用数据和事件结合了解企业运作情况

阿里的数字化进程中值得借鉴的经验

阿里的数字化进程中有一个非常重要的分水岭,在2013年,有两件事情发生:第一是移动数据的出现,给了我们一个机会推翻PC年代的数据架构,完全重新开始。移动是没有点击率的,不像PC。这是很大的机会点,可以从头思考整体的数据架构。

第二是机器学习的产生。一个客户进来了以后,我可以计算三个月后客户的流失率、留存率。以前从来没有想过数据分析师会跟领导说,今天有两三千万的用户已经到了不会再在淘宝买东西的临界点。因为有机器学习的出现,而且数据量在不断增加,才有了这些统计型数据分析没有的洞察力。而且我们还可以进一步的说,如果我们留存那些将要离开的客户,可以帮企业赚多少钱,这就是价值点。会让数据分析和资源形成一个正循环。

后来我们开始尝试整个部门自动化。一个几十人的团队可以使用算法取代。整个进程可以叫做先用数据看,再用数据看的清楚,再把数据应用在场景里,最后是自动化的决策。

在阿里如果没有中台是没办法解决这么多需求的。中台是很简单的,没有前台、后台,何来中台?所以要先决定什么是前台,如果中台把很多前台的功能都收进来,中台就会变得越来越复杂,架构会变得很笨重,产生不了中台的能力。

数据资源中心应不应该在中台里面?

拿到数据资源,中台的权力就很大,这与中台架构无关,是组织架构的需要。中台实际上应该是越轻越好。因为注定要有很多数据进来,上面是一个蜘蛛网,下面是一个蜘蛛网,中台穿插在中间稳定的提供数据。它的作用是为了方便数据和算法的重复使用,免得每一次使用数据都要重新抽取一次,而是先把水引到中间使用。

现在很多人都在讨论数据中台,或者业务中台,或者其他的中台。其实数据中台并不是一个很新的东西,过去在金融机构有一个部门叫DBA,就是早期的数据中台。DBA的资源是非常稀缺的,他们希望所有东西汇总在DBA的角色中,把统一的数据资源去重复使用。

数据科学对企业数据战略与数据能力的影响

TalkingData CEO 崔晓波

企业的数据之路肯定是漫长的,不管是管理者对商业模式的选择,或者是技术架构、甚至是组织架构都必须进行特别清晰的思考,TalkingData作为生根大数据行业多年的企业,我们在帮助企业数字化转型过程中也做了大量的尝试,那么下面TalkingData的CEO 崔晓波(Leo)分享企业数据战略制定中的数据科学。

现在的数据科学在互联网公司已经比较成熟了。不管是各种算法或者推荐引擎的应用,相对来说已经是闭环了。人的参与越来越少,大部分是靠数据智能或机器学习的方法去做。但在传统产业链里面还有很长的路要走。

第一,这个时代真正的机会在哪里

我们先想一个问题,基于业务场景的公司更有价值,还是拥有巨大数据体量的公司更有价值

三年前我曾经说两个都有价值,现在我的回答比较悲观,我觉得脱离业务场景的数据平台没有价值。比如你有矿,但是没有业务场景是挖不出金子的。

不管现在在金融领域,还是在产业互联网里面的应用都无疑证明了这一点,往往那些业务做得好的公司,它拥有的数据都比较少,往往那些拥有巨大数据体量的公司,业务都做不好。

现在国内大环境无疑是不好的,比如房地产、汽车、服装、餐饮都在下降,种种迹象表明消费在分级。虽然实物商品消费在下降,但是服务消费在上升,大家为教育、旅游、养老,家政花的钱越来越多。

分级的趋势一是服务的再升级,二是产业方向在往精细化走。但精细化营销的对象并不是个人。现在很多客户的战略方向在向家庭转变,以家庭为核心去销售。为什么会形成这个趋势?因为过去十年里,中国大数据的真正驱动力实际上是由移动互联网带来的。

由于中国智能手机以及移动互联网应用的高速发展,带来了数据体量的爆发式的增长,也带来了数据应用的高速发展。基本上可以理解为所有大数据应用实际上都是移动相关的数据产生的。现在可能移动手机的数量已经不怎么涨了,月活也比较稳定。但是数据的维度还在不断的丰富,除掉设备相关的数据,应用行为相关的数据之外,现在有大量其他类型的数据进来,比如通过传感器拿到环境的数据,温度、湿度、气压等,通过各种各样的传感器来判断你的姿态。这种数据已经大量的产生,但这些数据应用的商业化,还需要3到5年的时间。

未来十年,家庭里面的智能设备是什么?是智能电视,很多人都想不到联网电视的数量令人吃惊。很多家用厨电,比如豆浆机、空调、冰箱洗衣机都需要 APP激活,联网率超过了30%。所以在家庭网段里面,很多都是电器。这个数量非常大,我们去年在这个领域里面收集了大量的物联网设备的数据,而且跟移动互联网数据做了很多匹配和建模,比如同源数据模型,家庭数据模型等等,从TalkingData的角度来看,这是我们的数据引擎。

TalkingData的数据中台其实就两块,一块是我们的科技团队,核心的产品有两个,数据平台和营销平台,数据平台是把数据聚合加工建模,形成数据服务和数据产品的平台。营销平台是把通用的营销流程形成闭环的产品。

说到中台的定位,现在市面上大量的公司在喊中台,但是没有前台哪来的中台呢?不是说提供软件或者提供算法就能拥有中台,业务场景在里面无疑是更为重要的。那么从我们的角度看,数据科学的核心是得创造价值,是给谁创造价值?

第二,到底怎么去与数据科学结合

经过几年的时间,数据科学无疑已经给头部企业产生了巨大的价值。互联网企业已经脱离不了数据科学了,在传统企业里面的一些头部企业,现在也已经有很大的回报。

举个例子,我们前年帮助一家餐饮集团用数据以及产生的算法和智能做选址模型。这家集团当时选址团队很大,有将近450人。选址周期大概需要两周,要做很多繁琐的工作。比如我要派人去外勘、数人头、对配套设施进行调研等等。所以他当时的主要诉求是有没有可能提升效率?

后面我们就做了一个产品叫做智选,它的特点是聚合了很多数据,不止是TalkingData的数据,包括像腾讯这样巨头的数据也接在后面,做了各种各样脱敏的处理,可以用来建模。但是这家集团要求我们不仅基于规则选址,还要预测在这个地方开门店的时候,能不能预测出两年之内的销量是多少?之后再用历史数据回归,看看模型准不准。接着再预测未来两年看看模型准不准。

两年之后,取得了很大的收效。第一,现在选址团队只有80人,这是实实在在对成本的降低。如果是从实际决策周期来看,以前是两周,现在只要两天。大部分情况下根本不用去外勘。因为我们产品里面什么数据都有,不用出去也能看到24小时的动态客流和人流,拥有所有的基础设施配套。产品里面的关系会基于你的规则把所有的权重配好。你认为交通枢纽对你重要,还是要靠近学校,还是应该避开医院,这所有的逻辑都可以调,我们算法会自动学习,然后帮你预测门店未来收益。

去年我们又帮这家集团上线了上第二个模型,叫AI forecasting,门店销量预测模型。现在已经在七百家门店上线了。

这个模型更有意思,他要求我们要提前一天预测出第二天的分小时进店客流,用的数据维度是非常多的,包括他自己的经营数据,历史的销量情况,还要使用大量的第三方数据,包括客流和人流数据,以及天气和路网的数据,这些实际上都是强相关的变量。目前模型准确率已经到了85%以上。

第二个例子是我们在做的时尚领域一家典型服装企业。刚开始我们是用各种各样的模型帮他做营销的活动。以前一年这家企业只能做十场活动,但我们的数据智能平台进去之后,帮打通了所有的一方二方三方的数据,而且现在积累的模型和算法越来越多,自动化程度变得很高。

所以现在一年他能做一百多场活动,这对于一个传统企业来说已经不可思议了,以前觉得逢年过节能策划活动就算不错了。现在效率提高了十倍以上,所以赚的钱也就可想而知。真正打到产业纵深里面,现在机会很多。

在时尚这个领域,我们觉得会出现时尚界的盒马这样的企业,再进一步的优化,就是对它后面整个供应链和生产端的优化。最近一些服装企业已经出现了大量的滞销,为什么库存积压特别厉害?因为你在市场端销售不动的时候,按照现在的供应体系,说停止销售停止生产,整个供应链至少两周才能反映过来并停止。 

所以未来其实真正的产业互联网机会是在这里。它不是简单的像互联网公司那样去做营销的优化,它会真正到产业纵深里面,用数据对整个产业链条进行重新解构和重构。

TalkingData在产业里面,已经积累了大量的经验。我们为什么写这本书? 因为大量的从业公司其实并不知道这个行业发展到什么程度了。所以我们希望通过这样一些书和这种读书会的形式来告诉大家,在国内跟产业或者场景结合的数据科学已经到了什么程度。然后我们也希望让我们的同行,以及有志于从事数据智能产业的人员能够少走点弯路。

对话精选

Q

问题1:数据科学平台和数据中台之间是什么关系?

崔晓波(Leo):车老师在《数据的本质》书里面提到了数据隐形和完美数据。实际上完美数据是不存在的,数据隐形也需要不断的有应用和场景来打磨。现在很多人在提数据中台,首先大家发明任何概念都没错,中台也是像阿里这种互联网企业以前说的比较多,因为有中台就得有前台,阿里前台的业务场景是非常明确的,不管是淘宝天猫蚂蚁等等,所以它的业务需求带动了不管是数据科学平台,还是数据中台的不断的对数据提炼,对科技和场景的适应。

我觉得最大的问题是太多科技公司坐在家里想需求,然后就去卖了,我们叫它工具思维。数据科学平台和数据中台这两个东西我认为孤立存在都没有什么价值。更重要的是与场景的闭环,因为只有前面有场景,给你有效的反馈,科技能力或者数据能力才有可能有效地提高。

车品觉老师:数据科学本身是一个很泛的词,但我觉得数据科学本身可以用在数据原材料的处理,以及用在应用。所以一个面对的更多是前台,一个更多的是数据整合。如果数据中台所服务的前台性质改变了,整个数据中台也会改变。

当数据中台是服务于自动化的,整个中台里面的内容都会有很大的区别,如果数据中台不是在数据整合的时候所用的数据工具,比较容易呼应刚才Leo所讲的算法平台,数据平台对接上去就是算法平台,因为我们有中台,很多时候我们发现很多的数据、计算资源、算法资源以及数据资源,都有公用的部分,有的时候,你发现数据放在中台很方便,因为你不需要重新从底下挖水上来。

算法也是这样,现在很多通用的算法或者数据科学的工具往往是抽象到一个跟业务场景不是那么相关的情况。不如把数据科学放在场景里面,不要放在中台。譬如说智慧交通本身就服务于交通场景,为什么要把数据放在中台?因为这并不是零跟一的关系,大部分的企业往往都有这个困难。在阿里有数据中台之后,天猫还是有自己的数据平台。 

我认为中台更多的是把重复的东西去掉了,让全面创新的东西放在业务端里面。所以在数据科学非常贴近场景的时候,有可能并不需要把它放在中台里面,因为数据科学与数据中台的关系本来就是一个供给的关系。一个算法不一定只跟中台要数据,有可能跟数据场景要,有可能跟数据中台要。同一个问题,算法上都是一样的,只不过中台处理一些公共部分的时候,效率是可以提升的。

所以在阿里有一个非常清楚的概念:我们用共创重复使用一种方法,积累这种方法帮助前台创新,所以中台实际上是在积累一些共用的资源并帮助创新。

Q

问题2:帮客户更好的做数据整合(数据维度可能很单一),这是中台吗?还是Hub?

车品觉老师:以阿里为例,它有非常明确的产生价值的场景,它的架构有非常清楚的应用。推荐系统,设计引擎,阿里妈妈,是三个大场景。在此之下的数据中台是非常容易想象的。但是如果是给别人用的数据中台,那形态可能更不一样。

我认为越是要给别人用,中台应该越轻巧。数据中台里面有一个非常重要的点:这么多的数据汇总在一起之后,怎样保持数据的稳定性?

中台上面有大量的数据汇总,有大量的应用,要把数据产生价值供给到上面的服务去使用,它会出现更多数据整合,数据调度。产生算法的价值,其实后台可以先做好,再把它放在中台里面,不一定必须放在中台里面解决。

崔晓波(Leo):我认为首先中台不是设计出来的,一定是运营出来的,阿里的经验告诉我们,中台的业务属性是很重的,所以每家的中台都要跟他的业务场景去做非常深的集成或者闭环,因为得不断的从业务场景里面给中台反馈,才有可能去训练他的模型,提升数据效率也好,这是我第一个观点:中台不是一个技术概念,它是个业务概念,要靠运营,最重要的是可运行。

第二个观点是,中台出现是因为有被共享或者共同使用的需求,单一的业务建中台有些牵强,阿里的数据中台也是在做完淘宝、聚划算之后,开始产生其他业务的时候突然发现没必要从头开始搭,把那两个系统的核心组件抽出来共享就可以。所以我觉得它的核心还是共享。

Q

问题3:作为企业的管理者,需要掌握数据科学吗?企业里面,除了管理者之外,比如销售、项目经理、产品经理,他们需要学习数据科学吗? 如果需要的话,有怎样的路径?

车品觉老师:关键点在于你有没有能力去问问题。如果你是个leader,没有必要成为一个数据科学家,你是管理数据科学家和工程师的人。作为管理者,更多的是懂不懂用这种思维追问,追问到底能不能解决我的问题。

比如我决定了要做海底捞。有多少问题要解决。其中哪些问题是数据可以帮我的,哪些问题是数据帮不了的。比如选址,有可能海底捞会说凡是旁边开了某某店,我就能在附近开店。这是数据能帮我做决策的情况;但假如我做完了选址,突然之间这个位置的某些条件改变了,当时选的东西就错了。 

当一家公司能够真正懂得制定自己的数据战略的时候,懂得把商业战略翻译成为技术战略,包括大数据跟人工智能可以帮企业做什么,应该投资多少,如果懂得了这些就是成功了。

崔晓波(Leo):不管大数据还是数据科学都是一把手工程,企业中必须管理者先得重视数据科学才行,否则学再多东西可能都是无用功。

其次数据科学的关键就是像车老师说的,是培养的是复合人才。其实《数据科学实战指南》这本书里面有专门论述,包括数据科学家、数据工程师、数据分析师以及数据产品经理,他的培养路径到底是什么样的?今天的读书会也是我们的腾云大学(TDU)举办的,他们注重培养数据科学交叉型人才,有兴趣的话可以多关注,也可以在线上自学。

《数据科学实战指南》简介

《数据科学实战指南》依托TalkingData 在大数据领域的多年实践经验,从数据、人才、工具三个维度帮助企业数据团队完成端到端的数据科学项目部署。本书的内容包括数据科学项目的基础概念、准备工作、团队人才及端到端的实战案例等。

适合人群

  • 正面临数字化转型的企业决策者、管理者、数据团队负责人

  • 传统企业数据部门管理人员、数据部门的HRBP

  • 数据科学家、分析师、工程师

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多