(文章内容来自 Riley Newman: Airbnb, Data Science Belongs Everywhere: Insights from Five Years of Hypergrowth 有删改,点击 阅读原文 查看英文原篇; 图片来自网络) 五年前我加入了 Airbnb,成为公司第一位数据科学家。当时人们连公司的名字都不会发音,如果不算正在接受心理咨询的哥们儿,实习生,旁边咖啡店里的咖啡师,团队只有大约七个人。
当时大数据的狂热还未开始,人们仅仅认为数据会带来一定的竞争优势。通常情况下人们会在公司成熟以后建立自己的数据团队。而我们的创始人非常具有前瞻性,邀请我作为数据科学家在公司成立初期就迫不及待地着手筹建自己的数据团队,并通过数据驱动不断学习和迭代产品。深深地被公司的文化和愿景吸引,在公司运营数据少的可怜的情况下,我决定加入。
在硅谷流传着这样一句话:准确决策和快速行动会让任何小的创意成为大的变革。我对此深信不疑。当时我们并不非常了解 Airbnb 的业务,任何洞察都十分有创造力。数据架构效率高,运行稳定并且可以做到数据的实时处理(当时我用MySQL 对产品数据进行检索。由于公司很小,每个人都能了解公司的各个决定。数据团队——我自己着手处理一些单一维度的指标,方法论也相对初级。)
5 年间我们经历了 430 倍的增长,事情也越来越复杂。现在,我的团队能利用数据处理更复杂的问题,我们迅速将这些方法论与经验规模化,这些给我们带来了奇迹般的增长,也帮助我们更自如的面对现在出现的问题。随着公司的成长,我们有必要将遇到的一些问题进行配对,借此总结一套解决问题的方法论。
如何建立以数据科学为中心支撑公司不同部门业务的商业模式?首先,如何针对不同部门的业务特点建立不同部门的数据科学;其次,如何将数据科学应用到商业决策;最后,如何将数据科学规模化以便于支持 Airbnb 业务的方方面面。
一、数据不是数字,它代表客户心声
数据科学在 Airbnb 存在的基石是公司无处不在的数据文化,你会在公司的各个领域感受到数据的存在。在过去,数据并不受重视,仅仅被认为是用来衡量问题的工具。举个例子,数据科学家(在过去)仅仅用来回答问题诸如我们在巴黎有多少房源?意大利最受欢迎的10大景点是哪些?
虽然回答简单的数据问题和用数据对问题进行衡量确实是数据科学家的工作之一,但是在 Airbnb 我们将数据赋予了更多人文色彩:数据是顾客的呼声。一行数据代表一个动作或者一个事件。这些数据在大多数情况下反应的是一名客户的决定。如果你能复现导致决策产生的一系列事件,你就能从这个过程中有所收获。这个过程本质上是通过一种间接的方式来告诉我们客户喜欢什么讨厌什么。程序化的复现并且通过监控获取一组客户行为以及客户使用的功能,比独立的单个的统计哪些功能重要哪些功能不重要好得多。
通过程序化复现收集客户信息对于商业决策有重要意义,如果我们能很好的分析,那么对于社区增长,产品研发,资源优化的意义简直就像我们发现了金矿。其实数据科学就把客户的呼声用数据的语言去表示,毕竟数据呈现商业问题更简约,更方便于商业决策。
倾听客户的声音是我们公司的核心文化,这个想法也得到了Airbnb所有人的认同。自从创业初期,我们团队就市场与我们的社区成员互动,我们想更好的了解他们,设计出更好的产品来满足他们的需求。我们现在依旧与他们互动,但是现在社区的规模已经无法让我们轻松地与他们互动了。
二、主动出击与被动统计收集
一个优秀的数据科学家可以读懂客户在使用我们产品时的心声。当然如果仅仅挖掘出问题而没有人去行动的话,没有任何意义。
我们认为,区分好与优秀的重要标准是影响力:通过(数据分析得到的)洞察去影响决策并且确保决策产生真正的效果。紧张的工作总让数据科学家感到时间不够用,往往顾此失彼,有时候他们就把问题束之高阁去看别的问题了。这并不是因为他们不想去思考这些问题,而是有时候他们感到并不值得:往往他们花费巨大的人力和时间去理解数据,保证统计方法的严谨,确保统计结果解读的准确性。做这么多东西常常让他们感到这不过是锁碎的问题总结,被动地回应一些需求。他们感到这不会对公司未来产生什么影响。
但是如果决策者不能解读这些数据洞察,那么他们肯定不会依据这些洞察采取行动。如果没有采取行动,我们所做的分析也就没了意义,因此数据科学家和决策者应该建立更加紧密的合作关系。在Airbnb,多部门的合作机制也让数据团队在整个组织架构下有了新的呈现方式。是否将数据科学团队当作一个整体中心化,还是将团队分散到不同职能部门中?我们将这两种方式融合到了一起。
最开始是用的中心化方式,因为这样所有团队成员可以近距离的相互学习并且有一致的经验,目标和方法论。我们最终的目的是商业决定,而采取中心化模式有时候不能成功。其他团队有时候不清楚如何与我们互动,而数据科学团队有时因为信息的缺失而不知道自己要去解决什么问题或者使问题解决方法具有实操性。
正因如此,我们对团队架构进行了改组:将中心化模型逐步改为混合式。我们依然遵从中心模型,将数据团队在划分为几个小型团队,不同团队和工程,设计,产品经理,市场联系各自建立紧密关系。
这种变革加速了数据文化在公司的传播,同时也让数据科学家从传统的数据统计收集者转向主动发现问题的合作者。正因为我们没有将数据团队全部分散到不同部门,我们可以很好的去观察业务的方方面面,建立一套像神经网络式的结构来帮助 Airbnb 不同部门彼此学习。
三、客户驱动的决策
构建一套数据职能体系可以让公司充分感受到数据科学带来的变化。一旦分析决策能够顺利落地,我们下一个要考虑的问题是以什么样的方法在什么样的时间发挥社区的呼声对于商业决策的影响力。
虽然数据团队和公司的方方面面建立了合作关系,在将数据与项目结合方面,我们依然受到很多观点的挑战。一些人仅仅是有兴趣,只是想用数据着手了解他们遇到的问题。另一些人将数据看作一种过去事件的总结,认为这对未来规划意义不大,不过有趣的是他们会更加关注衡量一些感性决定的效果。
这两种观点很公平。完全的数据驱动可以进行局部优化;而全局优化需要不断对整个系统进行改革。那么数据在项目的何时开始发挥作用呢?不同的数据科学元素能使以下四步决策过程受益:
1、首先要了解问题的背景,将过去的研究进行汇总,以此来发现一些可能的机会。这是一个探索的过程,以此来抓住机会和提出一些假设,这些假设能够提供给我们一些落地的洞察。
2、将这些汇总转化成计划,这些计划包括排优我们想要利用的一些杠杆,形成一些假设去分析我们所做工作的影响力。在这个阶段需要做出一些决定:诸如应该遵从何种路线等等。
3、计划完成后,需要设计对照实验来检测计划。A/B test很常见,以市场为基础的运营测试,还可以在更加传统的线上环境中进行试验。
4、衡量试验结果,挖掘出我们的工作和影响力。
四、数据科学的民主化
如果我们有足够的数据科学家储备,那将非常好。但是初创公司快速增长,做决策频率也大幅增长,这种增长速度要远大于数据团队扩增速度。2011 年 Airbnb 迅速全球扩张,而在 2011 年初期,我们只是一个在三藩的小公司,只有三个科学家。
六个月以后,我们在全球新扩张了 10 个新的办公室。与此同时我们的的产品,市场营销,客户支持团队也扩张十分迅速。而这也导致了数据科学团队与其他员工的合作效果大幅降低。我们需要找到一种方法去让工作民主化,将个体交流扩大为团队交流,公司交流,和社区交流。通过对数据科技的不断投资,我们让民主决策成为现实。
在小型团队中我们经常做一些技能型工作,除此之外,我们以培养数据文化为己任。数据科学规模化最广泛的一个例子是让房客和房主能够直接了解彼此。通过我们的数据产品,将机器学习的模型应用于解读从一个社区成员发出的信号,然后借此去帮助其他成员。
五、数据驱动的机遇和挑战
这五年,我们学到了很多使用数据去解决问题的能力,与决策者的交流也越来越好,并将数据分析的思维向全公司推广。衡量数据科学团队的作用和影响力不是一件容易事儿,数据科学家团队在决策过程中起到了咨询师的作用。
数据科学团队的另一个影响是深入挖掘我们所做工作的影响力。Airbnb 的数据生态系统非常复杂,市场供需平衡的季节性波动较大,交易周期也具有不确定性,时间范围很长。这些挑战让我们更加兴奋,取得了不少成绩,也有了更大目标:建立一套更强健有力的数据库异常侦查系统,更深入地了解网络影响,增强我们对房东房客配比和个性化需求的理解。数据是客户的心声,客户会将我们指引到他们想要到达的地方。
|
|