分享

数据分析思维及其意义

 blackhappy 2021-06-09

黎伟斌(德策) 阿里技术

数据分析思维及其意义


一 数据分析的意义

Google的数字营销传播者Avinash Kaushik曾说“All data in aggregate is crap”,即“汇总的所有数据都是废话”,我理解他想说的是汇总的数据掩盖了很多问题,即我们需要下钻分析数据指标,以理解指标的各种取值或者趋势背后的真正原因(特别是指标取值或者趋势异常时),以便于优化指标。


就我们今天的业务发展来说,也需要先理解业务数据,才能更好的用数据和算法赋能业务,实现高质量增长。

二 常用分析方法

1 什么是分析方法?

面对问题,通常的想法是零散的。分析方法就是“能将零散的想法整理成有条理的分析思路”的方法。如下图所示,掌握了分析方法就能快速洞察数据背后的本质原因,以快速精准定位问题。

数据分析思维及其意义

2 宏观战略分析

常用战略分析方法有PEST、SWOT和波特五力模型。

PEST

PEST分析是指宏观环境的分析,P是政治(politics),E是经济(economy),S是社会(society),T是技术(technology)。

SWOT

SWOT即基于内外部竞争环境和竞争条件下的态势分析,可以对研究对象所处的情景进行全面、系统、准确的研究。分析角度:优势(Strengths)、劣势(Weaknesses)、机会(Opportunities)和威胁(Threats)。

数据分析思维及其意义

波特五力

波特五力即行业中存在着决定竞争规模和程度的五种力量,这五种力量综合起来影响着产业的吸引力以及现有企业的竞争战略决策。五种力量分别为同行业内现有竞争者的竞争能力、潜在竞争者进入的能力、替代品的替代能力、供应商的讨价还价能力与购买者的议价能力。

数据分析思维及其意义

3 5W2H

5W2H分析法又叫七问分析法,简单、方便,易于理解、使用,富有启发意义,广泛用于企业管理和技术活动,对于决策和执行性的活动措施也非常有帮助,也有助于弥补考虑问题的疏漏。

  • 5W是指:what(是什么)、when(何时)、where(何地)、why(为什么)、who(是谁)。
  • 2H是指:how(怎么做)、how much(多少钱)。
数据分析思维及其意义

4 微观数据分析

由于业务数据指标往往是由多个微观原因引起的,上面的方法难以定位这类问题(如“订单量为什么下降”)的根本原因,这时候就需要运用其他微观数据分析方法。

逻辑树分析法

逻辑树分析方法是把复杂问题拆解成若干个简单的子问题,然后像树枝那样逐步展开。

数据分析思维及其意义

费米问题是在科学研究中用来做量纲分析、估算和清晰地验证一个假设的估算问题。例如:北京有多少辆特斯拉汽车?某胡同口的煎饼摊一年能卖出多少个煎饼?深圳有多少个产品经理?一辆公交车里能装下多少个乒乓球?一个正常成年人有多少根头发?


回答费米问题,可以用到逻辑树分析方法,将一个复杂的问题拆解成子问题,然后逐一解决。下面我们就用一个例子来学习下如何解决这类问题。


有人曾经问费米:“芝加哥有多少钢琴调音师?”什么是钢琴调音师呢?为了保持钢琴的音准,需要定期由专业人员检查、调整不准确的音。从事这类工作的人被称为钢琴调音师。


对于这个问题,可以使用逻辑树分析方法来拆解。钢琴调音师数量=全部钢琴调音师1年的总工作时间/一位调音师每年的工作时间。所以,可以把这个问题拆解为两个子问题(如下图):

  • 全部钢琴调音师1年的总工作时间;
  • 一位调音师每年工作时间。
数据分析思维及其意义


对于全部钢琴调音师1年的总工作时间,又可以拆解成3个子问题(如下图):

  • 有多少架钢琴;
  • 钢琴每年要调几次音;
  • 调一次得多长时间。
数据分析思维及其意义

现在我们一个个去解决这些子问题。


第1个子问题:有多少架钢琴(如下图)?


我们再把它拆分,首先需要知道芝加哥有多少人,其次需要知道拥有钢琴的人所占的比例。芝加哥的人口可以通过网络查出来,大概有250万人。有钢琴的人占的比例是多少?具体数据不知道,但是我们可以猜一下。钢琴对普通家庭来说比较贵,而且钢琴占地较大,不方便放在家里,所以我们猜家庭拥有钢琴的比例是1%。为什么是1%,不是5%呢?因为1%通常表示概率极低,有的机构拥有钢琴数量比个人多,例如音乐学院,所以我们再猜个数字,大概是2%左右。有了这些数据,就可以算出芝加哥大概有5万架钢琴。

数据分析思维及其意义


下面来看第2个和第3个子问题(如下图)。


第2个子问题:钢琴每年要调几次音?钢琴调音师属于稀缺行业,人肯定不多,钢琴也不像吉他需要频繁地调音,估计是一年1次。


第3个子问题:调一次得多长时间?大概是2小时。

数据分析思维及其意义

第4个子问题:一位调音师每年工作多长时间呢(如下图)?


美国每年有四个星期是假期,一年大概有50个星期。按一周工作5天,每天8小时来算,这三个数相乘,就可以得到一位调音师每年工作时间是2000小时。


但是钢琴调音师要四处跑,路上肯定要花时间,所以减去20%用在路上的时间,调音师每年大概工作1600(2000-2000×20%)小时。

数据分析思维及其意义

现在我们把4个子问题汇总一下(如下图)。


全部钢琴调音师1年的总工作时间是3个子问题的数字相乘,一共是10万小时,而调音师每年工作1600个小时,我们用全部钢琴调音师1年的总工作时间,除以一位调音师每年工作时间,就得到了62.5。再四舍五入,费米预测芝加哥大概有63位调音师。

数据分析思维及其意义


这个答案准不准呢?后来费米找到了一张芝加哥钢琴调音师的名单,上面一共有83人,有不少人名还是重复的。所以费米估算出来的结果已经相当准了。

多维度拆解法

假设在每个医院最近收治的1000例患者中,A医院有900例患者存活。然而,B医院只有800例患者存活(如下图)。这样看起来,A医院的存活率更高,应该选择A医院。你的选择真的是正确的吗?

数据分析思维及其意义

现在我们使用多维度拆解分析方法来看下。


光看患者整体时,我们可能注意不到“数据构成要素的差异”。现在根据患者的健康状况,我们将每家医院入院的总人数拆解为两组,一组是轻症患者,一组是重症患者(如下图)。然后我们再来计算患者存活率,会有什么发现呢?

数据分析思维及其意义


我们来比较A医院和B医院的重症患者组。

  • A医院有100例患者入院时是重症患者,其中20例存活。
  • B医院有400例患者入院时是重症患者,其中200例被救活了。

所以,对于重症患者,去B医院的存活率更高,是更好的选择(如下图)。

数据分析思维及其意义


那如果亲人入院时是轻症患者呢?用同样的方法分析,出人意料,轻症患者在B医院的生存率也超过了A医院的生存率,B医院依旧是更好的选择。


通过多维度拆解数据,我们发现了和一开始截然相反的结论,这种现象被称为“辛普森悖论”(Simpson’s Paradox),也就是在有些情况下,考察数据整体和考察数据的不同部分,会得到相反的结论。


只看数据整体,我们可能注意不到“数据内部各个部分构成的差异”。如果忽略这种差异进行比较,就有可能导致无法察觉该差异所造成的影响。正如前面的案例,关注数据整体(入院的全部患者)和关注数据内部的不同部分(按健康状态将患者拆解为两组数据),就得到了不同的结论。

对比方法

1)什么是对比方法

数据分析中,我们通过对比分析方法,来追踪业务是否有问题。例如,我的CTR是4%,你说是高还是低?这个CTR有问题吗?这时候,就需要用对比分析方法来追踪业务是不是有问题。正所谓,没有对比就没有好坏。


心理学家给这种现象发明了一个术语叫作价格锚定,也就是通过和价格锚点对比,一些商品会卖得更好。


《经济学人》是美国的畅销经济学杂志,它做过一个订阅实验,给用户以下3个选项进行选择:

  • 只订阅电子版,59美元一年;
  • 只订阅纸质版,125美元一年;
  • 订阅纸质版+电子版,125美元一年。

第2个选项和第3个选项的价格一样,但是第3个选项提供的服务更多。


实验结果显示,只有16%的人选择了第1个选项,有84%的人选了第3个选项,也就是有更多的人愿意花更多的钱去订阅杂志(如下图)。

数据分析思维及其意义


如果把第2个选项去掉,对用户有影响吗?


去掉第2个选项,选择125美元(原来的第3个选项)的用户减少到了32%(如下图)。

数据分析思维及其意义


如果没有之前第2个选项,用户会和第1个选项对比,发现花125美元不划算。当有第2个选项的时候,用户就会将比较对象换成第2个选项,这样才能体现出第3个选项的优惠。

2)与谁比

与谁比一般分为两种:与自己比,与行业比。

3)如何比较

一般从3个维度比较:数据整体的大小、数据整体的波动、趋势变化。

a)数据整体的大小:某些指标可用来衡量整体数据的大小。常用的是平均值、中位数,或者某个业务指标。

b)数据整体的波动:标准差除以平均值得到的值叫作变异系数。变异系数可用来衡量整体数据的波动情况。

c)趋势变化:趋势变化是从时间维度来看数据随着时间发生的变化。常用的方法是时间折线图,环比和同比。

  • 时间折线图是以时间为横轴、数据为纵轴绘制的折线图。从时间折线图上可以了解数据从过去到现在发生了哪些变化,还可以通过过去的变化预测未来的动向。
  • 环比是和上一个时间段对比,用于观察短期的数据集。例如某数据在2020年12月比2020年11月下降10%。
  • 同比是与去年同一个时间段进行对比,用于观察长期的数据集。例如某数据在2020年12月比2019年12月下降10%。

假设检验分析法

1)什么是假设检验分析法

假设检验分析方法分为3步:

  • 提出假设:根据要解决的问题,提出假设。例如警察破案的时候会根据犯罪现场提出假设:这个人有可能是嫌疑人。
  • 收集证据:通过收集证据来证明。例如警察通过收集嫌疑犯的犯罪数据,来作为证据。
  • 得出结论:这里的结论不是你主观猜想出来的,而是依靠找到的证据得到的结论。例如警察不能主观地去猜想,然后下结论说这个人是罪犯,而是要通过收集的数据(证据)来证明这个人是不是罪犯。

2)假设检验分析方法有什么用

由于假设检验分析方法背后的原理是逻辑推理,所以学会这个方法以后,可以显著提高我们的逻辑思维能力。


假设检验分析方法的另一个作用是可以分析问题发生的原因,也叫作归因分析。例如是什么原因导致活跃率下降、CTR下降、订单量下降等。这类问题就是分析原因,通过找到问题发生的原因,才能根据原因制定对应的策略。

3)如何使用假设检验分析方法?

我们可以按用户、产品、竞品这3个维度提出假设(如下图),来检查提出的假设是否有遗漏。这3个维度分别对应公司的3个部门:用户对应运营部,产品对应产品部,竞品对应市场部。这3个维度有助于在发现问题原因以后,对应落实到具体部门上,有利于把问题说清楚。

数据分析思维及其意义


从这3个维度,我们可以提出3种假设:

  • 假设用户有问题:可以从用户来源渠道这个维度来拆解分析,或者画出用户使用产品的业务流程图来分析原因;
  • 假设产品有问题:可以研究这段时间销售的产品是否符合用户的需求;
  • 假设是竞品导致的问题:可以看竞品是不是在搞什么优惠活动,用户跑到竞争对手那里了。

我们还可以从4P营销理论出发来提出假设。什么是4P营销理论呢?


4P营销理论产生于20世纪60年代的美国,它是随着营销组合理论的提出而出现的。营销组合实际上有几十个要素,这些要素可以概括为4类:产品、价格、渠道、促销。

  • 产品:公司提供给目标市场的有形或无形产品,包括产品实体、品牌、包装、样式、服务、技术等;
  • 价格:用户购买产品时的价格,包括基本价格、折扣价格、付款期限及各种定价方法和定价技巧等;
  • 渠道:产品从生产公司到消费用户所经历的销售路径。
  • 促销:是指企业利用各种方法刺激用户消费,来促进销售的增长。包括广告、人员推销、营业推广等。例如买一送一、过节打折等。

为了寻找销售业绩下降的原因,可以利用4P营销理论从4个维度提出假设(如下图)。

数据分析思维及其意义


4P营销理论是从公司角度出发研究产品的。还可以从用户角度出发去研究产品,也就是从用户使用产品的业务流程来检查提出的假设是否有遗漏。


例如,某线上店铺最近给新会员的折扣券的领取率降低,原因是什么呢?可以先画出业务流程,根据业务流程,提出以下假设(如下图):

  • 假设1:进入店铺的用户减少?例如流量减少或者推广引入了大量低质的用户。
  • 假设2:想领取会员卡的用户减少?例如店铺增设了不用领卡就能领取的其他折扣券,分散了用户的注意力。
  • 假设3:成为会员后,想领折扣券的用户减少?例如折扣券需要达到某个门槛才能使用,门槛设置太高对用户失去吸引力。


从业务流程提出假设,这里其实是用到了我们之前讲过的多维度拆解分析方法。

数据分析思维及其意义


下面通过一个案例来看下如何使用假设检验分析方法来查找问题发生的原因。


解读报表里数据的波动是数据分析的基本功。下图的表格是一家公司App的一周日活跃率,从数据中你看到了什么问题?你觉得背后的原因是什么?

数据分析思维及其意义


下来怎么分析呢?你可能会说,发现了一个问题,周六数据下降了。之前我们讲到对比分析方法的时候,说到没有对比,就没有好坏。周六的数据和这周数据比较是下降了,那么有没有可能是这个App本身每周六就不活跃,因为周末放假大家想休息?所以,为了更好地对比分析,对于报表解读问题,你还要分析前几周的数据是怎样的,这样可以从整体上看出数据在一个较长时间范围内是怎样变化的。同时,可以看出数据变化是规律的,还是真的有问题。

数据分析思维及其意义


通过和前几周数据对比,发现这个App的规律是每周末的活跃率都有稍微的下降。但是这周六和前几周的周六相比,下降更明显。我们可以计算出前几周周六的平均日活跃率,和这周六的日活率比较,假设发现本周六的日活率下降了5%。


所以,我们把问题明确为:本周六的日活率比前几周周六的平均日活跃率下降了5%。那么,本周六日活率为什么突然下降了呢?如何查找问题发生的原因呢?这时候假设检验分析方法就派上用场了。


假设检验分析方法的第1步是提出假设。如何提出假设呢?我们可以使用前面讲到的方法,从用户、产品、竞品这3个维度提出假设。


对于这个案例,问题是与前几周周六相比,本周六的日活跃率下降了5%。我们提出了3个假设,为了验证假设,我们需要收集证据。

  • 对于假设1的用户问题,我们需要从用户数据中找出证据。
  • 对于假设2的产品问题,我们需要从产品数据中找出证据。
  • 对于假设3的竞品问题,我们需要从竞品数据中找出证据。

也就是说,要找什么数据,是与你要验证的假设有关系。根据第2步收集的证据,我们得出第3步的结论。


这张图就像我们走路的地图一样,不管我们后面分析到哪里,都可以从这张地图上清楚地看到我们位于地图的哪个位置。


我们先来看第1个假设:用户有问题。


如果是用户方面的问题,那我们可以找到对应的用户数据。将活跃用户数按渠道维度拆解,发现来自渠道B的活跃用户数出现了明显的下跌(这里按渠道拆解,用到了我们之前讲过的多维度拆解分析方法)。


最后可以得出结论,获取用户的渠道B有问题,从而导致了本周六的日活跃率下跌(如下图)。

数据分析思维及其意义


我们再来看第2个假设:产品有问题。


这时候就需要找相关部门了解情况,一起去排查问题了。例如,服务器是不是崩溃了?最近是否上线了产品新版本,其中新功能有问题?或者是没有处理产品版本问题导致?甚至可以去问客服,最近是不是有大量投诉,投诉原因是什么?还可以查看用户对产品满意度方面的数据。假设最后经过调查,产品没有问题。


我们再来看假设3:日活跃率下降是竞品问题导致的。


竞品问题是指竞争对手有什么大动作,例如竞争对手在搞活动促销,用户都跑到竞争对手那边了。通过调研发现,竞品最近没有搞大的活动。最后得出结论:没有竞品问题。


整个分析思路如下图所示:

数据分析思维及其意义

那么分析到这里就结束了吗?当然不是,我们需要多问几个为什么:为什么渠道B的数据下跌了?这时候可以跟负责渠道推广的同事了解情况,例如发现渠道B的投放活动在周六那天正好结束了,导致App的新用户少了,从而导致了日活跃率下降。


综上,假设检验分析方法有3个步骤:提出假设,收集证据,得出结论。得出结论以后,分析还没有停止,要多问几个为什么,然后用数据去验证可能的原因。不断重复假设这个分析过程,直到找到问题的根源。


在假设检验里面我们还要用到其他分析方法,例如刚才的案例在提出问题部分,使用了对比分析方法;在搜集证据的过程中,使用了多维度拆解分析方法对用户按渠道进行拆解。

相关分析

1)什么是相关分析法

时候我们研究的问题只有一种数据,例如人的身高;但是,还有另外一些问题需要研究多种数据,例如身高和体重之间的关系。当我们研究两种或者两种以上的数据之间有什么关系的时候,就要用到相关分析。如果两种数据之间有关系,叫作有相关关系;如果两种数据之间没有关系,叫作没有相关关系。


我们看一个例子。某个地区的用户在搜索引擎里搜的信息,和这个地区房价有什么关系呢?


谷歌首席经济学家哈尔·瓦里研究发现,如果更多人搜索“八成按揭贷款”,或者“涨幅”“涨价的速度”,这个地区的房价就会上涨;如果更多人搜索“快速卖房的流程”或者“按揭超过房价”,这个地区的房价就会下跌。也就是说,用户在搜索引擎里搜的信息和这个地区的房价有相关关系。

2)相关分析方法有什么用?

相关分析的作用有以下三点:

  • 在研究两种或者两种以上数据之间有什么关系,或者某个事情受到其他因素影响的问题时,可以使用相关分析,以量化两个量的相关性。例如在分析产品的各个功能对产品用户留存的影响时,就可以使用相关分析,得出各个功能与产品用户留存的相关性。
  • 在解决问题的过程中,相关分析可以帮助我们扩大思路和找到优先级,将视野从一种数据扩大到多种数据,扩展经验之外的因素,另外就是找到问题后可以根据相关性找到各个影响因素的重要性,进而先解决相关性高的主要问题。举个例子,在分析“为什么销量下降”的过程中,可以研究哪些因素和销售量有关系,例如产品价格、售后服务等。使用相关分析,可以知道哪些因素影响销量,哪些对销量没有影响,从而快速锁定问题的原因。
  • 相关分析通俗易懂。这在实际工作中很重要,因为数据分析的结果需要得到其他人的理解和认可,所以要方便大家沟通。很多分析方法看上去很高端,但是没有相关知识的人不容易理解。而相关分析通俗易懂,你不需要向对方解释什么是“相关”的含义及分析结果的意义,对方也能够理解。


3)相关系数的含义?

相关系数数值的正负可以反映两种数据之间的相关方向,也就是说两种数据在变化过程中是同方向变化,还是反方向变化。


相关系数的范围是-1~1,-1、0和1这三个值是相关系数的极值(如下图),下面解释一下相关系数的3个极值。假如有两种数据a和b,把这两种数据画在散点图上,横轴用来衡量数据a,纵轴用来衡量数据b。

  • 如果相关系数=1,数据点都在一条直线上,表示两种数据之间完全正相关,两种数据是同方向变化。也就是数据a的值越大,数据b的值也会越大。
  • 如果相关系数=-1,数据点都在一条直线上,表示两种数据之间完全负相关,两种数据是反方向变化。也就是数据a的值越大,数据b的值反而会越小。
数据分析思维及其意义
  • 如果相关系数=0,表明两种数据之间不是线性相关,但有可能是其他方式的相关(例如曲线方式)。
  • 如果相关系数>0,说明两种数据是正相关,是同方向变化,也就是一种数据的值越大,另一种数据的值也会越大;如果相关系数<0,说明两种数据是负相关,是反方向变化,也就是一种数据的值越大,另一种数据的值反而会越小,如下图所示。
数据分析思维及其意义

相关系数的数值大小可以表示两种数据的相关程度,相关系数的绝对值越大,说明两种数据的相关程度越高;相关系数数值的正负可以反映两种数据之间的相关方向。

4)如何计算相关系数

数据分析思维及其意义

其中,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差。

5)如何应用相关分析解决问题?

如下图所示,通过假设检验我们找出了A、B、C这3个可能影响分析目标的原因。然后分别计算出A、B、C和“分析目标”的相关系数,通过观察这些相关系数的大小,得知哪些因素对“分析目标”影响更大。公司资源有限,一个阶段只能集中解决一个问题,通过相关分析,优先解决那些影响大的因素。

数据分析思维及其意义

6)区别相关关系和因果关系

使用相关分析的注意事项:相关关系不等于因果关系。在使用的时候注意这一点,可以提高分析的质量。什么是因果关系?因果关系的意思是A的发生会导致B,B的发生是因为A。


例如,学校和孩子的成功有相关关系,学校越好,这个学校的孩子将来也越成功。那么,你能说学校和孩子成功有因果关系吗?根据法国一个社会学研究结果,学校在一个人的成长过程当中只有15%的作用,它跟孩子的成长、成功只有相关关系。唯一和孩子成功成长有因果关系的是家庭。这里家庭就是存在的第3方因素,家庭教育越好,孩子越成功。


何判断两种数据之间是相关关系,还是因果关系呢?可以使用“单变量控制法”,也就是控制其他因素不变,只改变其中一个因素,然后观察这个因素对实验结果的影响。例如,每天早上公鸡一打鸣,太阳就会升起。如果我们把公鸡杀掉,太阳还是会升起,完全不受公鸡的影响。所以,“太阳升起”和“公鸡打鸣”是相关关系,而不是因果关系。

群组分析

1)什么是群组分析法

群组分析方法”(也叫同期群分析方法)是按某个特征,将数据分为不同的组,然后比较各组的数据,说白了就是对数据分组然后来对比。比如按时间划分新用户、按职责划分人群。

2)群组分析的作用

产品会随着时间发布新的版本,产品改版的效果如何?版本更新后用户是增长了,还是流失了?像这类问题,就需要将用户按时间分组,然后比较不同组的用户留存率。所以,群组分析方法常用来分析用户留存率(或者流失率)随时间发生了哪些变化,然后找出用户留下或者离开的原因。


留存问题中如何对用户分组?通常是按用户开始使用产品的月份来分组,例如用户注册的那个月或者第1次购买的那个月。


分组后,考察每组用户的留存率随着时间发生了哪些变化,例如1个月后留存率是多少,2个月后留存率是多少(如下图)。对留存率高的用户组,分析他们为什么留存;对留存率低的用户组,分析他们为什么流失。

数据分析思维及其意义

3)如何使用群组分析方法

视频平台的用户是按月付费成为会员才能看某些电视剧。用户可以在任意月份取消订购,这类取消订购的用户就是流失用户。为了分析用户为什么流失,我们可以使用群组分析方法。


下表是某视频平台的新增用户数,表格的第1列“分组”是按新用户注册的月份分组,每一行是对应组之后各个月留存下来的用户。

数据分析思维及其意义

我们来看1月份组这一行,当月也就是1月份新增用户数是150人,1个月后这个群里有140人留存下来,2个月后这个群里有130人留存下来。


2月份组这一行,当月也就是2月份新增用户数是180人,1个月后这个群里有172人留存下来,2个月后这个群里有160人留存下来。


现在来计算这个表格里的留存率。拿“1月份组”这一行来说,1个月后的留存率=留下的人数(140)/1月份组总人数(150)=93.33%,2个月后的留存率=留下的人数(130)/1月份组总人数(150)=86.67%。按照这样的方法,可以把每一行的留存率计算出来,就得到了下表的数据。

数据分析思维及其意义

当群组分析表格里的数据较多,直接分析比较困难。这时可以把各个组的数据绘制成折线图,这样就可以很容易地发现数据随时间发生了哪些变化。


把每个组的数据绘制成一条折线,横轴是时间,纵轴是留存率,然后比较各个组的折线。因为9月份组和10月份组的数据很少,所以没有绘制到图上。从下图中可以发现,当1、2、3月份组的折线趋于平稳时,4、5、6月份组的折线还在继续下行。

数据分析思维及其意义


上图的折线太多,可以把1月份组和4月份组单独拿出来比较,见下图,可以看出两组的留存率差别很大。

数据分析思维及其意义

通过群组分析方法,我们发现留存率低的是4、5、6月份组。接下来就可以继续分析为什么这3个月的用户留存率下降。例如,有可能是下面几种原因:

  • 公司最近上线了新功能,但是这些新功能并不适合新用户;
  • 公司最近推广活动带来了新用户,但是公司的产品对这些新用户没有价值,导致用户流失。

这时就可以使用前文的假设检验、相关分析等方法来进一步研究,找到问题发生的原因。


最后我们复盘下用户流失分析这个案例。第1步,使用群组分析方法,找到留存率低的组;第2步,分析为什么这些组留存率低,可以使用假设检验、相关分析等方法进一步研究(如下图)。

数据分析思维及其意义

漏斗分析法

1)什么是漏斗分析法

业务流程起点开始到最后目标完成的每个环节都会有用户流失,因此需要一种分析方法来衡量业务流程每一步的转化效率,漏斗分析方法就是这样的分析方法。例如,在淘宝上一款商品的浏览量是300、点击量是100、订单量是20、支付量是10,在业务流程的每一步都有用户流失,如下表所示。

数据分析思维及其意义
  • 环节转化率=本环节用户数/上一环节用户数,是为了衡量相邻业务环节的转化情况。例如,上表的业务流程中第1环节是浏览,第2环节是点击,那么点击环节的转化率即为100(点击用户数)/300(浏览用户数)=33%。
  • 整体转化率=某环节用户数/第1环节用户数,是为了衡量从第1环节到该环节为止总体的转化情况。例如,上表的业务流程中第1环节是浏览,第4环节是支付,那么支付环节的整体转化率为10(支付用户数)/300(浏览用户数)=3%。


把上表做成下图,就是常见的漏斗分析图。因为它的形状像漏斗,所以叫作“漏斗图”。

数据分析思维及其意义

2)漏斗分析法有什么用

漏斗分析的作用是“定位问题节点”,即找到出问题的业务环节在哪。漏斗分析常用于用户转化分析或者用户流失分析,所以漏斗分析中要关注两个指标:用户转化率和用户流失率。


经过各个业务环节转化下来的用户,会产生更大的价值。因为这部分用户更加忠诚,更认可业务的流程。随着转化用户的不断增加,留存用户的规模也在不断增大,产品的盈利规模也会随之增加。


流失的用户数量在每个业务环节都不同。可以分析用户主要流失在哪个业务环节,以及为什么流失,是因为业务流程过于复杂,还是产品特性无法完全展现,或是其他原因,最终的目的都是不断减少用户流失率。

3)如何使用漏斗分析方法?

下面看一个电商案例。某线上店铺本周的销量降低严重,从上周的1000单掉到了680单,那么是中间哪个业务环节出了问题?如何改善这种情况?这需要向前探索,去分析用户从浏览商品到最后下单需要经历的步骤是什么,再看这些步骤中,哪一个是薄弱环节,影响了订单的整体转化率。


该案例的业务流程是:浏览商品、点击商品、加购物车、提交订单、支付订单。业务流程确定后,使用对比分析方法将本周和上周的数据进行比较,然后用漏斗分析方法来分析,算出各周的环节转化率,如下图所示。

数据分析思维及其意义


在两周数据的对比分析中,可以发现“点击-加购”的环节转化率明显降低(从20%降为13%),这意味着用户点击商品后,却不愿意将商品加入购物车。


与业务人员沟通后发现,店铺在本周更换了商品的介绍页,用户看到本期的商品介绍后,加购的意愿却降低了,导致最后订单量降低。


找到原因后,就可以针对性地对商品介绍页进行调优和改善,例如与上期的介绍页结构保持一致,色彩优化等,从而提升运营效率和转化率。

三 基于数据分析驱动解决问题的流程

下图为基于数据分析驱动解决问题的流程。

数据分析思维及其意义

1 定性分析以发现问题

先通过上述数据分析方法找到异常指标,然后抽样异常指标的样例,可视化的查看其数据,以发现问题。

2 定量分析影响面

当定位到具体问题后,我们抽样人工评估摸底问题的影响面。以上述“虚假价格“商品为例,我们可以随机抽样商品,然后人工评估虚假价格商品的比例,并计算全量商品中的虚假价格商品的数目。

3 预计解决问题后的业务效果

在上一步定量计算出问题的量级后,折算在模型不同召回率下业务核心指标的效果。

4 调研业界和集团的算法方案

根据上述定性分析发现的问题,调研业界和集团内部解决这个问题的算法方案。

5 设计我们场景下的算法方案

根据上一步调研的算法方案,再结合业务特点(B类或者C类,国际英文或者国内中文或者多语言)设计我们的业务场景下的算法方案。

6 编码实现方案

设计好算法方案后,使用集团内的平台、开源代码、深度学习平台等实现上述算法方案。

7 A/B实验得出上线效果

什么是A/B实验

做过App功能设计的读者朋友可能经常会面临多个设计方案的选择,例如某个按钮是用蓝色还是黄色,是放左边还是放右边。传统的解决方法通常是集体讨论表决,或者由某位专家或领导来拍板,实在决定不了时也有随机选一个上线的。虽然传统解决办法多数情况下也是有效的,但A/B测试可能是解决这类问题的一个更好的方法。


简单来说,A/B测试就是为同一个目标制定两个版本,这两个版本只有某个方面不一样,其他方面保持一致。例如两个版本只有按钮的颜色不一样,让一部分用户使用A版本(实验组),另一部分用户使用B版本(对照组)。试运行一段时间后,分别统计两组用户的表现,然后对两组数据进行对比分析,最后选择效果更好的版本正式发布给全部用户。

A/B后上线

分析A/B实验后的效果数据,看模型是否能带来预期的正向效果,如果是则可以上线。同时下钻分析A/B实验各个维度的数据,是否有一些其他结论。

8 上线后分析数据看问题的解决程度

看上线后的定量分析数据,问题是否有所解决。

四 一些数据分析的维度

核心点就是结构化拆解维度,类似于上述第2部分的逻辑树分析法。以下以电商场景为例。

1 买家和卖家视角

买家视角

买家的流量来源、买家的端型、买家的国家或者地区、买家的年龄、买家的性别。

卖家视角

卖家的主营类目,卖家的品类。

2 产品视角

用户需求、产品功能、竞品功能。

3 链路数据视角

电商产品链路主要包括:曝光、点击、注册、登录、沟通、下单、支付,可以从上述指标的链路转化漏斗分析。

五 参考文献

  • 《数据分析思维:分析方法和业务知识》
  • 《精益数据分析》

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多