分享

学会用分析方法分析问题

 我笑看风云变幻 2023-04-25 发布于辽宁

虎215

虎215


要想做好数据分析,除了要用对分析方法,同时也要掌握正确的分析过程。

熟悉掌握正确的分析过程,能更好的帮助我们理清思路,有条不紊的进行分析。

分析问题主要分为三步:明确问题、分析、决策


一、明确问题过程中的注意事项

明确问题,就像驾驶员手中的方向盘,如果方向都错了,怎么可能到达终点。

所以在明确问题的过程中,找准正确的问题,后面的分析才有意义。

这里举一个非常有名的段子,大家就能明白明确问题的重要性了。


当要解决的问题中提到“高、低、大、小”等字眼的时候,要问清楚和谁比,就需要用到之前学过的对比分析方法。

问题本质上是指现状与理想状态之间的差距,而这个理想状态,就是我们需要比较的对象。因此如果不知道理想状态是什么,就无法比较,从而就无法确定问题。所以在定义问题时,要去弄清楚“比较对象”是谁。


二、如何开始分析

在分析的过程中,我们可以使用这3步来分析:

1、使用多维度拆解分析方法对问题进行拆解,将一个复杂的问题细化成一个个子问题(可以从用户、产品、竞品这3个维度来拆解,也可以从业务流程来进行拆解)。

2、对拆解的每个部分,使用假设检验分析方法找到哪里出了问题(分析的过程可以用对比分析方法等多个分析方法来完成。)。

3、找到哪里出了问题以后,可以多问自己为什么会出现这个问题,然后使用相关分析方法进行深入分析。

在之前我们已经学习了多个分析方法及其用法,在正式开始分析之前,再补充学习一下相关分析方法


三、什么是相关分析方法

1、相关分析方法是研究2种或2种以上数据之前有什么关系。

相关分析方法是研究2种或2种以上数据之前有什么关系

2、学习相关分析方法有什么用或者是优势呢?

能帮助我们扩大思维;相关分析方法通俗易懂、更利于我们与人沟通交流,同时配合其他分析方法,可以深入分析问题。


3、相关系数r

相关系数r的正负表示两个变量的相关方向。

相关系数r的范围是-1——1,下图中的-1、0、1是相关系数的极端值。

相关系数等于1,表示两种数据之间完全正相关,两种数据同方向变化,即a的值越大、b的值也越大。

相关系数等于-1,表示两种数据之间完全负相关,两种数据反方向变化,即a的值越大,反而b的值越小。

相关系数等于0,表示两种数据之间非线性相关,可能是其他方式相关,比如曲线方式等等。


相关系数>0,正相关,两种数据同方向变化,即a的值越大、b的值也越大。

相关系数<0,负相关,两种数据反方向变化,即a的值越大,b的值反而越小。


相关程度怎么判断?——相关系数的绝对值越大,相关程度越高。


4、相关关系怎么使用?

这里以一个例子来说明。下图表格中的数据,是市场调查后得出的丈夫和其妻子的年龄,请问丈夫是不是都愿意找和自己年龄相近的妻子呢?这里我们就可以用相关分析来分析。


通过Excel里数据分析工具,计算出相关系数。


通过Excel图表里的散点图,将数据进行可视化展示。

通过散点图及相关系数可以发现,丈夫年龄与妻子年龄相关程度非常高且成正相关关系,意味着丈夫年龄增加,妻子年龄也会跟着增加。所以得出结论丈夫更愿意找与自己年龄接近的妻子。

5、相关关系不等于因果关系(单变量控制)。

这个怎么理解呢,因果关系指A的发生会导致B,B的发生是因为A。

相关关系指A与B是正相关关系,即A提升,B也提升,但不能说B的提升是因为A,仅仅可能只是A与B同时发生了(可能存在第三方因素或者纯属巧合)。

如何判断两者的关系是因果关系还是相关关系——单变量控制(控制其他因素不变,只改变其中一个因素,观察这个因素对结果的影响)。

举个例子,每天早上公鸡一打鸣,太阳就升会起。如果这时候把公鸡拿走,太阳依旧照常升起,并没有因为公鸡的消失而受影响,所以公鸡打鸣与太阳升起是相关关系,而不是因果关系。

四、接下来开始针对之前的数据做优化分析

一)、熟悉数据、明确问题

此数据样本来自于阿里云天池,为淘宝平台中婴儿产品的数据集,一共包含两个excel文件。表1为购买商品的消费信息(29971条数据),表2为婴儿样本信息(953条数据)。

Baby Goods Info Data-数据集-阿里云天池tianchi.aliyun.com/dataset/dataDetail?dataId=45

表1数据:

user_id:用户id,为用户在淘宝的身份信息,是唯一识别码。

auction_id:物品编码。

cat_id:商品类别,为商品的二级分类。如鞋子里的皮鞋、凉鞋、运动鞋等。

cat1:商品种类,为商品的一级分类。如服装、鞋子、包、配件等。

property:商品属性,同一个商品,可以有多个属性,如尺码、颜色、材质、产地等。

buy_mount:购买数量。

day:购买日期。


表2数据:

user_id:用户id,为用户在淘宝的身份信息,是唯一识别码。

birthday:出生日期。

gender:性别(0女性;1男性;2未知)


从上面数据中,我们想知道什么问题呢?

1、店铺的整体销售趋势怎么样?是什么原因造成的?(外部因素还是内部因素?)

2、什么时间为淡季和旺季?

3、哪一类的商品(一级、二级)销量好?

4、什么年龄段消费能力最强?

5、男女宝宝的购买比例?

6、复购率如何?


二)、清洗数据

具体的数据清洗步骤就不做详细演示了,在我第三关的文章中有详细的操作过程,感兴趣的可以看看。

虎215:用Excel开始案例实操——一步一步挖掘真相1 赞同 · 0 评论文章

在经过了隐藏不需要的列——删除重复值——缺失值处理——一致化处理后,得到了我们想要的、需要的数据集。

表1清洗后

表2清洗后

三)接下来根据上面的问题,开始分析(因为2015年数据缺失严重,为了避免影响数据分析的准确性,在后面的分析中都不考虑2015年的数据情况)

1、店铺的整体销售趋势怎么样?为什么会呈现这样的趋势?(外部因素还是内部因素?)

通过折线图的形式,可以看到该店铺从2012年开始,每年的销量在增长,且呈翻倍的增长,销售势头良好。

于是再进一步将2012年——2014年的销量数据以折线图的形式进行对比展示,发现2014年11月的销量高得离谱,通过数据筛选后发现,在2014年11月出现了一笔10000采购订单,因此造成了该月销量的暴增。但并没有其他信息来判断该笔订单的准确性,可能是某机构或者二级经销商的采购,属于真实有效的购买行为。虽然这样的订单真实有效,但并不利于我们分析普通消费者的购物行为和商家的正常销售情况。于是根据统计判别法,将大于μ+3σ或小于μ—3σ的数值视为高度异常值,应予以剔除,这里将大于2.5+64×3=194.5的数值剔除。

发现2014年11月的销量高得离谱

描述统计分析数据

经过剔除高度异常值后,得到了新的销量折线图

从上面的折线图可以看出2个情况,1是销量每一年都在增加,2是连续几年,该店铺的销量曲线惊人的一致。销量的低谷都在当年的1、2月,销量最高峰都出现在了11月,同时每年的5月也是销量的小高峰。那么是什么原因造成这样的销量分布呢?


1)销量每一年都在增加,是什么原因?

首先运用多维度拆解分析方法,将问题从三个维度进行拆分:用户、产品、市场

用户维度:销售数量=付费人数×人均购买数量

产品维度:价格优惠、商品种类增加

市场维度:出台利好政策、电商整体大环境好


然后运用假设检验分析方法进行逐一分析:

用户维度1:付费人数

假设销量的增长和付费人数的增长有关。

收集证据:通过图表可以看出,每年的付费人数增长明显,增幅达到50%以上。

付费人数的增加,造成了销量的增长。

假设成立


用户维度2:人均购买数量

假设销量的增长和人均购买数量有关。

收集证据:将2012年——2014年的购买数量及购买人数汇总并计算后发现,虽然购买总数及购买人数都在增加,但是人均购买数量却并没有增加,甚至于还有轻微下跌。2012年人均购买数量为1.79,2013年人均购买数量为1.68,2014年人均购买数量为1.63。

假设不成立


产品维度1:价格优惠

假设销量的增长和价格优惠有关。

收集证据:因为表1里并没有价格相关的信息,所以该假设无法进行验证。

假设不成立


产品维度2:商品种类增加

假设销量的增长和商品种类的增加有关。

收集证据:商品种类的增加,意味着顾客可选的内容更多、范围更广,下单机率也就越高。

将2012年——2014年每年顾客下单商品种类汇总后发现,商品种类(一级)都是6类,没有变化,但是商品种类(二级)却呈现了逐年增加的趋势,分别是2012年399种,2013年446种,2014年578种。

假设成立


市场维度1:出台利好政策

假设销量的增长和出台利好政策有关。

收集证据:出台利好政策,有助于推动整个行业的发展。收集整理了2012年——2015年期间的相关政策,可以看到从国务院到各级地方政府陆续出台多个利好政策,大力发展电子商务,加速推进行业发展。

假设成立


市场维度2:大环境红利

假设销量增长和电商大环境好有关。

收集证据:整体大环境的利好,有利于推动整个行业的发展,2012年——2015年正是电商行业(淘宝&天猫为代表)高速发展的时期。

截止2014年12月,我国网络购物用户规模达到3.61亿,较2013年底增加5953万人,增长率为19.7%;我国网民使用网络购物的比例从48.9%提升至55.7%。

截止2014年12月中国网络零售市场交易规模达28211亿元,较2013年的18851亿元,同比增长49.7%。中国网络零售市场交易规模占到社会消费品零售总额的10.6%,2013年达到8.0%,同比增长32.5%。

作为知名电商平台——淘宝&天猫,历年双11购物节交易额及全年交易额都出现了爆发式的增长。

历年双11交易额

历年全年交易额

假设成立


由此得出结论:

用户数量的增加、商品种类的丰富,利好政策的出台、良好的电商大环境,都是推动该店铺销量增加的原因。

用户数量的增加、商品种类的丰富,利好政策的出台、良好的电商大环境,都是推动该店铺销量增加的原因。

2)从折线图可以看出,销量的低谷都在当年的1、2月,销量最高峰都出现在了11月,同时每年的5月也是销量的小高峰。那么是什么原因造成这样的销量分布呢?(淡季和旺季)

从之前得出折线图可以看出,连续几年的销量曲线惊人的一致,猜测是由于某些相对固定、有规律的因素造成的,比如每年的节假日、优惠活动的推广。

提出假设:该店铺的淡旺季和店铺优惠活动的推出、相关节假日有关。


假设旺季与优惠活动的推出有关。

收集证据:与优惠活动的推出有关

因为没有其他相关信息进行,无法进行论证。

假设不成立


假设旺季与节假日有关

收集证据:从折线图可以看出,销售高峰出现在5月、11月,同时11月为全年销量最顶峰。

将2013年、2014年5月销量绘制折线图后,再分别与当年5月节假日做对应,发现并没有任何的规律,所以该月销量高与当月节假日有关的假设不成立。

假设不成立


假设全年单月最高销量与电商双11购物节活动有关。

收集证据:再将2012年——2014年11月数据绘制折线图后发现,该月在电商最大节日——双11购物节期间,销量增幅明显且远远大于平时销量,且与活动日期吻合。所以销售最高的11月与电商双11购物节活动有关的假设成立。


假设销售淡季与春节假期有关。

收集证据:每年的淡季1、2月都因为春节假期回家过年,同时快递停运,造成了1、2月销量惨淡。

通过将2013年、2014年1、2月数据绘制成折线图,并与该年春节假期对比发现,2013年春节假期是2月9日——2月15日,按照惯例春节前一周快递开始停运,该时间段与2013年销量低谷2月3日——2月15日吻合。而2014年春节假期是1月31日——2月6日,按照惯例春节前一周快递开始停运,该时间段也与2014年销量低谷相吻合。

所以2013年、2014年销量淡季与春节假期有关的假设成立。

假设成立。


由此得出结论:

该店铺的销量受春节影响较大,在春节期间销量惨淡。同时店铺销量依赖于电商双11购物节活动,销量为全年之最。在平时,某些应季类商品的推出,也会带来店铺销量的增长。


2、哪一类的商品(一级、二级)销量最好?

1)从图表中可以看出,【28】类商品在一级分类里销量最好,为什么销量呈现这样的分布?

要想知道为什么28类商品的销量最好,销量为什么呈现这样的分布,依然通过上面的分析方法,进行拆分,分别从用户和产品两个方面进行分析。


假设销量和人均购买数量有关。

收集证据:将商品种类(一级)的销量和付费人数进行简单计算后得出,【28】类商品销量最高,在于该类商品的人均购买数量达到了2.35,猜测该类商品可能为一些易消耗类商品,所以每单购买数量比较多,同样人均购买数量很高的商品有【38】类商品,人均购买数量达到了3.05.

假设成立。


假设商品销量和付费人数有关

收集证据:将商品种类(一级)的销量与购买次数进行对比后发现,【5008168】【50022520】【122650008】类商品都呈现出了付费人数越多,销量越高的趋势。购买次数最多的商品为【50008168】,表示该类商品受大多数顾客的喜爱。

假设成立。


假设购买数量与商品种类有关。

收集整理:商品种类(一级)一共6个大类,所以我们将各个大类下面的二级商品种类进行了归类和统计,发现大部分商品类别都呈现出来商品种类越多,销售数量越高的情况。商品种类越多,意味着顾客可选更多,也越容易下单购买。但过多的商品种类也会造成店铺定位不清晰、商品库存压力大、店铺资金占用高等情况,需要店铺根据实际情况综合考虑。

假设成立。


2)在商品种类(二级)里,因为商品种类达到了664种,不利于分析与展示,因此选取了销量前10的商品进行整理后分析,详情如下图:

依然采用上面提到的分析维度,从用户和产品方面分别分析。

从用户维度:将购买数量和购买次数进行分析后发现,商品种类(二级)里,70%的商品符合购买人数越多,销量越高的规律,代表商品受到绝大多数顾客的欢迎;30%的商品符合平均购买数量越高,销量越高的规律,猜测商品可能为易消耗品,单次购买量都比较高。


从产品维度:将TOP10的商品按月进行销量排布,发现销量第一的商品【50018831】销量特别高的时候,都集中在每年的11月、12月,推测可能是应季类商品(比如冬装、冬季用品),又刚好赶上了双11购物节,所以销量非常突出。


由此得出结论:商品的销量,非常依赖付费人数和平均购买数量,同时丰富的商品种类也能促进店铺销量的提升,所以店铺需要提高店铺人气,多做优惠活动,多上新品,持续保持店铺对顾客的吸引力。在相应的季节推出合适的商品,也是提升销量的方式之一,但是要合理安排,避免库存过高带来的资金压力。


3、什么年龄段消费能力最强?

将表2的数据整理后可以得出,销量随年龄的增长,呈现明显的下降趋势。0-2岁(婴童)年龄段的消费能力最强,占比达到了惊人的50.21%,如果再将未出生的人数加上(家长为未出生的宝宝购买的物品,会和才出生宝宝购买的物品一致),占比高达65.13%,推测原因为该年龄段物品消耗量大(奶粉、尿不湿等)、宝宝成长速度快导致物品更新速度快(衣服、鞋子)。而5-7(大童)年龄段的消费占比只有5.25%,7岁以上(儿童)年龄的消费占比最低为2.42%。

由此可以建议店铺对目标客群进行重新定位及优化,将目标客群进行精准定位,锁定在5岁及以下儿童,打造专营店模式。不仅可以提升店铺形象,更有针对性的采购货品、丰富货品种类,同时也可以大幅降低低销量产品(5岁及以上)的库存压力及资金占用情况。


4、男女宝宝的购买比例如何?

由图可以看出,男女宝宝的购买比例相差不大,女宝宝的人数略多于男宝宝。

因为商品种类太多,不利于展示和分析,因此整理了男女宝宝喜爱商品TOP10。

由上图可以得出,【50013636】类商品为男女宝宝最喜爱的商品,推测可能是一类不用区分性别的必需商品,比如奶粉、尿不湿等,可以适度加大该类货品的备货量。虽然男女宝宝的购买比例相差不大,但喜爱类别却差异较大,商家需要更合理的进行货品安排,更有针对性的做商品类别的选择与备货。


5、复购率如何?

通过整理数据后发现,一共有29915名用户在该店铺有过购买行为,但是只有25名用户有过2次及以上的购买行为,复购率只有0.08%。

由于缺乏其他信息,无法分析复购率低的具体原因,只能大概推测:

用户维度:缺乏相应的老客户优惠政策,如老带新、老客户消费积分制等。

产品维度:商品质量不好、与店铺广告宣传不符等,导致老客户满意度低;商品更新速度慢、商品种类少,导致对客户的吸引力和曝光率不足。

行为维度:客服服务态度差或生硬,客户购物体验不好;淡季没有好的优惠活动和广告宣传。

该店铺复购率非常低,消费基本依赖新客户,对于店铺来说获客成本高、获客能力有限、淡季没有老客户消费,导致全年大部分时间销量惨淡。这类店铺更多依赖电商平台的集中活动(双11)来获取新客户,所以销售高峰会出现在第四季度和11月。要提升店铺销量,除了需要增加销售淡季的促销活动及宣传推广,还需提升老客户的复购率。


以上就是我对之前分析内容的复盘优化,欢迎指出不足、共同探讨。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多