本专题共10篇内容,包含淘宝APP基础链路过去一年在用户体验数据科学领域(包括商详、物流、性能、消息、客服、旅程等)一些探索和实践经验,本文为该专题第一篇。 在商详页基于用户动线和VOC挖掘用户决策因子带来浏览体验提升;在物流侧洞察用户求助时间与实际物流停滞时长的关系制订表达策略带来物流产品满意度提升;在性能优化域构建主客观关联模型找到启动时长与负向反馈指标的魔法数字以明确优化目标;构建多源VOC标签体系综合运用用户行为和用户VOC洞察、落地体验优化策略,并总结出一套用户体验分析方法论。 一 背景与现状 存量竞争时代,体验重要性日益提升。来自决策层的声音:“全面提升用户体验”、“把重视客户体验变成发自内心的习惯”、“回到用户最根本的体验指标”突显了提升体验决心。 如何全面、及时和精细化地衡量体验好坏?如何讲清体验好坏和生意的相关性?如何有效地优化体验,优化到什么程度合适?如何验证解决方案的有效性?本文主要介绍数据科学同学在基于产品体验、服务体验、性能体验等项目经验总结出的一套分析框架与方法,可系统、高效地为发现、诊断及推动体验策略优化与落地,供参考学习。 二 整体分析框架 打一个形象的比喻:数据科学家≈医生,医生给病人看病,数科给业务看病。用户体验分析过程可抽象为发现问题(体验)、问题诊断(门诊)、策略落地(治疗)、效果验证(复诊)4个步骤。 首先,给病人做一轮初诊/体检,体检报告中身体状态指标可比作用户体验指标;其次,进入门诊阶段医生会基于检查报告中指标异动(如:白细胞偏高)结合病情进行诊断开方子,类似数科运用各种诊断方法进行根因探寻并生成数据策略;再者,病人基于诊断方案进入治疗阶段,可能存在不信任、不配合、未按疗程服药等问题,类似策略落地阶段数科会面对业务支持力度低、跨团队协同困难等问题;最终,一通疗程下来医生需跟踪复诊了解病情是否缓解,类似数科需通过科学地方法(如:AB、因果推断)进行验证价值。 三 用户旅程梳理 要优化体验首先要发现体验问题,很多组织都有自己收集和洞察用户体验评估的方式,包括:VOC数据收集、专家走访、问卷调研等方式,但是基于这些方式通常会存在体验改进片面化、不可持续性,无法系统地发现和解决问题。特别地,当面对“如何提升物流产品满意度10%”这类某一产品整体满意度提升命题时需要有一套体系化的业务梳理方法。 用户体验地图(User Experience Map - UEM)是梳理业务和用户旅程核心工具和方法之一。为什么评估用户体验先要梳理用户体验地图呢?因为用户体验是用户的整体感知,必须了解用户在产品/服务的整体路径、交互方式和各触点的情况,否则体验评估设计会缺乏系统性,无法准确定位问题及发现问题根因。 来自Pointillist公司的调研:超过 95% 的组织已经采用了基于旅程的客户体验方法,而且80%受访者表示,基于旅程的战略对其业务的整体成功至关重要。超过90%的受访者表示,基于旅程的方法对他们发现改进客户体验的机会、根据目标和指标调整团队,以及理解关键旅程信号有积极影响。超过 50% 的公司也有专门从事旅程管理或旅程分析的角色或团队。
▐ 体验地图结构 用户体验地图的主要结构分为如下几层:行为阶段、用户目标、用户行为、用户需求、痛点、机会点。 ▐ 体验地图案例
▐ 梳理要点 绘制用户体验地图之前
绘制用户体验地图中
其他
四 体验指标设计 没有标准就没有问题,评价用户体验好不好,首先要建立一套标准,符合标准才能代表用户体验好,并且把这个“好”尽可能以量化的指标表达出来,否则无法测量,管理也就无从下手。 ▐ 名词解释
▐ 指标设计流程 体验指标金字塔模型 如图,围绕用户体验“可衡量、可运营”,归纳出一套体验指标金字塔模型,指导如何设计体验指标体系。 该模型将指标区分为用户体验和业务运营两类指标,用户体验类指标解释“用户体验如何衡量”,业务运营指标解释“用户体验如何驱动”,希望结合内外部视角找到体验提升的机会点,包括重塑用户旅程、改造内部业务流程、优化信息表达等。
整体流程如下: Step1. 梳理用户旅程 梳理用户旅程,识别旅程的关键时刻(MOT)。 Step2. 用户体验指标设计
Step3. 业务运营指标设计 针对用户旅程的关键触点挖掘驱动用户体验提升关键因素,完成指标详细设计及口径定义。 ▐ 指标设计原则 指标设计需以MOT为核心 用户对产品/服务的体验更多是事后回忆,不会记得所有流程,因此体验评分不是平均分,也不是总分,而是关键时刻(MOT)的体验分数。 体验指标与运营指标应保持对应关系 X的衡量与O的驱动需协同,保证对体验提升的衡量与指导意义。 体验指标无需严格从“面”开始设计 按照业务需求及分析师发现的体验问题规模,大多以“线”、“点”作为起点开始设计。例如:在物流体验场景中,业务明确需提升“淘宝物流产品满意度”;支付体验场景中,明确基于支付VOC中top1问题“无法使用微信支付”展开治理。 该阶段指标不是终版 该阶段的指标设计更多是依赖业务先验知识、历史问卷调研等,尚未有明确数据校验体验指标与运营指标的严格相关性,需在后续的流程中持续更新。 ▐ 指标设计案例
五 数据准备 ▐ 体验数据架构 同体验指标设计方法,我们将支撑体验分析的数据分为两类:
体验分析的核心思维就是O数据与X数据的协同分析,基石是用户体验旅程。缺少O数据会让我们偏离商业本质,缺少X数据会让我们“盲猜”用户。兼顾到采集SDK和数据平台的规划设计,数据准备阶段我们需要有体系化的视角实现全面的体验感知。 O&X协同的体验数据架构 在“用户是谁”环节,O与X协同能够让我们知道同一款产品Android/iOS、男/女用户满意度分别有何差异;结合用户反馈数据,我们还能获知本次旅程真正的用户是谁,例如:帮女朋友买生日礼物、帮儿子买书包等。在“如何了解产品”环节,O与X协同能让我们了解用户在某一页面关注度最高是哪个功能模块,关联进线咨询VOC数据还可获知该模块中具体是哪类信息缺失、模糊不清,影响用户购物决策。 ▐ VOC标签体系 用户体验偏主观且因人而已,与用户自身的预期强相关,通常很难通过绝对客观数据来评价用户体验好坏。VOC(Voice Of Customer)是一种能够直接获知用户体验的数据源。淘宝VOC是多源、多模态的,一方面,数科同学需要了解多源VOC的产生场景以便在合适的案例进行选择和使用;另一方面,需要将VOC加工成标签以便高效进行分析。 分析应用层面需要注意各类VOC的特点以便合理选择:
六 问题发现 有了评估指标和数据,如何基于这些数据评估体验好坏、发现问题? 日常生活和工作中,我们之所以会评价,是因为我们内心对每件事情都有个标准,这个标准可能是潜在的或显性的。例如:我们对美丑的评价标准就是潜在的,而对考试成绩(60分为及格分)的评价标准就是显性的。之所为能够发现问题,是因为我们内心有一套清晰或模糊的标准,看到现实与标准有差距,就知道存在问题。显性标准很多来自历史数据和经验的总结,例如大名鼎鼎的NPS指标,业内有一个基本评估标准: 经过长期调研和总结形成一个关于产品满意度的评估标准:需改善(<50%),良好(50%-60%),优秀(>60%)。而大多数体验场景缺乏显性标准,故需要一套分析方法来判断体验好坏。 分析方法 问题发现阶段主要通过指标的趋势、排名、波动监测,以及未知原声异常监测(聚类检测、词云),跟踪老问题,发现新问题。 通常涉及两类指标:用户调研为主的满意度、驱动因素类指标,用户原声及其加工后标签统计类指标。对于满意度这类单一汇总类指标,通常可以跟自己比(看趋势)、跟竞对比(看标杆)发现问题。对于用户原声这类非结构化数据,通常应用于跟踪、发现和诊断“点”层面体验问题,可通过文本分类方法加工成体验问题标签,再基于标签的声量/占比的趋势变化、排名变化发现问题;此外,也可通过文本聚类方法挖掘新标签,实时检测未知问题的发生。 由于指标的复杂度不高(如高维、多周期等),该阶段整体以原子分析方法为主: 七 问题诊断 通过性能体验、物流体验、客服体验、商品体验等多领域的案例总结,我们将体验诊断及优化过程中存在的问题进行如下分类: 诊断分析方法 诊断分析主要是通过用户洞察、归因分析、价值衡量等方式,挖掘问题发生的原因,给出体验优化建议和策略。基于体验问题本身的不同类别,我们梳理了一套面向体验场景诊断分析方法,其特点在于对X-data的灵活运用: ▐ 诊断分析案例 主客观关联分析 案例:目标定义-性能优化目标
如上图,通过主客观关联分析发现某款机型下某App负向反馈率在冷启耗时x ms出现拐点。可得出,性能差于拐点时,性能优化能明显带来负向反馈率下降;性能优于拐点时,性能优化对于体验的提升效益不再显著。因此,可以设定x ms作为该机型下该APP性能优化目标。 用户动线分析 案例:策略制订-详情用户动线分析
八 策略落地 问题诊断阶段类似医生的门诊、开方子,策略落地阶段类似于治疗。数科同学在该阶段需要总结的更多是如何推进策略落地的工作方法。我们分别定义如下几个问题,并阐述解决方法。 问题1、如何让业务支持我们的分析?
问题2、业务认可我们的分析,但不协助推进,如何处理?
问题3、如何让其它团队配合数据策略落地?
总结一个数据策略能否落地,分析本身是否正确占10%,剩下是分析本身的价值;数据同学需要懂得对企业内部、人物关系、环境背景的分析。 九 效果验证 AB实验 什么是AB实验 AB实验是最直观的一种评估策略因果效应的科学手段,做AB实验需要两个前提条件:同质性与无偏性。实验中的不同组应该是同质的,意味着样本构成需相同或极其相似以确保结果的可比性,这通常是通过平台工具随机分流来实现。实验也应该是公正的,核心指标只受实验策略本身的直接影响。只有控制了全部干扰因素,才有可能接近Treatment和Result之间的因果关系。相对传统的优化前后对比方式,AB实验有以下优势:
明确AB假设和实验变量 AB实验不是价值衡量的许愿池,我们先要回答一个问题:如何判断一个策略是否可以通过AB实验来进行评估?避免无用功或引发舆情。AB有其特定的适用场景,如下场景是无法进行AB或者成本过高:
判断可以AB后需明确实验变量,一个好的实验变量要满足以下几点:
定义实验关键指标 确定分流方式 如何确定分流对象及保证分流的均匀性是该步骤需要解决的问题:
最小样本量测算 实验希望能检测到的指标精度越高,所需要的样本量就越大,这样可以使实验的敏感度大于我们预期的策略效果提升(MDE)。因此,针对我们希望检测到的预估效果MDE(通常由离线测算所得,如5%/10%等),我们需要计算实验所需要的最小样本量。在给定错误容错率下,最小样本量由MDE、均值、方差共同决定。此处需要注意的是不同的指标类型的方差计算方式是不同的,在实操中如果分流单元和分析单元不一致需要特殊处理。 附:最小样本计算公式及Python实现,也可基于Evan's Awesome A/B Tools在线网站进行测算。 from statsmodels.stats.power import zt_ind_solve_powerfrom statsmodels.stats.proportion import proportion_effectsize as eszt_ind_solve_power(effect_size=es(prop1=0.30, prop2=0.305), alpha=0.05, power=0.8, alternative='two-sided') 实验日常监测 在进入实验期后,需要对实验数据进行日常监测,日常监测主要观察以下几方面:
实验效果分析 在实验周期结束后,需要根据实验数据进行分析。A/B test分析将显示两个版本之间是否存在统计性显著差异,所以在分析结论时不止要观注实验分组之前的差异性,还要关注置信度和置信区间等统计指标来检测差异的真实性及可信度。在分析实验数据时,通常会有以下问题:
网上不少文章介绍如何运用卡方检验来检验实验UV分流均匀性,但在大型APP场景下往往不适用,根因是单个AB实验分桶的UV往往达几十万、上百万,大样本量下卡方检验过于灵敏,p-value容易接近0.0。因此推荐引用效应量函数来辅助决策,通过计算分流系统不同流量下的95%置信的偏差上限,并利用指数函数进行拟合,从而在实际应用中可以给出不同分桶UV样本量下的阈值。 备注:受不同的实验分流系统中内置hash函数及分流对象本身的均匀性影响效应量函数参数会不同。 附:效应量函数图
网上同样很多文章介绍如何综合运用样本分布+t-test检验指标显著性统计原理,这里不作过多介绍。但鲜有交代如何构建样本,此外,最小样本量计算与指标显著性检验的前提关系是什么? 针对一个比率型指标(如:浏览转化率),我们首先根据其基线值和预期提升幅度通过最小样本量公式计算其所需的累计样本量,满足最小样本条件后再基于分流对象进行hash分组(一般分为30组以满足t-test的样本量需求),再运用显著性检验UDF进行检验。 案例:某AB实验指标显著检验 因果推断 这里主要介绍因果推断中PSM倾向得分匹配法在效果验证中的原理和应用。 定义:PSM倾向得分匹配法,是通过对数据建模,为每个用户拟合⼀个概率(多维特征拟合成一维的概率),在对照组样本中寻找和实验组最接近的样本,从而进行比较。 前提:
场景: 无法做严格AB实验的场景 现实场景中存在一些产品和运营策略不适合做AB实验,例如A组和B组采取不同的价格策略,会损害用户体验造成投诉。 AB实验中低响应分析场景 AB实验中实验组真正具有响应行为的用户很少,需要通过PSM和网格化的方法找到相应行为同质的用户作为分析对照组,从而起到缩小分母提升检验显著性的灵敏度。 |
|