A/B测试统计学原理篇

F2967527 2020-10-23

展开全文

作者：Eva,用户画像和个性化推荐部门算法负责人。A/B 测试是目前为很多公司所推崇。作为一种技术手段推动产品和运营工作的日益迭代，而很多人可能对A/B测试并不是非常了解，尤其对他的科学性存在质疑，又或者过分依赖A/B测试而忽视了它的边界。其根本在于没有了解A/B测试的根本原理。本篇文章从“讲道理”出发带你了解A/B测试那点事~带着趣味性的内容~墙推

在很多数据分析的场景我们会发现一些看似很有用的数据结论，比如看过免费视频的用户都留存率看起来都增加了，这样我们是不是可以通过推荐用户喜欢看的免费视频来提高留存率呢？这个时候就会有人说，不对啊！为什么不能说留存下来的用户更爱看免费视频呢？

这个问题有正解？看过免费视频的用户和留存率增加，从数据上反映的是一种相关关系，而并不意味着某一件事情的发生引起另外一件事情发生。在大数据时代，往往发现相关关系是一件相对容易的事情，而找到因果关系却不容易。这里我们就要提出今天要谈及的主题：A/B测试或者说A/B试验。其优势就在于，它提供了可控的环境，有助于了解事情发展的前因后果。

另外，A/B测试不仅仅可以应用于数据分析假设中，还可以应用于网页设计布局选择、新功能上线测试、活动效果评估等多项企业产品运营实践中。

— 1 —

AB测试的科学性

A/B测试结果是基于科学的统计假设基础上发展起来，用来探知客观世界因果关系的试验。为什么说A/B测试具有一定的科学性？首先，自统计学成为一门系统的科学以来，已有300余年的历史。最初，受交通，数据存储能力，处理能力等各方面的影响，大面积搜集数据是不可能的，更谈不上大数据。因此，想要证明一个结论所能支撑的数据并不多。

这么说，在很古时代，有人问你，“猫是什么颜色？”。在原始时代，你无法知道猫究竟有什么颜色，所有只能通过周围的猫来推断他的颜色。当你看到环绕你家院子周围活动的猫毛颜色是黑、白时，你会得出结论猫有黑白两种颜色。但当你走出院子，来到大街上，你又会发现猫还有黄色，黑白混合色。随着你看到的猫数量多了，颜色越来越多。当有一天人们问你，你认为世界上有红的发紫的猫吗？你的回答是，没有。因为在你的所触及的范围内确实没有发现过红的发紫的猫。那么，你这个结论究竟是对还是错呢？这个问题就变得有点意思了。其实，在统计学上这个世界究竟有没有红的发紫的猫变得不那么重要，重要的是出现你说的红的发紫的猫概率有多大，“没有红的发紫的猫”这个结论基于多大的数据量得出，有没有一种方法能衡量这个结论在一定程度上是可以被接受的。

忽略小概率事件发生，即，忽略世界上有红的发紫的猫这件事情发生（因为即便有，概率也是非常小可能不到0.0001%）对现实生活场景具有非常重要的价值。比如，目前医疗上事故发生率的检测；食品安全中添加剂达标检测等等。同样，对于互联网经济，这样的方法也非常实用。比如，我们在测试某个功能发版或者某个设计改动带来转化率的影响时，如果在上线后，用所有流量去测试，遇到问题再回退，即便技术可以实现，但所付出的代价是惨重的。那么，为何我们不尝试用少量流量实验来解决这个问题呢？于是，就出现了A/B测试，简单说就是用更少的流量帮助你做决策。

忽略小概率事件发生，确实会损失一部分精度，但是带来的价值是非常大的。

— 2 —

基本概念

总体：包含所研究的全部个体（数据）的集合
样本：从总体中抽取出来的，作为总体的代表，由部分单位组成的集合体

“例如考察某厂生产的灯泡的使用寿命，该厂生产的所有灯泡的使用寿命为总体，每个灯泡的使用寿命为一个个体，从总体中抽取若干个体（100个）灯泡做实验，这100个灯泡就是样本。” 总体和样本关系：1)样本的单位必须取自总体；2) 一个总体可以抽取多个样本；3)确保样本的客观性与代表性

统计量: 是统计理论中用来对数据进行分析、检验的变量。从样本推断整体性质，我们通常是通过统计量来推断的，比如上面这个例子我们通过计算100个灯泡的使用寿命平均值推断总体这个工厂生产出灯泡的使用寿命长短。常见的统计量有：样本均值、样本方差、样本矩、样本K阶中心距、样本偏度、样本峰度等
分布：在统计分组的基础上，将总体中的所有单位按组归类整理，形成总体单位在各组间的分布。常见的分布类型有：T分布、F分布、卡方分布

假设检验（单侧检验和双侧检验）：又称统计假设检验，是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。对应不同应用场景，服从不同分布形式，对应不同检验：T检验、F检验、卡方检验等。

这里先说一下如何提出假设，这里分单侧检验和双侧检验。

举例：考虑某工厂袋装盐的重量（服从正态分布），总体均值为

第Ⅰ类错误和第 II 类错误

第Ⅰ类错误（alpha类错误）：原假设是正确的，但拒绝了原假设（弃真）

第 II 类错误（beta类错误）：原假设是错误的，但没有拒绝原假设（存伪）

以上弃真，存伪都是从原假设出发的。放弃原假设就可能发生”弃真”,接受原假设又可能“存伪”。

这里我们举个简单的例子说明这个问题，假设我们从某个指标一组检测结果判断某个人是否是肝病病人。原假设：健康人，备择假设：肝病病人。那么，当这组数据表明应该拒绝原假设，那么，我们可能会犯第Ⅰ类错误，将健康人误诊为肝病病人（图中黄色部分）。但是如果我们接受了原假设，认为该人为健康人，我们有可能会犯第II类错误，将肝病病人认为是健康人（图中红色部分）,因为有一部分肝病病人该指标的表现和正常人类似，从数据无法判断。

好的，现在让我们来思考一个问题。如何降低误诊率？是不是可以通过放宽限制，如果我们让倾向于的观测为健康人的个体被判断为肝病病人，我们是不是就能够检测出更多观测是健康人实际是肝病病人的患者，那么，此时就是倾向于拒绝原假设（假设：健康人），此时，α就越大，1-α就越小（α理解为允许犯I类错误的概率）。

置信度、置信水平、置信区间、显著水平:

置信度也称置信水平、可靠度、置信系数。我们通常说的95%置信水平下，认为…就是这个意思。置信区间又称估计区间，是用来估计参数的取值范围的，通常用[4.25,6.79]这样的形式表示。显著性水平是估计总体参数落在某一区间内，可能犯错误的概率，用α表示

拒绝域、接受域、临界值

能够拒绝原假设的检验统计量的所有可能取值的集合，称为拒绝域；不能够拒绝原假设的检验统计量的所有可能取值的集合称为接受域；根据给定的显著性水平确定的拒绝域的边界值，称为临界值。

大家也可以参考以下脑图回顾以下统计学基础知识：

— 3 —

假设检验一般步骤

3.1 实际问题提炼成统计问题
3.2 提出假设（原假设和备择假设）
3.3 规定显著性水平
3.4 构造检验统计量
3.5 得出结论

— 4 —

医学实验案例

根据资料用某种旧安眠药时，平均睡眠时间为20.8h，标准差为1.6h. 有一种新安眠药，据说在一定剂量下，能比旧安眠药平均增加睡眠时间3h。为了检验这个说法是否正确，收集到一组使用新安眠药的睡眠时间（单位：h）为：26.7，22.0，24.1, 21.0, 27.2, 25.0, 23.4。试问：从这组数据能说明新安眠药已经能达到新的疗效（假定睡眠时间服从正态分布）

假设性检验的作用：新安眠药带来的疗效是显著比旧安眠药的疗效增加3h ? 还是因为试验样本误差导致的。

新安眠：平均值为24.2, 标准差为2.295

同学A：因为使用新安眠药的平均睡眠时长24.2h-20.8h=3.4h>3h，所以，新安眠药已经能达到新的疗效了。

同学B：26.7，22.0，24.1, 21.0, 27.2 , 25.0, 23.4，样本中标记出来的样本都不满足新的疗效，怎么能说新安眠药已经达到疗效了呢？

以上这个问题就引申出来，究竟这次实验使用新安眠药的平均睡眠时长是否具有普遍的代表性。换句话说，即便这个安眠药产生的效果在某些人体中未达到预期，但只是偶然事件，这个偶然事件发生的概率很小很小，小到我们可以接受这种偶然事件发生。所以，我们接下来做的事情就是告诉大家，新安眠药（24.2h）在多大程度上（置信区间），我们认为它的效果达到新的疗效（能比旧安眠药平均增加睡眠时间3h）。

步骤解析：

1. 实际问题提炼成统计问题

2. 提出原假设和备择假设