产品经理如何实施AB测试

2 评论 13063 浏览 190 收藏 10 分钟

编辑导语:AB测试思想对于产品经理来说十分重要,本篇文章作者讲述了产品经理实施AB测试的具体方法,详细地讲述了AB测试的具体流程,以及其中的注意点,感兴趣的一起来学习一下吧。

如果你随便拿起一本产品经理相关的书籍,然后翻开来读的话,你会发现,它们都会不约而同地提到一个名词“AB测试”。

其中的“佼佼者”《增长黑客》,更是“有过之而无不及”,因为A/B测试的思想彻彻底底贯穿这本书:无论是UI元素(字体、颜色、布局),产品功能,抑或是AARRR流程,都能看到A/B测试的影子。

这或许也是俞军在《俞军产品方法论》中写道“产品工作属于强实践性的社会科学”的一个原因吧。关于AARRR流程的介绍请参考这篇文章《产品是门高实践性学科》。

AB测试将分成两篇文章,分别将从产品和统计学两个方面介绍AB测试,适合想了解AB测试具体实施流程,以及探究AB测试背后统计学原理的同学阅读。

一、AB测试流程

下面以一个电商产品为例,介绍如何开展A/B测试。

1. 实验背景

背景:某电商app首页商品点击率较低,产品团队急需解决这个问题。

提出想法:产品团队通过用户调研、竞品分析、数据分析等方式找到了几个可能的问题,并针对这些问题给出了设计方案,具体包括使用推荐算法、增加商品展示数量、发放优惠券、增加购物清单功能等。

优先级排序:由于提出的想法较多,而现有的资源有限,因此需要确定优先级,选择优先级最高的想法进行实验。

比如可以按照“ICE评分体系”,即Impact(影响力,即想法对关心的指标的提升程度)、Confident(信心,想法提出者对想法产生预期影响的信心)、Ease(简易度,进行一项实验所需要的时间和资源)。

三项分别打分之后,再相加平均便得到一个想法的综合得分。通过评分后发现增加商品展示数量的优先级最高,因此选择这个想法进行实验。具体评分如下:

业务背景:商品展示页展示的商品数较少,产品团队希望通过增加商品展示数量提升转化率。

业务目的以及期望:希望通过商品展示页的改版(原先一次只展示一张图片,新的版本一次展示两张图片),提升用户整体的点击转化率。

2. 实验设计

  • 实验目的:通过商品展示页的改版,提升用户整体点击率。这里有两点需要注意,第一点是指标的选择,这里选择了点击率,可以了解一下常用的指标有哪些;第二点是预期值的确定,到底提升多少才能达到预期。以谷歌为例,他们认为2%就是一个很大的提升。这里我们采用谷歌的标准,即当实验组比对照组至少提升2%的效果。
  • 实验受众:打开App首页的用户。
  • 自变量:实验组展示改版后的电子商城首页,展示的产品更多,对照组展示改版前的首页。
  • 自变量取值:商品展示页是否改版。
  • 因变量:点击率(点击商品的人数占进入首页总人数的比例)。

3. 实验样本及实验时长的确定

AB实验需要用到随机抽样,也就是随机从产品的用户中选择一部分,那么要选取多少呢。

想象一下,某工厂刚生产了一万件零件,现在想要测试这批零件是否合格,那么要选择多少样本进行检测呢?一件、两件还是一万件?

选择的样本太少,恐怕没有说服力;选择的样本太多,成本又太高。最好的方法其实是在满足统计学意义后,样本要尽量的少。

下面的公式给出了样本数量的计算方式,如果你看不懂,可以直接略过,知道有方法计算就好。

为确定样本数量,我们先要确定三个值,即显著性水平或第一类错误概率alpha一般取值为0.05或0.1,第二类错误概率beta,一般取值为0.1或0.2,以及实际想要达到的效果,比如点击率提升2%。

其中,

  • Delta表示预期的提升,在这个例子中,我们期望提升2%;
  • sigma表示样本方差,在比率的情况下,sigma^2=p(1-p),p是样本的某一比率,比如现在首页产品的点击率为67%;
  • alpha第一类错误概率,一般取值为5%或1%;
  • beta第二类错误概率,一般取值为0.1或0.2;
  • z:正态分布累计概率为x时对应的分位数。

假设过去两周内,平均每天有50000人打开过我们的app,若分成了四组实验,每组实验的流量不一样,要保证获得流量最小的那组达到最小样本所要求的数量。

比如,流量最小那组占总流量的20%,即50000*20%=10000,而最小样本数量为26000,因此至少需要26000/10000=3天。由于周末会影响实验,所以一般会取整周时间;同时,要考虑节假日以及特殊的事件。

4. AA实验

AA实验:指的是实验组和对照组所执行的策略是一样的,用于判断分组方式是否引起显著的差异。如果A/A实验的结果也是显著的,说明实验方式本身会造成差异,因此A/B实验的结果应当结合A/A的结果做校正分析。如果A/A实验的结果不显著,那么A/B实验的结果无须校正。

5. 实验上线

实验上线分为两部分,第一部分是数据的获取。如果现有的数据能满足我们的实验需求,就不需要做什么;否则可能会增加数据埋点,以获取所需数据;第二部分是流量控制,让用户在进入首页时,划分到相应的实验组和对照组,比如根据用户ID的奇偶性分组。

6. 实验结果分析

在实验周期结束,拿到数据后,就需要进行数据分析,主要是计算统计值,以判断实验结果在统计学上是否具有显著性,从而进行决策。至此,一个完整的A/B实验流程结束。

二、后续:关于指标的选择

数据指标从业务上可以分为用户数据指标(比如日新增用户数、用户活跃率,用户留存率),用户行为数据指标(PV、UV、转化率)以及产品数据指标(GMV、客单价、复购率);

数据指标从数学定义可以分为分布相关(平均数、中位数)、概率和比例(用户点击的概率)、比率(两个数做除法)及求和计数等。

在选择指标时,要保证选择的指标是一个具有高灵敏度的指标,这意味着这个指标可以捕捉到你所关心的变化。

同时,当你不感兴趣的事情发生时,指标不会发生很大的变化。

如果一个指标太敏感,那么它就不够稳健,因此在这两者之间有一个平衡点,你需要研究一下数据,找出要使用的指标。可以使用AA测试进行检验。

 

本文由 @Clarence 原创发布于人人都是产品经理,未经许可,禁止转载

题图来自 Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 于军的书里说过公式是在一定约束条件下才能生效的,你可以确定你那个晦涩难懂的公式是万能的么?

    回复
  2. 在选择指标时,要保证选择的指标是一个具有高灵敏度的指标

    来自广西 回复