千万别因选错指标，毁了你的A/B实验

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

千万别因选错指标，毁了你的A/B实验

小黑哥

2024-04-09

0 评论 1888 浏览 13 收藏

13 分钟

选对AB实验指标，可能是你实验成功与否的关键。本文将揭秘如何选择合适的实验指标，帮助你在实验中快速实现目标。

实验设计主要有三个步骤：选择实验指标、确定实验受众和设计实验版本。

其中，选择正确的实验指标至关重要。在设计实验时，真正尝试过的同学都会意识到这里有很多坑。

很多时候实验上线了，但是指标定义的不准确，导致得不出结论，或者甚至得出了错误的结论；有时候实验表面上看起来很成功，但对下游的某一个指标有很大的影响，但是我们压根不知道。

以上问题，应该如何避免？

一、选择正确的实验指标

1. 实验设计的三个步骤

（1）选择实验指标

选择实验指标是实验设计的第一步，我们要回答的最关键问题是：哪些指标能够衡量实验的成功或失败？这一步非常重要，就像做增长要先找到北极星指标一样，做实验也要先找到正确的实验指标。

（2）确定实验受众

确定实验受众是实验设计的第二步。我们需要清晰地定义出实验受众，并估算出所需要的样本量。这样你就可以根据你具体的情况来做一些调整，比如说减少一些实验的版本数，或者加大这个实验版本的改动的程度。

（3）设计实验版本

设计实验版本是实验设计的第三步。如果采用第三方实验工具，整个流程相对简单；如果要自建实验系统进行设计和开发，流程会比较复杂。

本文主题聚焦于如何选择核心指标，未来再逐步分享如何确定实验受众和设计实验版本。

2. 亚马逊中国的实验指标选择

下面通过亚马逊中国的案例，说明为什么选择正确实验指标至关重要。

（1）亚马逊中国购物车AB测试第一次失败

a. 第一次实验指标选择销售额，新版本表现更差

亚马逊中国想做一个购物车的AB测试。中国用户习惯把购物车当收藏夹用，部分选择产品结账，其余产品留在购物车里。但亚马逊全球的购物车设计是全部结账的模式。

亚马逊中国的团队针对这样的发现，就想设计一个 AB 测试来测一下。如果把亚马逊中国也改成可选择部分商品结账，这样的这样一种更受中国用户习惯的方式，是不是效果会更好？

他们第一次选择的实验指标是销售额，实验上线后，结果是跑了一个月的部分结账版本输给了全部结账版本，销售额更低，不得不进行了回滚。

b. 进一步分析发现新用户不熟悉全部结账，导致销售额虚高但长期满意度下降

团队百思不得其解，为什么在中国其他电商网站上成功的版本，在亚马逊中国不适用？进一步分析后有三个发现：

①第一个发现是新用户刚接触全部结账的版本（也就是老版本）还不够熟悉，很多人都会出现一不小心买多了的情况，所以就会推高老版本的销售额。这些一不小心买多了的用户，只有部分会去退货，因此销售额还是比较高的。

②但是买多了的用户长期满意度下降，因为他们过一段时间反应过来了，发现自己不小心买多了。

③在部分结账的版本里面，很多用户其实会把购物车里面保留的产品过一段时间又买回来，所以这些产品其实是有潜在销售的机会的，但是用户的购买时间存在延迟，因此在之前做实验的事后是显示不出来的。

c. 亚马逊中国首次实验指标选择小结

最后，亚马逊中国团队得出结论：如果第一次实验就对比更多指标，可能会发现全部结账版本短期销售额高，但退货率高，长期满意度低；而部分结账版本长期复购率和销售额更高。但第一次实验只关注了短期销售额，没关注其他指标，导致得出老版本更好的错误结论。

（2）亚马逊中国优化实验指标，二次实验成功

基于上述总结认知，亚马逊中国团队重新定义实验指标，进行二次实验。

核心指标从第一版的短期销售额，变成了综合销售额的概念，不仅包括短期直接销售额，还包括对长期销售额的预期。

同时，也加入了一系列辅助指标，如复购率、下单频次、结账转化率等。这些指标虽然不足以直接说明实验的成败，但是可以从各个侧面辅助我们做出决策。

最后，还加入了退货率作为衡量负面结果大小的指标。

通过全面观察一系列实验指标，部分结账的新版本最终胜出。它不仅带来了综合销售额的提升，还带来了下单频次的提升，终于成功上线。

亚马逊中国团队并没有改变实验版本的任何设计，只是选择了更全面准确的实验指标，就从实验失败变成了成功。

由此可见，AB实验成功的关键在于选择正确指标，包括核心指标、辅助指标和反向指标，以全面、准确地衡量实验成效。

二、准确全面衡量实验成败的三类指标

那么，想要准确全面地衡量实验成败，应该如何选取指标？建议大家考虑选择核心指标、辅助指标和反向指标这三类实验指标。

1. 核心指标：决定实验成败的关键指标

（1）核心指标代表实验的最终北极星指标

核心指标是决定实验成败的关键指标。对于做增长实验来说，我们要找到决定这个实验成败的最关键指标，它是我们后期进行统计显著性计算，决定新老版本哪个更好的指标。

（2）案例：APP首页新手引导板块AB测试

某 APP 做了首页新手引导板块的改版，它的目标是想让新用户了解产品功能，完成初始设置。

实验假设是通过让用户阅读更多的新手介绍文章，告诉他们这个产品怎么用，可以帮助他们完成初始的设置。

A版本是新手文章呈卡片式排列，B版本是文章呈清单式排列。如果关注点击率，就会发现B组清单版本表现更好；但如果关注新手设置完成率，就会发现A组卡片版本表现更好。

这种情况下，核心指标应该选新手设置完成率，而非文章标题点击率。和选择增长北极星指标一样，做实验时也要注意不要选择虚荣指标。

要以实验最终目标为准绳，选择最能代表目标的指标作为核心指标。虽然B组点击率更高，但根据实验最终目标，它的表现更差，最终胜出的是A组卡片版本。

2. 辅助指标：全面了解实验结果

对于绝大多数简单实验，可能只有一个核心指标就够了。但对于比较复杂、涉及长漏斗或对下游指标可能有影响的实验，我们还要选择辅助指标。

（1）影响整个用户漏斗的各个步骤

衡量实验成败的第二类指标是辅助指标，它可以帮助我们全面了解实验结果，确保没有误伤到某些指标。如果实验影响到整个用户漏斗，我们不应只看漏斗的最终步骤，还要监测对整个漏斗所有步骤的影响。

（2）关注下游和其他用户关键指标

如果有一些重要的下游指标，我们要全面观测实验会不会对某个下游指标产生影响，以及对其他用户关键指标的影响。

（3）案例：Airbnb采用关键指标仪表盘全面评估实验影响

事实上，一些硅谷大规模进行增长实验的公司如Airbnb，他们采取的方式是做一个关键指标仪表盘，任何一个增长实验的结果都会放到这个仪表盘上，观察对任何关键指标有无影响。如果有影响都会显示出来，这样就可以避免一不小心误伤到某些指标的情况。

3. 反向指标：提示实验可能的负面影响

（1）为什么需要反向指标

反向指标可以提示实验可能的负面影响。如果负面影响很小或没有，我们就可以宣告实验成功；如果负面影响太高，就算核心指标表现更好，我们也可能直接否决实验结果。一般来说反向指标选取1-2个即可。

（2）常见反向指标

常见的反向指标包括NPS、应用删除率、邮件退订率、push退订率以及页面退出率等。

综上，核心指标衡量关键实验成果，辅助指标全面理解实验作用，反向指标防止忽视负面影响。

4.综合案例：电商网站购物车按钮AB测试指标选择

举例，如果一个电商网站想做加入购物车按钮的AB测试，测试各种购物车按钮哪个表现更好，应该怎么选择指标？因为购物车按钮在产品详情页上，我们可以把整个用户购物漏斗画出来。

（1）核心指标

此案例中，应该选择的核心指标就是加入购物车按钮本身的点击率，因为它是实验想影响的主要的目标。

（2）辅助指标

在这个例子里面，虽然最终的目标是提高销售额，但是加入购物车和提高销售额之间有非常多的步骤，因此我们应该把加入购物车作为核心的指标，而销售额作为一个辅助的指标。

其他的辅助指标还包括加入购物车按钮的点击次数，有多少人访问购物车的页面，或者在购物车下单成功销售额、复购率等等。

（3）反向指标

最终的反向指标可能是退货率。

通过选择合适的三类指标，我们就可以全面衡量这个改动对整个购物漏斗的影响，不会只看到其中一方面而漏掉其他可能的影响。

以上就是如何通过三类实验指标准确全面的衡量实验的结果，后续还会介绍如何通过 AB 测试的系统和工具来确保科学分流和结果的可信性。

所以，不要害怕实验中的失败和挑战，而应该更加聚焦于如何通过科学的方法——正确选择指标、深入了解受众、科学流量划分，来提升我们的实验设计能力。因为每一次实验，都是向成功迈进的一步。

本文由 @小黑哥原创发布于人人都是产品经理，未经许可，禁止转载

题图来自 Unsplash，基于 CC0 协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

小黑哥

【增长黑客之道】公号主理人，10年大厂运营专家提供“策略型用户增长”方向求职服务

98篇作品 218641总阅读量

从理论到搭建，了解B端色彩系统

02-145884 浏览

用AI数字人拍抖音可行吗？

03-169064 浏览

数字营销本质系列2：到底是先数字还是先营销

04-133266 浏览

年度重磅 | 2022年度影响力品牌榜单公布

01-0626160 浏览

大模型带来的Web复兴，会是昙花一现吗？

04-225182 浏览

目前还没评论，等你发挥！