如何平衡实验效率与准确性？关键点在这里

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

如何平衡实验效率与准确性？关键点在这里

小黑哥

2024-06-03

0 评论 706 浏览 3 收藏

13 分钟

在产品的工作流程中，其实也要做不少的实验和测试，比如AB测试、黑盒测试等。不少人认为实验的结果和准确性是靠方法和执行，实际上，界定实验受众和样本量才是关键，魔鬼往往藏在细节中……

很多人认为实验的成功取决于创意和执行。但其实，关键在于如何界定实验受众和样本量。魔鬼往往藏在细节中……

01 确定实验受众

1. 实验受众的选择标准

（1）全体用户 vs. 特定条件的用户

确定实验受众主要回答两个问题：

哪些用户会被包含在实验中
需要多大样本数和多长时间才能得到可信的结果

针对第一个问题，具体情况需具体分析。

有时希望所有用户都参与实验，就无需特别设置受众；如果只想让特定条件的用户参与，才需要设置实验受众。

设置实验受众的目的，是针对某个用户群体生成更精细的产品优化方案。

第二个问题，本文后续会展开说明。

（2）案例分析：新闻APP广告点击率实验

举个例子，一个新闻APP的用户分两类：看新闻赚零钱的，和喜欢游戏玩乐的。该APP想测试不同广告banner的点击率。

假设是，”喜欢玩乐”的人看到”葛优躺”的banner，点击率会更高。所以进行这个实验时，就应该单独摘取”喜好玩乐”的用户。

针对”喜欢玩乐”的用户，分别投放”葛优躺”创意banner和其他banner，测试点击效果。

2. 实验受众的分类方法

（1）默认分组：操作系统、iOS版本

通过第三方AB测试工具设置实验受众非常容易。工具里有一些默认的受众分组可供选择，比如操作系统、iOS版本等。

假设某个实验只针对iOS 12用户，比如测试一个自动填表单的功能。那进行实验时，就可以选择默认方式，只针对iOS 12用户，因为其他用户就看不到这个功能。

（2）自定义分组：特定渠道来源、产品使用情况

除了默认分组，还可以定制分组。产品经理或增长黑客提需求给研发，由研发来完成自定义受众分组。

比如只想针对某个渠道来源的用户（如信息流广告或百度搜索）给出不同的首页设置，就可以通过自定义受众方式完成设置。

再比如，招行有各种用户：有的有信用卡，有的买了理财。

如果招行想在首页做个实验，但只针对有基金账号的用户，也可以通过自定义受众分组找出这部分人，针对性地做实验。

02 估计所需样本数

1. 样本数的重要性

我们再来看第二个问题：如何预估实验所需的样本数。这里有个例子，一个公司想测试把首页的蓝色按钮改成红色，看看点击率如何。

实验上线3小时后，初步统计100个用户样本数据，发现蓝按钮的转化率是20%，红按钮只有12%。此时很多人就要下结论了：蓝按钮更好。

但等等，这个样本数太小了！不可能根据这么小的样本得出可靠结论。

于是公司继续实验。上线3天后，样本数已经比一开始大很多了，上千个样本，点击数也有好几百。

这时蓝按钮的转化率掉到6%，红按钮的转化率升到9%。感觉差不多了，红按钮应该更好，但还不能完全确定。

如果实验跑300天，样本数非常大。可以看到，两种按钮的转化率都有所下降，但蓝按钮稳定在4.8%，红按钮稳定在7.2%。有了如此大的样本，才可以比较有把握地得出结论。

但在实际的操作中，不可能等 300 天再对一个实验进行分析得出结论。

可见，只有精确界定实验受众与合理预估样本量，才能确保实验快速迭代与结果的可靠性。

2. 影响样本数的因素

如果从结果的可靠性出发的话，样本量越大，实验时间越长，那么实验结果就越可靠。

但是如果从实际工作出发，样本量越小，实验时间越短，才能保证快速上线新实验，试错的成本也越小。

所以想要在这两者之间找一个平衡，其实就是要找到一个最小的样本量，保证达到实验结果可靠，但是又不会浪费过多的时间和样本数。

影响实验所需样本数有三大因素：原版本（对照组）的转化率、新版本（实验组）的转化率，以及统计显著性要求。

（1）对照组和实验组的转化率

两组测试的转化率越小，所需的样本量就越大；反之，两组的转化率越大，所需样本量就越小。因为需要足够的转化用户样本数，这个很好理解。

同时，实验组相比对照组转化率提升幅度越大，需要的样本量就越小；反之，提升幅度越小，比如从1%提高到1.05%，检测的敏感度要求就越高，需要的样本量就越大。

（2）统计显著性的要求

什么是统计显著性？其实就是进行增长实验的时候，通过检验对照组和实验组的转化率差异，来确认这个差别是真实存在的，还是随机误差导致的。这就是”统计显著性”的概念。

如果检验发现某个指标的转化率差异，且统计显著性达到95%，就说明有95%的可能性这个差异是真实存在的。也就是说实验组确实比对照组好，只有5%的可能性是随机误差导致的。

统计显著性越高，随机误差的可能性越低，结果就越可靠。一般做增长实验，建议至少要求95%的统计显著性。

3. 实用工具：AB测试样本计算器

介绍一个工具：AB测试样本计算器，网址是https://www.eyeofcloud.com/abtest-widget/124.html

它主要有三个输入字段：原始版本（对照组）的转化率、优化版本（实验组）的转化率，以及统计显著性要求（可以在90%-100%之间选择）。

输入这三个数字后，它会自动计算出每个版本所需的样本数量。

比如，原始版本转化率15%，优化版本转化率18%，统计显著性要求95%，它会算出每个版本需要1700个样本。

如何平衡实验效率与准确性？关键点在这里

如果新版本的预期转化率与原始版本差别很小，比如只有16%，那每个版本所需的样本数就会大幅增加。

如何平衡实验效率与准确性？关键点在这里

03 估计实验时长

1. 实验时长的计算方法

学会预估实验样本后，我们进一步预估实验需要多长时间。也就是收集到足够样本以确认统计显著性所需的时间。

计算公式很简单：预估实验时长=实验总样本数（各版本所需样本数之和）÷实验页面或路径的日访问量

举例，如果分两个版本实验，每个版本所需样本总量是2900，则所需总样本是2900*2（两个版本），即5800个。

假设该页面每日访问量是580，那预计需要实验10天才能得到统计显著的结论。

如果要分4个版本测试，所需总样本加倍，预估实验时间也就加倍到20天。

2. 实验设计的合理性检查

（1）样本数量与实验时长的平衡

为什么要预估实验样本和时长？就是为了检查实验设计是否合理。

通过预估，我们可以知道达到统计显著需要多大样本，有没有那么多流量或用户量，实验要跑多久，时间是否过长。

如果一个200多天才能完成的实验，基本就等于判了死刑。

（2）反思：小流量情况下的实验设计

所以，如果发现实验样本不够或时间冗长，就得想办法：

a.减少实验版本数。能不能减少实验版本数？比如不要测四个版本，只测两个版本，版本数越少，所需总样本就越小，所需时间也越短。

b.更换实验页面。假如想测试在下单转化路径中加入其他用户的推荐，如果放在最后几步，那里流量可能很少，不如放到产品详情页，同样的思路，那里的流量会大很多，有助于快速得出结论。

c.增加流量。如果面临样本量太小的问题，是不是应该先设法吸引更多用户，留存更多用户，再去做实验？

d.加大改动幅度。在小流量情况下做一些很小的改动，预期变化很小，其实意义不大。因为流量或用户数越少，实验改动就要越大，小修小补作用不明显。

04 大公司与小公司的实验策略

我们经常听说Facebook、抖音每时每刻都有成千上万个实验在跑，Google把一个蓝色按钮测了20多个色号，得出了非常好的结果。

背后的逻辑是，这些产品的用户量巨大，可以进行大量细小的实验。即使每个实验的结果提升不大，但基数庞大，最终对利润和营收的贡献也很可观。

但如果你在一个小公司，流量和用户没那么多，也去测20个按钮色号，很可能的结果是，等到地老天荒也没等到统计显著的结果，公司都黄了。

所以建议流量和用户少的情况下，要做大的改动，同时想办法提升用户基数和流量。

最后总结一下，”要致力于品质的提升，而不是数量的增加。”这句话同样适用于AB实验设计。

通过精细化设定实验受众，合理预估样本量和实验时间，可以在保证数据质量的前提下，有效地减少实验的盲目性，提高实验的成功率和效率，进而为产品和用户体验的优化提供可靠的数据支持。

本文由 @小黑哥原创发布于人人都是产品经理，未经许可，禁止转载

题图来自 Unsplash，基于 CC0 协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

小黑哥

【增长黑客之道】公号主理人，10年大厂运营专家提供“策略型用户增长”方向求职服务

69篇作品 152545总阅读量

国内随处可见的卖崽青蛙，在tiktok里成了顶流

05-294696 浏览

抖音本地生活的7个预测

02-284389 浏览

“客户成功”不重要

03-014170 浏览

电商交易后台：优惠券系统的产品实操记录

03-1010397 浏览

弯道能超车吗？抖音、快手、视频号的电商“逐鹿”

02-015058 浏览

目前还没评论，等你发挥！

淘宝“偷袭”抖音

01-105631 浏览
现在看手机都得稳稳端着，生怕动一下就跳转电商app了

11-043793 浏览
盒马卷山姆，卷到了京东的地盘上

11-011666 浏览