被高估的A/B测试
编辑导语:近年来,“增长黑客”的概念盛行,A/B测试作为“数据驱动增长的最佳实践,成为了底层指导逻辑,受到了企业们的青睐。但它也有自己的局限性,A/B测试能够解决的问题有限。本文论述A/B测试的局限性以及应当如何正确看待它。
这不是一篇科普A/B测试的文章,这是一篇想要论证A/B测试局限性的文章。
近几年“增长黑客”概念盛行,A/B测试作为“数据驱动增长”的最佳实践,复刻了用实验数据检验假设的科学研究方法,将“适者生存”的进化理论作为底层的指导逻辑,受到了广大企业青睐。截至2021年3月底,字节跳动累计已经做了70多万次A/B测试。
“产品是演化出来的,而非规划出来的。”
这是张小龙《微信背后的产品观》里的一段话。在这种产品观念中,人类通过收集数据反馈,选择好的产品方案,与自然选择适应度高的生物如出一辙。
如果我们相信进化论是确证的真理,那么对于领域迁移下的“增长方法论”,似乎也不必抱有怀疑。作为进化论的拥趸者,我也一度将A/B测试看作无所不能的杀器,相信可以通过演化的力量获得永恒的增长。
遗憾的是,进化论不只有自然选择,而A/B测试却只有自然选择。由于对进化论过度简化,A/B测试也就滋生了局限性。
一、自然选择是一种贪婪算法
贪婪算法,是指在对问题求解时,总是做出在当前看来是最好的选择。也就是说,不从整体最优上加以考虑,算法得到的是在某种意义上的局部最优解。无论是自然选择,还是AB测试中的选择,本质而言都是一种贪婪算法。
不妨想象生物的进化是在攀爬一座高峰,而自然选择是牵引着生物向上攀爬的动力。自然选择将生物的适应性作为唯一评判标准,对任何基因突变造成的适应性下降的生物,都会毫不留情的消灭。长此以往,整个生物总群终将会抵达这座山峰的顶端。
一切似乎都没有问题。严苛的自然选择总能驱动生物适应性的提升,登顶进化的山峰。人类迷恋这种确定性的增长,想要借自然法则的增长智慧和力量,于是开始崇拜A/B测试。
在“爬山”这个隐喻中,使用贪婪算法确实可以抵达山顶,可是谁说整个进化的景观中,就只有一座山峰呢?
二、进化的另一面
让我们想象一片群山连绵的山脉,在这样的景观中,自然选择会牵引着生物朝着最近的山峰开始攀爬,可是当生物成功登顶这座山峰后呢?
这时候,自然选择的严苛就成为了短视的表现——因为自然选择不允许任何的适应度下降,于是从生物开始攀爬一座山峰时,就注定被困在了这座山上。
如果这座山正好是整个景观中的最高峰,比如珠穆朗玛峰,那么生物也理所当然会在自然选择的牵引下登顶,达到进化的顶端。可惜并非所有的生物都那么幸运,它们更多是被困在虫鱼鸟兽的山上,只能在已有的基础上不断调优,却永远无法打破底层结构。即使是人类,也无法保证自己在攀爬的是进化景观中的最高峰,我们同样是受困者。
如果佛系一点,不去奢求攀爬整个景观中的最高峰,而只是攀爬脚下这座山时,自然选择同样有可能带来困境——因为上山的路不总是平坦的,它更有可能是坑坑洼洼的,而自然选择不允许向下,贪婪算法无法帮助我们通过一条坑坑洼洼,需要反复颠簸上下的路径。
自然选择的贪婪短视,推及到AB测试,我们有理由认为每一次的择优只是在逼近局部的最优解,却不能带来全局的最优解。当然,自然选择只是进化论的一部分,在整个进化体系中,还有“遗传漂变”,这在一定程度上可以制衡自然选择的力量。然而将进化理论迁移到产品设计领域时,我们却只看见了“物竞天择,适者生存。”
三、回归于人
回到开头:近几年“增长黑客”的概念盛行,A/B测试复刻了用实验数据检验假设的科学研究方法,将“适者生存”的进化理论作为底层的指导逻辑,但是它没有使用一个好的算法,也就没办法成为产品增长的最佳实践。
那什么才是好的算法呢?如果唯数据论和唯A/B测试论无法将我们带到理想的位置,那么就需要回归人的作用。
曾任今日头条CEO的陈林在微头条发过这样一段话:
- 很多时候,AB测试帮助我们理解用户,而不是帮助我们决策。
- 产品改进只盯着数据,不如不看数据。
字节跳动在给短视频平台起名时内部进行了A/B测试,“抖音”这个选项实际位列第二名,但产品经理从经验角度认为“抖音”长期来讲更符合认知,更能体现这个产品的形态,因此最终选择了“抖音”这个名字。
四、受制于人
回归于人,也就必然会受制于人。
世界上没有两片完全相同的树叶。个体的多样性,决定了不同的人拥有的能力和阅历也不会一样。即便是同一个体,在不同的环境下也可能会产生截然不同的想法和决定。
如果A/B测试回归于人,就需要重新拥抱不确定性。而我们对A/B测试的崇拜,有很大一部分原因就是它能够带来确定性的增长。作为AB测试狂热大厂的字节跳动,在无数次摸索中或许早已参透了A/B测试的局限性,进而更加理性的将其作为工具来看待,而不是神。
本文由 @一寸 原创发布于人人都是产品经理,未经许可,禁止转载
题图来自Unsplash,基于CC0协议
每一次的择优只是在逼近局部的最优解,却不能带来全局的最优解。
A/B测试不是万能的,他是有一定的局限性。他是不可以更好地反映用户需求的