不应被神化的AB测试

13 评论 19246 浏览 109 收藏 16 分钟

AB测试的确可以解决很多的问题,但是滥用AB测试可能会带来更多问题。

2018 年,中国移动互联网用户增长放缓,上半年仅增长 2 千万。但是头条系却异军突起,超过百度系、阿里系稳居总使用时长第 2 名。

不应被神化的AB测试

头条系的崛起有许多的原因,强大的数据监控系统,成熟的增长引擎,上百组同时进行的AB测试等等都在帮助产品经理和运营们找到最优的方案。

36Kr曾在一篇报道中写道:

“头条发布一个新APP,其名字都必须打N个包放到各大应用市场进行多次A/B测试而决定,张一鸣告诉同事:哪怕你有99.9%的把握那是最好的一个名字,测一下又有神马关系呢?”

头条系强大的数据监控系统很难模仿,他们的增长引擎也不是短时间内可以研发出来的。于是广大的互联网人便把学习的目标放到了整个增长过程中最后的执行工具——AB测试。

“不了解用户需求?没事,可以先AB测试。”许多产品经理开始用这样的理由安慰自己。现在的用户自己都不知道自己要什么,我只要会AB测试就行了,毕竟头条系不就是这么成长起来的吗?

但是只学习工具,不学习其精髓很快带来了一些预料之外的结果。

既然拥有了AB测试这样一把趁手的锤子,面对任何产品优化都会想着用AB测试,在产品优化的过程中AB测试的重要程度越来越高。于是,AB测试被滥用了!

据AppSumo评估,只有25%的AB测试产生了有意义的结果。而一次完整的AB测试周期可能就需要几周的时间。

虽然AB测试可以解决很多的问题,但是滥用的AB测试可能会带来更多问题。

认知圈

当我们遇到危险状况时,本能反应会让我们跑动起来,尽快远离危险。这种反应速度非常快,大脑还来不及进入理性的思考我们就已经开始行动。虽然没有仔细考虑往哪里跑,但是只要离危险越远就越安全。

随后我们大脑的理性部分才开始运作,通过分析周围的环境,找到最佳的逃跑路线。这可以让逃生几率进一步增加。

人脑的本能和理性很好地诠释了什么是二八原理:本能的部分响应速度快,瞬间决定跑起来,这解决了80%的问题。即使没有后续的理性部分,逃生的几率也大大地增加。

而随后的理性部分反应速度慢,但是可以找到当下的最优解,找到最佳的逃生路线,解决随后20%的问题。

人对外界的反应模式和互联网环境下产品迭代非常类似。当我们希望通过满足用户需求来实现自己的商业目的时,也有类似“本能和理性”这样两类反应模式。我们想要通过满足用户的需求,从而达到自己的商业目的。而为了达到这样的效果,我们也有两种方式可以选择。

一种方式是通过自己对用户的理解快速找到产品优化的方向,另一种是通过实验找出更复杂更细致的优化。

前者就像大脑的本能反应,这种模式反应迅速,并且能让工作快速进入正确的方向。后者就像大脑的理性部分,这类工作比较费时,但是能处理复杂的信息,找出更好的解决方案。

我们把这种模式再形象化一些,我们可以把用户需求和和我们对需求的认知看成下图中的关系。我们面对的环境就是纷繁复杂、不断变化的用户需求,而我们的“本能”就是中心的认知能力,我们可以称之为认知圈

不应被神化的AB测试

在认知圈的中心,我们对用户的了解程度最高。在这里是一些基础的用户需求概念,比如人性是趋利避害的。

随着越来越靠近认知圈外层,我们对用户需求的理解越来越模糊,比如我们知道人们倾向于通过对比来评估一件事物,不过什么样的对比更有效就不是那么清楚了。

到了认知圈之外,我们对用户需求一无所知,只能通过其他工具帮助我们探索未知的领域,比如AB测试。

根据我们认知圈位置的不同,我们大概有三种模式进行产品优化:

  • 第一种、核心认知圈中,直接依靠对用户需求的理解进行决策。由于我们非常了解用户需求,能够快速找到优化方向甚至具体表现形式。往往几分钟内就能决定出一个方案。并且由于前期有类似案例或者需求非常明确,优化空间已不大,可以直接通过分析得出方案。比如你在某个细分领域的成功经验,可以直接照搬到同一个细分领域的产品中。
  • 第二种、模糊的认知圈中,依靠对用户需求的理解指出方向,再依靠AB测试优化表现形式。这种情况下,我们对用户需求有一定的理解,但并不是特别清晰,只能给出大致的方向。比如你这次去的也是负责同一个细分领域,但是新产品的平均年龄更低。虽然你之前的成功经验很有用,不过具体的表现形式上可能要考虑年轻化。这就需要一定的摸索,但是大方向依然是不变的。
  • 第三种、认知圈外,不停试错找出大致的方向,然后再逐步优化。在认知圈外,我们不清楚用户的需求到底是什么,只能需要通过AB测试通过不断地是错,帮助我们在不了解用户具体需求的情况下继续优化。但是这样的效率非常低。

互联网人要快

前文提到的本能在面对危险马上逃跑,这能为自己赢得时间。互联网环境下,我们的时间也一样宝贵。

一个功能的上线时间比竞争对手晚上一个月,就可能就会让一个新兴领域的领导者失去优势,甚至直接宣告失败。所以,为了获得或者保持竞争优势,我们在产品优化时,有一个很重要的概念就是单位时间带来的收益。

花费相同时间的改动,优先选择带来收益更大的方案。

获得收益接近的改动,优先选择花费时间更少的方案。

那么,如何知道哪种方案带来的收益更大呢?

越靠近认知圈的核心,我们越有把握预测产品改动将会带来的收益大小。

越远离认知圈的核心,我们对产品改动带来的影响的预测就会越不准确。所以,在认知圈中进行决策是效率最高的,我们应当尽量在认知圈内进行改版决策,从而在最短的时间内提升产品体验,提高竞争优势。

每个人的本能都是一样的,这是写入到我们基因中的底层代码,每个人几乎没有差别。而每个人的认知圈的大小却差别很大。

有些人的认知圈更大,对于许多优化问题能够高效率地找出最佳方案。

而有些人的认知圈很小,每一次的优化需要花费数周甚至数月的时间来完成。这在快速发展的互联网环境下,很容易就被淘汰出局。

而AB测试,就是一种非常耗费时间的优化方式。

很多AB测试是在重复造轮子

对于用户的理解很多时候是建立在心理学、社会学的基础上。

这两个学科的研究成果往往都是来自于大量的双盲实验,实际上这也就是一种AB测试。

比如峰终效应,含义是我们对一项事物的体验之后,所能记住的就只是在峰与终时的体验,而在过程中好与不好体验的比重、好与不好体验的时间长短,对记忆差不多没有影响。

心理学家丹尼尔·卡纳曼做了一系列实验,其中有一组是这样的,他要求实验者把手指放到冷水中60秒,然后再邀请同一批人用另一个手指做同样的事情,并额外保持30秒,只不过这30秒里温度会被加热一度。最后,实验者请受试者自己来选择以哪种方式重复第三次实验。

从旁观者的角度看,第一个试验忍受是60秒的冷水,第二个是90秒的冷水,第一个明显会更好,但是绝大数实验者却都选择了第二种。

如果这个知识在你的认知圈中,那么你就知道在游戏APP中需要创造高峰时刻的体验,在MOBA类游戏击杀对方英雄时,在屏幕中央显眼地提示击杀对方,还有双杀、三杀等特殊荣誉让玩家感受到高峰时刻。

结束时还要把游戏中获得的荣誉陈列出来,获得一个完美的结束时刻。

有太多这样的科学家花费大量时间进行双盲测试得出一些知识,如果你一个一个去做,你能花多久得出类似的结论?即使你地得出了类似的结论,无疑也只是重复造轮子罢了。

你的认知圈的扩展实际上是建立在大量的AB测试上,既然已经有那么多专业的科学家做了大量实验得出的现成结论,为什么还要自己重复这一过程呢?

通过学习提升自己认知的成本远远低于自己重新实验,这将节省你大量的时间。

有时连轮子也造不出

当然,如果不考虑时间的成本,能成功造出轮子的话还是可以接受的。但是,很多AB测试的结果并不能让我们积累经验、扩大认知圈。

之前在某特定场景下AB测试得出的结论很难套用在其他场景下,外部条件的不同导致AB测试的结果没有通用性。过去的经验无法预测未来的工作方向,每一个新的场景,都需要重新进行尝试而不是直接找到最佳的方向。而这一次的测试对于未来其他场景下的工作也没有太大的意义。

于是几年之后,你发现除了自己在工具层面的技能和效率有一定的提升之外,认知和思维方式改变并不大。

有时甚至于一摸一样的AB测试,在相近的不同时间段跑出来的结果也是不一样的。如果你没有足够的用户认知,不明白有什么核心因素产生了变化,这样的测试结果就完全失去了意义。并且,用户本身就是这样善变的,无意义的结果会经常出现。

未知的不可控因素甚至让AB测试从科学的试验工具逐步变成了一种玄学。曾经有人开玩笑说,他每次AB测试都会选择放在周四做,因为那是他的幸运日。

随着时间的推移,实验结果的价值在蒸发,时间在变,市场也在变,过去的实验不能给现在或者未来的市场更多的参考。由于实验的时效性,团队为了提供强有力的证据,就必须要不停的花费大量的时间被裹挟着不得不断进行试验。

你不知道你不知道什么

我们把条件再放宽松一些,假设外界环境不变,那么我们是不是就能从AB测试中学习到经验,提高自己的能力呢?

很遗憾,这也是不可行的。

在认知圈之外,我们根本不知道自己不知道什么,因此都无法提出好的AB方案。

就好像现如今搜索引擎让我们找寻答案的方式变得格外简单,但有一样东西你没法上网搜索,那就是你应该搜索什么。

农业社会的人,劳动强度要远远大于现代人,但是生产力却非常低。原因就是他们没有用工业化解决生产的认知,他们想要致富只能想到辛勤的田间劳动。没有正确的认知,就只能提出低效率的解决方案,根本无法想象出还有其他的解法。

在互联网环境下,如果你知道用户的购买决策是建立在感性的基础上的,那么你能够提出一种AB测试,两者的内容都是基于用户的情感设计的,看哪一种最能够打动用户。

如果你没有这个认知,可能就会设计出另一种不同的AB测试方案,两者的内容是侧重于不同的产品功能,看用户更看重哪一种功能。

因为你没有遵循人脑在决策时的基本工作模式,基于产品功能的页面AB测试虽然能找到效果更好的一种,但是这只是矮子里拔高个,最好的效果也往往差于基于情感的设计方案。

没有认知的支撑,好的AB测试就像无根之木,无法成长为参天大树。

结语

AB测试很有用,但不应被滥用,更不应被神化。

AB测试是我们认知能力的延伸,而不是我们探索未知的主要工具。花更多的时间阅读和学习,扩展自己的认知圈才是互联网人核心能力的基础。

 

作者:三元方差,公众号:三元方差(sanyuanfangcha)

本文由 @三元方差 原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 为什么不能给一些评论点赞。这个app为什么不做评论点赞功能。。。。

    来自四川 回复
  2. 可怕的是很多人认为自己的认知就是正确的不需要去验证,但是这些人忽略了自身认知的缺陷,很多人只是在自己的领域里积累了经验,但是依然在用过去的经验来指导现在的工作,并没有用底层逻辑来制定方案应对现在的情况,所以才有思想僵化、经验主义等等问题出现。

    回复
  3. ABtext还有个比较容易忽视的问题,就是P值的问题。在1.96标准误差范围内接受实验假设,其实是基于误差来源于正太分布或卡方分布的随机变量。还有一个重要步骤就是做残差分析。如果本身残差就有一定规律,应该先检查实验分群是否有问题。

    来自广东 回复
    1. 对!很多人做实验,都不考虑实验人群的显著性差异

      来自上海 回复
  4. 有一些是真理是先创造出来,然后再给里面添符合条件的内容

    回复
  5. 棒。 不断扩大自己的认知圈,通过不同的方式不同的媒介(人,书,行etc),扩大多维度的认知圈包括非自己领域的。

    来自美国 回复
  6. 对产品的感觉和认知仍然是非常重要的,AB测试也应该基于这个认知之上。如果缺乏思考,过分依赖测试,可能面临的问题会越来越来。

    来自江苏 回复
    1. 是的,我正是看到身边许多的产品新人由于认知的匮乏,开始越来越依赖测试,所以才写下这些想法。

      来自浙江 回复
  7. 666

    来自福建 回复
    1. 是否收到

      来自广东 回复
    2. 舍得放手

      来自广东 回复
    3. 东方大厦的

      来自广东 回复
    4. klafopdsjaosjddasf加拿大看了会疯狂的撒娇哭了发几点上课啦九分裤垃圾分类卡健身房里看见啊弗兰克九分裤阿数据反馈来的减肥卡拉斯京风口浪尖啊司法解释

      来自广东 回复