数据分析误区系列(四):生日悖论
一个23人以上的群体,就有50%的可能有至少两个人同一天生日。这个生日悖论,是我们在数据分析中常常忽略的误区。这篇文章,我们看看作者的分析。
公司运营团队精心构想了一个年终大促活动,通过完成特定任务获得财神卡片。玩家只需集齐五路财神方可兑换精美礼品。卡片中奖概率分别为0.1、0.1、0.15、0.15、0.5。这下内侧同学闹腾了,有人认为玩家大概需要尝试10次就可以拿齐所有卡片,也有人断言至少需要100次方可达成此目标,还为此争执的不可开交。
当然这种概率问题有个比较好的一种解决方案叫蒙特卡洛算法。不过这里我们先不讨论解决方案(感兴趣的同学可以翻看以前的文章,有篇专门讲基于蒙特卡洛测算概率的)。
在概率学上我们把前面提到类似集齐财神需要10次还是100次,这种根据自身直觉做出的非理性判断,称为“生日悖论”。
如果我告诉你在一个人群中只需要23人,就有50%的可能性其中至少两个人共享同一天生日,你会不会感到惊讶?这就是所谓的”生日悖论”,一个人们常常忽视的数据分析中的误区。
许多人第一次听说生日悖论时,往往会感到非常惊讶。 因为直觉上我们会认为365天的日历年里,需要至少183人(即365的一半)才能使至少两人生日相同的概率达到50%。这种直觉反应实际上揭示了我们在处理相关性数据分析时的一个突出误区。
这个误区的产生源自于我们对问题的理解方式。实际上,这个问题并不是在问:“在23个人中,有多大的可能性有人和你生日相同?”而是在问:“在23个人中,有多大的可能性有任何两个人生日相同?”这里的区别十分微妙,但却有着巨大的影响。
原因在于,我们并不是在找一个特定日期(例如你的生日),而是在找任何可能的配对,这大大增加了找到匹配生日的机会。在23个人的情况下,实际上有253种可能的配对方式。
数学家通过以下公式计算出生日悖论的每个概率:
P = 1 – [(365/365) * (364/365) * (363/365) * … * ((365-n+1)/365)]
其中 n 是群体中的人数。使用这个公式,我们可以发现只需要23人,就有50%的可能性至少两个人生日相同。到达60人时,这个可能性已经超过99%。
生日悖论揭示的数据分析的误区它提醒我们:从集体而非个体角度看问题,可以大大改变我们的看法。在处理数据和概率时,我们需对直觉的可靠性保持警惕,正确地理解问题所需的条件和组成。
我们应从生日悖论中吸取的教训,即提醒我们在数据分析时不仅要关注直觉,更应注意实证的、数理的分析方法。我们在处理复杂的概率问题时,通常需要深入理解问题的本质。只有通过准确而深思熟虑的分析,我们才能做出最佳决策。
本文由 @佑佑和博博~ 原创发布于人人都是产品经理,未经许可,禁止转载
题图来自Unsplash,基于 CC0 协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
- 目前还没评论,等你发挥!