数据分析常见误区(一)
本文通过一个实际例子揭示了辛普森悖论现象,即在分析不同条件下的数据时得出的结论与整体数据得出的结论截然相反。通过深入探讨这一悖论,本文旨在提醒读者在进行数据驱动决策时,需警惕表面数据的误导,并采取更全面的分析视角。
俩直播间同时向2个地区客户直播出售荔枝,从数据上来看,A地区无论高频还是中低频用户的下单转化率均低于B地区,能否推断出A地区整体下单率一定落后于B地区?
通过上图数据我们可以看出(a)高频客户:A地区高频客户下单转化率5.00%高于B地区3.33% (b)中低频客户:A地区中低频客户下单转化率5.71%高于B地区4.44%
从数据可以看出A地区的高频转化和中低频转化均高于B地区,那么是否A地区的整体转化也高于B地区呢? 答案:不是
我们可以统计计算出来:整体客户A地区下单转化为12/250,B地区同样也为12/250。也就是说A地区的整体转化等于B地区的整体转化。
这就是数据分析常见的1个误区–辛普森悖论:在某个条件的两组数据,分别讨论时都会满足某种性质,可一旦合并,却可能导致相反结论
查看科比和雷阿伦的职业生涯统计,发现无论两分球还是三分球命中率,雷阿伦都高于科比,但总命中率科比却高于雷阿伦。
举一个极端的例子:科比和雷阿伦都出手1000次,其中科比出手999个两分球命中460个,出手1个三分球命中0个,雷阿伦出手500个两分球命中250个,出手500个三分球命中200个。那么科比的两分球、三分球以及总命中率分别是46%、0%、46%,而雷阿伦的则是50%、40%、45%。
由此可以看出,这个问题实际上是不具有贪心特性的,局部最优并不一定能保证全局最优。
本文由 @yyandbb415 原创发布于人人都是产品经理,未经许可,禁止转载
题图来自Unsplash,基于 CC0 协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
做数据分析的误区真的蛮多的,不过作者在这篇文章通过一个实际例子直接揭示了辛普森悖论现象是一篇很不错的参考文章。