大数据帮你洗脑:你是如何混淆因果关系的
这是一个人人都谈大数据的时代,不过数据真的是有益的吗?其实不一定,数据经常也会忽悠人。
请一句话评价下列事件(假设数据是真实的):
- 研究发现,越是成功人士,睡眠时间越短。
- 研究发现,女人结婚后变得更加贫穷,男人结婚后变得更加富有。
- 研究发现,越富有的人越幸福。
- 研究发现,儿童时期吃西兰花越多,成年后往往职业收入越多。
- 研究发现,去医院越多,越容易生病。
- 过去20多年跟踪研究发现,中国GDP越高,90后一代身高越高。
……
根据本人潜水博客论坛观察总结,大部分人的评价是这样的(至少前3个事件的评价是这样):
1,研究发现,越是成功人士,睡眠时间越短。
这么说,我要是不睡觉,是不是薪水就上亿了?
2,研究发现,女人结婚后变得更加贫穷,男人结婚后变得更加富有。
看来还是女人对婚姻牺牲大啊!结婚导致女人收入变低,却增加了男人收入。
3,研究发现,越富有的人越幸福。
屌丝们洗洗睡吧,你幻想的穷开心是不现实的。
4,研究发现,儿童时期吃西兰花越多,成年后往往职业收入越多。
我勒个去,都怪我小时候西兰花吃少了,大白菜吃多了!
5,研究发现,去医院越多,越容易生病。
唉,以后生病还是别去医院了。
6,过去20多年跟踪研究发现,中国GDP越高,90后一代身高越高。
哇!原来提高GDP还有这好处!不过,如果将来中国GDP下降,下一代怎么办?
等等,貌似这上面的逻辑有点问题吧?
实际上,上面的每一个推理都有严重的逻辑错误,都是错把相关关系当做了因果关系:
A越多,B越多,这是相关关系。
A越多,导致B越多,这是因果关系。
而如果没有进一步的调查和理论,相关关系是推理不出因果关系的。
为什么?
请看下面这个“脑筋急转弯”:
猜猜,下图的鸡和蛋是什么关系?
直觉:母鸡刚刚下了蛋。
第二直觉:还有可能是这个母鸡是由这个鸡蛋孵化出来的。
其实,它们有4种可能的关系:
(注:鸡蛋例子引用自李宏彬教授讲座)
同样,两个“A越多,B越多”这样的相关性实际上有4种可能(以收入和睡眠的为例):
- A导致B:更少睡眠导致收入增加。
- B导致A:收入增加导致睡眠减少。
- A和B同时被C导致:随着年龄的增长,人对睡眠要求减少,因此睡眠少。同时年龄大的人,往往经验、人脉、知识更多,也自然收入更多。
- A和B没有任何关系: 美国、西欧等经济发达,导致人们收入高;同时他们爱吃牛排,导致睡眠需求减少。(数据仅为举例,不代表真有这样的关系。)
所以,当你看到“睡眠越少,收入越多”这样的统计结果后,不要天真地认为只要你减少睡眠,你也能收入变高。
当然生活中的确有人是这么做的:
我认识一个人,看到了这样一个微博上流行的统计结果后,为了获得成功而刻意减少睡眠。
甚至,当他凌晨2点还在玩DOTA时,你过去问他:“你怎么还不睡?”他的回答是:“睡眠越少,将来越成功!为了赚大钱,我先从减少睡眠开始。而在这漆黑的夜里,只有DOTA能让我清醒。”
所以,假设“成功导致睡眠少”而不是“睡眠少导致成功”,你是无法通过减少睡眠而变得更加成功的。就像白种人喜欢吃牛排,但是你无法通过吃牛排变得更白。
除了“成功VS睡眠”之外,其实上面每个新闻都有类似的逻辑错误:
研究发现,女人结婚后变得更加贫穷,男人结婚后变得更加富有。
这个数据其实无法推测出结婚让女人变穷男人变富,还有可能是:预期自己将来没什么钱赚的女人更想赶紧把自己嫁出去,而预期将来能赚很多钱的男人倾向于赶紧找个老婆。
当然,还有可能是其他原因甚至是完全无关的因素造成了这个相关关系。
研究发现,越富有的人越幸福。
通过这个数据并不能推测出你赚钱后就能变得更加富有。
实际上研究证明,当金钱超过个人基本需求之后(比如已经吃饱穿暖),对长期幸福感没有显著影响。
比如中了巨额彩票的人得到的幸福感只是短期的(类似吸毒产生的幸福感),调查发现,中彩票后6个月,即使你变得比之前富有上百倍,但是你的幸福感指数还是维持在6个月前水平。
(此研究详细请看哈佛大学公开课《幸福课》,by Tal-Ben Sharhar)
那么为什么我们发现富有的人往往很幸福呢?
其实这是因为富有和长期幸福都由类似的因素导致:自信、热忱、勤奋等。所以,你的自信、热忱、勤奋等情商特征有2个产物:
- 能够提升你长期幸福感,让你觉得生活更加有意义
- 能够让你赚钱升职。但这不代表赚钱本身可以提高长期幸福感。
所以,“穷开心”还是存在的。
研究发现,儿童时期吃西兰花越多,成年后往往职业收入越多。
这个新闻是我YY的,但是这句话绝对的正确的!
为什么呢?因为欧美国家的人往往吃西兰花更多,而这些国家的普遍职业收入也很高,所以在全球统计数据上自然会发现“西兰花摄入量”和“职业收入”的相关关系。
但是这并不代表你增加西兰花的摄入会提高未来收入!
研究发现,去医院越多,越容易生病。
嗯,这个也是我YY的研究,但数据也是千真万确!但是这不代表不去医院你就不生病了,因为不是“去医院导致你生病”,而不是“生病导致你去医院”。
过去20多年跟踪研究发现,中国GDP越高,90后一代身高越高。
这更是绝对真实数据!
中国GDP和90后的身高自然是正相关啊—中国GDP从1990年的不到2万亿涨到2013年的50多万亿,90年出生的人身高也从0厘米增长到170厘米。但是这并不能证明是中国GDP帮助了90后长高。
为什么我们总是错把“相关”当“因果”?
先看下面这样图,如果让你对图中的形状分组,你的第一直觉是什么?
我想大部分人是按照位置分类—把图中的图形按照上边的、左边的右边的分为3组。
但是相互靠近的图形可能并没有任何关系,这样分类可能是无效的。
那怎么不按照形状分类呢?第一反应怎么不是把图形分成三角形、正方形和圆形?
这是因为我们本能—觉得相互靠近的东西一定是有关系的,同时出现的事件也一定是有关系的!
这样的本能在远古时代是很有用的,可以帮助人类在陌生的丛林中生存下来。
当他们发现了一个果壳,从而推测出这片森林有大片果树;当他们听到雷声,从而觉得雷声导致了下雨,得赶紧避雨了等等。这些本能帮助人们更好的在那个简单、直接的世界生存。
但是现在社会瞬息万变,信息复杂程度不知道超过远古时代多少倍,我们已经无法通过简单的相关关系来推测因果了。同时出现的事件可能毫无关系,因果的顺序也可能完全颠倒。
同时无数的错觉思维和错误归因不断发生,比如:
1,大众对新闻的错误归因
假设你看到这样的新闻:
《同性恋抢劫超市,致6人死亡》
网友评价:同性恋就是喜欢抢劫!以后遇到他们小心点!
但是,你怎么知道他们的抢劫行为是因为他们的性取向导致的?如果抢劫劫匪穿41码的鞋,今后你会从此远离41码鞋的人吗?“同性恋”和“抢劫”只不过是同时发生的事件,并不代表它们有关系。
当然,媒体人们为了提高点击率,经常使用这样的技巧:让新闻当事人的某个差异性特征出现在新闻上,从而让大众把“相关当因果”,觉得是这个差异性特征导致了他的行为。
类似的新闻评论还有:
外籍男坐过车站抢方向盘敲打司机
这是因为他“外籍”的身份而导致其打司机吗?中国人自己不打司机?
2,盲目学习和模仿
我们经常盲目模仿成功者的特点,觉得模仿了他的特点,我们也能成功。
比如知名的大学无用论:比尔盖茨和扎克伯格都是辍学后才成功的,所以为了成功,我没必要上大学。
请问:他们是辍学导致了成功,还是成功导致了辍学,还是其他因素影响?
健康的人都不去医院,所以你坚持不去医院,你就能变得健康?
再比如企业管理的例子:
苹果公司很成功,同时它给设计师付出的薪水也是最高的。难道就说明它的成功是由其设计师的高薪水导致的?所以你提高自己公司设计师的薪水,你就能成功?
3,刻意规避和迷信
你可能对这个故事感觉到很熟悉:
唉,有一年我第一次吃榴莲,结果当天就遇到了车祸,从此以后,我就再也不敢吃榴莲了。
实际上主人公的车祸和榴莲可能没有任何关系,但是因为是“同时发生的事件”,主人公潜意识觉得吃榴莲导致了车祸,从而对榴莲一辈子心有芥蒂。
错把相关当做因果是很多让人难以理解的迷信的根源之一。
比如在我家乡都有敬车的习惯(每年固定时间向烧纸向上天祈福平安),但是去年突然变更了敬车的习俗—由过去的车头向北变成了车头向南。后来我才知道是因为去年出了很多车祸,大家觉得是敬车时车头向北导致的(相关变因果),从而今年改成了向南。
所以,如果你仔细观察,很多让你难以理解的祖传禁忌,实际上可能是当年某个相关事件的发生导致的—比如出了车祸就再也不吃榴莲了。
结语:
我们正在面临越来越多的数据和越来越多的复杂事件,同时也被要求做出越来越准确的决策。为了应对这样的问题,请不要忘记—别拿相关当因果,数据也会忽悠你!
转载自微信公众号“李叫兽”(ID:Professor-Li),作者李靖。本文已获转载授权,如需转载本文,请联系原公众号“李叫兽”
- 目前还没评论,等你发挥!