美国小姐的年龄,会影响死于暖气的人数吗?
看到题目是不是顿感疑惑?只看表象很容易得出这样的结论,需要慎重看待看似相关的关系。
前两天有篇很火的文章《幸好不是所有聪明人都在批发快感》,批判了目前主流的互联网生产力都聚焦在提供用户“奶头乐”(Tittytainment),并赞扬了少部分不局限在眼前的苟且,依旧致力于全球人民福祉的公司与项目(友情提示:以IBM为关键字,在文中被cue了12次)。
当然,观点我同意,正如那位热衷于从0到1的大佬彼得·蒂尔当年也抱怨过:“我们想要一辆会飞的汽车,得到的却是140个字符。”
被点歪的科技树,仿佛在把社会引向尼尔·波斯曼所构想的“娱乐至死”,并且“文化向技术投降”的地步。
但原文中为了责怪大众科技加深了人们的负面情绪,引用了如下的论据和证明方式。
“随着iPhone的发布,美国中学生的孤独感却几乎直线上升”
我无意为iPhone是否真实导致了这种情况的发生辩护,但单纯从文中对于数据的使用及论证方式,在未经相关性验证的情况下,将不特定事件定性成为因果关系。不仅没有依据,并且煽动大众对于事实的认知。捎带使得我对全文的动机产生怀疑(再一次提示,IBM作为正面案例,在文中被cue了12次)。
A导致了B?
作为互联网行业的数据分析工作者,日常会处理大量的信息来判断平台的健康程度以及制定优化办法。其中,需要解释两组波动数据间的关系时,就需要花一定时间去思考数据间的关系是因果,还是相关?
举个“因果关系”的例子:
先前在滴滴运营快车时,当其他人为因素(如补贴、司机运力等)不变,天气状况是直接影响每天订单量的原因,呈“微笑曲线”状。三伏天、冬至或者暴雨的极端天气,都可以导致订单量大幅增加;风和日丽的天气大家都愿意走路去公共交通站,使用更便宜的交通方式。
这是通过常理可以推断,并且基于数据验证后的结果。
而对于相关关系,如果一个事件变化后,另一个事件也随之发生变化,但二者不属于原因和结果的关系,则称它们之间存在“相关关系”。存在相关关系的两个事件之间虽然有关联,但不属于因果关系。
日本经济学家中室牧子在判断区分因果及相关关系时,列举了三条判断原则:
1. 是否“纯属巧合”?
两个事件看似有关,其实只是“纯属巧合”。像这样,两组数据的变化趋势只是碰巧相似的现象被称为“伪相关”。
美国分析师维根·泰勒在他的著作《伪相关》(SpuriousCorrelations)和网站(tylervigen.com)就介绍了非常多这样的“伪相关”关系。
比如,文章标题中提到的“美国小姐的年龄”和“全美死于暖气的人数”变化一致,相关系数达到0.87;数据高度相关,但这两个现象间有必然的关系吗?
又比如,“美国在科技、太空领域研究的投入”与“用上吊、窒息而自杀的人数”,相关系数更是高达0.998。科学领域每投入1块钱,就会激励更多人去上吊。变量数值尽管相关,但这两个事实之间又有什么样的直接关联?
2. 是否存在“第三个变量”
其次,我们必须要质疑是否存在同时影响原因和结果的“第三变量”,或者说是“混杂因素”。它可以把纯粹的相关关系包装成因果关系,干扰人们判断。
在美国中西部的一个小镇,地方警察局发现冰淇淋消费量越多,犯罪率就越高。这个例子中,冰淇淋消费量和犯罪率是正相关的;但并不意味着冰淇凌消费的增多导致了犯罪率的上升,更不可能通过减少冰淇凌的销售来降低犯罪率。
然而,我们猜测存在某个变量同时和冰淇淋消费量、犯罪率相关。这个变量可能是室外温度,当室外气温变暖,如在夏天,就会有更多犯罪(白天更长,人们多开窗口等);因为天气变暖,人们更享受吃冰淇凌的乐趣。相对地,在又长又黑暗的寒冬,冰淇凌的消费就减少,同时犯罪也越少。
当然这也只是一种基于现实生活的猜测,并无切实的依据。
3. 是否存在“逆向的因果关系”
还是拿警察与犯罪的例子。
通常警察多的地区,犯罪案件数量也多。但是,将犯罪数量的多少归结为警察人数的增多,难道是在暗示犯罪都是由警察引起的吗(警察→犯罪)?正好相反,不如说因为某处是犯罪多发的危险地区,所以部署了大量警力,这么想可能才更合理(犯罪→警察)。
本以为是原因的事件其实是结果,本以为是结果的事件其实却是原因,这种状态被称为“逆向因果关系”。
iPhone真的导致美国高中生倍感孤独吗?
回到文中的例子,iPhone是不是真的会导致美国高中生倍感孤独?
要得出这个结论,显然需要大量的分组实验(A/B test)进行更深入的研究。
比如,在同一学校,不用iPhone的高中生分一组,用iPhone的高中生分一组。
用iPhone的学生中,又需要依据使用时长,APP使用偏好再进行区分(要知道Facebook面向高中生,Twitter这样的社交网络仿佛与“孤独”心理更有关联,他们的变化与推出也都是在05-06年间),再去论证上述的结论。
结语
在目前没有足够数据支撑的情况下,我无法下定论。
每个人是一个社会关系的总和,包含了各类我们称之为“不确定性”的东西。同时,科技的发展本身一直在充满争议,“科技伦理”(Technical Ethics)在大数据逐渐成熟、AI起势的情况下,越发重要。
此时,任何企图把人、心理和科技三者相关联的结论,尤其需要谨慎对待。
作者:黄嘉伟,专注银行在移动金融领域内的战略、运营和数据咨询服务
本文由 @黄嘉伟 原创发布于人人都是产品经理。未经许可,禁止转载
题图来自 Unsplash ,基于 CC0 协议
文章很棒,阐述的很清晰