从腾讯“偷”到的3000万数据,究竟要怎么看?
今天看到了一篇文章:《我从腾讯那“偷了”3000万QQ用户数据,出了份很有趣的独家报告!》,原作者写了一个爬虫,以自己为源头抓取好友的QQ,并根据抓取到的QQ数据,总结出了一份报告。
但是仔细阅读后,感觉这份报告趣味有余但是分析不足,还只是停留在看图说话的阶段,原作者还需要一个产品经理!
此言一出,就被朋友甩来一句:“you can you up”
好吧,鉴于我没有亲自写爬虫抓数据,那么就用原文里的统计图,试试看图说话吧,帮助原作者发现更多内容。
活跃时间分布?
- “夜猫子”比“早期的鸟”的数量还要多:凌晨1点的说说数量比早晨7点的多
- 凌晨4点,大多数人睡得正香,熬夜的人也几乎要睡了,通宵的人也大概十分疲惫了
- 大部分人的起床时间在6点到7点之间,因为斜率最大
- 大部分人在8点后开始工作/上课,因为8点前后的两段时间的斜率变化十分明显
- 越是临近中午,人们对工作越是会心不在焉。因为8点到12点之间的说说数量一直在增长(还记得学生时代,上午最后一节课的最后10分钟有多难熬嘛?)
- 吃午饭时间玩手机刷空间,已经是生活常态了吧?
- 午饭之后有人午睡、有人散步、有人读书、有人聊天,总之发说说的人少了
- 当然,也有人午饭后直接开始了紧张的工作/学习,持续到下午饿/下班的时候
- 相比晚饭,人们吃午饭的时间更加集中。发布说说的数量从25000+到28000+的规模,午饭用了一个小时(11-12),晚饭用了两个小时(17-19)
- 22点的说说数量达到最大值,果然人到了深夜容易多愁善感
- 22点之后,大多数人就开始睡觉了,说说数量迅速下降,下降幅度十分惊人
如果不看原文的话,看到这里,我大胆推测原作者的年龄大概在25岁左右,好友里面学生和已经工作人都有一些,且学生较多,在北京上海的工作人群也不会是样本的主流。因为从22点到23点的情况来看,似乎活跃度受到了某种外力的影响而急剧下降,我猜是学校里的熄灯制度造成的。从8点和17点之间的情况看,应该是标准的工作时间。如果在京沪早八点上班的话,一定会被拥堵的交通折磨直至迟到的。
生日分布?
这幅图,作者使用的数据是QQ用户的生日资料。原文里,这个部分是一个十分巨大的槽点
“10月份生小孩的多好理解,一年忙差不多了,天气也不冷不热正是生小孩的好时候。 但1月份最高且和2月落差很大有点不好理解,那么冷的天生不怕冻吗? 我估计是1月份也快过年了,以前没聚一起的好不容易聚一起了,就容易冲动,冲动就啪啪啪。 4月份生日的最少也好理解,中国人不喜欢4这个数字呗。 ”
还是看看我的分析吧:
- 为什么1月的人数特别多?答案其实很简单:因为QQ默认的生日就是1月1日,很多人都没改默认值呀!
- 为什么10月出生的人多?答案并不是原文中提到的“一年忙的差不多,天气也不冷不热正式生小孩的好时候”,真正的原因是……唉,原作者真是太可爱了……十月怀胎呀,那些十月份出生的孩子都是在前一年的年底“产生”的呀!那才是一年忙的差不多了的时候,而且天气冷也不方便出门,所以就……你说对吧?
- 至于4月份出生的人少,同样的道理,你要往前推10个月才能知道原因,前一年的六七月份才是真正的生产日期……而且,想想几十年前没有空调的六七月份的高温,人们应该很难专注于人口增长事业吧……(我听说过最奇葩的分手理由是俩人在一起太热了,大抵如此)
- 另外,如果把4月和10月的生日情况对应起来看,正好对应了前一年最冷和最热的时节,我仿佛已经看到了人口浮动的秘密……不过随着生活水平的提高,主要是取暖和制冷成本的降低,相信在未来,这条生日曲线会更加平缓
看到这里,我大胆推测原作者是南方人,因为4月出生的人实在是少的比较明显,说明夏天一定很热,如果再激进一点,大概可以把范围缩小到那几个著名的“火炉”所在的华中地区吧。
用户所在地分布
这部分我没有找到太多能推测的信息。不过还是可以补充一些:
- 我在第二部分的猜测被证实了,原作者果然是南方人(福兰人)呢!
原作者统计了人数前5名的省份:广东、湖南、四川、江苏,然后好奇为什么在四川人多……
其实,答案很简单,因为四川人多呀…你再看看人数第五位是河南,为什么?因为河南人多呀…而且四川和河南距离原作者都不是很远。
相比之下,人口大省山东,就没能大规模渗透到原作者的好友圈子,为什么?因为山东在北方,人们去霾都北京的意愿会更强烈吧。
年龄分布
这部分也没有太多好说的了,年龄跨度其实不太大。不过还是有几点可以谈:
- 我在第一部分的猜测被证实了,原作者25岁
看图提问,为什么1991年的人口突然会比前后两年的人少呢?
因为1991年是农历的羊年,有传言说“属羊的人命不好”、“十羊九不全”,所以羊年出生的人就比较少了…当然,我们都知道这其实只是谣言,并没有科学依据。唉,封建迷信害人呐…
性别分布
性别统计方面,没填的部分可以按照已知的男女比例进行分配。
- 考虑到有些女生会设置QQ空间的访问限制,以及有些女生会把性别改成男生用来防范骚扰,我们就当男女比例分别是60%和40%吧
鉴于这样的男女比例,我推测原作者大概是个理工男吧,(无恶意的推测)原作者是单身吧 😀
原文还有一些语义和舆情的分析,在下短期内难以发现亮点,就不再继续了。
写在最后
- 会写代码人最帅啦
- 对数据敏感的人更帅
- 这是一个大数据时代,数据的重要性不言而喻
- 数据的确会说话,但是,数据也会骗人
- 面对海量数据的时候,我们要保持冷静,擦亮双眼
以上
本文由 @PMnews 原创投稿,并经人人都是产品经理编辑。未经许可,禁止转载。
我猜。。
10月份为什么那么多 一定是圣诞节惹的祸
单纯因为十月生孩子比较好上学,谋划着要在9月生,备孕时间或者担心万一早产生在八月上学麻烦,十月是最稳妥的预计。
有意思,最早看的时候我就有些疑问了,感觉原作者其实只是在凭自己的感觉说话,并没有一些深刻的理解,楼主想的更深了一层,我个人的的理解,从片面渠道的搜集这些数据其实很大一部分精力是应该用来筛选甄别的,不能自带主观意识,更别被自己骗了
因为计划生育91年最严。。
这个不一定 这是分区域的 我在我们家那都算第二代独生子女了 但是我比91年大
犀利,求作者联系方式,求请教数据分析相关的事情