“微博大数据”可以这么玩,让你听到雅安人的真实声音
自从4月20日之后,大家打开微博以后,时间轴上全是关于雅安和地震的微博和信息,这么多天来,大家已经习惯于从微博获取地震的信息,一起为雅安祈福、加油,感觉是通过微博与跟雅安人民一起经历地震的伤痛和感动。 但是,大家有没有认真想过,在关于雅安地震的微博中,哪些是雅安人民的真实心声,而哪些是谣言呢?许多人,肯定会说,好多微博大部分网友都验证过,谣言肯定会被过滤或者粉碎。而冷酷的事实却是,新浪微博作为弱关系的信息网络,度的分布是呈幂率分布的,少数中心节点的链接数大大多于普通节点。 这样的结果导致我们在微博上看到的信息都是大V主导的信息,或者是是他发布的,或者是他加工的。而这些大V有没有到过雅安呢?相信大多数是没去过的,都是在那里坐而论道。所以他们传播的信息,到底是不是真正雅安人的心声,是否真实,我们都要打一个大大的问号。 同时,一个不容忽视的问题是,作为真正的雅安灾区群众的发出的微博,因为本身号太小,拥有的链接数(粉丝数)有限,他们的声音在微博的海量数据里,却很容易被忽略了。相信大部分人,关注了这么多天雅安地震的微博信息,却不会关注一个雅安本地人吧。 有没有办法,把雅安本地人的微博汇集到一起,做一个实时更新的页面,让大家真正了解雅安当地人真正的心声呢。我从事新浪微博数据挖掘的朋友@肖培征 和@张文浩等一帮人,正是基于这个想法,做了一个“雅安之声”的站点,专门汇聚了雅安本地网友的微博,通过他们的视角还原现场最真实的情况。 为什么做雅安之声 据肖培征讲,他创业的方向是微博运营和数据挖掘,雅安地震时,本能的反映是对雅安地区网友的微博进行数据分析。马上从库里找出所在地是雅安的一万多微博用户,调用新浪微博开放接口扫描数据。 每一条微博,都是一个悲惨的画面,我犹如置身雅安,心情沉重又无奈,不知道能为灾区同胞做点什么。 各大互联网公司行动迅速,但都一窝蜂的做寻人。寻人虽然是刚需,但我再做意义不大。 随着时间的推进,雅安多数地区电力、通讯逐步恢复,两天之后,雅安网友发布的微博数量逐渐增多,我的信息也越来越丰富。但是打开电视看直播,打开微博看大V发布的信息,却与我看到的视角完全不同。 大量的救灾信息淹没了雅安本地网友的内容,没有专用数据挖掘工具,在微博通过关键字搜索等很难找到。也许有人需要这些信息,应该发挥优势做个容易使用的产品,让普通网友能迅速找到这些信息。 雅安之声解决的问题 救援人员点击“紧急”按钮查看被标注的微博,迅速找到求助信息及时救助。通过关键字如“帐篷”等搜索微博,精确找到物资缺乏的灾民,为救援物质调配起到查漏补缺的作用。 一线记者可以通过“给力”“气愤”两个按钮迅速获取新闻线索,帮助现场采访。未能到达灾区的记者,可以通过微博内容了解现场情况获取一手新闻素材。 网友可以观看原汁原味的微博直播。内容由雅安本地网友创造,未经媒体或微博大V加工,保持了原汁原味。这里有反应灾情的揪心内容,也有反应日常生活的普通内容,更加鲜活。 产品开发 这些信息的第一用途肯定是救灾,如何让救援人员迅速找到重要信息,信息重要程度用神马参数衡量呢? 已经是22日中午了,黄金救援时间都过去60个小时了,他们没有时间去思考重要程度的算法,那需要大量时间不断的试错改进,而现在最缺的就是时间,必须找到电风扇吹空肥皂盒这种笨拙但简单有效的方法。 肖培征想到了众包,在微博下面设几个按钮,让普通网友看直播时捎带着标注重要性,于是便有了这张草图。 几天的积累,他们的雅安微博用户ID已经增长到一万八千个,用开放接口完整轮询一遍需要几个小时,信息更新速度太慢。与死神赛跑每一秒都要争取,这个时间是无法容忍的。 他们求助新浪官方,新浪免费给他们开通了开放平台之外的“订阅”接口。从开始沟通到正式开通,总共只用了58分钟,效率非常高。但是订阅接口也有数量限制且官方无法更改模块,依然不能满足我一万八千个ID的需求量,而且ID数量还在不断增加。 肖用@勤娘纸 账号发了条微博,招募志愿者请求同行帮助。平时打的头破血流的竞争对手,迅速表态放下恩怨,共享资源解决难题。 开发人员连轴转,从画出草图到产品测试,只用了20个小时,晚上测试修改完毕第一版正式上线。 23日19:49微博发出链接,迅速被转发四百多次,他们收到网友评论和私信大量反馈。从反馈中发现,物资调配信息需求最强烈,因为黄金救援时间已过,救援队伍的主攻方向是发放帐篷等救援物资。 产品存在的问题集中在两点,第一、设定的按钮“重要”没有引起网友的重视,被标注的次数不多,导致重要信息没有筛选出来。第二、标注“重要”的微博是按照标注次数排序,这样排在最前面的反而是几个小时之前的信息。 24日凌晨一点,他们更新了第二版,将按钮改为“紧急”“给力”“气愤”三个,排序规则改为12小时内的微博按时间排序,12小时候后的按标注次数排序。并且添加了关键字搜索功能,方便救援人员根据物资情况精确查找。 三十多个小时的时间,他们更新了两个版本,改了四次算法,加上@独到网 的接口级别较高,微博同步延迟时间压缩到5分钟左右。 此时,雅安之声已经是一个有用、能用的产品了。 当你打开网站,就会看到两万多雅安网友五分钟之前的发的全部微博,可以很方便的找到你需要的信息。 只是网站不太好看,志愿者中没设计人员。 实际效果 根据北大可视化小组@晓如微博 标注的雅安微博用户分布图,我们的数据可以全面反映雅安情况,包括曾经被忽视的天全等县,以及一些偏远的乡镇。 宣传雅安之声的微博被转发489次,理论上净覆盖人数460万,@桔子水晶吴海 @酒红冰蓝 @丁来峰 @白玉峰 等关键人物参与了转发。 24日晚十点钟左右检查PV,发现这几天@独到网 的PV没有任何增长。大家一直忙着看用户反馈改产品,竟然没检查CNZZ的统计。 22:38分修复后,显示15分钟内119人在线,浏览次数为250次。第一微博宣传的四百多次转发是在23日,第二这个时间段不是高峰期,我们大致推断24日PV在一万以上,23日PV在五万以上。 数据的意义 截止24日,2.1万雅安网友中的七千多人在地震后发出14万条微博,活跃用户高达35%,平均每个用户以每天4条的高频率发布微博。之前有微博活跃度下降,微信将取代微博,甚至微博已死等言论,但关键时刻还是微博顶上去了,微博在信息扩散的速度上的确优于微信。 国外已经可以通过社交网络的数据挖掘预测流感趋势,监测灾难时期的民众恐慌情绪等。他们会对抓取的原始数据进行分析,期望能够为救灾工作总结经验教训。水平有限,不敢说一定能成功,但做一下探索,失败了也能让后来者避开陷阱少走弯路。 雅安之声地址:http://www.doodod.com/doodod/yaanzhisheng 本文来源于钛媒体,转载时有删改。