干货|微信230万社群生命周期研究
最近读了一篇arXiv上的文章,是清华大学和腾讯公司的一批人运用微信群组数据做的研究。刚好,我目前对社群这块兴趣异常浓厚,所以就认真读了一下这篇文章,于是做笔记如下。先说说我看到的这篇文章的亮点吧:
- 据作者说,这是第一篇用腾讯微信数据来做分析的学界文章,这个理由绝对牛,太霸气了。要做研究就得这样,找别人没有分析过的牛数据。微信,大家都知道了,目前是全球第二大即时通讯软件,月活用户已经6亿了,分析这个数据绝对牛。我们学界一直鼓励腾讯的哥哥姐姐们开放这块数据呀,能出不少有意思的研究;
- 这大概也是第一个(至少为数不多)研究由即时通讯组成群组的文章。在中国,社群这个概念方兴未艾,但是查遍各类英文文献,似乎没有对应英文词。对社群划分的一种特征就是由即时通讯(手机移动互联网)构成的群,它会比社交网络、传统的论坛、网络社区具有更高的黏性;
- 用群的结构特征预测群组发展动态。这个好像已经是目前机器学习研究社交媒体、群组一种很常规、标准的范式了,但个人接触这样的研究不多,所以觉得很有意思。
0、文章基本信息
作者:Jiezhong Qiu†, Yixuan Li♯, Jie Tang†, Zheng Lu‡, Hao Ye‡, Bo Chen‡, Qiang Yang⋆, and John E. Hopcroft♯
单位:†Department of Computer Science and Technology, Tsinghua University ♯Department of Computer Science, Cornell University‡Tencent Corporation, Beijing, China. ⋆Department of Computer Science, Hong Kong University of Science and Technology
标题:The Lifecycle and Cascade of Social Messaging Groups
下载地址:http://arxiv.org/abs/1512.07831
好,下面我想详细叙述一下这篇文章的几个有意思的地方
1、数据集
首先,关于数据(没办法,现在数据在研究中的作用太重要了)
作者用了微信的群组记录,从15年7月26日到8月28的34天数据,包括230万个群。数据内容包括:
群组活动(谁在什么时间在什么群组活跃)、用户的集合、邀请记录(谁于什么时刻邀请了谁加入群),以及朋友关系数据(谁和谁在什么时刻成为好友)
2、群组的两类生命周期
微信群按照功能和时间长短可以分为两种:基于事件建立的临时群,和基于组织和长期社会关系建立的长期群,这在群的生命活跃时间长度分布上体现得很明显,如下图所示:
我们看到,临时群组的生命周期大概不会超过5天,而长期的群组会在一个月以上。
3、群结构特征的演化
接下来,作者主要研究了群的结构。所谓的结构,就是指群内成员之间由好友关系构成的社会关系网络。如下图所示:
如图(a),这是一个群内的社交网络。作者主要用了两个指标来度量群的结构,一个是开放三角形的比例,所谓的开放三角形就是形如图(a)中ADC这三个节点形成的局域结构;另一个是封闭三角形的比例,如图中的ABC;还有就是连边的密度,就是连变数除以C_n^2,即这些点全联通时候的连边数。
然后,作者看这三个指标的演化。也很简单,它首先在起始点计算了这些指标,然后在一月后再计算这些指标,得到b、c、d这三张图。然后分别就长期和短期(蓝色和绿色)的结构指标进行了比较。假如结构没有变化,那么曲线会落到斜45度对角线上。现在看来长期群相对于短期来说变化是更大的。说明长期群更受这些结构因素影响。
4、邀请层次树
由于微信的邀请好友机制是任意群组中的人员都能邀请。这样,从第一个建群的人开始,他就可以邀请其他人,然后这些入群后的人又可以邀请……,这就构成了一个级联性的树状结构。比较长期群和短期群,它们的树状深度是不一样的,如下图:
长期群结构更深,短期群更扁平。
在这个树中,节点是人,连边是邀请关系。我们可以用一种叫做“结构病毒性”(Structural virality)也叫Wiener指数的指标来刻画这个树的形状。Wiener指数定义为平均任意两个节点的距离。它越大说明树越深长。在此,我想到了树的异俗标度律指标也能计算这个玩意,参见
http://wiki.swarma.net/index.php/%E6%A0%91%E7%9A%84%E5%BC%82%E9%80%9F%E6%A0%87%E5%BA%A6%E5%BE%8B
5、生命周期预测
接下来,作者尝试用群组的静态特征,包括结构特征(局域网络结构)、成员的人口特征(如性别、年龄等)来对群组的寿命进行预测。基本套路是把一部分群数据作为训练集,运用SVM(支持向量机)来进行预测,但预测不是重点,重点看精度。结果发现,结构特征起的作用最大。预测准确度能在60%以上。而且我们甚至只用1天的数据就能预测很好了。如下表
6、成员入群特征及其预测
最后,作者分析了什么样的人更容易被邀请入群,以及什么样的人容易邀请成功。并且也用结构特征加以预测。如下图所示:
这个圈里面的节点都是群组内的,蓝色的节点表示在某时刻发出邀请的人,红色的节点表示被邀请的人。白色的节点表示边缘节点(没有入群,但是已经是群内某成员的朋友)。虚线表示的朋友关系,蓝色箭头表示的是邀请关系。
接下来,作者看看什么样的人更容易被邀请加入群。他们通过两个指标来计算,一个是这个节点的所有朋友中已经加入了该群的人数;第二个指标是这个人的结构多样性,定义为这个人为中心的一级近邻构成的朋友关系网络中联通集团的数量。如下图所示:
如左图所示以V为中心的局部网络,蓝色节点是已经入群的,所以k=4。另外,如果将V和所有连遍去掉,那么会剩下3个联通子图,所以它的结构多样性为3.
然后,我们来看一个节点被邀请的概率随k和结构多样性指标如何变化。由(b)会发现,被邀请概率首先随着k增长而增长,但是如果k过大了,那么就会出现震荡的情况,所以k的预测性变差。另一方面,由(c)会发现,被邀请入群的概率会随着结构多样性变大而衰减。无论这个中心节点有多少个朋友。也就是一个人交朋友的情况越单一,它加入一个新群的概率就会越大。
最后,作者对一个人是否会邀请,以及是否可能接受到邀请来进行预测。发现准确度能达到95以上。而且群组的历史特征对于预测谁会邀请别人特别有效,而如果要预测哪一个人被邀请,那么局部的结构特征就很重要。而用户的人口特征相对来说不重要。
作者:jack
原文地址:http://www.swarma.org/swarma/detail.php?id=18739#rd
这么牛逼的帖子 最近在研究“视频号 私域 社群”对品牌的影响, 可以加微信 15201405290