冰与火之歌:数据分析的前世今生(一)
依托于统计学的数据分析,存在许多先天性的不足,例如对数据的精确度要求很高,无法做到实时的分析等等。而当下最时髦的数据分析——大数据分析,就能很好地弥补统计学的不足,下一期我们会讲数据分析的今生——大数据。
从不会说话的死人说起
二战时,从战火中返航的飞机的伤痕呈现某种规律,有的部位中弹多,有的部位中弹少。为了提高飞机的防御力,直觉上似乎应该在弹孔密集处加强装甲。
但如果仅仅根据返航的飞机上的弹孔分布,来研究该加强飞机的哪部分时,就忽略掉了“飞机被击落”这个筛选的过程。也就是说,能返航的飞机都是躲过防空炮火筛选的、没有受过致命伤的。他们多中弹于翼部和尾部,而油箱和驾驶员仓位完好,这恰恰说明翼部和尾部不是致命伤,不应该加强;而油箱和驾驶员仓位受伤的飞机,基本没有活着回来的,因此油箱和驾驶员仓位才是真正致命的地方,这些部位受伤的飞机却因为被击落而被筛出研究样本,从而变成了“不会说话的死人”。
下图为沃尔德在论文中计算飞机被击落概率的方法:
从二战飞机的故事,我们可以看到,同样的数据,都能得出完全不同的判断。而如何做出正确的判断,则取决于人的数据分析能力。这个系列,我会阐述经典的数据分析方法以及当下流行的数据分析方法,即以统计学为基础的数据分析,和以大数据为基础的数据分析。
数据分析的前世:统计学
三百多年前,一个名叫约翰·格朗特(John Graunt)的英国缝纫用品商提出了一个很有新意的方法,推算出鼠疫时期伦敦的人口数,而这种方法就是后来的统计学。他利用教区死亡记录数据来估计伦敦的人口,每年伦敦大约有13000葬礼,每十一个家庭平均每年3人死亡,家庭平均8个人,因此伦敦的人口约为384000。采用这个方法,人们可以利用少量有用的样本信息来获取人口的整体情况。由此我们可以得出统计学的定义:
统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。
统计学的分析方法
所有优秀的分析师,无论专长及目标如何,都会在工作过程中按顺序执行以下流程,同时通过经验数据来推敲各种问题。熟悉地运用这套流程,把它变成你的第二本能,你会发现,无论面对多么复杂的问题,都可以引刃而解。
1. 确定问题
数据分析的核心目的,是为了解决已知的某种问题,例如:
- 坚果PRO今年的销量会达到多少
- 滴滴进军海外市场的第一站该选择哪里
- 朝鲜对于韩国部署萨德系统的态度是怎样的
然而,并不是所有人都清楚他们需要解决的问题,未明确定义自己的问题或目标就开始进行数据分析就如同未定下目的地就上路旅行一样。
我们来看看客户对数据分析师常常提的问题之一:
这个问题表面上非常清楚,客户只是想要你“提升销量”而已,但这只是最初答案,你需要尽量多从他那里多了解一些信息,才能确定问题:
- 你想要提升多少销量
- 公司之前是否有提升销量的策略和方法
- 你觉得当前的目标销量合理吗
- 我们的竞争对手销量如何
- 第三季度的销售数据与第二季度的有很大差异,原因是什么
作为一个数据分析师,你对客户了解越深,你的分析才越有可能派上用场。所以,在沟通之前,你可以构建客户的用户画像,这能帮助你更好地沟通并理解客户的需求:
2. 分析
当我们明确问题,并根据问题收集好需要的数据后,就可以开始分析。而分析的关键点在于分解:
2.1 分解问题
你需要把问题分解为可管理、可解决的组块,以之前提到的“滴滴进军海外市场的第一站该选择哪里”为例,借助思维导图,我们可以对问题做以下分解:
2.2 分解数据
同样的道理,你需要把数据分解为更小的组块,而这里分解的核心在于高效的比较因子,即找出重要数据之间的因果关系/相关关系。找出高效的比较因子的方法有很多,感兴趣的同学可以看看《深入浅出数据分析》这本书。
3. 评估
评估,根据你分解的问题组块以及数据,通过比较,并根据经验或者理论知识做出假设的过程。
4. 决策
决策,即为对你的评估结果进行总结,并向客户提出建议或者方案。对决策内容的表述,建议采用麦肯锡公司的金字塔结构。
以一家B2B电商公司为例
以我曾经工作过的一家B2B电商公司为例,当时上层提出的问题是想要提升广告的收入。
1. 明确问题
即上层对于提升广告收入的一些想法和顾忌:
- 希望广告收入提升30%
- 不希望广告影响用户体验
- 目前广告流量约占网站流量的5%
- 我们的收费模式为CPC模式,之前采用过CPM、CPT模式,但是效果不好
2. 分析问题
我们需要确定提升广告收入的方法:
通过这个公式,我们知道了广告收入的比较因子为:广告流量与广告点击率,由此可以对数据进一步细分拆解:
广告流量:
- 广告都分布在什么页面上?
- 每个页面的广告流量是多少?
- 每个页面的自然流量是多少?
点击率:
- 每个页面的广告点击率是多少?
- 每种形式的广告点击率是多少?
- 近三个月广告点击率的变化趋势是什么?
3. 评估
通过对问题和数据的拆解,我们发现一个很有意思的现象:
企业黄页的点击率远高于其他页面,然而广告流量仅占广告流量的5%。随后,我们对客户进行了访谈,发现B端客户的生意都是几十上百万的,他们在购买商品前普遍都会查询企业的资质以及相关信息,这也就是为什么企业黄页点击率远高于其他页面的原因。
4. 决策
根据上述的情况,我们向产品团队提出了下述两个意见:
- 将其他页面的流量引导到企业黄页
- 优化其他页面,突出显示企业的资质信息
最后,产品团队采纳了我们的建议,下一个月的广告收入同比提升50%。
统计学的局限性
当然,依托于统计学的数据分析,存在许多先天性的不足,例如对数据的精确度要求很高,无法做到实时的分析等等。而当下最时髦的数据分析——大数据分析,就能很好地弥补统计学的不足,下一期我们会讲数据分析的今生——大数据。
作者:曹思龙,微信公众号:及策云课堂。Admaster产品经理,毕业于北京邮电大学,知乎专栏作者
本文由 @曹思龙 原创发布于人人都是产品经理。未经许可,禁止转载。
期待后续 😉
第二篇:http://www.woshipm.com/data-analysis/686309.html
写的不错,数据很美。
感谢赞美,可以关注我的微信公众号,每周更新数据分析相关内容 🙂
受教了,正想了解数据分析相关的知识
第二篇:http://www.woshipm.com/data-analysis/686309.html
挺不错的,下一篇关于大数据分析的什么时候更? 🙄
不出意外,应该在本周 💡
第二篇:http://www.woshipm.com/data-analysis/686309.html