那些行业数据是怎么求出来的?

1 评论 37283 浏览 94 收藏 11 分钟

 本文作者将从数据工具、统计分析、计算和估计以及结果检验四方面来为你解析:那些行业数据是怎么求出来的?一起来看看~

思考一下类似于这样的问题:北京的机动车数量有多少?深圳市有多少家咖啡厅?这些问题的提出,通常与我们的工作息息相关。面对熟悉有陌生的市场,我们经常会遇到数据收集的需求。无论是对运营还是产品,怎么样对市场有一个清晰合理的认识,可能关系到一款产品的市场大小,和需求的强弱。

我在两次上线项目过程中,都需要过类似的数据需求问题。而通过对数据的推测和分析,我帮助产品实施了准确的市场策略。希望与大家分享数据推测的一点心得。

一. 数据工具

其实,在宏观上对数据进行敏锐的统计,我们只有两种方法可以选择:第一种,直接从数据结果维度考虑,考虑一步拿到结果。比如“中国人口和世界人口数”这样的数据,完全是可以通过简单搜索就能完成的,权威部门已经发布过了这样的数据结果;第二种,是在不能获取到直接的结果数据的基础上,想办法透析数据结果的影响变量有哪些,通过分化目标,去获取哪些影响变量的数值,就有机会推导计算出我们需要的结果。

但是,无论是哪一种方法,都需要了解一些常规的数据工具。数据工具是用来了解已公布已公开的信息的最好途径,通过数据工具中已有的数据,我们能解决一部分问题。比如,百度指数,好搜指数、微博指数、谷歌趋势、友盟指数、Alexa等工具,提供了我们需要的基础数据和趋势对比,能够帮助我们建立基本的认识判断。

这里以“成都市有多少快递员”为例,来看如何通过分析和推测得出我们需要的结果。

我们先通过多款搜索引擎直接搜索相关问题,看不能直接一步得到数据结果。过程不在这里赘述,通过搜索,我们应该都能比较容易的找到这样的结论:2012年开始,我国快递行业从业人员数量就不再公布。这意味着我们需要寻求第二种解决办法,分析需要的结果变量。

二. 统计分析

在第一步里,我们通过行业官网这个基础数据工具找到了一些基础的参考点,这些东西帮助我们能很迅速的将这个问题分解为“全国快递人数有多少”等类似的问题。

这是因为在不能获得直接结果时,我们可以这样考虑这个问题:第一,成都市的快递员工数量不好获知,全国的快递员工数量应该是比较容易的;第二,快递员工的数量是和业务量成强烈的正相关关系的,我们可以通过获悉全国业务量的多少,再想办法找到省市区域业务量的占比,就能大概估计出快递员工的人数。

有了这个分析之后,我们很快就可以通过权威的行业网站,找到官方发布的快递员工往年人数和年增长比率。实际上,通过搜索,我们也能发现,中国行业信息网这样的行业站点,也是按此思路,给出了2013年到2016年,快递员工人数年增长水平,也即每年增加10万-20万人,据此,我们可以很快从往年已公布数据,推测出2016年的快递员工数量——150万,到160万之间。

那么,如果要区分开自营物流和传统配送企业的员工怎么办呢,通过搜索,我们也可以得到,四通一达的统计数据,注意,这个数据并不能够直接帮助我们获得最终答案,但是能让我们的统计变得更严谨和准确。

三. 计算和估计

在这个基础上,我们就能知道说,四通一达和百事汇通的员工总数为82万,在全行业占比50%左右。那么,现在我们知道了快递员工的全国人数,要推导出成都的人数,就需要用到计算了。

按前面已经说过的逻辑,我们现在变为查询四川省占全国业务量百分比,以及成都占全省业务量的百分比。通过百分比关系,我们把快递人数和业务量按比例关系对应了起来。通过搜索,我们能找到相关的新闻报道,由于带有官方的统计属性,结果还是比较可信的。通过查询,我们知道四川省占全国业务量百分比为2.36%,成都占全省业务量百分比为78%。这就是我们需要的关键数据。

通过简单相乘计算,我们就能得到想要的估计数据了,用2.36%乘上全国快递人数或不含自营快递的全国快递人数,就得到了四川省的快递人员数字,再通过成都业务量与全省业务量的占比数字78%,进一步相乘,得到成都的快递人员数。

这里需要注意,如果有时间的话,可以多想一步,思考一下误差的可能来源,在这里,误差来源主要是时间上的,统计数据不是一个时间维度,由于发展速度影响,可能会导致最终的比率有小范围的波动。当然,这个波动并不大,不会对整体结果有大幅度的影响。实际上,即便我们能准确获知统计数字,也存在误差,因为人员变动是每天都在发生的,这是系统误差的一部分。

四. 结果检验

得到了想要的结果就是这么容易。我们只是需要注意数据的来源地是否可信就行了。在这个案例中我把来源地址都进行了标注,方便后续我对细节进行详细的了解。

得到结果后,我们如果可以的话,可以对结果进行一个简单的检测。检测的意义是看我们得到的结果可信度如何。比如,我如果得出的数据是100万,你直观逻辑判断就会认为这是错的,这也是一种检验,所不同的是,这是常理检验,而不是数据检验罢了。

我们得到的结果看上去可信,但究竟数据可信度如何,我们可以通过侧面估计法再来检验。在这个案例中,我们同样根据产业信息网的下图数据,获知四川省每平方公里快递网点数量在0.02左右,而四川省区域面积是很好得到的,是48.6万平方千米,换算可得,四川省综合快递网点约有9720个。

根据前文得到的业务量占比情况,我们能够得到成都快递网点数,计算下来大概是7581个。假设我们的结果是正确的情况下,七千多个网点和一万五到三万的快递人数,推测出每个网点平均有3名左右的配送员。考虑到四川是非江浙地区,这个数字和常理认知是相符的。所以检验通过。

五. 总结

通过这个案例,我们分析了如何对一个不能直接获知结果的问题,进行解剖分析。我们就能通过多项数据估测得出想要的结果。快递人员和什么有关呢?直观感受是快递网点数和快递业务量,所以我们可以查找这两项数据指标。然后尽可能去新闻媒体中找到相关的官方指标,侧面求解想要的答案。

这个案例只是很多问题中的一个简单应用。实际上,如果我们对行业数据比较敏感的话,甚至能从其它方面来估计结果,直接心算出答案。掌握了这个方法和思路,我们就能去推导这些稍复杂的问题:广州有多少面包师、中国有多少自行车工厂、甘肃每天外卖下单数有多少……

总之,将求解问题分解和转换,对于答案的求得尤为重要。

 

作者:奉政坊,开发工程师转行运营,策划运营过多起上线项目,钛媒体作者

本文由 @奉政坊 原创发布于人人都是产品经理。未经许可,禁止转载。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 有点儿《超级思维》的意思

    来自北京 回复