分析如烹饪:让我们一起做数据大厨吧!
编辑导语:数据分析是有组织有目的地收集数据、分析数据,使之成为信息的过程,整个过程比较复杂且繁琐。本文作者巧妙地把数据分析的步骤类比为烹饪的每一步,以烹饪的形式来为大家讲解一份数据分析报告。感兴趣的朋友来看看吧。
还记得,指引我数据分析入门的那本书,它将数据分析的步骤类比为烹饪的每一步,形象而生动,让我印象深刻。
选择数据分析,是基于自己所在的行业以及自己与职业发展的契合度,一路走来,踩过很多坑,但也收获很多成功的喜悦,感谢遇见的每一位天使!
下面就请让我以烹饪的形式来带你做一份数据分析报告吧!
一、分析背景&数据来源(备料)
阿里作为国内电商巨头之一,其在快速发展的同时也面临着诸多残酷的竞争。
电商平台作为一个复杂的生态系统,上有不断入驻的品牌商家,下有体量庞大的消费群体,身为衔接者,平台肩挑重任并砥砺前行。
母婴大类是平台的重点类目,具有消费者和使用者分离和购买决策周期长等特点,本次分析以阿里母婴大类的数据为主,通过SWOT分析确定本次分析背景,具体见下:
基于如上SWOT分析,我们需要进一步用数据来论证平台母婴发展的现状及其机遇,洞察机遇后该如何抓住风口。
数据来源:阿里巴巴天池
https://tianchi.aliyun.com/dataset/dataDetail?dataId=45
包含2张报表:产品信息表和消费者信息表
报表的具体字段如下图所示:
- 了解每一列的含义
- 数据分类,分为3大类:用户、行为和产品
用户数据:用户id、出生日期、性别;
行为数据:用户id、购买数量、购买时间;
产品数据:物品编号、一级分类、二级分类、商品属性。
二、分析目的
通过分析2012年7月至2015年2月的母婴产品用户数据,能够洞察母婴大类发展现状,找到现状背后的原因,为平台2015年的进一步发展提出有效建议。
三、分析思路
首先,分析手头2张报表:
- 根据报表的字段含义和记录行数可以看出”产品信息表”是主表,”用户信息表”是副表;
- 从整体与部分来看,”用户信息表”中的用户ID是”产品信息表”中用户ID的部分,侧面说明用户信息表是一个小的样本集。
因此,本文的分析侧重点在于”产品信息表”,”用户信息表”可以起佐证作用。
其次,观察”产品信息表”的统计周期起于2012年7月至2015年2月,以自然年作为筛选条件,12年和15年因数据信息不全,所以重点分析年份锁定13年和14年。
再次,进一步查看”产品信息表”的各个字段,可发现核心字段是【购买数量】,由此可衍生出系列指标:年成交量和年成交量增速。
综上,在分析的时间段和核心指标确立后,可以针对【购买数量】提出如下问题:
- 2013年和2014年的年成交量是多少?
- 对比2013年,2014年的年成交量增速是多少?
通过初步数据验证,得出如下图:
最后,明确问题:
通过观察产品信息表的2012年7月至2015年2月的母婴大类销售数据,可发现与2013年相比,2014年年成交量增速达到49%,那么14年增长的原因有哪些?
如果15年要持续增长,需从在哪些方面进一步提升?
由此,形成分析思路脑图,见如下:
四、分析内容(切配+烹饪+打荷)
根据年成交量=成交用户数*人均成交量这个公式,对公式的组成元素进行一步步拆解。
提出假设1:人均成交量的提升带动14年整体的成交量。
收集证据:下图是13年和14年的人均成交量随时间变化的折线图。
得出结论:从图表可以看出,13和14年的人均成交量相减差值为0.05,几乎可以忽略不计,所以人均成交量提升带动年成交量的假设不成立。
提出假设2:成交用户数的提升带动14年整体的成交量。
收集证据:下图是13年和14年的成交用户数的柱形图。
得出结论:从图表可以看出,14年的成交用户数的增速和14年的年成交量的增速趋势相近,由此可以得出14年年成交量的提升来源于成交用户数的增加,该假设成立。
紧接结论,进一步分析【成交用户数】的组成部分,即成交单笔用户数和成交复购用户数。
因数据统计周期并不完整,为严谨起见,故本文没有将单笔用户数简单定义为新客。通过数据整理,得出下图:
综上,14年年成交总量的上升源于成交用户数中单笔成交用户数的贡献。
由此引出,单笔用户数增长的原因有哪些?
提出假设1:平台提供的活动促销力度吸引大批具有折扣心智的用户,并促使其转化
收集证据:活动档期可以通过月成交用户数的波动趋势来挖掘,从而进一步锁定突出点的5月和11月,对比分析2年在相同月份上类似活动的成交用户数的差异是否明显。
得出结论:活动对用户的吸引力确实很强,比如上图14年双十一当天的用户数接近13年的2倍,也可以从侧面说明,具有活动心智的人群更容易在活动中被平台转化。
如有2013年和2014年的具体活动档期的话,可以进一步论证假设成立。
提出假设2:平台提供的产品种类更丰富,不断上新能够吸引大批用户,并促使其转化。
收集证据:下面2图基于产品信息表中的产品ID这一字段进行分类统计对比,以确定平台对产品种类的扩充或迭代更新是否能吸引到有此需求的用户人群。
14年成交种类数量=13年与14年共有产品种类+14新增成交种类
得出结论:产品种类的丰富能体现平台运营能力的强弱,满足更多用户的需求是用户数池子蓄水的必要条件。通过数据验证,假设成立,因分析数据时间段集中于13和14年,所以结论还需后续更多数据集进行验证。
紧接产品丰富度的结论,下图是对产品丰富度的进一步拆分,见如下图:
即将如何提升产品的丰富度拆解为如下2个问题:
- 如何将产品系列做精?
- 如何将产品带做宽?
无论是二级大类数量的不断扩充还是同一类别下子产品数量的增多,两者都有利于扩充平台产品的丰富度,那么如果平台在现有资源下只能优先选择一个方向的话,那么哪一个方向效果更佳呢?采用相关性分析,见下:
1. 产品水平方向扩充(一级类目下二级类目数量增加)
2. 产品垂直体系扩充(同一类别下产品数量增多)
综上,相关系数对比显示,扩充产品垂直体系对于吸引更多用户数,促进其转化更为有效。
另外,由上述散点图观察可以发现存在部分异常值,如下图:
分析可发现,异常值与成交总量中存在批发订单相关,即存在小部分购买数量超过10件以上的单笔订单,具体占比见如下:
根据如上分析,可以明确”人”是一个关键要素,那么针对如何获取更多的“人”,作为平台方,2015年的持续增长动力来源于哪些方面?
接下来,我开始重点分析开篇说的副表:用户信息表,通过拆解如何获取更精准的人这个问题,可以产生如下子问题:
消费主力军是谁?
消费能力怎么样?
不同性别和年龄段对一级类目的倾向如何?
五、结论
对产品信息表分析,可得出如下结论:
14年年成交量增幅达到49%,其指标上升源于用户人数增加,对用户人数进一步分析可发现平台具有拉新能力强,复购率低的显著特征;
因现有数据报表较少,不足以论证复购率低的原因,根据人均销量可猜测复购率与平台销售商品相关,比如商品十分耐用,或者在使用上更趋向于一次性;
拉新能力强体现在单笔成交用户占比99%+,通过对单笔用户数的购买行为数据分析,可发现受活动吸引力度和产品丰富度的有效影响;
具体分析13和14年的活动特征显著月份,以5月和11月的2个活动高峰点为佐证,发现用户数在14年活动当天的成交人数远远高于13年同时间段,甚至达到翻倍的效果,可见具有聚划算等活动心智的用户更容易被平台获取转化;
产品丰富度是一个平台持续扩张运营的核心指标,通过相关性分析,平台招募更多商家或开发更多产品系列都能促进用户的下单转化。相关分析显示,平台在一个细分类目下提供更多产品数量,可以减少用户的跳失。
六、建议
根据以上结论,在利用AARRR模型和回归分析的基础上,分别提出如下的建议:
1. AARRR模型
找对人,多留人,提收入,扩规模。
获取精准客群:
在较低成本下大量获取的人群画像是:
0-3岁之间的男童和女童,女童优先级更高,精准人群获取方式上可采用推送高相关性类目的销量Top3产品来吸引,比如对0-3的女童,推送”50014815”的Top3销量产品广告图来投放吸引。
激活&留存:
活动是吸引拉新和刺激复购的有效措施,平台可以通过增加活动档期和活动的互动玩法等形式。
推荐:
平台可以鼓励商家采用会员制或者老带新的措施,增强用户黏性。
2. 回归分析
可以预测2015的销量,从而调整和优化各部门的KPI指标。
图片来源于网络
如上图,可以根据2015年的总成交量目标拆解到各个一级类目的目标,同时也可以从产品角度确定研发和迭代多少款产品。
以上是我做的数据分析报告,欢迎交流探讨!
作者:鲸歌,电商行业数据分析师,为头部品牌提供数据咨询服务,热衷学习与分析,“数据人创作者联盟”成员。
本文由@一个数据人的自留地 原创发布于人人都是产品经理,未经许可,禁止转载。
题图来自 Pexels,基于CC0协议。
写的很专业