数据分析前的准备及如何为我们带来长期价值?

2 评论 7759 浏览 42 收藏 17 分钟

数据分析在如今的互联网公司中很常见,但是很少有人思考分析数据前要做哪些准备,以及数据分析是如何带来长期价值的?本文将从三个方面展开分析,对数据分析感兴趣的童鞋不要错过。

一、数据分析前的准备

数据分析前的准备过程,在我看来比实际的分析更为重要。

假设目标是错的,我们就不应该执行。而目标不同,分析类型和分析内容也不同,同时执行多个方向,很容易使自己陷入混乱。

1. 定义目标,辨别指标

数据分析,能帮助我们了解业务运行状况,并从中发现问题、优化问题。其次,还能够帮助洞察下一个增长点。

但数据分析的意义,往往在数据产生之前。我们应围绕产品目标,进行产品设计以及运营策划。如果最开始的目标及指标设置错误,后续的工作将难以为继。

目标是结果,而指标是对结果分拆的具体要求,是对目标的衡量。

假设我们的目标是提升年度成交金额,那衡量这个目标的方法是什么呢?

根据衡量的方法我们才能定向的设置调整产品设计及运营策略。如果缺少可衡量目标的单位和方法,目标会难以达成。

而围绕目标设置数据的采集方案,可以大大节省数据过滤和清洗的时间。

甚至于在明确指标后再最开始就设置好分析模型,通过监测模型中的数据情况更及时的发现问题,做出更高质、高效的决策。

2. 辨别指标的目的

辨别了目标和指标,下一步则是运用结构化思维进行拆解、延伸。

在拆解之前,需要对自己提问:拆解出的指标目的是什么?根据目的我们才能有倾向性的分析。

根据指标目的,可以分为结果指标、过程指标以及观察指标。

结果指标用于衡量目标,过程指标用于体现如何完成。观察指标则指的受影响指标,其是否会受到自变量(结果指标)的影响,导致上升或下降。

在上图中,基于成交订单数,设置过程指标为订单平均金额及商品分布能帮助我们了解完成的方式。

而观察指标的设置,是为了跳出框架思考。

上图的用户付费率,可以监测成交订单数上升,是否带动用户付费率的上升,从而判断是局部还是整体上升;而成交深度及ARPU/LTV则可以帮助我们考察下一个增长点是什么。

在设置结果指标时,除了核心指标,还应辅以制衡性指标,它的目的是希望核心指标完成的更为健康。

核心指标和制衡性指标所延展的过程、观察指标是不同的。

3. 确认分析类型

完成了目标和指标的设置,接下来是对每个指标进行细化分析,分析类型包含:描述性分析、预测性分析和规范性分析。类型不同,作用也不同。

1)描述性分析

表现形式:数据报表。

数据报表能够帮助我们描述事件发展的情况,但很难解释某种结果发生的原因和未来可能的趋势。

它更偏向结果性的描述,此前的结果对此后是不具备太多参考意义的。

2)预测性分析

表现形式:用户相似度及物品相似度计算、用户购买饱和度、用户成交影响因子。

预测性分析可以理解为对结果和变量的关系进行预测的过程,包含相似度、相关性分析、回归分析等。

相似度多用于推荐算法,通过计算用户的相似度和商品相似度从而推荐给用户。而相关分析用于预测变量的关联性,如用户的成交会受什么因素影响。

3)实证性分析及规范性分析

表现形式:A/B实验。

实证性分析,指是什么,偏向于客观;规范性分析指应当做什么,偏向于主观。

在实际使用过程,上述的4种分析类型常常会被混合使用,混合使用时应明确不同类型我们应采取的分析维度。

数据分析是有顺承关系的,先采集事实,再根据事实或者预测,提出我们的假设。逐步灰度地验证假设,最终才输出我们的结论。

不能将主观猜测强加于事实之上,已经发生的结果并不一定是未来的结果。

二、数据分析如何带来长期价值

学习了方法,做好了准备,终于进入了分析的环节。

笔者此前面向的数据分析,常常是“一锤子买卖”,花了很大的力气采集数据却没有了下文。

为了使有用功更多,下文将从用户和收益2个维度分享数据如何为我们沉淀长期价值。

1. 了解我们的用户

这一步是为了让我们知道完成指标的用户是谁,常常以产品的会员体系作为切入点。会员体系越清晰,分析效果越好。

本节将以电商产品为例,和各位分享如何基于用户的延伸分析。

1)基础信息

基础信息,指用户本身的属性。

身份特征,可以从自然属性、社会属性向下细分,包含用户的性别、年龄、职业、教育等。
渠道属性,指用户的注册时间、注册平台、注册来源等。

2)决策类型

决策类型,主要分为决策周期、品类偏好、促销偏好、对象偏好,这是用户分析中常常被忽略的一方面。

决策周期中的首次访问,指的首次触及该商品的时间。结合次数、时长以及成交时间,从而了解用户的决策周期。

品类偏好,结合品牌和历史成交单数,能够帮助我们获悉品牌、价格综合对用户的影响。

而成交品类、商品、单数则是帮助我们理解其品类购买深度及路径,用于进行关联推荐和评判用户的价值。

促销偏好,结合品类和折扣金额了解用户的敏感度,能更好的提高其转化率。对象偏好,同样是了解购买深度及路径,不过维度不同。

在用户层面的分析,此前接触的一些朋友都非常热衷于使用RFM模型,在使用过程中也应“因地制宜”。

3)购买路径

品类深度、对象深度是影响决策类型的因子,当它们在购买路径时则聚焦于次序。

根据次序,制定运营的发力点,再遵循用户的购买路径制定转化路径。

在用户分布相对稳定的前提下,应顺从用户的购买规律而非倾力于另一条主线。

一专多强的前提是专,只有聚焦优势品类或主题建立了优势,才能为其他的方向供应炮弹。

4)增长观察

前面解决的问题是:他是谁,买什么以及怎么买。最后一点,则是增长观察。

购买路径聚焦于次序,增长观察聚焦于深度。购买的次序是运营的主线,购买的深度用于精细化运营。

了解用户在品类和对象的购买深度,再辅以ARPU与LTV的比对,从用户的剩余潜力寻找平台增长点的方式。

2. 建立你的用户模型

了解用户的下一步,是建立用户模型。

在一次交流会上,前辈阿翘对我提问:“你所负责的产品,用户画像是怎么样的?”

当时我把平台用户的地域、年龄、性别等分布介绍了一番。紧接着他提问:“根据这样的画像你能够做什么呢?”

再后来,我才学会了把数据聚合成特征,把特征集合成模型。

基于对用户的认识建立模型,以上一小节的决策模型为例。

将决策类型、品类偏好、对象偏好、促销偏好4个因子的关联,并辅以用户的基础信息进行组合。

如:“精打细算、专注大牌、疼爱孩子的母亲”。

这样一来冰冷的数据也被赋予了情感化的表达,无论是产品设计、交互设计、产品运营都会变得容易的多。

建立起用户模型,才能够更好地进行情感化设计、精细化运营。

3. 分析与收益相关的行为

收益,常用成交或ROI进行衡量。那我们怎么判断与收益相关的行为呢?有关程度又有多高?

判断相关性及其程度时,使用的方法是:相关性分析。

相关性分析主要用于:

  • 判断两个或多个变量之间的统计学关联;
  • 如果存在关联,进一步分析关联强度和方向。

根据数据的类型不同,所采取分析方法不同。

关于收益及影响收益的行为,二者都属于无序分类变量,此类数据的分析方法是卡方校验。

卡方检验,用于统计样本的实际观测值与理论推断值之间的偏离程度,如果卡方值越大,实际观测值与理论推断值偏差程度越大。

反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。

在实际分析时,会先进行假设,并通过计算判定其假设成立的概率从而反推其不成立的概率。

以判定关注与成交行为是否有关为例,介绍卡方校验。

1)提出假设

假设:关注与成交无关。

2)计算实际观测数据及理论推测数据

将关注及成交的相关数据进行统计,可得出下表:

根据表格,可计算出综合的成交率等于58.3%。

假设关注与成交行为无关,成交率应不随关注行为变化而变化,或数据抖动较小。

将观测的成交率代入原表,并得出理论推断值。

完成了这一步,就可以进行卡方检验的计算了。

3)卡方校验计算

继续代入公式:

当我们计算出卡方值时,可以初步判定由于卡方值较大,实际观测值与理论推断值差异较为明显,原假设关注与成交无关成立的可能性是比较小的。

4)计算自由度及P值

而到了判定可能性具体的程度,则是根据P值(用于判断判定假设检验结果)进行校验,P值越小,原假设关注与成交无关的概率也越小。

由于其自由度等于1,结合卡方值再查询卡方分布表可得P<0.01,所以原假设成立的可能也越小,即关注与成交有关的概率非常大。

在实际使用时,同样的也须兼顾样本和观测时间周期,样本包含准确性和数量,观测时间周期则用于分辨其抖动性。这2者较为基础也就不过多描述了。

相关性分析,用于代表相关程度,只能说明有关但并不能说明因果性。

对变量之间的依赖关系进行定量关系及因果关系的研究,我们还会使用回归分析进行计算。但由于计算方式并非本文的重心,在此也不过多的赘述了。

本小节,也有较多的概念概念并未在本文提及,此部分将附在文末。

三、小结

个人认为数学方法是非常重要的领域知识,很多时候不是不会数据分析,而是不知道使用什么方法分析。因为不曾见过,所以也未曾往陌生的方向思考。

遇到这样的问题时,先运用逆向思维确认分析目标,其次再进行结构化的拆解,再逐层学习分析时应该使用的方法。

若时间宽裕,还是建议阅读统计学相关的书籍。耐下性子阅读,工具书的收益会比大部分同领域的文章都大。

参考资料:

1、相关性分析

https://zhuanlan.zhihu.com/p/94070722

2、数据的类型

https://blog.csdn.net/weixin_34203832/article/details/88687669

3、统计学——卡方检验和卡方分布

https://blog.csdn.net/snowdroptulip/article/details/78770088

4、自由度计算

https://www.cnblogs.com/mahailuo/p/10932026.html

5、什么是P值

https://baike.baidu.com/item/P%E5%80%BC/7083622?fr=aladdin

6、什么是A/B测试

https://www.zhihu.com/question/20045543

7、回归分析

https://www.jianshu.com/p/bbe0c702b5ad

#专栏作家#

WISE,微信公众号:Becomewiser,人人都是产品经理专栏作家。腾讯产品经理,专注于精细化运营、用户数据体系建设等领域。

本文原创发布于人人都是产品经理 ,未经许可,禁止转载

题图来自Pexels,基于 CC0 协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
海报
评论
评论请登录
  1. 大佬的文章很赞

    来自北京 回复
  2. 特征取数是难点

    回复