这篇文章把数据讲透了(二):数据采集
编辑导读:随着“数智化”时代的到来,我们生活中的方方面面都离不开数据,而你真的了解数据吗?本文将为你重新解读数据的概念和价值,以及数据的价值是如何在“数智化”时代下一步一步得到运用与升华的;因内容颇多,笔者将分几期为大家进行讲解。
一、前言
上一期文章中,我们已经了解到“数据”是一个庞大的体系(如下图所示)这篇文章把数据讲透了(一):数据来源;并用了菜市场的例子,为大家讲解数据来源的含义;而今天小陈主要给大家到了指定“菜市场”后,我们怎样“买菜”,即数据采集的过程。
二、数据采集(买菜)
首先,我们先对数据采集的方式进行一个简单的分类介绍,后面分别介绍每一种数据采集形式需要注意的要点。
1. 按数据采集方式
线下(问卷、实地调研)——注意要点:遵循5大要素!
5个要素:
1)紧紧围绕研究主题和目的
评价一份问卷调查优劣程度的准则中很重要的一点就是,问卷内容是否贴合研究主题,就算一份问卷设计得再精妙,如果与主题无关,也是毫无价值的,因为我们开展问卷调查的本质目的也是调查相关要素和调研群体背后千丝万缕的联系。
例如,调查用户满意度,一般涉及到产品本身(价格、包装等)和受众特点(年龄、地域、心理满足等)两个维度。
2)题目易读、易理解、且具有一般性
问卷分发后,是需要受众进行填写的,所以问卷的易理解程度也最终决定者问卷的质量。
问卷并不是学术论文,不需要为了彰显专业素养而涉及很多专业、晦涩难懂的词汇,让调查者能够真的看懂才是关键。
而一般性则指的是这个问题的设置是否对所有受众都具普遍意义。例如,调查居民出行方式的问卷中,你认为最安全的交通工具是,A火车 B飞机 C宝马小轿车 D电动车,我们可以看到C选项不具有普遍意义,且和A、B、D不是一个维度的选项。
3)充分考虑被调者特点
在使用问卷调查方式时,要充分结合被调群体的特色,来进行问卷的设置;例如针对学龄前儿童和老年人,则不宜采取书面问卷调研的形式,要充分考虑到他们的语言偏好(有些老人可能普通话不标准,但方言流利)、对内容的理解能力,再派出访谈调研小组进行调研。
4)充分考虑问题排序(循序渐进)
问卷问题的设置除了考虑每个问题的规范性、合理性外,还需要考虑到问题与问题之间的逻辑性和连贯性,避免时间、空间、人称等维度的频繁跳跃。
5)充分考虑统计便利性
除了考虑问卷调查的受众外,问卷设置还需要充分考虑后期问卷回收后的统计分析;尽可能减少后期工作压力,变量不宜设置太多,应该用尽量少的变量高效获取标签信息,帮助后期研究定性。
线上(按数据采集端口细分为APP端和网页端)
APP端(主)——数据埋点获得相关数据:
首先,先和大家科普一下,数据埋点到底是什么?以及APP端为何要特别重视数据埋点。
其实,所谓埋点就是在用户使用APP的过程中,对他们的一系列行为数据进行收集,以优化产品和运营;而大多APP自带服务和盈利性质(如淘宝、得到等),那么想要实现转化,引导购买就需要将“点”埋到具体的交互组件上(例如,点击跳转链接、购买按钮等),然后对PV、UV;停留时间、跳出率、购买率等指标进行量化。
就埋点的形式而言,主要分为以下三种:
代码埋点:控件操作发生时通过预先写好的代码来发送数据,目前百度统计、友盟都提供这一服务。
下面举一个例子,例如,我们想统计淘宝APP里面加入购物车这个按钮的点击次数,则在其被点击时,可以在这个按钮对应的 OnClick 函数里面调用SDK提供的数据发送接口来发送数据。
优点:控制发送数据时间,事件自定义属性详细记录;缺点:时间、人力成本大,数据传输的时效性。
可视化埋点:利用可视化交互手段,通过可视化界面配置控件操作与事件操作发生关系,通过后台截屏的方式采集数据;例如,当用户产生多次刷新这一行动时,结合大数据算法,推算出用户的喜好并切换推送内容、产品,再通过可视化埋点,自动切换到对应的个性化推荐内容页面。
优点:成本低,速度快,产品、市场等各部门均能参与;缺点:行为记录信息少,支持的分析方式少,减轻开发负担。
无埋点:用户展现UI界面元素时,平台会通过控件绑定触发事件,事件被触发的时候系统会有相应的接口让开发者处理这些行为;上传UI界面后,系统能够自动识别生成控件的唯一ID,ID是在程序内部生成,只需保证在不同的手机上面这些ID是一样的,就能实现用户端的无埋点数据获取。
优点:无需埋点,方便快捷;缺点:行为记录信息少,传输压力大。
网页端——网页爬虫(python,C…):
就具体语法而言,因为使用工具不同,并不能就具体语法提供指导(大家根据自己使用的语言,在CSDN上进行搜索),但其总体方法论是一致的。
方法论:人工确定爬取信息的维度→分析目标网站URL构成→确认爬取工具→编写程序语言→获取数据→保存于本地→后续进行数据挖掘。
三、结语
本期,笔者通过一个“买菜”的例子,带着大家了解了数据采集的几种方式,相信大家有所收获!
下期,笔者讲在数据采集的基础上,为大家讲解如何利用常用工具进行数据清洗和数据清洗的几个维度!
本文由 @小陈同学ing. 原创发布于人人都是产品经理,未经作者许可,禁止转载。
题图来自Unsplash,基于CC0协议。
第二部分零零散散….有1,就没然后了
后面啥时候可以更新?