数据分析之前知道这 7 件事,少花 80% 时间
编辑导语:在进行数据分析前,需要耗费不少的时间在数据的清洗过程中。那么,有什么方法可以提高数据清洗的效率?作者通过总结自己的工作经历,分享了在数据分析之前你需要了解的7件事情,希望对你有所启发。
写在前面
在进行数据分析之前,常常需要耗费大量的心力在对数据的清洗过程,比如,需要针对缺失数据、重复数据或错误数据等等进行预处理。还有很多小伙伴,在没想好想要获取哪些数据来验证何种假设的情况下,就贸然开展采集工作。这些都是在进入数据分析环节前,非常重要但很容易被忽略的问题。
如前美国首席数据科学家 DJ Patil 所说:“不过分的说:任何数据项目中 80% 的工作都在采集清理数据。”
为了更好的避免这类问题的出现,在开展数据分析之前,需要围绕在“问题的具体化描述”、“确立假设”中进行深入的剖析,这个时期的“慢即是快”。如果无法正确地定义问题、合理地拆解问题、抓住关键问题,后续的环节都是徒劳。
所以,正确的问题是指引你找到可靠解决的路标,而高质量的数据是数据分析的基石。我依据实际工作中的经历,梳理了数据分析前你要知道的 7 件事,希望对你有所启发。
以下,Enjoy~
通过本文,你可以了解:
- 5W1H 让问题具体化
- 将商业思考拆解成可量化的数字
- 从假设出发采集数据
- 什么是第一、二、三方数据?
- 哪些是可以直接利用的数据?
- 结构化和非结构化数据有什么不同?
- 你采集的是好数据吗?
一、5W1H 让问题具体化,清晰需要采集什么数据
在所有的研究工作开始之前,厘清目标问题是什么,这是整个研究的核心。运用 5W1H (who -谁、when-时间、where-地点、what-什么事、why-为什么发生、how-如何发生),针对问题进行提问,有助于把问题具体化。
? 某预约管理 SaaS 公司:
- Who:客户是谁?- 线下服务业商户Why:商户为什么需要?- 有服务资源配置需求
- Where:商户在哪里使用?- 网页、商户小程序、线下门店等
- When:商户使用的阶段?- 商户的生命周期
- What:商户使用工具来做什么事?- 管理消费者预约动态
- How:商户怎么使用?- 注册账号 > 授权小程序 > 上架服务 > 发布小程序 > 销售服务 > 核销服务
以「某SaaS公司今年在线预约管理产品续费率下降」为背景思考应对策略,「续费率下降」只是问题呈现出来的结果,不能就这个结果设想解决方案,应该先思考,背后造成这个结果的原因有哪些可能,以及为什么。
如果你认为主要的原因是「商户的员工不能迅速上手使用」,那么在经过上面分析后,可以重新整理为「是否因为在上手阶段(when)缺少对商户的使用指导(what),导致商户不续费?」,让问题更加具体。
通过具体的问题,才能运用数据分析来回答问题。当你怀疑「缺乏使用指导」与「续费率」有关时,就可以去观察和收集客户服务或客户成功部门,在上手阶段指导次数、工单提交次数等指标。
接着进行分析比较,观察两者走势:比方从折线图观察,是否指导次数增加、老客户的续费率也跟着增加?或者,即使指导次数增加,续费率率也没有太大差异,藉此验证假设是否正确。
二、将商业思考拆解成可量化的数字
数据分析的基础功夫,来自于正确的问题。在提出问题时,要抱持着让「问题」更具体、明确化的精神,试着将脑海中想到的问题,拆解成可量化的信息,培养数字导向的思维。
最近续费率下降,怎么办?
1)最近:是哪段时期?与去年比,或与上个月、上星期比?
2)续费率:整体续费率,或者特定产品线续费率?还是增值模块续费率?
3)下降:同业续费率变化程度为何?下降幅度是多少?
4)怎么办:哪个部门、哪个环节可以做哪些改善?
可能是商户缺乏指导很难上手使用。
1)商户:指的是多大比例的商户?是流失的客群吗?还是特定行业的商户?
2)缺乏指导:在什么阶段缺乏指导?是缺乏图文类型、视频类型还是人工客服类型的指导?
3)很难:是和其他 SaaS 工具相比吗?还是和预约类的工具比?还是超过 30 分钟就算久?
4)上手使用:指的是完成服务上架?还是完成小程序发布?还是消费者到店核销才算上手使用?还是营销、推广、拓客?
三、从假设出发采集数据
“大胆假设,小心求证”,是进行数据分析研究的基本模式。很多时候,有了假设需要进行求证的过程中,现有数据可能无法提供所需视角厘清问题,或者数据相对有限,需要采集新维度数据。又或者收集的样本存在异常,不一定在一次分析就能找到其中的关联。
哪怕做了分析后发现原假设与问题不存在关联,这也是一种有效的分析,毕竟你排除了一种可能,对于你进行假设的修改,逼近核心问题都是有助益的。一次就把问题解决,需要依赖的不仅仅是专业的知识储备,有的时候运气也是很重要的因素。
《简单用数据,做出好决策》表示,很多人以为,观察现有数据就能能提出假设,但最佳来源是在业务一线的人,比如,产品经理、客服与销售人员。因为他们是在决策方针之下,实际行动的人。
在进行假设确立前,最好能号召到所有利害关系人,召开头脑风暴会议,分享他们认为什么原因会造成目前的状况,在这个阶段,目标是要产生出好几个可能的假设。
四、什么是第一、二、三方数据?
在《普华永道全零售调查》报告中指出,与其他国家消费者相比,中国消费者更多地通过各种数字化方式与零售商进行互动。和其他国家的消费者一样的是,中国消费者也展现出了非线性的消费行为,在各种渠道之间不断切换以寻求便利性、一致性,增加选择面和可及性。
在复杂商业环境中,企业采集数据的方式不能像从前只记录自己手中的数据。在原本各直营渠道的互动数据整合、存储和分析的基础上,还要观察消费者在合作渠道中的消费行为,以及在其他渠道中是否展现出对品牌的兴趣,才能清楚掌握用户画像。更了解消费者,才有机会对客户进一步细分,提供个性化解决方案。
这些类型的数据,就是数据分析中常提到的第一方、第二方与第三方数据。
1)第一方数据。是企业直接从消费者采集而来的数据,此类数据具备高度精确性和相关性,但通常缺乏规模。
一般会包括客户关系数据,联络资料、手机号码、电子邮箱等,也包括用户在网站或应用程序上的行为数据,访问时间、频率与停留时间,以及社交媒体数据、客户反馈等。
2)第二方数据。是与合作伙伴交换、彼此共用的第一方数据。此类可以弥补第一方数据无法获得的信息和见解,由于数据来源多元,数据也更具备解释力。
比如,你把产品上架到淘宝、京东等电商平台,你可以通过店铺平台提供的管理后台观察客户在电商平台上的购买数据,如客户特性、购买产品组合等等,以此优化自身产品。简单说就是合作对象给你提供的二手数据。
3)第三方数据。是从外部获得的数据来源(可以是免费或付费获得),非数据原始采集者。此类数据在企业想要扩展目标客群时,可以提供非常重要的参考意见。
一般会包括像是投放网络广告,取得潜在消费者对品牌的关注数据,购买现成的数据库,或者在统计局或行研报告免费下载等等。从各方采集可以补充第一、第二方数据,但用户画像也相对不精准。
五、哪些是我可以直接利用的数据?
现在物联网的快速发展,很多基础数据采集工作无须经由人工,通过机器设定采集任务就可以自动记录,如此长时间的沉淀就会产生海量的数据。比如,iPhone 记录每日 App 使用量、Wacth 记录心率和睡眠、信用卡记录消费、滴滴记录打车情况等等。
对于企业来说,可以根据自己的业务需要,进行常规的数据自动化采集计划,长时间监测消费者的喜好和消费行为数据。
- 像有些商家会在门店出、入口安装摄像头,消费者在进、出店的瞬间,摄像头就已经及时抓拍消费者并自动生成一个新的 ID,记录消费者进、出店的时间。
- 同时还可以记录消费者进店频次、消费总额、客单价、常购商品等信息。
- 还有企业开给客户的发票明细,清楚记载消费者的购买时间、会员等级、产品项目与类别、结账方式等。
这类型常规数据,基本可以直接使用。也可以与其他数据进行交叉比对,洞察理解消费者的重要信息。
另外,在《用数字做决策的思考术》一书中,将采集数据的方法分为采集世界上既存数据与世界上尚不存在的数据。搜寻既存数据,可以透过网络、数据库与研究报告,再藉由具有产业经验的人过滤值得信赖的信息。若没有相关人员,可以参考官方机构或学术资料,作为分析依据。
至于搜寻不存在的数据,就需要透过亲身观察与询问,像是直接观察消费者的购买行为、询问消费者对于新口味的满意度,也可以通过焦点访谈、发放问卷的形式了解客户的声音(VoC)。
六、结构化和非结构化数据有什么不同?
区别于采集数据的原始归属,在数据采集到统一的集成数据管理平台(DMP)后,可以采用“企业内部和外部”、“结构化与非结构化” 4 种组合进行数据类型区分,识别数据的可用性。
1)企业内部的结构化数据。是指企业自有、可用数值量化表现的数据。比如今年总营收 = 30万、客单价 = 700元/人、整体退货率 = 7% 等等。
2)企业内部的非结构化数据。一般表现为视频、音频、图片、图像、文档、文本等文件系统中的信息,属于难以单纯用数值量化表达的信息,需要经过整理才能分门别类。比如,包含业务销售经验、客户常见问题等等。
3)外部的结构化数据。这些数据同样具备用数值量化表现,差别是企业并不直接拥有这些数据。比如,在百度投放广告的曝光量、在知乎发布文章的阅读量等等。
4)外部的非结构化数据。这些数据一般以企业主体的名义在其他平台运营过程中产生。比如,在淘宝平台上商品的评价、微博上用户的评论、产品的口碑、用户自行录制的开箱视频等等。
七、你收集的是好数据吗?
在统计学里,数据分为内部效度和外部效度,前者指数据能否反应研究领域的状况,即是否具有内部代表性;后者是指能否把结果推论到其他人或其他环境中,也就是研究结果的普遍性。唯有数据具有内外部效度,才代表数据采集过程正确,而且适用在其他领域。
1) 缺乏内部效度
新品发布时,只调查营销部门的想法。
应调查各业务单位,并依照部门人数比例,随机抽取调查意见。
2)缺乏外部效度
新品上市后无法满足客户期待。
留意在内部调查时,是否具备足够多元性。
数据不怕少,主要怕不好。
在日常收集数据的过程中,有时候需要数据具备时效性,过时的数据无法验证新时期的问题。有时候会因为隐私问题或者收集渠道问题,会收集到不完整的数据,条件允许就需要想办法补全。
对于量性可以采取策略性补值,比如,平均数。如果数据样本足够大,亦可选择直接删除。但在数据样本规模小,且属于稀缺数据的情况下,就要想尽一些办法利用。
还有采集到不规则或异质性的数据时,需要谨慎甄别,先从采集统计口径切入,了解具体数据的定义和计算方法,要不结果会产生极大的差异,导致决策失误。
写在最后
在数据分析的语境中,保持客观、批判性的视角是开始工作的必要条件。通过找到正确的问题,恰当地表述问题、理解这些结果与业务的关系以及推导结论的研究过程和假设,是落地分析工作的充分条件。
藉由数据采集前多方面保障数据的真实性、有效性、时效性和一致性,可以在真正进入分析阶段时,有更大可能性找到问题表征背后的“推手”。
还是那句话,前期的“慢即是快”,在数据分析之前,多思考,不厌其烦的假设、验证、修正,自然会找到数字背后真正的意义。
所以,开始数据分析前,先问问自己:
- 我清楚理解问题了吗?
- 我把问题拆解成可量化的数字了吗?
- 我想要验证哪些假设?
- 我可以从哪里获取数据?
- 我可以怎么归类数据?
- 我可以怎么处理结构化程度不同的数据?
- 我采集的数据是好数据吗?
#专栏作家#
龙国富,公众号:龙国富,人人都是产品经理专栏作家,人因工程硕士。致力于终身学习和自我提升,分享用户研究、客户体验、服务科学等领域资讯,观点和个人见解。
本文原创发布于人人都是产品经理,未经授权,禁止转载。
题图来自Unsplash,基于CC0协议。
- 目前还没评论,等你发挥!