大数据人才,到底应具备哪些技能?

0 评论 1349 浏览 12 收藏 11 分钟

想成为大数据人才,究竟应该具备哪些技能?这篇文章里,作者从数据分析流程、职业技能等维度做了相应的分享,不妨一起来看看吧。

我是西索,最近这段时间,和几个大厂的TL 做分析「价值」方面的探讨,在大数据时代要怎么才能发挥更高的数据价值,刚好涉及到这部分的讨论,把讨论结果做个分享,供同行参考。

这几年听到最多的一个声音,我们要开始“卷”价值了。那么“你的价值体现是什么?”、“当前还有多少价值可以做”、“接下来我们要创造什么价值”…

一、认识数据分析流程

对于刚入行的同学来说,需要了解大数据分析过程中涉及到的流程和环节,再结合大数据的要素进行能力拆解。

二、认识大数据,不得不了解的4V特性

数据分析和大数据分析,原始数据量大小不同,导致处理方式的不同。

大数据分析,主要是利用各种类型的全量数据(不是抽样数据),设计统计方案,得到兼具细致和置信的统计结论。在做大规模数据处理的时候,天然存在很多技术壁垒,必须要用专业的软件才能解决,还需要兼顾运算时效、计算性能、运行成本、数据加工技巧等等。

1. 认识大数据架构能力

以下是一个比较典型的大数据架构:

了解大数据平台的底层构成,增加对工具的认知,了解不同产品之间的共性和差异性,在真实建设场景中才能做好针对性的方案设计。

大数据平台、关系型数据库vs非结构式数据库、实时数据vs离线数据、数据调度工具。

2. 认识大数据指标体系

因为大数据的体量很大,为了快速拿到想要的数据结果,就不得不提「数据指标体系」。指标体系的搭建分为两大步骤:设计指标体系落地指标体系。

3. 认识大数据指标体系

关于大数据工具的介绍,可以参考这篇文章:大数据常用工具集合。

三、做好大数据需要储备的职业技能

我们把职业技能划分为显性和隐性两个方面,从大数据各种岗位的job model中可以抽象成为集中能力,见下图:

1. 必知的管理方法论

在职场中我们会接触到很多「管理」内容,向上管理、向下管理、项目管理、团队管理、需求管理等,提升自己的管理软实力,加强管理方法的意识塑造,是拉开职场核心竞争力的关键所在。

2. 常用的统计学知识

分析过程可能是做一些探索性数据分析、统计分析、机器学习建模,甚至是做AB测试实验,最终交付分析报告。数据分析离不开统计学、运筹学,以下罗列了日常过程中经常用到的统计方法。

3. 重要的商分类知识

“无场景不分析”、“脱离业务场景的分析都是耍流氓”等资深数据分析师的建议无不说明业务场景的重要性,数据分析在不同场景下,也有不同的“分析”招式来满足不同的业务需求,熟悉下面的商业分析模型有助于建立业务信赖。

4. 掌握的算法类模型

有监督模型,对于企业销售的预测、还是对用户行为的预测,都能帮助提升业务效率。比如常见的预测用户流失分析,及时得到高概率流失的人群名单,运营通过提前营销干预,提高用户留存率。

无监督模型,可以应对未知模式的分析。譬如,不知道应该把现有人群分成多少个组来进行营销最合适,就可以对人群基于核心特征做无监督的聚类分析,得出有效分组的界限。

5. 机器学习和深度学习算法

几个基础概念:

  • 数据集合:训练集、测试集、验证集;
  • 数据检查:描述性统计(最大、最小、中位数、众数、四分位)、缺省值填充、卡方分布;
  • 数据校验:共轭线性、相关系数(Pearson Correlation Coefficient);
  • 特征工程:什么是特征工程、特征工程构建、特征工程权重查看、特征选择(filter/Wrapper/Embedded)
  • 归一化:虚拟变量,labelEncoder/OneHotEncoder/get_dummies;此外可以参考核函数构建方法,通过log、ln、e的方式构建,缩小极大值之间的数据离散度;
  • 数据标准化:z-score、max-min scaling;
  • 算法校验:卡方校验、5-fold、

机器学习:

知识重点:距离、信息熵、梯度、L1/L2、鲁棒性(稳定性)。

L1-曼哈顿(绝对值相加,不唯一解)、L2-欧氏距离(欧几里得距离之和,平方和,唯一解)。

无监督学习:

聚类(cluster):k-means、cart(核心是距离-欧式/马氏/曼哈顿/切比雪夫,高斯密度/正态分布)。

半监督学习:

监督学习:

回归(logistic):线性回归、LR(ridge/lasso,L1/L2)、预测(Arima、prephet);

分类(classification):KNN、Decsion Tree、XGBoost、Random Forest、GBDT、SVM、Bayes。

深度学习

知识重点:损失函数、核函数。

用途:文字识别、图片识别、语音识别、视频处理。

文本挖掘:

NLP:tf-idf、LDA、CBOW、word bag

目标检测:

神经网络:BP(CNN)、RNN、LSTM。

6. 数据可视化的能力

图表是数据可视化的常用表现形式,是对数据的二次加工,可以帮助我们理解数据、洞悉数据背后的真相,让我们更好地适应这个数据驱动的世界。

四、擅长的·爱好的·世界需要的

在布赖恩·费瑟斯通豪《远见:如何规划职业生涯3大阶段》一书中提到,你要不断问自己这三个问题:我擅长什么?我爱好什么?这个世界需要什么?三者交集的部分,找到自己的目标,当前应该做哪些方面的刻意练习,强化优势,用长板补短板。

工作规划,是结合公司整体方向而开展的规划过程;个人规划,是结合个人职业发展而开展的规划过程;彼此之间的交集在于,如何通过规划把两个方面进行融合!

而个人职业成长旅程中有三个定位:岗位定位,管理定位,行业定位。

  1. 28岁前,用岗位专业定位自己,你干啥最专业?
  2. 32岁之前,用管理角色定位自己,你做项目、带团队、搞运营的能力怎么样?
  3. 38岁之前,用行业品类定位自己,你在哪一个行业领域做到了顶尖?

本文由 @郑小柒是西索啊 原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自Unsplash,基于CC0协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!