数据分析:员工离职预测分析
本文作者用数据分析法对一家公司的员工离职原因展开了分析预测,与大家分享。
一、概述
- 项目数据来源:https://tianchi.aliyun.com/dataset/dataDetail?dataId=4574
- 数据分析工具:本次案在例中,我所需要做的便是通过已有的信息进行预测员工未来的动向,即判断该员工未来是否会离职。其中训练数据主要包括1100条记录,31个字段。此次数据分析所用到的工具有:excel,tableau
二、数据分析基本步骤
(1)明确业务需求;
(2)数据采集 ;
(3)数据处理
(4)数据探索分析(数据的描述性分析);
(5)综合数据分析;
1. 明确业务需求
面对公司留不住人,人员流动大等问题,本文对取自于“阿里天池”关于职工数据集的数据进行分析,挖掘出哪些数据对于离职率有贡献,预测哪些人最后会流动。
2. 数据采集
项目数据集取自“阿里天池”,相关网址链接请参看概述。其中训练数据主要包括1100条记录,31个字段。主要字段说明如下:
(1)Age:员工年龄(1表示已经离职,2表示未离职,这是目标预测值)
(2)Attrition:员工是否已经离职(Non-Travel表示不出差,Travel_Rarely表示不经常出差,Travel_Frequently表示经常出差)
(3)BusinessTravel:商务差旅频率(Sales表示销售部,Research & Development表示研发部,Human Resources表示人力资源部)
(4)Department:员工所在部门(Sales表示销售部,Research & Development表示研发部,Human Resources表示人力资源部)
(5)DistanceFromHome:公司跟家庭住址的距离,(从1到29,1表示最近,29表示最远)
(6)Education:员工的教育程度(从1到5,5表示教育程度最高)
(7)EducationField:员工所学习的专业领域(Life Sciences表示生命科学,Medical表示医疗,Marketing表示市场营销,Technical Degree表示技术学位,Human Resources表示人力资源,Other表示其他)
(8)EmployeeNumber:员工号码;
(9)EnvironmentSatisfaction:员工对于工作环境的满意程度(从1到4,1的满意程度最低,4的满意程度最高)
(10)Gender:员工性别(Male表示男性,Female表示女性);
(11)JobInvolvement:员工工作投入度(从1到4,1为投入度最低,4为投入度最高)
(12)JobLevel:职业级别(从1到5,1为最低级别,5为最高级别)
(13)JobRole:工作角色 (Sales Executive是销售主管,Research Scientist是科学研究员,Laboratory Technician实验室技术员,Manufacturing Director是制造总监,Healthcare Representative是医疗代表,Manager是经理,Sales Representative是销售代表,Research Director是研究总监,Human Resources是人力资源)
(14)JobSatisfaction:工作满意度(从1到4,1代表满意程度最低,4代表满意程度最高)
(15)MaritalStatus:员工婚姻状况(Single代表单身,Married代表已婚,Divorced代表离婚)
(16)MonthlyIncome:员工月收入(范围在1009到19999之间)
(17)NumCompaniesWorked:员工曾经工作过的公司数
(18)Over18:年龄是否超过18岁
(19)OverTime:是否加班(Yes表示加班,No表示不加班)
(20)PercentSalaryHike:工资提高的百分比
(21)PerformanceRating:绩效评估
(22)RelationshipSatisfaction:关系满意度(从1到4,1表示满意度最低,4表示满意度最高)
(23)StandardHours:标准工时
(24)StockOptionLevel:股票期权水平
(25)TotalWorkingYears:总工龄
(26)TrainingTimesLastYear:上一年的培训时长(从0到6,0表示没有培训,6表示培训时间最长)
(27)WorkLifeBalance:工作与生活平衡程度(从1到4,1表示平衡程度最低,4表示平衡程度最高)
(28)YearsAtCompany:在目前公司工作年数
(29)YearsInCurrentRole:在目前工作职责的工作年数
(30)YearsSinceLastPromotion:距离上次升职时长
(31)YearsWithCurrManager:跟目前的管理者共事年数
3. 数据清洗
- 我们使用的数据是excel文件格式,其中自变量30个,因变量为1个(是否离职)。
- 数据集字符型字段有7个(BusinessTravel/ Department/EducationField/Gender/JobRole/MaritalStatus/Over18/OverTime)数值型字段有24个。
- 其中将单一变量删除(年满18岁、标准工时、员工编号为常量),部分数值变量<=3的字段也删除,此类数据对于分析预测不具有代表性。
- 同时观察数据,针对字段值不满一年的数据均用0代替,没有缺失值, 因此不用处理缺失值.
- 对于记录来说, 其没有唯一标识的字段, 因此会存在重复记录, 这里采取“重复值处理”和“数据一致化”处理;
- 通过tableau作图观察各自变量对是否离职影响程度大小,
图一:删除单一变量&常量
4. 数据理解
我们使用的数据是EXCEL数据文件格式,其中自变量30个,因变量为是否离职。下表对所有变量进行了说明,以便更好的理解数据。
5. 数据探索性分析
(1)人力资源总体情况
离职人员178人,占比16.18%;在职人员922人,占比83.82%
(2)职工年龄,性别与是否离职的关系
由下图可以看出,离职人员偏年轻化,峰值出现在28-32岁,其中男性离职人数大于女性人数。
(3)职工婚况,离家距离与是否离职的关系
由下图可以看出,Married人士在公司最多,其次是Single人士,再就是Divorced人士,其中离职人数最多的为单身人士;同时从”公司离家距离“这个维度来看,公司离家距离的远近对离职存在影响,且对单身人士影响较大。
(4)加班,月工资收入与是否离职的关系
由下图可以看出,需要加班对职工的离职影响更高,月工资收入在3k(含)以下的对职工离职影响更高。
(5)商务差旅频率,工作平衡度与是否离职的关系
如下图,商务差旅数次数的增多对职工离职的影响也随之增大,其中针对商旅次数多的职工来讲,工作平衡大致2-3分占多数,故工作平衡度也影响职工的离职。
(6)工资提高百分比与是否离职的关系图
如下图,工资提高百分比为12%-14%的职工占主体,且该部分离职员工最多,其次是是提薪10%-12%的职工,说明提薪对于职工离职有较大影响。
(7)工作环境满意程度与是否离职的关系
如下图,就中位数而言, 离职人员与在职人员对公司满意度都为3, 且离职人员对公司满意度整体波动较大,离职人员中有对环境满意度为1的员工,工作环境对职工离职有较小影响。
(8)工作满意度与是否离职的关系
如图,就中位数而言, 离职人员对工作的满意度相对较低为2.5,从中位数与第一四分位的差值来看,普遍离职人员对于工作满意度较低,离职人员中有对工作满意度为1的员工。
(9)在公司工作年数, 在目前工作职责的工作年数, 距离上次升职时长, 与目前的管理者共事年数与是否离职的关系图
如下如所示:
1)可以看出离职人员占比较高的为在公司工作年限为1,5年的职工,其次就是2,3年的职工。
2)可以看出在目前工作职责的工作年数为1年内,2年的职工离职占比最高
3)而距离上次升职时长为1年内的职工离职率最高,占全体职工的8%,离职率呈现随时间递减的趋势。
4)最后,与目前的管理者共事年数为1年内的职工离职率最高,其次是共事2年的职工。
综上所诉:公司新员工的离职率较高。
(10)员工所学习的专业领域与是否离职的关系
如下图,公司学员专业领域以“生命科学专业”人数占比最高占42%,,同时其离职占比也最高为6%,其次就是“医学专业”。
06 数据分析
综合分析:该企业的离职人员特征包括入职时间较短,偏年轻化,男性稍多,单身,月收入较低,加班等。
注:本文借鉴CSDN博主「玻_璃_球」的原创文章
原文链接:https://blog.csdn.net/weixin_45547023/article/details/101151646
本文由 @茶南zz 原创发布于人人都是产品经理,未经作者许可,禁止转载。
题图来自Unsplash,基于CC0协议。
「离职人员占比较高的为在公司工作年限为1,5年的职工,其次就是2,3年的职工。」
如果工作一年的员工占比最高,那离职占比高也很正常
员工离职,80%的原因与主管的管理有直接关系.
可以直接用回归模型预测,看看是哪个变量影响更大
当然是用树模型,回归模型只能局限于捕捉线性关系。
用什么树模型 决策树吗
文中只把某一两个变量单独拿出来分析与因变量的关系,从而得出“该企业的离职人员特征包括入职时间较短,偏年轻化,男性稍多,单身,月收入较低,加班等”的结论。但其实自变量之间的相关性是非常强的,年轻的员工单身的比例更高,入职时间也相对较短,所以导致月收入较低,也更倾向于加班。所以到底是年轻导致了较高的离职率,还是月收入低导致了较高的离职率呢?哪个是最重要最根本的因素而其他的自变量只是附带效果?单纯画图看数据分布的话并不能得出一些对企业真正有用的结论和商业建议。作者可以考虑下causal analysis。如有说得不当之处敬请指正!
作者只是在打天池,如果需要看causal的话,就只能用实验设计了。他探索性做的还不错,不过我个人意见和您一样,作者单纯从描述性分析就能下结论这一方面确实欠妥
不应该先用主成分降维在做关联分析么