浅谈数据分析和数据建模

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

Aine

2017-05-26

5 评论 90960 浏览 386 收藏

20 分钟

大数据应用有几个方面，一个是效率提升，帮助企业提升数据处理效率，降低数据存储成本；另外一个是对业务作出指导，例如精准营销，反欺诈，风险管理以及业务提升。过去企业都是通过线下渠道接触客户，客户数据不全，只能利用财务数据进行业务运营分析，缺少围绕客户的个人数据，数据分析应用的领域集中在企业内部经营和财务分析。

数字时代到来之后，企业经营的各个阶段都可以被记录下来，产品销售的各个环节也被记录下来，客户的消费行为和网上行为都被采集下来。企业拥有了多维度的数据，包括产品销售数据、客户消费数据、客户行为数据、企业运营数据等。拥有数据之后，数据分析成为可能，企业成立了数据分析团队整理数据和建立模型，找到商品和客户之间的关联关系，商品之间关联关系，另外也找到了收入和客户之间的关联关系。典型的数据分析案例如沃尔玛啤酒和尿布、蛋挞和手电筒，Target的判断16岁少女怀孕都是这种关联关系的体现。

关联分析是统计学应用最早的领域，早在1846年伦敦第二次霍乱期间，约翰医生利用霍乱地图找到了霍乱的传播途径，平息了伦敦霍乱，打败了霍乱源于空气污染说的精英，拯救了几万人的生命。伦敦霍乱平息过程中，约翰医生利用了频数分布分析，建立了霍乱地图，从死亡案例分布的密集程度上归纳出病人分布同水井的关系，从而推断出污染的水源是霍乱的主要传播途径，建议移除水井手柄，降低了霍乱发生的概率。

另外一个典型案例是第二次世界大战期间，统计分析学家改造轰炸机。英美联盟从1943年开始对德国的工业城市进行轰炸，但在1943年年底，轰炸机的损失率达到了英美联盟不能承受的程度。轰炸军司令部请来了统计学家，希望利用数据分析来改造轰炸机的结构，降低阵亡率，提高士兵生还率。统计学家利用大尺寸的飞机模型，详细记录了返航轰炸机的损伤情况。统计学家在飞机模型上将轰炸机受到攻击的部位用黑笔标注出来，两个月后，这些标注布满了机身，有的地方标注明显多于其他地方，例如机身和侧翼。有的地方的标注明显少于其他地方，例如驾驶室和发动机。统计学家让军火商来看这个模型，军火商认为应该加固受到更多攻击的地方，但是统计学家建议对标注少的地方进行加固，标注少的原因不是这些地方不容易被击中，而是被击中的这些地方的飞机，很多都没有返航。这些标注少的地方被击中是飞机坠毁的一个主要原因。军火商按照统计学家的建议进行了飞机加固，大大提高了轰炸机返航的比率。以二战著名的B－17轰炸机为例，其阵亡率由26%降到了7%，帮助美军节约了几亿美金，大大提高了士兵的生还率。

一、数据分析中的角色和职责

数据分析团队应该在科技部门内部还在业务部门内部一直存在争议。在业务部门内部，对数据场景比较了解，容易找到数据变现的场景，数据分析对业务提升帮助较大，容易出成绩。但是弊端是仅仅对自己部门的业务数据了解，分析只是局限独立的业务单元之内，在数据获取的效率上，数据维度和数据视角方面缺乏全局观，数据的商业视野不大，对公司整体业务的推动发展有限。业务部门的数据分析团队缺少数据技术能力，无法利用最新的大数据计算和分析技术，来实现数据分析和建模。数据分析和计算依赖于科技部门，效率较低，无法打通各个环节和实现效率和收益最优。

数据分析和挖掘部门位于科技部门，优点是直接可以了解所有数据，利用最新的大数据计算分析技术来进行数据分析和建模，数据视野好。面对全局数据建立数据采集和分析系统，系统复用程度高，降低重复投资，效率高。但是团队人员商业敏感度低，过度关注技术和架构，重视技术的领先和处理效率，数据商业敏感度低，不重视数据商业化场景，对业务理解程度不够，支持力度不如前者。科技部门愿意搭建一个大数据平台，让业务部门自己去寻数据场景，业务部门在数据商业化过程中也会遇到环节不畅通，效率低下的问题。

数据分析团队应该属于独立的部门，为所有的业务部门提供服务，具有独立的技术团队，可以搭建独立的大数据计算和分析平台，利用最新的数据处理技术来建立模型进行分析。另外数据分析团队的人应来源于业务部门，具有高度的数据商业敏感度，可以将业务部门的需求分解为数据需求，将业务场景同数据场景以及数据分析相结合起来。

数据分析是一项实践性很强的工作，涉及到很多交叉学科，需要不同的岗位和角色，来实现不同的性质的工作。基本的岗位和角色如下：

1、数据库（仓库）管理员DBA

DBA最了解企业内部的数据和可用的数据资源，包括数据的存储细节和数据字典，另外其对数据的采集、清洗和转化起到关键作用。

DBA为数据科学家和数据分析师提供加工好的原始数据，这些数据是数据分析和建模的基础，DBA做了数据分析工作中最重要的基础工作，完成了大量的脏活和累活。

2、业务专家

业务专家的优势是数据的商业敏感度，了解业务需求，可以将业务需求转化为数据需求，进一步找到数据应用场景。另外业务专家也可以通过对数据的分析，找到新的商业机会，同业务部门一起制定商业计划，利用数据分析推动业务增长。

业务专家的经验对于数据分析和建模是非常关键的，他们可能是风险管理人员、欺诈监测专家、投资专家等。数据建模来源于业务经验和业务知识，正是业务专家的专业分析找到了业务规律，从而找到了建模方向，并对建模工作给出建议和解释。

3、数据科学家

过去统计分析依赖于统计分析工具，大数据时代之后，数据量级的提升和数据类型的复杂程度，让很多传统的统计分析工具无法完成分析计算。这个时候，数据科学家出现了，他们可以利用自己的专业技能帮助业务专家和数据分析人员进行建模和计算。

过去数据统计分析建模常用SPSS，SAS，MATLAB等工具，现在基于大数据平台的分析建模可以使用Spark＋Scala／Python／R／Java。数据科学家了解模型和算法，可以直接承担建模和调优工作，懂得选择合适的算法来进行计算，提高效率。

4、数据分析师

数据分析师站在数据和商业的角度来解读数据，利用图标和曲线等方式向管理层和业务人员展现分析结果，揭示数据分析产生的商业机会和挑战。

数据分析师将杂乱的数据进行整理后，将数据以不同的形式展现给产品经理、运营人员、营销人员、财务人员、业务人员等。提出基于数据的结果和分析建议，完成数据从原始到商业化应用到关键一步，数据分析师的数据敏感度、商业敏感度、分析角度、表达方式对于商业决策很重要。

5、运营专家

数据分析结果和商业决策出来之后，运营专家负责实现商业决策。通过有计划的运营活动，将数据分析的结果应用到实际的商业活动之中，运营专家是实现数据变现最后一公里的关键人物。

运营专家属于业务人员，实际上参与业务运营活动，利用数据分析结果，实现业务场景和数据场景的结合，实现数据商业化应用。

二、数据分析之前的各项准备工作

数据分析团队各成员确定之后，将进行下一项工作，就是找到有价值的数据进行分析了。数据是分析的基础，因此数据的质量、数据的相关度、数据的维度等会影响数据分析的结果影，其中GIGO（垃圾进垃圾出）对于数据分析结果影响最大。

1、数据源选择

数据分析团队面对大量的数据源，各个数据源之间交叉联系，各个数据域之间具有逻辑关系，各个产品统计口径不同，不同的时间段数值不同等。这一系列问题多会影响数据分析结果，因此确定数据源选择和数据整理至关重要。

DBA可以基于数据分析需要，找到相关数据，建立一张数据宽表，将数据仓库的数据引入到这张宽表当中，基于一定的逻辑关系进行汇总计算。这张宽表作为数据分析的基础，然后再依据数据分析需要衍生出一些不同的表单，为数据分析提供干净全面的数据源。宽表一方面是用于集中相关分析数据，一方面是提高效率，不需要每次分析时都查询其他的数据表，影响数据仓库效率。