大数据的误区：数据统计≠大数据

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

大数据的误区：数据统计≠大数据

小红帽

2016-03-04

1 评论 9794 浏览 172 收藏

14 分钟

大数据太火了，被广泛应用到各行各业，而近阶段又有着明显的过热迹象。大数据到底是一个营销词汇，还是一个方法论？本文作者老李正是一家大数据服务提供商的资深员工，他所做的项目就是针对不同行业进行大数据分析。他认为，关于大数据你首先必须有一个基本认识，那就是“大量的数据并非一定具有价值”。另外，数据统计并不等同于大数据，数据统计和大数据的区别就在于人工智能。长文慎入：

近两年来，“大数据”被广泛应用到各行各业，而近阶段又有着明显的过热迹象。从央视的春运迁徙图到姚晨看到微博数据的惊呼；从两会期间的两会大数据，到《星星》都叫兽的高低领毛衣，“大数据”被人们推到了一个前所未有的高度，同时也从一个高精尖的科研方向变成了一个世人皆知的营销词汇。

我既没有资格代表学术界，更没有资格来判定谁是谁非。我只能就自己的工作经历，来谈一下我眼中的大数据：

什么是大数据？

百度百科对大数据的定义是这样的：大数据（big data）或称巨量资料，指的是所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。

Gartner给出了这样的定义：“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

个人认为Gartner的定义更为贴切。“新处理模式”是一个很关键的词汇，这也是我所理解的“大数据”区别于传统统计分析等最关键的特征之一。这个所谓的“新处理模式”有两层含义：

由于海量的数据，需要更高效的存储和处理技术，Hadoop成为了大数据时代的标志；
如果你认为大数据就等于Hadoop，那就大错特错了。Hadoop只是大数据时代的一个必要条件，大数据还有一个明显的标志是数据挖掘和人工智能的紧密结合。这也是我理解的“大数据”与现在很多所谓“大数据”项目最明显的区别之一。我会在后面的案例中给大家展开。

除了上面的“新处理模式”上的区别，个人认为还有一个最主要的区别是：数据统计分析是基于已有数据的纵向归类，而大数据是基于对已有海量数据的处理，对还未产生的数据作出预测和推荐。数据统计是已经发生的事情，而大数据往往被用于还没有发生的事情预测或者推荐中。

预测和推荐，是如何实现的？

目前主要的推荐算法大致可以分为两类。一个是基于行为，一个是基于内容。当然，针对不同的领域，不同的预测和推荐的对象，又会有十余种算法。这就不是本文展开的内容了。

基于行为的分析，顾名思义，即对用户在互联网、移动互联网留下的“痕迹”，即浏览、点击、收藏、购买、二次购买的分析，得出未来会选择购买的预测和推荐结果。基于行为的分析，属于群体智慧，综合利用群体用户的行为偏好。用户之间会相互影响，更加符合现实世界中的用户行为。

有关大数据的误区：数据统计≠大数据

图1、电商基于行为的推荐漏斗算法

基于内容的分析，包括对文字、图片、音频、视频等信息的分析，得出预测和推荐的结论。内容的“基因”和用户的偏好相匹配，最有代表的是潘多拉的音乐推荐项目，其将曲库中所有歌曲都由400多位专家打上标签，然后建立个人与音乐的联系，从而完成音乐的推荐。内容的分析只针对个人，与用户之间关系无关。

大数据到底能做什么

现在谈这个问题可能会让大家笑话，似乎所有人都知道大数据能干这个，能干那个，最后连我们自己都觉得可笑。大数据已经都不是被“妖魔化”了，是“娱乐化”。大数据似乎是个离我们忽远又忽近的事物了，变得不真实起来。

好吧，我还是结合从业经历来说说大数据“解决过什么问题”吧：简单地来说，大数据可以帮我们解决决策和选择的问题。

天气预报就是一个最古老而且众所周知的预测。你可以根据预报来决定明天穿什么衣服，是否要带雨伞，等等；

近两年来，大数据被应用到影视制片行业，基于对观众偏好的分析，去预测、设计观众喜欢的剧情，找观众喜爱的演员出演相关的角色，甚至可以去预测票房。这些所有的预测都是基于数据的基础上，经过一定的模型处理，得到接近真实的结论。从某种程度上给决策者决策的依据，比如《纸牌屋》和《星星》。

大数据还有一个重要的作用，就是解决人们的“选择”问题。别笑，无论你的年龄、性别、教育背景，人们目前都面临着前所未有的选择问题。讲的学术一些，这是由于“长尾效应”导致的问题；讲得通俗一些，就是由于日益增多的可选择的对象和我们自身的处理能力之间的矛盾。

科技的进步让人变得更懒，也就是我们自身的处理能力降低，无论是主观的还是客观的。而可被选择的对象却在日益增多。从纷繁复杂的商品（电商），到海量曲库中的乐曲；从婚恋网站的男女朋友，到交通管理的信号灯。

基于人工智能下的大数据，就是可以使人们“变懒”的一个手段。基于你的历史行为，判断出你可能的喜好，乃至需求，将最佳结果，推荐给你。这就是大数据，她是你的贴心管家，或者说是最懂你的朋友。

一个最经典的案例是沃尔玛曾经做过的“啤酒”和“尿布”调研：沃尔玛在研究中发现，一类顾客经常在购买尿布的同时也购买啤酒。尿布跟啤酒自然是毫无关联的两个品类的商品，从个人经验上来看，根本想不到二者的联系。后来发现，这是一类社会现象所导致的。美国有很多年轻夫妇，尿布用完后，女主人在家带孩子，而男主人就去超市买尿布。买完尿布之后，男主人通常会顺带着买些啤酒。

上述例子说明，数据经常可以让你发现看似不合理不合逻辑但却存在，并且经常发生的现象。

再举个例子，北京的交通拥堵是地球人都知道的事情。尤其是早晚高峰，这已经不需要预测了。但如果根据历史交通数据，再经过数学模型，计算出一个全北京最佳的交通信号灯管理系统，这就属于大数据的范畴了。

有关大数据的误区：数据统计≠大数据