人机耦合时代下的数据众包产业化

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

人机耦合时代下的数据众包产业化

无问西东

2019-08-07

1 评论 8025 浏览 27 收藏

11 分钟

随着数据众包产业的不断崛起，本文从数据众包产业化中的不同板块进行解析，为我们分享数据众包产业化的行业发展以及发展特征。

在互联网有一种新的产业正在兴起，那就是——数据众包。要想深入了解什么是数据众包就要从它的客户需求聊起：

“数据众包”的金主爸爸：产业上游AI

人工智能（Artificial Intelligence），它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。AI是目前对数据需求量最大的客户，并且都是大型公司，小企业由于各方面资源的限制很少会使用大数据进行研究。

AI是一个新领域么？

不是，AI是计算机科学的一个分支，AI一词最初是在1956 年Dartmouth学会上提出。从神经网络到人机耦合，当前的AI研究更着眼于从人类产生的数据中分析算法来训练计算机从事人的工作。

AI现在能做什么？

解放工业生产力：应用于工业领域，例如：使用AI处理工业数据或机器人操作。
人脸识别与监控：应用于国防安保、金融加密等。
服务行业：智能语音（聊天）机器人替代人类从事24小时客服工作、电话销售、家庭陪伴等。
其他：在汽车、医疗、设计、广告、影视等领域辅助人类进行工作。

“数据众包”的甲方大佬：机器学习

机器学习是AI的一个分支。机器学习使用算法解析数据，从中学习，然后对世界上的某件事情做出决定或预测。机器学习与软件编程最大的区别是——机器学习是在教计算机如何开发一个算法来完成任务而不是编写程序让计算机执行任务。机器学习使用分类和回归、聚类和降维、以及历史经验达到学习的目的。

Python

目前做人工智能的公司基本上选择的都是Python语言。Python是一门解释型编程语言，方便调试而且可以跨平台。Python语言具有丰富的第三方程序库，一些平台会面向互联网用户提供机器学习的Python应用编程接口。Python也有丰富完整的开源工具包。机器学习中最常用的一些库：Scikit-learn、Tensorflow、Theano、Pandas、Matplotlib、Seaborn。

大数据

大数据指不用随机分析法（抽样调查）这样的捷径，而采用所有数据进行分析处理。

大数据的5V特点（IBM提出）：

Volume（大量）
Velocity（高速）
Variety（多样）
Value（低价值密度）
Veracity（真实性）

数据就像是机器学习的燃料，5V的程度越高机器学习的效果越好。

数据服务产业化——产业下游众包模式

为了给机器学习提供充足的数据进行训练和验证，研究人员需要大量的原始数据和标准化数据。提供数据众包服务的平台也就应运而生。

目前BAT都有了自己的数据众包服务平台/服务：百度数据众包平台、阿里人工智能众包（公测）、腾讯数据标注采集服务。

其他比较知名的众包平台还有：蚂蚁众包、有道AI众包（目前新用户停止审核）、华为数据众包、Testin云测、来打标数据平台。

百度数据众包服务（图片来自官网）

数据众包服务的形式

数据众包服务分为个人分包和企业分包两种。

个人分包

即服务商运营众包平台/app面向普通大众分派任务，服务商提供便捷易学习的数据标注/拍摄/识别工具，对接包者进行培训和训练以达到可以提供标准数据服务的目的，接包者大多是兼职人群，可以提供简单的操作获取回报。

个人分包的好处是：价格便宜，服务商可以以低廉的价格获取处理结果。

企业分包

即服务商将数据任务包分派给合作商，由合作商完成并提供返回符合要求的处理结果。目前阿里和腾讯基本采用这种众包方式。

企业分包的好处是：易管理，服务商无需分派过多人手进行分包、验收等工作。

专职分包商即接包的企业，他们与大数据服务商进行合作，接到任务后或自己组织人手处理数据、或运营平台分配给其他个人或更小的专职分包商。

众包平台对上游的依赖

众包平台上的原始“发包方“基本为BAT以及几个走在AI领域前沿的大型公司，所以第三方的众包平台对上游的依赖严重，即失去“发包方”后难以再利用手中的资源创造新的市场。通过众包形式来采集的数据质量参差不齐，即使众包平台对采集到的数据进行清洗、整理，仍然无法提高其与适用场景的契合度，这也制约了众包数据毛利率上升空间。