数据ETL：反作弊的应用与基础模型 | 人人都是产品经理

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

注册 | 登录

数据ETL：反作弊的应用与基础模型

2020-04-18

1 评论 15474 浏览 40 收藏

B端产品经理需要更多地关注客户的商业需求、痛点、预算、决策流程等，而C端产品经理需要更多地关注用户的个人需求

文章对数据ETL中的反作弊应用进行了简单的梳理分析，希望通过此文能够加深你对数据ETL的认识。

一、反作弊作用于哪个阶段？

在做反作弊之前，我们要明确整个数据从底层到数据中台过程中流向是什么样的。这里，我梳理了一个模型，它可以反映这一过程。

数据从原始采集经过“清洗规范”，会形成“通用数据”，这里会过滤掉异常数据供上层使用。

通用数据会根据业务场景，聚合成符合业务指标计算的数据，即“应用数据”，比如说是“主题场景”的数据。“主题场景”的数据可以是基于大背景的场景（横向），如：推荐业务场景、搜索业务场景。也可以是垂直到业务线的场景（纵向），如：某项购物时的推荐场景、短视频搜索的业务场景。这一过程会产生“数据残渣”，这部分数据是暂时没有应用场景的数据。

比如，在推荐商品时，你只取了用户的年龄、性别等作为特征，剩下的用户姓名这个特征数据在这个场景应用不到，它就成了暂时的“数据残渣”。不过，你可能在信贷业务场景中使用到这个特征数据（用户姓名），那种应用场景下它就不是“数据残渣”。

应用数据只是一个基础可用的数据集市，还需要经过反作弊系统来过滤掉具体应用场景下的作弊用户或者设备，形成“业务数据”。

最终，跟进业务需求等制定数据指标、维度等计算逻辑，并在数据中台形成可视化数据。

综上，我们可以发现，反作弊是在“应用数据”与“业务数据”之间work的。

二、反作弊基础模型

1. 通用基础设备过滤规则

这里面可以是人为设定的一些规则（比如：设备中安装有淘宝APP版本号大于线上最新版本的用户都是作弊用户），也可以是基于经验总结的设备属性。举个例子：

2. 数据分析系统

这里面主要是根据业务场景，分析业务属性与用户属性在结合的过程中产生的作弊用户。当然，可以通过业务规则或者算法来找出这部分用户。举例，在投放广告时，可以根据用户的uid、ip等找出这些属性与某些广告是否存在强关联关系，试图找出用户有恶意刷广告的行为。下图给大家介绍几个算法以及其应用场景。

3. 评分系统

评分系统也是基于业务场景来制定的规则或算法，从而产生对应的黑名单。比如，在短视频领域中，可以根据用户行为画像和视频画像来给视频或者用户打分。其主要流程可以参考下图：

这里面关键是如何建立“过滤模型”，由于保密问题，这块需要大家根据业务场景自行建模。

4. 机器学习系统

这部分没有什么太多可以分享的，因为市面上机器学习的算法有很多，也很成熟，需要根据业务场景来选模、建模，甚至优化模型等等。

作者：软院猛哥人人都是产品经理网“萌新一枚”

本文由 @软院猛哥原创发布于人人都是产品经理。未经许可，禁止转载。

题图来自 Unsplash，基于 CC0 协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

搜狐大数据中心产品主管

6篇作品 82148总阅读量

即时零售的双11还可以这么玩？

11-15738 浏览

即时零售的双11还可以这么玩？

大厂卷向扁平化

07-184269 浏览

大厂卷向扁平化

破解产品面试高频问题：一套破题思路助你一臂之力！

刚刚

对比分析报告：ChatGPT和文心一言

12-259599 浏览

对比分析报告：ChatGPT和文心一言

Axure教程：使用选项组实现多级菜单点击选中

09-225679 浏览

Axure教程：使用选项组实现多级菜单点击选中

抖音渠道猛增，“疲软的”业务该怎么办？

04-252733 浏览

抖音渠道猛增，“疲软的”业务该怎么办？

出海产品本地化最佳实践分享

出海产品本地化最佳实践分享

推荐

评论

一期一会

能加个微信吗，我想跟您交流一下

最近来自北京回复

UI转产品，跳槽涨薪30%，只用了90天，我是怎么做的

产品经理经常犯的几个错误，你犯过吗？

12-201055 浏览
万亿规模能源产业互联网【能链】为何一枝独秀？经营指标层面深度解读

09-041701 浏览
如何从激烈职场和商业竞争中脱颖而出

10-311431 浏览

87859人已学习12篇文章

产品经理面试指南

世间万物皆有套路，面试更是如此，多拿几个靠谱offer。

14285人已学习12篇文章

如何做好跨部门沟通？

在职场中，跨部门沟通是一个非常重要的软技能，不管是要完成日常项目，还是接手新的业务，都需要有良好的跨部门沟通能力。本专题的文章分享了如何做好跨部门沟通。

13106人已学习12篇文章

获客渠道及方法

随着互联网的不断发展，如今获客渠道及方式也有很多。本专题的文章分享了获客渠道及方法。

16934人已学习11篇文章

国外的产品经理，都在关注什么

15455人已学习12篇文章

什么是CDP（客户数据平台）？如何搭建CDP平台

CDP，即客户数据平台，是企业用来集中管理和整合客户数据的工具。本专题的文章分享了什么是CDP和如何搭建CDP平台。

12012人已学习19篇文章

机器人行业调研

机器人行业是一个新兴的行业，国内做的公司不多。本专题的文章对整个机器人赛道进行完整的梳理，在输入输出的同时，体验时代带给我们的冲击感。