浅谈反垃圾策略:如何营造一个良好的内容环境?

5 评论 5079 浏览 48 收藏 16 分钟

做UGC产品常碰见的难题是什么?那就是如何筛选与过滤垃圾信息,为社区塑造良好的产品调性与氛围,为用户提供良好的产品体验。本文中,笔者也结合了自己的思考,为我们介绍了信息发布的流程以及如何筛选垃圾信息的判断。

垃圾信息几乎是每个产品不可避免的问题,尤其是以UGC为主的产品。

如果无法对这群水军、营销者加以控制,那么不光产品本身氛围,甚至可能带来恶性循环。比如在一个社区里,充斥着大量低劣的广告,则新用户也很难提起兴致去参与讨论。

所以,本文主要来探讨在这种敌明我暗的互联网环境中,该如何反垃圾信息,拥护一个良好的环境,同时避免误伤到我们的真实用户。

一、什么是垃圾信息

在探讨反垃圾策略之前,我们先将互联网上的垃圾信息做下简单的归类。

1. 广告

最常见的必然是广告,只要我们的产品具有一定的用户量,那么必然像水果吸引苍蝇一样,引来不少各类营销者前来蹭流量。

他们通常会在评论区、弹幕、公屏等能够和他人交流的地方疯狂刷屏。

2. 低质内容

因为太过广泛,所以这类信息其实我也不知该如何定义。

它可以理解为水贴,这类低质量的内容对用户没有什么吸引力,甚至泛滥的时候影响到了产品的内容生态、制度的公正性。

比如知乎里大量简短无意义的回答,豆瓣里被水军恶意差评过的电影等。

3. 违法信息

这类政治敏感、黄赌毒等信息,不光对用户有所影响,甚至国家政策也在严控。若不能有效控制,则产品本身运营也存在风险,此前有不少APP就因此被关停整改了。

二、发布信息的流程

了解完何为垃圾信息后,我们再来看下这些信息是如何被生产出来的,以便思考该怎么样制定相应的策略防范它们的产生。

我们以一个最常见的发表评论为例:

如图所示,我画了一个相当简单的流程图:

第一步:用户触发

我们也可以称之为行为门槛,什么类型的用户才允许发表评论?

相信大家可能经常遇到这样的情况,当你看完一篇文章后,兴冲冲要发表点想法时,系统会冰冷地弹出一个窗口,让你先登录;而在登录之后,又要求你绑定手机号;绑定完后,还要等待注册时长满24小时……

诸如此类,越是成熟活跃的社区,它可能宁愿降低新用户的体验,也要保证新内容的质量。

第二步:撰写评论

可能不同的产品千差万别,但笼络地归纳起来,其实就是内容形式和限制条件。

评论内容是纯文字还是带图片?字数限制多少?图片最多允许几张?只有明确了用户将产生哪些信息,我们才能够有效地针对处理。

第三步:确认发表

这一步其实是继准入门槛之后的延伸,我把它称为内容门槛,可以对发表的评论先做一个简单的校验。

比如空内容、纯字符、大段重复等明显垃圾信息,我们可以将它拦截在这里,都无需进入审核。

第四步:评论审核

审核可以分成人工、机器。

在评论量特别大的产品里,如果靠人在审核将是特别大的工作量,也很可能出现遗漏。而机器审核虽然效率高,却对一些经过包装粉饰的垃圾信息难以识别。

所以我们通常会选择两者结合,下面会进一步探讨。

第五步:展示/屏蔽

在经过重重机制之后,我们才最终得出结论:用户刚发布的这条评论是留是去。

补充一点,现在很多产品即便在判定此条评论为垃圾信息后,也不会简单粗暴地删除,而是选择对外隐藏,但对发布的用户还显示。

这样的做法当然并不是对垃圾信息的宽容,而是为了避免伤害到被误判的用户。

额外说明,在这个流程里举例是先审后发,但也有很多先发后审,或者像直播那种边审边播的场景,这里先不赘述。

三、该如何防范垃圾信息的产生

直到这里,我们可以开始探讨除了耗时耗力去逐一人工审核外,我们在产品逻辑、算法机制上如何应对这些垃圾信息吧。

我个人将反垃圾策略分为五个维度,如图所示:

1. 用户属性

顾名思义,用户属性其实就是我们这款产品对TA的一个身份定义,可以涵盖的有很多,比如:

  • 注册时长
  • 有无头像
  • 是否绑定了手机号
  • 是否充值消费过
  • ……

这些属性代表了这个用户在产品上的价值,也可以从侧面观测出TA是否真的在使用这款产品。

想也知道,那些为发广告而来的人肯定不会愿意投入太多精力在这些琐碎的过程上,所以,我们就可以在上面大做文章,比如需绑定了手机号的用户才能发布新内容等等。

同时,我们还可以建立白、黑名单机制,当某个用户频繁发垃圾信息或被举报后,我们可以禁止他再次发布内容。

2. 操作行为

根据数据观察,正常的用户和滥发垃圾信息的用户他们的操作行为有很大不同,而且有部分甚至是采用脚本或软件进行群发。

像那些发广告的人为追求效率,他们总是频繁地复制黏贴重复一个流程,每次发布新内容的时间间隔都很短,我们自然也可以在上面做相应限制。

比如,同一个设备号/IP/账号ID的用户在3分钟内最多发1条新的内容。

该如何制定这项相关的策略,其实在于我们对真、假用户的行为判定,你去想想哪些行为真的用户不屑于做,而假的用户又在频繁操作那么很快就会明白了。

像大家都知道,微信的安全策略特别高,经常封号,因为它会经常检测出那些具有频繁添加好友、地理位置不变/变动异常、时常群发等行为特质的违规用户进行处理。

3. 内容信息

通过检查内容本身来判定这条信息是否符合要求,是反垃圾中的一个最常见策略,也是机器算法不断在深入研究的一个方向,只可惜这项技术本身看着不错,但在实际应用时往往不尽如人意。

如果你曾做过防垃圾相关的工作,那么你会发现“上有政策、下有对策”。

中华汉字的文化博大精深,比如我们不希望内容信息里出现“公众号”这类带有引流特性的词语,那么很快就会衍生出“gongzhonghao”“厷众号”“gong众呺”这类夹杂着拼音、火星体的来替代。

而且这些垃圾信息在不断地被屏蔽、被封号中也在进化,广告越来越软,暗示越来越隐晦。

像淘宝在微信圈的分享文案一直是行业内的一个笑话,如果你作为微信的PM,让你去堵住这种信息,是不是也很头疼?

不过泼完冷水,我们还是要继续探讨下该用什么规则去判断这条内容信息能否过审?

我个人觉得主意有以下这两个维度:

(1)违禁词库

其实就是将所有不希望用户发布的内容穷举出来,比如“加微信”“招兼职”这类词语,当用户的内容中包括了这些词语,并达到了某个频率,我们可以将这条内容判定为垃圾信息。

(2)重复率

绝大多数情况中,垃圾信息并非偶例,而是成批出现;且因为那个用户的目的通常为一个,所以TA产生的内容会有所重复。

因为为了宣传效率,TA不太可能每次发布内容都重新编写一套话语。

所以我们通常可以将用户新发的内容将TA的历史记录做比较,若重复率极高且频繁,那TA可能正在制造大量的垃圾信息。

4. 大数据库

垃圾信息几乎是所有产品的深受其扰的问题之一,所以现在也有不少可供接入使用的反垃圾系统,它们的价值核心就在于有海量的大数据样本,且在不断扩充,对不同领域的垃圾信息都能很好的识别。

利用大数据的最大好处就是,全网共享信息,比如某个微信用户在平台A被禁了,那么平台B也能够知晓这个消息,对这个用户严防以待。

5. 抬高成本

因为垃圾信息是由人产生的,我们在看到表象的同时,也可以换个角度去思考这些人的动机。

比如说广告,一个微商为了卖出TA的产品,就希望引来客流关注,TA的动机是为了赚钱,而在发布广告信息时,TA其实也存在成本,精力和金钱。

我们规定必须绑定过手机号的用户才可以发内容,TA就需要多花两分钟去绑定;我们规定必须消费过的用户才可以点评,那TA就需要花一定的金额才能点评……

这些规定其实都是在提升滥发垃圾信息的人的成本,当TA在我们产品上发布成本大于所能获得的回报时,那么TA也没理由再继续这个行为了。

有一项应用在反垃圾邮件中比较有效的策略就是,当用户发送一封新邮件时,需要消耗TA的设备资源进行一些计算,这对于个人来说微不可察。但对于频繁发送垃圾邮件的人来说,将是不少负担。

当然,规定绝非越严越好,因为我们还得考虑正常用户,如果要求太严苛,将大多数用户拒之门外,也不是件好事。

四、举个实例

讲完枯燥的理论,最后举个例子吧。

以《QQ阅读》产品为例,根据书籍的评论区这一功能,我们该如何防止垃圾评论的产生?

首先,还是基于原来画的那个简单的流程图,然后运用上述策略做扩展。

用户触发 – 撰写评论 – 确认发表 – 评论审核 – 展示/屏蔽

1. 首先是用户触发的门槛。为了保证多数用户的体验,可以先做个用户分群,因为垃圾信息通常是由新用户产生,所以在发布评论上,新用户的要求将比老用户更高,比如:

2. 其次,在撰写评论时,我们可以对用户做一些基本的约束,比如:

3. 然后,在确认发表时,我们需判断下是否让用户发表,进入下一流程,在这个流程上其实也可以宽松一些,比如只判断正文内容是否为空。

4. 接下来,可以调下原流程图的顺序,将原来的先审后发改为先发后审。

因为这样能够让用户发表完成后,即时看到TA的内容,体验更佳。但为了防止垃圾信息对别的用户造成影响,所以可以在此之间加入一条规则——用户发表后的内容在初次审核之前,暂时只对TA自己可见。

也就是说,当用户写了一条书评后,当TA点下“发表”,就立刻能在信息流里看到;但这个书评在未审核完成前,除TA之外的人是看不到的。

这种做法两边兼顾,既给了用户良好的反馈又防止了垃圾信息带来的影响。

5. 而审核方面,可以同时接入人工和机器审核。其实第4步所说的初审核,也是机器审核,只要初略判断用户发布的评论没大问题,就可以对外开放给其他人。机器审核的耗时较短,可能用户都不会察觉到。

6. 同时,因为考虑到人工审核是件极费人力的事情,可以再加入举报机制、黑名单机制,来帮助运营人员更快的去处理垃圾信息。

最后,附上一个完整的流程图,以便更好的理解。

关于反垃圾策略,暂时就只探讨这么多,毕竟个人经验有限,还希望对大家能有所帮助。

另外,其实上文中很多内容其实针对都是广告类的垃圾信息,并不适用于低质内容。

而在一个产品中如何提升UGC的内容质量,应该是另一套策略了。比如,定下产品调性、引入核心用户、激励政策、内容再传播等,希望有机会再一起探讨。

 

本文由 @猫丸 原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自Unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
海报
评论
评论请登录
  1. 想请教一下,如果是先发后审,那么审核通过后的时间流怎么处理呢?是依然按照用户发布时间排序嘛?

    来自上海 回复
    1. 看看微博 就知道了,除非注重时效性,不然用户对时间的感知度制度不太重要。

      回复
  2. 颇有收获

    回复
  3. 总感觉缺点什么…没有形成闭环?只有自己单方作战?用户体系好像也没有搭建

    回复
  4. 某宝的宣传文案也可以从结构上匹配下

    回复