内容消费-如何进行敏感词屏蔽

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

一只不卷产品喵

2016-10-19

39 评论 56946 浏览 126 收藏

9 分钟

最近对直播比较感兴趣，被问到一个问题——如何屏蔽弹幕中的不良内容？于是便有了如下的学习内容。

一、什么是敏感词汇？

1.分类

敏感词可大致分为以下几类：政治相关和人名、迷信邪教、黄赌毒、枪支弹药类、骂人讽刺类、时事类、广告和非法信息、其他类。

网上有很多专门的敏感词库，我在网盘里上传了一份名为百度内部的敏感词文件，仅供查看https://pan.baidu.com/s/1o8xtX1K。

2.常出没的地方

所有传播的信息都需要。发送这些垃圾信息的人或者团队被称为“垃圾虫”。

敏感词不仅出现在社区论坛、IM聊天、影音娱乐等内部的评论或上传信息区域，还隐藏在头像、昵称和签名这种地方，需要全面鉴别。

3.哪些地方需要屏蔽？

平常我们主要做的屏蔽是广告过滤、黄赌毒、暴力恐怖、谣言排查等几种。不同的场合屏蔽的级别不同，而且基于传播时效性的不同，屏蔽方式分为同步过滤和异步召回。

比如微博的屏蔽就需要做到基础和全面，甚至一些时事热点也要纳入屏蔽范围。

再比如B站，为了保持弹幕的质量，它还需要屏蔽一些刷屏的、内容尴尬的弹幕，这些弹幕的内容不算敏感，只是让人不喜欢。B站在弹幕方面算是鼻祖，做到了极致——用户可以根据颜色、字体大小、展示方式甚至自定义的文本来进行屏蔽，同时，在视频右边还有专门的弹幕栏，也就是说，我可以弹幕内容当做评论一条条地看而不受其干扰。如图所示：

屏幕快照 2016-10-18 21.28.45

二、目前有哪些手段可以进行屏蔽？

综合说来，技术屏蔽手段主要通过特征库、语义分析、机器学习等方法来展开。网易易盾上是分三类来写的：垃圾发现、垃圾识别、垃圾处理，有点表意不明，所以下面具体来介绍一下。（以下综合易盾和joylnwang的博客整理而成。）

1.垃圾发现——针对新垃圾

①用户举报：主要是指用户在使用产品过程中遇到不良信息，于是进行投诉。

为了保证投诉的效果，我们需要在举报的便捷性、显眼展示和奖励机制上花一些功夫去做，同时还需要建立科学的举报分类，不仅方便用户选择，还能极大地帮助反垃圾训练特征样本，综合来做才能有更好的效果。

②内容聚合：主要是通过判断内容的相似性，从而确定是否为垃圾信息。

就文本来说，其相似度分为两个层面，第一是基于编辑距离的文本相似度计算，这种算法是根据一段文字如何经过增删、移动而转化为另一段文字的操作步数，来计算两段文字的相似程度，运算的时间和空间复杂度都很高，对于评论，标题这样的短文本往往能获得不错的效果，缺点是对长文本不太适用，且没有考虑文本中意群的重要性。

第二是需要在原始文本中切分出有意义的Term，然后对于两篇文章的Term集合，运算得出文本的相似程度。复杂性上要高于前者，但在处理长文本的方面有优势，而且更有可能从意义的角度识别出相似的文本族（来源于http://blog.csdn.net/joylnwang/article/details/6831565）。

③蜜罐系统：主要是针对专业的垃圾虫团体。

通常垃圾虫都有特定的工具协助，而这些工具大多会分析页面元素并进行调用。如果在页面中埋伏一些“蜜罐”，正常的用户无法看到这些入口，但是程序会直接调用这些入口进行垃圾信息发送。比如某一些隐藏的评论主题，只有程序才会去抓取这些主题并对它们发送垃圾信息。那么进了这些“蜜罐”里的人，都可以被判断为非正常的用户。

2.垃圾识别

①特征匹配：主要是基于已有垃圾特征进行匹配。

对文本来说，建立敏感词库就可以直接屏蔽相关词句，同时，对于文字的变种比如简转繁、加空格、形近字、音近字，都可以有效识别。

对图片来说，主要是MD5，鲁棒哈希，Sift特征识别等手段。对于音频和视频也支持MD5匹配。（原谅我实在不能理清后面几种手段的具体技术实现，不能展开讲，有兴趣的可以百度。）总之，这几种手段可以支持人像识别、动漫识别、相似匹配、图片旋转裁剪、改变亮度色调、水印识别等，基本囊括了所有的不良图片。

②模型匹配：主要是基于机器学习，可以在没有具体特征样本库的情况下识别内容的分类。

音频文件也通过大量语料学习能把语音转换成文本，然后进入文本匹配过程。视频则通过截图的方式转换成为图片识别。

③规则匹配：即模式匹配，分为正则表达式、多模式匹配算法、基于元数据的定制等。

百度给的定义是：模式匹配是数据结构中字符串的一种基本运算，给定一个子串，要求在某个字符串中找出与该子串相同的所有子串。比如自定义规则：同IP下5分钟内发送内容相似度超80%的封禁1小时。

3.垃圾处理

①基础处理：删除内容，封禁内容，封禁用户，删除用户，封禁IP，封禁设备等常规手段

②隐蔽操作：普通的屏蔽操作容易被垃圾虫感知，当他们发现被屏蔽时，会想办法来“破解”反垃圾。故需要进行隐蔽，比较常见的做法有：垃圾发送接口返回成功，但实际仅用户自己可见。

比如直播中的弹幕，进行虚拟展示，仅用户自己可见，其他人都看不到。

③后续操作：每天把删除的垃圾内容汇总到内部分拣平台，由专业人员进行分析和对数据的分拣标记，完成各种模型以及规则的升级。

4.介绍一种常用常见的屏蔽工具——Adblock

Adblock是Mozilla Firefox、Mozilla Application Suite以及Google Chrome浏览器所使用的扩展。

Adblock允许用户拦截广告在内的各种页面元素，并使这些内容不被下载和显示。右键单击一个条幅广告，在上下文菜单中选择“Adblock”，它就再也不会被载入了；或者在侧栏打开 Adblock Plus 查看页面的所有元素，然后选择阻止条幅广告。您可以在过滤器中使用通配符或正则表达式来阻挡所有广告。

以上内容可解决大部分的敏感内容屏蔽问题，如有疑议，请在评论区回复，欢迎一起探讨~

本文由 @小乔（微信公众号：荞麦长长）原创发布于人人都是产品经理。未经许可，禁止转载。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

一只不卷产品喵

滴滴高级产品经理

10篇作品 409741总阅读量

设计师如何提升工作中的话语权

10-243595 浏览

4个月花了100万，我决定放弃短剧风口

02-246220 浏览

2500字解析｜普通人成为个人IP的发展历程

12-193284 浏览

掌握中式营销密码的SHEIN和TEMU，暴揍美国零售同行

04-171891 浏览

短剧行业的低门槛，正在慢慢消失

12-201377 浏览

汪仔4742

大佬，请求一份敏感词库。1208448620@qq.com，非常感谢~

最近来自北京回复
菌肝儿

请求一份敏感词库。1098024397@qq.com，非常感谢~

最近来自四川回复
有钱哥哥

请求一份敏感词库。1965602563@qq.com，非常感谢~

最近来自重庆回复
钦晨

请求一份敏感词库。pixmy2021@outlook.com，非常感谢~

最近来自广东回复
Jinling Y

求一份敏感词汇库，yujl0985@163.com，感谢感谢~

最近来自上海回复
尤琪

写的好好！同求一份敏感词汇库，感谢感谢啦~！
404272694@qq.com

最近来自广东回复
苏苏大人的小助手

哇，词库需求好大，同求一份敏感词库，ralvelover@sina.com

最近来自福建回复
robert

求一份敏感词库，18301878981@163.com
万份感谢！！！

最近来自广东回复
艾哈

求一份敏感词库。3102444609@qq.com
劳烦作者，十分感谢！抱拳

最近来自北京回复
汪仔5082

同求一份词库。331663325@qq.com
跪谢

最近来自河北回复
大宁

拿什么指标来衡量屏蔽做的好不好？

最近来自北京回复
wudong

求敏感词库，y120351949@163.com,谢谢。

最近来自北京回复
亚

求敏感词库，ldyweb1603@163.com,谢谢。

最近来自北京回复
汪仔7611

求一份敏感词汇库，212607950@qq.com，十分感谢~

最近来自四川回复
草莓不难呢

求一份敏感词库，hehailing@jiangxiatech.com

最近来自湖南回复
初出茅庐的原谅帽

支持语音识别吗

最近回复
清风不识字

求词库，qfbsz@126.com

最近来自山东回复
wengege

求一份敏感词汇库，yan_li_wen@163.com，感谢感谢~

最近来自上海回复
ezzio

求一份敏感词汇库，ioikobe@163.com thx~

最近来自浙江回复
stupidBigb

求一份敏感词汇库，490021684@qq.com

最近来自广东回复
嘟啦

我也想求一份敏感词汇库，huangruili_job@163.com

最近来自北京回复
yaphtone

超你妈

最近来自上海回复
辣大辣条

您好，求一份敏感词汇词库，1290120581@qq.com

最近来自湖北回复
爱你的慧姐

网盘内容被关了，求邮件发送：1849457840@qq.com

最近来自上海回复
一只不卷产品喵作者

有同学帮忙找到了，如果有人需要的话，关注我的公众号留言下，邮箱留下，我发给你~~

最近来自北京回复
1. 苏宁回复一只不卷产品喵
  
  公众号里的链接也失效了。能用邮箱发一份么？729467728@qq.com
  
  最近来自河南回复
2. Dekker 回复一只不卷产品喵
  
  已留言，感谢感谢，写得很好哦！
  
  最近来自广东回复
一只不卷产品喵作者

抱歉，网盘内容被关了。没备份。

最近回复
疯_镜

网盘上的内容已失效。可否再发一次：3200155260@qq.com

最近来自广东回复
葡萄皮

求一份敏感词汇词库，634758445@qq.com

最近来自浙江回复
在路上

很希望能够参考一下文中提到的敏感词，网盘过期了，是否能再发一份，感谢了。624136211@qq.com

最近来自江苏回复
1. 一只不卷产品喵作者回复在路上
  
  链接: https://pan.baidu.com/s/1min1teo 密码: u32c
  
  最近来自北京回复
2. 一只不卷产品喵作者回复在路上
  
  如果还有问题，可以关注我的公众号，回复“敏感词”即可
  
  最近来自北京回复
3. 铁珊瑚回复一只不卷产品喵
  
  链接失效了
  
  最近来自浙江回复
4. MrSwaim 回复一只不卷产品喵
  
  哈哈，刚才去公众号敏感词库过期了，我也求一份。留下邮箱号469305929@qq.com
  
  最近来自广东回复
Kevin

写的不错，这个干锅分享了！ 😮

最近来自广东回复