内容消费-如何进行敏感词屏蔽
最近对直播比较感兴趣,被问到一个问题——如何屏蔽弹幕中的不良内容?于是便有了如下的学习内容。
一、什么是敏感词汇?
1.分类
敏感词可大致分为以下几类:政治相关和人名、迷信邪教、黄赌毒、枪支弹药类、骂人讽刺类、时事类、广告和非法信息、其他类。
网上有很多专门的敏感词库,我在网盘里上传了一份名为百度内部的敏感词文件,仅供查看https://pan.baidu.com/s/1o8xtX1K。
2.常出没的地方
所有传播的信息都需要。发送这些垃圾信息的人或者团队被称为“垃圾虫”。
敏感词不仅出现在社区论坛、IM聊天、影音娱乐等内部的评论或上传信息区域,还隐藏在头像、昵称和签名这种地方,需要全面鉴别。
3.哪些地方需要屏蔽?
平常我们主要做的屏蔽是广告过滤、黄赌毒、暴力恐怖、谣言排查等几种。不同的场合屏蔽的级别不同,而且基于传播时效性的不同,屏蔽方式分为同步过滤和异步召回。
比如微博的屏蔽就需要做到基础和全面,甚至一些时事热点也要纳入屏蔽范围。
再比如B站,为了保持弹幕的质量,它还需要屏蔽一些刷屏的、内容尴尬的弹幕,这些弹幕的内容不算敏感,只是让人不喜欢。B站在弹幕方面算是鼻祖,做到了极致——用户可以根据颜色、字体大小、展示方式甚至自定义的文本来进行屏蔽,同时,在视频右边还有专门的弹幕栏,也就是说,我可以弹幕内容当做评论一条条地看而不受其干扰。如图所示:
二、目前有哪些手段可以进行屏蔽?
综合说来,技术屏蔽手段主要通过特征库、语义分析、机器学习等方法来展开。网易易盾上是分三类来写的:垃圾发现、垃圾识别、垃圾处理,有点表意不明,所以下面具体来介绍一下。(以下综合易盾和joylnwang的博客整理而成。)
1.垃圾发现——针对新垃圾
①用户举报:主要是指用户在使用产品过程中遇到不良信息,于是进行投诉。
为了保证投诉的效果,我们需要在举报的便捷性、显眼展示和奖励机制上花一些功夫去做,同时还需要建立科学的举报分类,不仅方便用户选择,还能极大地帮助反垃圾训练特征样本,综合来做才能有更好的效果。
②内容聚合:主要是通过判断内容的相似性,从而确定是否为垃圾信息。
就文本来说,其相似度分为两个层面,第一是基于编辑距离的文本相似度计算,这种算法是根据一段文字如何经过增删、移动而转化为另一段文字的操作步数,来计算两段文字的相似程度,运算的时间和空间复杂度都很高,对于评论,标题这样的短文本往往能获得不错的效果,缺点是对长文本不太适用,且没有考虑文本中意群的重要性。
第二是需要在原始文本中切分出有意义的Term,然后对于两篇文章的Term集合,运算得出文本的相似程度。复杂性上要高于前者,但在处理长文本的方面有优势,而且更有可能从意义的角度识别出相似的文本族(来源于http://blog.csdn.net/joylnwang/article/details/6831565)。
③蜜罐系统:主要是针对专业的垃圾虫团体。
通常垃圾虫都有特定的工具协助,而这些工具大多会分析页面元素并进行调用。如果在页面中埋伏一些“蜜罐”,正常的用户无法看到这些入口,但是程序会直接调用这些入口进行垃圾信息发送。比如某一些隐藏的评论主题,只有程序才会去抓取这些主题并对它们发送垃圾信息。那么进了这些“蜜罐”里的人,都可以被判断为非正常的用户。
2.垃圾识别
①特征匹配:主要是基于已有垃圾特征进行匹配。
对文本来说,建立敏感词库就可以直接屏蔽相关词句,同时,对于文字的变种比如简转繁、加空格、形近字、音近字,都可以有效识别。
对图片来说,主要是MD5,鲁棒哈希,Sift特征识别等手段。对于音频和视频也支持MD5匹配。(原谅我实在不能理清后面几种手段的具体技术实现,不能展开讲,有兴趣的可以百度。)总之,这几种手段可以支持人像识别、动漫识别、相似匹配、图片旋转裁剪、改变亮度色调、水印识别等,基本囊括了所有的不良图片。
②模型匹配:主要是基于机器学习,可以在没有具体特征样本库的情况下识别内容的分类。
音频文件也通过大量语料学习能把语音转换成文本,然后进入文本匹配过程。视频则通过截图的方式转换成为图片识别。
③规则匹配:即模式匹配,分为正则表达式、多模式匹配算法、基于元数据的定制等。
百度给的定义是:模式匹配是数据结构中字符串的一种基本运算,给定一个子串,要求在某个字符串中找出与该子串相同的所有子串。比如自定义规则:同IP下5分钟内发送内容相似度超80%的封禁1小时。
3.垃圾处理
①基础处理:删除内容,封禁内容,封禁用户,删除用户,封禁IP,封禁设备等常规手段
②隐蔽操作:普通的屏蔽操作容易被垃圾虫感知,当他们发现被屏蔽时,会想办法来“破解”反垃圾。故需要进行隐蔽,比较常见的做法有:垃圾发送接口返回成功,但实际仅用户自己可见。
比如直播中的弹幕,进行虚拟展示,仅用户自己可见,其他人都看不到。
③后续操作:每天把删除的垃圾内容汇总到内部分拣平台,由专业人员进行分析和对数据的分拣标记,完成各种模型以及规则的升级。
4.介绍一种常用常见的屏蔽工具——Adblock
Adblock是Mozilla Firefox、Mozilla Application Suite以及Google Chrome浏览器所使用的扩展。
Adblock允许用户拦截广告在内的各种页面元素,并使这些内容不被下载和显示。右键单击一个条幅广告,在上下文菜单中选择“Adblock”,它就再也不会被载入了;或者在侧栏打开 Adblock Plus 查看页面的所有元素,然后选择阻止条幅广告。您可以在过滤器中使用通配符或正则表达式来阻挡所有广告。
以上内容可解决大部分的敏感内容屏蔽问题,如有疑议,请在评论区回复,欢迎一起探讨~
本文由 @小乔(微信公众号:荞麦长长) 原创发布于人人都是产品经理。未经许可,禁止转载。
大佬,请求一份敏感词库。1208448620@qq.com,非常感谢~
请求一份敏感词库。1098024397@qq.com,非常感谢~
请求一份敏感词库。1965602563@qq.com,非常感谢~
请求一份敏感词库。pixmy2021@outlook.com,非常感谢~
求一份敏感词汇库,yujl0985@163.com,感谢感谢~
写的好好!同求一份敏感词汇库,感谢感谢啦~!
404272694@qq.com
哇,词库需求好大,同求一份敏感词库,ralvelover@sina.com
求一份敏感词库,18301878981@163.com
万份感谢!!!
求一份敏感词库。3102444609@qq.com
劳烦作者,十分感谢!抱拳
同求一份词库。331663325@qq.com
跪谢
拿什么指标来衡量屏蔽做的好不好?
求敏感词库,y120351949@163.com,谢谢。
求敏感词库,ldyweb1603@163.com,谢谢。
求一份敏感词汇库,212607950@qq.com,十分感谢~
求一份敏感词库,hehailing@jiangxiatech.com
支持语音识别吗
求词库,qfbsz@126.com
求一份敏感词汇库,yan_li_wen@163.com,感谢感谢~
求一份敏感词汇库,ioikobe@163.com thx~
求一份敏感词汇库,490021684@qq.com
我也想求一份敏感词汇库,huangruili_job@163.com
超你妈
您好,求一份敏感词汇词库,1290120581@qq.com
网盘内容被关了,求邮件发送:1849457840@qq.com
有同学帮忙找到了,如果有人需要的话,关注我的公众号留言下,邮箱留下,我发给你~~
公众号里的链接也失效了。能用邮箱发一份么?729467728@qq.com
已留言,感谢感谢,写得很好哦!
抱歉,网盘内容被关了。没备份。
网盘上的内容已失效。可否再发一次:3200155260@qq.com
求一份敏感词汇词库,634758445@qq.com
很希望能够参考一下文中提到的敏感词,网盘过期了,是否能再发一份,感谢了。624136211@qq.com
链接: https://pan.baidu.com/s/1min1teo 密码: u32c
如果还有问题,可以关注我的公众号,回复“敏感词”即可
链接失效了
哈哈,刚才去公众号敏感词库过期了,我也求一份。留下邮箱号469305929@qq.com
写的不错,这个干锅分享了! 😮