敏感词运营体系搭建手册
敏感词风控策略是风控法体系中最基础的,但同时也是最繁琐的。敏感词运营系统的搭建应该如何做好呢?
基于敏感词的风控策略是所有风控体系中最基础的,内容简单但琐碎,系统涉及从用户发布到用户举报、命中策略到审核处理、用户画像到AI识别等方方面面。
本次系统性的整理总结了工作以来在敏感词运营系统搭建方面的经验和想法,作为自我总结回顾的同时,也希望分享出来避免其他同学在敏感词运营方面少走弯路。
一、产品概述
1.1 产品背景介绍
敏感词系统是搜索和内容类产品的基础风控类系统。本文从词库匹配出发,涉及敏感词添加、命中方式、影响业务和影响用户等多个维度,全面介绍敏感词体系搭建的结构和流程。
1.2 产品功能概述
通过本系统可以过滤基础的文本敏感内容;可以结合业务线灵活掌握敏感词过滤方式,以及触及敏感词的用户。
1.3 名词介绍
词库:同一类别的敏感词所组成的一个大类。本文中有四大词库(红线词库、敏感词库、危险词库),每一个词库中有三级分类。
词过滤:针对搜索业务,对搜索词直接过滤。
结果过滤:针对命中敏感词的结果直接过滤。
二、使用场景
敏感词系统最基本的功能有匹配词库就足够,但是面对越来越多的越来越复杂的产品形态,单一的敏感词系统使用场景的问题基本有以下四类:
场景一:A产品要小规模内测上线,产品中的评论功能需要接入最基本的敏感词控制风险,但是面对运营的词库找不到哪些属于“基本”敏感词;
场景二:B产品被用户反馈有低俗色情内容,但敏感词明明已经添加过了,经检查发现该敏感词只管控了甲业务,新上的乙业务没有添加管控而被用户投诉;
场景三:C产品被老大反馈自己发表的评论消失了,开发查到是命中了敏感词导致找到了运营,但运营认为这个词字面上看确实有问题,可说不出添加依据;
场景四:及时手握大量敏感词,但依旧依靠人工排查来扩充词库,费时费力;
因此,在本系统会尝试解决以上四类问题。
三、产品需求
1. 核心路径
用户:输入/发布–>敏感词检测–>过滤–>结果展示;
运营:发现敏感词–>评估–>添加–>处理被过滤内容。
2. 模块结构
3. 功能树
系统以词库为基础,将敏感词根据重要程度不同,区分不同类别,如红线类别,敏感类别,危险类别等等,不同类别结合用户维度和地域维度,正则匹配或精确匹配等不同匹配方式,作用于不同业务,产生不同效果。
4. 页面结构
5. 原型设计
5.1 策略配置
背景功能:词库和业务结合。控制影响方式(词过滤或结果过滤),控制持续时间,控制状态(生效或者是下线),掌握策略召回的数量,并可将策略召回的内容进行处理。
页面说明:策略管理页可直接配置管控策略。例如在红线词库中,添加二级类别为“低俗色情”,选择该类别下所有的三级类别“all”,选择需要管控的业务如一级业务“搜索”,其下所有二级业务,选择影响方式和持续时间,则达到效果为:
“在搜索下的所有业务,都被红线词库-低俗色情类别敏感词所影响,影响方式为在搜索该词时就被影响,且为永久影响状态”。
策略配置所需要的其他部件添加或者修改则在业务管控和词库管理进行。
原型演示:
5.2 词库管理
背景功能:添加敏感词,控制该词所属词库,并在添加时可看到召回量,抽样评估后得到拦截准确率。
页面说明:敏感词添加可直接批量添加多词,并初步依靠字面意义判断所属词库,然后评估召回量和随机样本,给出是否需要生效,以及确认所属词库。
随机样本抽取数量和方式可在“样本设置”进行,命中准确率评估可在“敏感词评估”进行。
原型演示:
5.3 用户配置
背景功能:将用户与敏感词、业务、地域三种维度结合。
页面说明:敏命中策略指“策略配置”页的策略,可看到被该策略召回的用户数,点击“处理”可跳转至“内容处理”页面进行处理。
原型演示:
5.4 内容处理
背景功能:对命中策略的业务或用户做处理。
页面说明:时间指该策略生效的时间,可在该页面完成增量和存量内容的处理。
原型演示:
5.5 数据统计
背景功能:从策略维度、词库维度、用户维度和处理维度做出数据统计。
页面说明:报表形式给出
原型演示:
四、未来规划
互联网面前人人平等,因此人们可以非常轻易的暴露自己黑暗的一面。
为了避免其他用户看到、接触到、受到这些黑暗信息的影响,敏感词系统应运而生。这不仅承担着为产品过滤基础风险的功能,同时作为基础系统承担着为公众提供一个天朗气清的网络环境的作用,因此敏感词系统也需要不断的优化和改进:
- 利用AI技术增强语义识别功能,扩充添加渠道,及时发现及时处理;
- 敏感词系统和舆情系统结合,成为负面舆情控制和处理的强大工具。
本文由 @秃头少女 原创发布于人人都是产品经理。未经许可,禁止转载
题图来自Unsplash,基于CC0协议
有线上原型看看吗
看了一眼我司的产品,默默的拿起了板砖…
另外:恶魔宝宝哈哈哈好可爱
红线类别,敏感类别,危险类别等等,不同类别结合用户维度和地域维度,正则匹配或精确匹配等不同匹配方式,作用于不同业务,产生不同效果。
能够介绍下各有哪些效果呢?
你好,我想请问一下,召回得作用是什么?
在原型图中,有点没看明白,“词库”里的分词库,和“二级类别”本质区别是啥
同问,往词库添加内容是,直接用‘业务’就行了吧。选择一级业务(大的方向)、然后再选二级和三级的细分业务。
于细微处见真章,受教了。。。公司现阶段正好准备做这方面的功能,方便留个联系方式吗?
加公众号:恶魔宝宝,留言给我就好
请问你们公司的敏感词需要审核嘛?
你是指审核敏感词?还是审核内容是否有敏感信息?
审核敏感词,不是审核内容。当业务人员添加一个敏感词的时候,是否需要审核后再生效呢?
审核需要大数据+人工评估准确率,仅仅人工审核是不够的哦
👍 请问大词库与业务词库间的同步是怎么做的呢?
结构上业务词库是大词库的子集,后端实现上可以给词库编号或者其他方法吧,不了解后端实现呢
原型能给发一下参考吗 😉
我有放在云盘里
加公众号:恶魔宝宝 拿密码
写的不错
谢谢
这样一个后台正常情况下的工期是多久呢?
哈哈哈 基础词库过滤很简单的 一个后端一下午就能搞定
但是要做到运营能使用并且数据透明化 那工作量就大了 两三个人估计要小一个月
这是什么软件啊
原型用AXURE做的
动图用LICEcap做的
很详细
谢谢
原型演示用的是什么软件啊?
原型用AXURE做的
动图用LICEcap做的