敏感词运营体系搭建手册

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

秃头少女

2019-01-28

26 评论 27910 浏览 194 收藏

9 分钟

敏感词风控策略是风控法体系中最基础的，但同时也是最繁琐的。敏感词运营系统的搭建应该如何做好呢？

基于敏感词的风控策略是所有风控体系中最基础的，内容简单但琐碎，系统涉及从用户发布到用户举报、命中策略到审核处理、用户画像到AI识别等方方面面。

本次系统性的整理总结了工作以来在敏感词运营系统搭建方面的经验和想法，作为自我总结回顾的同时，也希望分享出来避免其他同学在敏感词运营方面少走弯路。

一、产品概述

1.1 产品背景介绍

敏感词系统是搜索和内容类产品的基础风控类系统。本文从词库匹配出发，涉及敏感词添加、命中方式、影响业务和影响用户等多个维度，全面介绍敏感词体系搭建的结构和流程。

1.2 产品功能概述

通过本系统可以过滤基础的文本敏感内容；可以结合业务线灵活掌握敏感词过滤方式，以及触及敏感词的用户。

1.3 名词介绍

词库：同一类别的敏感词所组成的一个大类。本文中有四大词库（红线词库、敏感词库、危险词库），每一个词库中有三级分类。

词过滤：针对搜索业务，对搜索词直接过滤。

结果过滤：针对命中敏感词的结果直接过滤。

二、使用场景

敏感词系统最基本的功能有匹配词库就足够，但是面对越来越多的越来越复杂的产品形态，单一的敏感词系统使用场景的问题基本有以下四类：

场景一：A产品要小规模内测上线，产品中的评论功能需要接入最基本的敏感词控制风险，但是面对运营的词库找不到哪些属于“基本”敏感词；

场景二：B产品被用户反馈有低俗色情内容，但敏感词明明已经添加过了，经检查发现该敏感词只管控了甲业务，新上的乙业务没有添加管控而被用户投诉；

场景三：C产品被老大反馈自己发表的评论消失了，开发查到是命中了敏感词导致找到了运营，但运营认为这个词字面上看确实有问题，可说不出添加依据；

场景四：及时手握大量敏感词，但依旧依靠人工排查来扩充词库，费时费力；

因此，在本系统会尝试解决以上四类问题。

三、产品需求

1. 核心路径

用户：输入/发布–>敏感词检测–>过滤–>结果展示；

运营：发现敏感词–>评估–>添加–>处理被过滤内容。

2. 模块结构

3. 功能树

系统以词库为基础，将敏感词根据重要程度不同，区分不同类别，如红线类别，敏感类别，危险类别等等，不同类别结合用户维度和地域维度，正则匹配或精确匹配等不同匹配方式，作用于不同业务，产生不同效果。

4. 页面结构

5. 原型设计

5.1 策略配置

背景功能：词库和业务结合。控制影响方式（词过滤或结果过滤），控制持续时间，控制状态（生效或者是下线），掌握策略召回的数量，并可将策略召回的内容进行处理。

页面说明：策略管理页可直接配置管控策略。例如在红线词库中，添加二级类别为“低俗色情”，选择该类别下所有的三级类别“all”，选择需要管控的业务如一级业务“搜索”，其下所有二级业务，选择影响方式和持续时间，则达到效果为：

“在搜索下的所有业务，都被红线词库-低俗色情类别敏感词所影响，影响方式为在搜索该词时就被影响，且为永久影响状态”。

策略配置所需要的其他部件添加或者修改则在业务管控和词库管理进行。

原型演示：

5.2 词库管理

背景功能：添加敏感词，控制该词所属词库，并在添加时可看到召回量，抽样评估后得到拦截准确率。

页面说明：敏感词添加可直接批量添加多词，并初步依靠字面意义判断所属词库，然后评估召回量和随机样本，给出是否需要生效，以及确认所属词库。

随机样本抽取数量和方式可在“样本设置”进行，命中准确率评估可在“敏感词评估”进行。

原型演示：

5.3 用户配置

背景功能：将用户与敏感词、业务、地域三种维度结合。

页面说明：敏命中策略指“策略配置”页的策略，可看到被该策略召回的用户数，点击“处理”可跳转至“内容处理”页面进行处理。

原型演示：

5.4 内容处理

背景功能：对命中策略的业务或用户做处理。

页面说明：时间指该策略生效的时间，可在该页面完成增量和存量内容的处理。

原型演示：

5.5 数据统计

背景功能：从策略维度、词库维度、用户维度和处理维度做出数据统计。

页面说明：报表形式给出

原型演示：

四、未来规划

互联网面前人人平等，因此人们可以非常轻易的暴露自己黑暗的一面。

为了避免其他用户看到、接触到、受到这些黑暗信息的影响，敏感词系统应运而生。这不仅承担着为产品过滤基础风险的功能，同时作为基础系统承担着为公众提供一个天朗气清的网络环境的作用，因此敏感词系统也需要不断的优化和改进：

利用AI技术增强语义识别功能，扩充添加渠道，及时发现及时处理；
敏感词系统和舆情系统结合，成为负面舆情控制和处理的强大工具。

本文由 @秃头少女原创发布于人人都是产品经理。未经许可，禁止转载

题图来自Unsplash，基于CC0协议

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

秃头少女

前阿里搜索产品运营

5篇作品 83658总阅读量

B端企业中体验从业者的职场局经验系列分享（一）

03-162491 浏览

04-191453 浏览

09-043064 浏览

12-061625 浏览

09-192153 浏览

猫爷君

有线上原型看看吗

最近来自湖北回复
，

看了一眼我司的产品，默默的拿起了板砖…

另外：恶魔宝宝哈哈哈好可爱

最近来自浙江回复
Hayburn

红线类别，敏感类别，危险类别等等，不同类别结合用户维度和地域维度，正则匹配或精确匹配等不同匹配方式，作用于不同业务，产生不同效果。
能够介绍下各有哪些效果呢？

最近来自福建回复
邓丽

你好，我想请问一下，召回得作用是什么？

最近来自江苏回复
Sherry

在原型图中，有点没看明白，“词库”里的分词库，和“二级类别”本质区别是啥

最近来自北京回复
1. 侠客游回复Sherry
  
  同问，往词库添加内容是，直接用‘业务’就行了吧。选择一级业务(大的方向)、然后再选二级和三级的细分业务。
  
  最近来自北京回复
The。Key

于细微处见真章，受教了。。。公司现阶段正好准备做这方面的功能，方便留个联系方式吗？

最近来自北京回复
1. 秃头少女作者回复The。Key
  
  加公众号：恶魔宝宝，留言给我就好
  
  最近来自北京回复
小鱼干

请问你们公司的敏感词需要审核嘛？

最近来自北京回复
1. 秃头少女作者回复小鱼干
  
  你是指审核敏感词？还是审核内容是否有敏感信息？
  
  最近来自北京回复
2. 小鱼干回复秃头少女
  
  审核敏感词，不是审核内容。当业务人员添加一个敏感词的时候，是否需要审核后再生效呢？
  
  最近来自北京回复
3. 秃头少女作者回复小鱼干
  
  审核需要大数据+人工评估准确率，仅仅人工审核是不够的哦
  
  最近来自北京回复
小鱼干

👍 请问大词库与业务词库间的同步是怎么做的呢？

最近来自北京回复
1. 秃头少女作者回复小鱼干
  
  结构上业务词库是大词库的子集，后端实现上可以给词库编号或者其他方法吧，不了解后端实现呢
  
  最近来自北京回复
Llllll

原型能给发一下参考吗 😉

最近来自北京回复
1. 秃头少女作者回复Llllll
  
  我有放在云盘里
  加公众号：恶魔宝宝拿密码
  
  最近来自北京回复
云计算JACK

写的不错

最近回复
1. 秃头少女作者回复云计算JACK
  
  谢谢
  
  最近来自北京回复
且听风吟

这样一个后台正常情况下的工期是多久呢？

最近来自浙江回复
1. 秃头少女作者回复且听风吟
  
  哈哈哈基础词库过滤很简单的一个后端一下午就能搞定
  但是要做到运营能使用并且数据透明化那工作量就大了两三个人估计要小一个月
  
  最近来自北京回复
腾讯高级产品经理

这是什么软件啊

最近回复
1. 秃头少女作者回复腾讯高级产品经理
  
  原型用AXURE做的
  动图用LICEcap做的
  
  最近来自北京回复
窜了个高

很详细

最近回复
1. 秃头少女作者回复窜了个高
  
  谢谢
  
  最近来自北京回复
悦悦Phoebe

原型演示用的是什么软件啊？

最近来自广东回复
1. 秃头少女作者回复悦悦Phoebe
  
  原型用AXURE做的
  动图用LICEcap做的
  
  最近来自北京回复

AI技术不会放过在线音乐

04-285693 浏览
NewBing突然全面开放，还更新了一堆卷死友商的功能

05-079944 浏览
元宇宙步入暗夜

01-032920 浏览