内容审核平台设计思路分享
笔者所在的公司,去年重构了内容审核系统。笔者从0到1参与搭建了该审核系统,借此机会,跟大家分享一下内容审核系统的流程及业务模式,希望能对你有所帮助。
一、为何要搭建内容审核系统
笔者所在的公司,是一家金融行业公司,受证监会等监管机构严格管控。公司每天都会开直播,以及发布大量的内容到自建app里,为了保证用户以及公司内部人员发布的内容合法合规,阻断内容风险,对此,我们急需建立内容审核系统。
说完搭建的背景,再来聊一聊,何为内容审核?
内容审核,说简单一点就是我们在社交等平台上传,发布文字,图片,音视频,文件等内容,平台会对我们发布的内容进行审核过滤,从而保证平台的平台产生的内容都是高质量且符合规定的。
例如,我们在抖音平台发布视频内容,抖音平台对我们发布的内容进行审核。一旦发现发布的内容违法或违规,平台就会下架我们的内容,或对我们的账号进行封禁管理。
讲到这,可能有朋友留意到,不用的平台审核方式会有差距。一般审核方式有2种,分别是先审后发和先发后审,我们公司由于行业性质的限制,基本都是采用的先审后发的方式,大家可以根据行业要求,自行选择合适的审核方式。
二、审核方式
先审后发:用户提交内容后,经人工/机器审核通过后,其他人才可见。
先发后审:用户提交内容后其他人可见,后再进行人工/机器审核,人工/机器审核结果会影响内容是否继续可见。
我们公司的审核流程一般是这样的,大家可以参考一下。
对于这个审核方式,我们为了区分不同的应用,我们是在后台做了配置,支持选择先审后发还是先发后审。
当该应用配置的审核方式是先发后审时,我们是默认用户一发言,即所有人可见,后续人工可进行二次复审,复审的结果会影响初审结果。一旦复审不通过,则内容更改为仅本人可见。
如果配置的先审后发,我们会先判断该应用是否有配置阿里云第三方审核,若没有配置阿里云审核,则进入人工审核阶段;若有配置阿里云审核,我们根据客户发言内容是否符合阿里云审核模板要求,按照规则和算法执行机器审核。这里需要注意的是,对于不同的应用内容,我们还采用了机器审核是否作为绝对值的选择。
一般像一些直播间发言,我们会开启阿里云审核作为绝对值,一旦发言内容符合要求,则作为机审通过,机审通过后所有用户可见该内容。若配置的是参考值,则该机审状态仅作为参考值,最终以人工审核结果为主。
三、机审&人工审核
上文讲完了常见的审核方式,接下来我们详细拆解一下机器审核和人工审核。在讲具体的审核类型之前,我们先跟大家介绍一下,一般常见的审核消息类型分别是:文本、图片、音频、视频、文件。针对这几种类型,我们都接入了机器审核和人工审核。
1. 机器审核
1)文本
针对文本消息,一般主要采用关键词匹配和NLP(自然语言处理)技术这2种方式。
① 关键词匹配:关键词我们一般分为白名单词、黑名单词。
- 白名单,是指用户提交的内容与白名单词或白名单语句完全匹配时,则默认机审通过,支持人工对机审结果进行复核。
- 黑名单词,也可理解为禁止关键词,一般是一些明确的宗教禁止用语、淫秽色情等语句,当用户评论内容带有该词时,会自动将该次高亮标记出来,同时判定为机审不通过,需人工进行审核决定该发言内容是否通过。
② NLP(自然语言处理),即通过语法分析、情感分析、词向量分析,对发言内容进行识别和归类,当分类结果与平台的素材库符合时,则返回违规内容。例如,暗示收益、广告识别等。
2)图片审核
图片审核一般采用OCR技术,将图片拆解成多个模块,提取图片中存在的问题,例如图片主体、图片文字、联系方式、广告信息(二维码、水印等),在根据各片段内容汇总分类,返回审核结果。
3)音频审核
音频审核,我们公司目前采用的是科大讯飞的语音转写服务,将音频内容降噪断句,转写成文字,再通过对文字的审核返回音频审核结果。
4)视频审核
视频审核可理解为音频审核+图片审核。即对视频进行抽帧,并以帧为单位将视频中的文字和图片分别进行识别,以此来判定视频内容是否合规。
5)文件审核
目前我司的文件审核技术比较简单,即对文件里的图文内容进行解析提取,以此来识别是否存在敏感、色情、违禁等风险内容。
2. 人工审核
人工审核即专门安排人员在审核后台操作审核,审核人员根据公司的规章制度以及自己的经验,判断该内容(文字、图片、音频等)是否存在不合规的情况。人工审核这个工作量是非常大,一般涉及到审核模块的,每个公司都会专门设置审核组用于审核工作。为了提高审核人员的效率,一键建议做倍速播放,批量审核等功能。
四、审核内容的展示
审核内容展示与否,一般受咱们上文所说的先审后发或先发后审的审核方式影响,咱们这里以先审后发为例进行说明。
- 未审核:审核人员在进行审核操作时,先看到该内容的审核状态,未审核的内容需要审核人员进行操作,审核人员未通过之前,对其他用户屏蔽该内容,近发布者本人可见,同时该作者的主页相关的分享等功能,也需同样屏蔽该内容,避免不合理内容的传播。
- 审核通过:审核通过之后,即对所有用户放开内容,所有用户可见该内容。但初审的审核结果会受复审结果的影响,一旦审核人员复核发现该内容存在疑似违规时,可进行复核拒绝。被复核拒绝的内容,则进行屏蔽,近限发布者本人可见。
- 审核拒绝:审核拒绝,则仅本人可见该内容。同时,在用户端,我们需明显提示被审核拒绝的原因,且给到用户申诉或重新发起审核的操作。
- 拉黑用户:拉黑是针对用户而言的,当审核人员发现该用户经常在社区或内容平台发布各种违法不实,涉情涉政等内容时,可拉黑用户,用户被拉黑后,则不可在平台发表内容。同样,我们需提醒用户,是因何原因被平台拉黑禁用的,给到用户申诉的空间。
五、总结
以上内容,是笔者根据本人经验总结的审核平台的审核方式,审核流程。合规审核对公司是一个非常重要的环节,能有效方式避免违规内容的传播,作为审核平台,我们需要不断完善审核的机制,提供审核人员效率。
本文由 @一个摸鱼的职场人 原创发布于人人都是产品经理,未经作者许可,禁止转载。
题图来自Unsplash,基于CC0协议。
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
抄袭的易盾的官网