作为互联网产品经理,如何应对内容安全监管?

3 评论 14977 浏览 79 收藏 30 分钟

随着短视频、直播的火爆发展,越来越多的UGC内容产生,随之而来的是巨大的内容监管压力,但互联网不是法外之地。为此,6月17日(周三)20:00-21:30,网易易盾特别发起了这样一场微信群深度讨论。本文为讨论总结,希望能对你有所帮助。

6月,网易易盾联合人人都是产品经理,进行了为期2周的微信群互动问答活动,特邀网易易盾的内容安全专家进群,针对内容安全体系建设话题展开了讨论,期间产生了很多优质的内容,往期互动问答链接:http://996.pm/7p84w

6月17日,我们再次邀请到网易易盾的嘉宾@王博老师,围绕如何应对内容监管等相关话题,在专场活动群内为同学们开展了一场内容分享。

以下为网易易盾内容安全资深产品经理@王博演讲实录,由人人都是产品经理团队依据嘉宾分享内容整理,编辑有修改:

 

大家好,我是王博,2016年入职网易,完整经历了网易易盾从0到1的商业化和产品化的过程。

本次分享主要适用于遇到内容安全问题的产品负责人、产品经理、产品运营,或想学习内容安全体系搭建的同学,希望我的分享能帮助各位了解网易易盾在产品化过程中遇到的核心问题,以及我们如何去解决问题的思路。

本次分享将主要围绕三部分展开:

第一,内容治理大环境下大家遇到的核心问题,特别是黑灰产这块,会展开专项分享;

第二,易盾关于面向未来的内容安全体系建设的核心设计要素及核心要点;

第三,易盾针对人机协同场景、为了提升人工审核效率所研发的智能审核系统的说明。

一、知己知彼

1. 监管背景

近几年,我国在内容安全治理方面,呈现出几个比较核心的特点:

第一是监管部门的覆盖度较广,政策法规日趋完善,各个部门针对不同领域的规章制度发布也非常频繁,例如网络的音视频信息服务管理规定、未成年人的节目管理规定,未成年的个人信息网络保护规定等相关法律法规都趋于完善。

第二是对于违反法律法规的相关企业,国家在这方面的处罚力度也非常强硬,采取了更多有针对性的专项治理行动,像最近五月份刚落地的护苗行动,净网行动,清朗行动等都是针对网络安全的专项治理行动。

即使在高强度的政策监管力度下,我们会发现互联网上的违规内容依然层出不穷。这些垃圾已经覆盖到各种业务类型上,比如新闻内容、用户评论、头像昵称等,任何有内容发布场景的都很难躲过违规内容的骚扰,尤其是在产品达到一定量级和日活的时候,我们就会发现有垃圾的侵入,我们也会发现在各种场景下出现的违规种类和变种也非常多,从最初简单的敏感词到现在有字体的拆分、特殊符号的混淆,图片内嵌入违规文字信息,以及语音里夹杂着色情内容等等。

2. 黑/灰产产业链

在网易易盾产品化的过程中,我们也收到很多文字的变种,有些是通过盖楼的方式,单独看这一楼的评论是没有问题的,但是把123楼联系在一起就是有问题的,这算是一种比较复杂的反垃圾场景;还有图片中加水印的形式,我们最近在图片领域也发现黑灰产,他会把一些违规的信息放到隐藏通道里,躲过我们的机器检测。

上面提到的很多类似垃圾变种的场景,我们都在不断的进行规则对抗,对手也是在不断升级的博弈战中持续地进行反抗工作,这背后其实隐藏着一条非常深和成熟的黑灰产业链。我们面对的对手不仅仅是真实的人,还是一群团伙,是一条成熟的黑灰产业链。下面我们就以色情这条产业链为例,为大家深度剖析色情产业链的运作方式。

像上图呈现的色情这块的黑灰产,我们称为色流产业。从2008年流量形成了一次爆发式的聚合开始,类似的广告色情赌博等信息逐渐规模化出现,使这条零散的产业链开始转向产业化,群体的人数规模比之前扩充了十来倍,据专家人士研究,保守估计在2008年时,这条产业链已经有十来万人左右了。

当时大家盘踞在各大流量蜜罐中,主要是靠点击收费或者按量付费的金额来提成,色流行业的趋势开始出现之后,我们发现文本的垃圾开始变成了图片的垃圾,并更具隐秘性,就慢慢出现图中文字违规的场景。

随着网络的不断发展,从论坛到微博,从人人网到微信,流量慢慢的从PC端迁移到了移动端,这其中也爆发了一波流量红利,随着流量蜜罐迁移的还有黑灰产的色流大军,他们逐渐出现了两个分支,一部分进军到微信,一部分进军到视频。

我们和这些黑灰产之间就像是一场猫鼠游戏,好在我们一直不断地提升技术,每一次有新的技术爆发之后,我们就会有新的抵抗技术出现,进行强力压制,包括我们现在使用的人工智能技术,就是最好的反击利器。

上面这张图,可以说是一份在2019年交给网民们的答卷,我们一共过滤了3412亿条信息,删除了524.4亿条有害信息,目前来说是市面上比较优秀的成绩。易盾的商业化是从2016年才开始,那为什么我们会宣传网易易盾有着20年反垃圾的经验呢?

其实早在网易公司初期成立的时候,易盾就有了雏形,是作为网易的安全部门成立。网易也是国内比较早专门因为反垃圾工作设置专业团队的一家公司,一方面是因为网易刚开始发展的业务像网易邮箱、博客有天然的反垃圾需求,另一方面还是因为我们丁老板对产品有洁癖,他不许允许自家的产品中有出现不良信息,通过网易云音乐,或者我们的跟帖,包括新闻客户端上比较友好、有调性的评论就能看出来。

所以易盾早在1998年就已经成立,目前隶属于杭州研究院下面的安全团队,是国内比较早以技术驱动的内容安全团队。20多年前,我们就打算通过机器的手段去解决内容安全的问题。经过不断努力,网易内部涌现了很多像网易云音乐、网易严选这类优秀的以内容为主的产品,我们这支团队也逐渐在技术、产品、服务等多维度成为了国内首屈一指的内容安全部门,也是在2016底,易盾正式对外进行产品化。

二、内容安全体系搭建

易盾面向市场快有四年的时间,在整个产品化过程中也遇到了很多问题,有跟黑灰产的对抗,收到的用户需求越来越多,我们发现这是一种敌进我退、互相博弈的状态,我们也意识到现在做的还远远不够,所以催生了第三代的技术升级,将整体的内容安全体系升级到了可以面向未来的内容安全体系。

结合近20年的内容安全运营经验,我们认为良好的内容安全体系一定是自下而上,如上图四部分组成,首先有智能驱动算法做支撑;再上一层,需要各个部门、算法、运营统一联动;再上一层,针对不同的需求、场景,我们需要支持个性化的定制;最上一层,我们需要各部门,包括用户、各监管部门跟我们一起联手搭建面向未来的内容安全体系。

1. 智能驱动

我们在设计内容安全体系的基调时,核心是人工智能算法。我们的智能化内容引擎承载了满足信息爆炸时代内容安全的最基本的基石。

随着网络发展和互联网的数据急剧增多,我们人工智能技术的发展也在逐步扩充,目前已经形成了以大数据分析用户行为、分析人工智能检测为代表的第三阶段内容检测技术手段,尤其是人工智能中的分支,通过深度学习识别图像、分析语义,已经在易盾的众多内容检测领域中得到应用。

2. 统一联动

第二部分的核心设计要素在于需要做统一的联动,统一联动会从以下几个方面为大家阐述。

岗位联动:

要想做好内容安全这件事情,必须多岗位协作,无论是从算法研究、服务开发,到策略运营、客户运营、人工审核和技术支持,每个环节都需要无缝对接,才能完成整体的内容安全的闭环。

政策解读:

给大家介绍易盾对于国家下发的法律法规作出响应的流程:

首先易盾的运营和审核团队都有专业人士去实时对接国家的监管部门,我们会实时监控最新的监管要求,也有专门的运营人员去做策略下发的分析。如果国家下发了法律法规,我们会先解读,解读完以后再添一些规则和关键词、甚至升级算法模型来作出响应,落实国家监管的要求,这方面对经验要求会比较多。

策略模型更新:

易盾除了会对国家政策的响应联动以外,在模型的技术更新方面也会做出相应的响应检测。比如线上出现了一种新的样本,我们的模型需要做出快速的响应,目前我们的模型是能以周为单位进行常规迭代,年迭代次数可以达到近百次。

迭代过程可以大致分成图上4步,首先通过运营收集用户反馈的数据,或者说主动爬取一些违规数据,传到标注平台进行标注,然后再传导到算法工程师进行深度学习训练,然后更新我们的模型预发布验证,最终上线。

全链路内容安全风控产品:

除了运营和算法的联动,我们还需要注意全链路的风控联动,从源头去把控内容安全的风险。

以国内社交平台的现象举例,也是我们客户目前遇到的比较典型的案例。以往总会有很多色情账号在各个热点事件下直接发布色情言论、给出色情网站或者联系方式,这些形式已经比较容易被内容安全的系统检测和封号;但现在对抗的形式已经转变成把账号头像换成性感但不属于色情的图片,发表的内容也比较多是正常的评论,个人头像里也还是有很多关于隐晦色情的引流。

在对抗的场景下,如果只做内容维度的检测,是远远不够的,不仅检测效果差,可能还会留下比较多的死角,会给我们的业务带来潜在的内容违规风险。所以我们认为在内容生态治理上,不仅仅要对内容本身处理,还要建立深入的防御体系进行辅助,因为大多数的违规内容是非正常用户发的,内容生态的治理是企业和黑灰产的直接较量,如果只采取内容检测的手段,相对就比较单一,容易落入被动局面。

因此,我们推出了事前、事中、事后这样全链路的内容风控,相对完整的解决方案,相当于是在文本图片音频视频内容检测引擎的基础上,我们融合了反作弊风控的引擎,我们可以通过多维度的用户行为去掌握每个可能影响内容风控的环节,做好提前预判,在内容违规还没发生之前,我们就能感知风险,从源头进行采取措施,从而降低内容安全的风险。

3. 个性定制

第三部分是行业或者个性化的定制,在实际的产品实践中,我们发现单一的产品在不同场景下的策略是不一样的。同样是文本,在用户资料的场景和评论的场景下,或者弹幕的场景下,它的审核标准和要求是不一样的。针对细分的不同功能场景,我们有做相应的一整套的策略解决方案,除了底层的功能,针对垂直行业领域,我们都有相应的标杆客户,引导我们做相应的定制化解决方案。

以直播场景举例,在直播场景中,我们整体的行业定制策略是从源头去把控,从主播开始实名认证到共享主播的黑名单,到最终开播、直播间的弹幕评论、头像的监控、针对直播的热点监控,我们在每个环节都有做比较细分的行业策略的定制。

我们在做直播这一类审核时,不同的业务类型像视频本身内容,包括弹幕,礼物以及数据量的波动都会对我们的审核界面有相应的影响,能通过定制功能提前告知我们的用户直播可能存在的风险。如果直播间的弹幕内容有问题,或者礼物数有异常激增,就能提前感知它违规的风险可能比较大,我们就有理由去重点关注这一路的直播,提前准备好应对风险的措施。

4. 共建众治

我们希望构建与时俱进的情报共享平台,共享平台的受益方是所有网民,我们希望做不良信息的举报平台,充分发挥网民的监督举报的作用,我们也会与相关的政企和监管单位合作并共享情报,然后建立内容安全社区,跟各位去共同探讨,以增强我们对于情报的把控能力,也使我们对黑灰产有进一步的深入了解。

5. 机器+人工+策略协同审核

在现实场景中,我们仍然会遇到很多需要人工审核来填补机器无法覆盖的场景的问题。

大家知道人工智能的识别是基于特征的识别,比如一张臀部的照片,如果我们整张拿去给人工智能识别,就比较容易能识别出来;如果我把图片切分成多份,并把顺序打乱,机器就无法识别出来。但人的大脑会有还原的过程,会帮助还原这张图片,然后能感知到这可能是一张臀部的图片。但是目前的技术手段还是基于特征去识别,如果把图片拆分到特别细小,导致关键特征丢失,AI就很难识别。

现实场景中,我们发现一些黑灰产也在不断学习进化。他们会经常故意放出一些敏感内容来试探我们的AI审核机制,先摸清规律,再处理图片发送出来。掩盖的方法可能是把一些敏感的位置模糊化或者掩盖,或者干脆将图片切分,把关键的特征丢失,只要跟之前的鉴别逻辑不符,就很容易骗过机器,而目前的解决方案是只能通过肉眼去识别。

由此可见,人机协同这块仍然是未来很长一段时间,我们需要存在的审核方式。

三、智能审核管理系统

我们的AI目前在处理效率、准确率上已经达到了比较好的效果,但还是存在一些疑似违规的内容需要人工再次确认。易盾在调研时也发现,由于审核管理一直缺乏通用的审核规范,审核人员操作的后台也是内部比较边缘的后台,使得大多数的审核人员在使用审核的操作系统时遇到很多问题,比如操作繁琐,交互体验不友好,甚至很多操作需要跳转到多个后台处理。

基于以上问题也催生了网易开始打造自有的全新审核系统的想法。在网易内部,我们虽然有自己的审核团队,但也一直存在类似的问题,所以我们决心自己设计出一套全新的能提高大家工作效率的审核系统,并将这套审核管理工具产品化,希望把产品做成可以高度集成高度开放的系统,可以兼容很多的审核场景,真正赋能给企业端的用户。

丰富全面

对于全新的智能审核管理系统,我们首先希望它是丰富全面的,必须包含丰富的审核内容,在此基础上也加入像极速审核、分类审核、三审一校,包括盲审的审核流程,以适用于不同审核时效多重审核流程的进审要求。

智能高效

传统的审核系统可能单纯的就是数据量的进审,但是我们的审核系统其实是搭载了整个易盾的智能引擎,每个审核逻辑都是建立在智能引擎的推动下,这是节省人力成本的关键,也是打造友好界面的关键。

轻量灵活

不同公司会有不同的审核场景,每个人都有每家公司遇到的审核问题,我们的系统不会局限到单一的审核场景,它采用的是定制模块化的设计,可以像组合积木一样把不同的场景组合起来去做灵活的适配。

有温度

我们希望自己的审核系统变得更加友好,首先就需要考虑到良好的交互设计。我们在不同的审核的类型的尺寸上面做了针对性的研究,我们有做调研一屏到底能容下多少个视频,正常人最小可以分辨的视觉阈值是0.5,对于22寸的1920*1080分辨率的显示器来说,我们的人眼对于同时监控16路会感觉比较舒服,审核效率也比较高,我们在默认推荐的路数时就会定在16。

其实在整体的系统设计中,我们也加入了一些趣味化的东西,日常审核内容所面对的是黄色暴力涉恐等比较高敏感度的信息,为了适当调节审核人员的精神状态,我们的系统也加入了类似勋章、激励、积分体系,通过评比排名,让整个显示方式变得更加趣味化,促进人员成长体系的完善。

希望网易易盾可以赋能更多的企业,保护您的业务和用户免受黑灰产的侵害,共筑清朗网络空间也不仅仅是网易易盾一家企业的责任,更需要大家携手去共筑清朗网络空间。

以上就是我想跟大家分享的内容。下面,我将挑选大家的问题进行解答。

四、互动问答

Q1:社区型产品中,经常出现黑产大量灌水,下线内容封禁当前账号只能治标,平台应该如何从根部治理?

这种场景单纯从内容角度去防护,或者单纯的封禁账号起到的效果都不好,需要采取更立体的防护手段,首先在账号注册及登录场景就要做好风控,防止小号的批量注册或者登录,具体风控防护的技术手段可以参考一下易盾的注册保护或者登录保护产品;

其次,在用户发帖或者回帖时,要针对单次行为时所使用的设备环境信息、业务信息、发布的内容等多个维度建模去判断;另外需要对用户的历史行为建立多维度的画像,用作实时行为时的参考。

Q2:请问老师,易盾是如何对自己的算法和规则进行优化的,在什么场景下主要用算法,什么场景下主要用规则,算法与规则如何配合?算法是如何优化的呢?

算法跟规则其实没法割裂开来,因为通过算法得到的输出结果并不能直接用于判断,比如算法能识别出图中的人脸是某个人,但是这个人是否能出现就需要通过规则来做决定了。

算法效果可以通过样本的增加进行优化,另外客户如果反馈误判较多的情况,易盾也会进行分析,如果是算法输出的结果有问题,就会有算法工程师介入进行参数调整,并且寻找相似样本进行训练;如果是策略问题,就需要对策略进行调整,全部调整完毕后,会用历史数据再跑一遍,对比一下效果。如果解决了误判问题的同时,并没有增加其他误判的话,就会正式上线。

Q3: AI识别内容问题,评论下方或直播聊天或游戏聊天内容,如何机审拦截变种形式广告?

(case相关如:88有你88需要88看的888好东西,点C好的M等类似内容)或 组合形式广告 (case相关如:每段对话字,第一段加字,第二段我字,第三段微字,第四段信字···)

像这种变种形式的广告,我们的审核人员或者策略经理在分析样本时,会去尝试找到它的特征点,比如88有你88,可以通过正则表达式加一定的规则去覆盖这样的场景;

像第2种组合形式的广告,每段话单看没有问题但连在一起有问题的场景。目前我们是采取关联审核的策略,在我们家规则和过检策略的时候,我们会把默认与它相关联的帖子、ID传进去,通过唯一定位的关联的帖子ID去定位到文字上下相关的几段内容去综合,把它合并起来、过检,然后看它能不能去尝试抓住一些这样的场景来解决类似的问题。

另外,一条规则肯定不是万能的,无法覆盖所有场景,更多时候需要特定运营人员做跟踪,必要时也可以结合反作弊风控来做一部分召回。

Q4:关于审核人员的成长体系,易盾这边的做法可以详细介绍下吗?比如刚才提到的勋章、排行等,对于审核人员的培训和考试平台,易盾是怎样做的?

考虑到审核团队的成员流动性较大和工作内容的枯燥性,网易易盾主要是通过添加一些趣味性的版块来激励审核人员的成长。

整体的成长激励体系是围绕让审核人员的工作以领任务的形式开展。审核人员在每一天的工作过程中,都有自己的任务池和相应的工作量。在指定时间内,如果审核人员可以很快或超量完成任务,他就会得到相应的奖励,另外通过公开排行榜的评比排名,也可以更好地激励审核人员完成工作。

对于审核人员的培训考试平台,考试平台是我们内部审核团队本身就有这样的需求,无论是审核人员上岗还是晋升,都需要有考试平台做支撑;培训是会把一些比较有经验的审核人员的分享放到审核平台,来帮助审核人员找到自己想要的资料,提升自己的审核效率,关于审核这方面的知识,国家法律法规也有一些可以找到分享知识平台的渠道。

Q5:易盾在机器审核和人工审核分别占比多少?

主要取决于我们样本的比例,不同业务的垃圾率和审核标准其实是不一样的。就目前易盾已经接入了近千家的业务数据来看,我们人工审核的占比是小于1%。

Q6:如何在不影响用户体验当中又能降低平台安全风险性?

如果整体语义都是好的,建议把关键词替换成*号再发出去,减少不必要的用户体验损失;另外法律法规基线的东西一定不能发,其他中间地带要看情况,特殊时期最好不要发,非特殊时期可以由业务侧自行把控松紧度。

以上就是我今天分享的全部内容,以及对大家的问题作出的解答,谢谢!

 

本文为网易易盾内容安全资深产品经理@王博演讲实录,由人人都是产品经理团队依据嘉宾分享内容整理

题图来自网络

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 可以私信交流下嘛?有偿咨询。

    来自河北 回复
  2. 对抗黑灰产是个长期的工程。。

    来自河南 回复
  3. mark

    来自湖北 回复