AI应用实例(三):音频审核

4 评论 6694 浏览 31 收藏 10 分钟

编辑导语:在互联网时代,各种各样的内容类产品层出不穷,那么相关监管部门对内容的审核环节就显得十分重要,各方面都需要审核到位,本篇文章讲述了AI技术在音频审核方面的应用,一起来看一下。

音频审核作为内容安全产品的一个模块,在内容审核中既需要支持视频中的音频审核,还需要能支持单独的音频审核,本节将跟大家一起讨论关于音频审核的产品设计与应用。

一、背景

随着各种各样的内容类产品发展,当内容管理不到位时,就容易触犯到国家对内容监管的的政策。

如何避免违规内容的传播可以说是各大内容厂商最关注的环节之一。

因此,对内容的管理,都需要进行审核到位,但是如果纯靠人工审核,估计像头条号这样的资讯平台,一天得有上万人审核了。

目前各家对内容都会接入内容审核平台,基于人工智能技术实现内容审核,其中根据素材维度可以分为视频审核、文本审核、图片审核和音频审核。

从审核内容角度看又包括色情、涉政、图文违规、暴恐、违禁、广告等。

本文将选择音频审核的维度展开讨论。

二、关键技术

关于音频审核中的关键技术,我们可以从两个方面进行理解,分别是“有语义”和“无语义”。

1. 有语义类型

有语义类型是指待审核的内容中有明确的语义信息。

这里文本审核一般可以先经过ASR识别后,转成文本信息进行审核,所以会涉及到以下技术。

  1. 语音识别:通过ASR技术将音频转换为文本信息;
  2. 语种识别:针对部分小语种或者方言进行判别,识别后,再经过语音识别转换为文字信息;
  3. NLP技术:针对语音识别后的文字信息进行处理,识别违规内容;具体的可以包括广告词文本识别、违禁词识别、辱骂词汇识别等。

2. 无语音类型

无语义类型识别是指音频内容中不含语义信息,所以无法通过ASR+NLP进行识别处理。

主要包括娇喘、呻吟、ASMR 等没有明确语言含义的音频内容。

直接提供提取音频的声纹特征进行分类识别,判断是否违规。

3. 特殊的类型

这里主要是指违禁歌曲识别,一般这样的违规内容虽然包含了语义信息,但是可能直接从内容信息上是无法判断的。

所以需要结合声纹识别+音频检索的技术进行来识别,首先构建违禁歌曲库,然后再根据音频声纹特征进行识别并检索。

如果出现在曲库中则判断违规,否则放过。

三、产品设计

1. 应用场景

(1)场景:常见的需要应用到音频审核的场景有语音聊天室、视频直播间、语音广场、FM电台、音频文学等都需要采用音频审核保证内容的安全性。

(2)审核内容

  • 涉黄审核:色情、低俗、污秽、娇喘等识别;
  • 广告审核:手机号等商业推广内容识别;
  • 涉政审核:涉政人物、反动分裂、恐怖主义等违规音频;
  • 违禁审核:毒品,赌博,违禁品等违禁内容。

注:其实音频只是一个载体,以上审核的内容实际上视频审核也会涉及。

(3)场景发散

这里多发散下思维,由于目前各个内容审核厂商已经基本是同质化竞争了,所以产品的后续要想继续保持竞争力。

一方面是技术能力的迭代加强,另一方面也是需要进一步拓展场景。

比如是否支持AR内容的审核,又或者跟当前元宇宙结合,是否开始研究将来元宇宙内的信息审核呢。

2. 业务流程

这里从宏观点的角度陈述产品的业务流程,具体的细节可以交流,不在文章中赘述,业务流程中主要包括三块。

  1. 源数据+预处理:通过接入待审核的内容,再进一步做预处理,包括分段等操作;
  2. 模型处理:审核的核心,通过输入预处理后的数据,进行AI分析,输出机器审核结果,包括确认违规、疑似违规和未违规;
  3. 人工复审:对疑似违规内容进行复审,同时也对违规和未违规的内容抽样审核,尽量确认判断的准确性,同时在这一步也可以将人工复审出来的badcase做数据回流用于算法升级迭代。

注:在实际业务场景中,一般会考虑是先审核再内容发布还是先发布再内容审核。

这里就需要根据业务进行判断,因为这同时涉及到内容时间(希望抢占热点)和风险的制约。

一般可以考虑将违规风险很低的内容做先发后审(但是要提供及时下架的能力,避免出现扩散风险),比如PGC内容。

3. 产品功能设计

本节的产品功能设计主要从能力平台角度出发进行讲解,至于业务结果输出后涉及到的业务系统这边不做分析。

一个比较完备的音频审核产品可以从以下几个角度进行设计。

(1)功能接口:提供好用的API和SDK能力,包括数据请求分析、数据结果查询、规则定义接口(比如添加违规词等)等接口。

在设计时,需要设定好字段的支持力度,比如对于请求时要支持URL,同时是否需要支持音频审核模板(模板这里是指一段音频全部审核,还是根据模板中选定的审核维度进行审核,比如只审核涉黄)。

(2)可视化界面:建议同步提供可视化界面便于接入的用户进行数据查看,可视化界面不仅可以提高用户体验,也可以辅助用户进行产品使用。

一般可视化界面可以包括以下几点。

  1. 音频分析:除了接口外,用户可以在可视化界面上传音频文件进行分析,分析后可以查看分析结果
  2. 规则设定:支持用户自定义设定违规的内容,比如设定违规广告词、涉政敏感词等;
  3. 数据统计:可以包括两个部分,一部分是统计数据分析的量级,以及分析成功失败的次数等;另一方面以违规类型进行统计违规次数,比如某段时间内广告违规发生了多少,涉黄内容发生了多少等;

注:除了上述三点,还可以支持用户管理,比如用户可以在系统中创建用户账号,支持不同业务系统使用等。

4. 评估指标

评估指标需要考核两个方面。

  1. 违规识别准确率:统计机器识别为违规并且人工复核确认违规的数据量/机器识别违规的数据总量;
  2. 违规识别召回率:统计机器识别为违规并且人工复核确认违规的数据量/实际存在的违规数量。

音频审核的发展对音频市场扩大可以起到很好的辅助作用,对内容发布的监管可以实现降本增效。

但是在实际使用过程中,我们还需要思考业务应用场景,针对场景进一步迭代优化技术,比如车载场景的音频内容是否可以很好审核呢。

目前还存在很大的难度,因为车载场景的音频容易受到很多噪声的影响,所以不利于识别。

因此,总的来说,对于产品,需要能够结合业务做到场景可控,让AI真正发挥作用。

 

本文由@Eric_d 原创发布于人人都是产品经理,未经许可,禁止转载。

题图来自 Unsplash,基于CC0协议。

专栏作家

Eric_d,人人都是产品经理专栏作家。关注AI、大数据等领域,擅长需求分析、产品流程和架构设计等,日常喜欢徒步。

本文原创发布于人人都是产品经理,未经许可,禁止转载。

题图来自 Unsplash,基于CC0协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 请教一下,违规识别召回率分母是如何确定的?如何发现实际存在的违规数量呢

    来自北京 回复
    1. 您好,阔以看下一条评论,重点是看验证阶段~

      来自江苏 回复
  2. 违规识别准确率:统计机器识别为违规并且人工复核确认违规的数据量/机器识别违规的数据总量;
    违规识别召回率:统计机器识别为违规并且人工复核确认违规的数据量/实际存在的违规数量。
    ————————
    想问下实际存在的违规数量怎么看,怎么来定义这个分母

    来自上海 回复
    1. 分两个阶段,测试验证阶段数据集是提前准备的,此时实际存在的违规数量是人为控制的,比如故意收集违规的数据
      到了实际验证阶段,通常可以只看准确率,如果有些客户非要看召回率,那实际违规数量也只有人工判断了

      来自江苏 回复