AI应用实例(三):音频审核
编辑导语:在互联网时代,各种各样的内容类产品层出不穷,那么相关监管部门对内容的审核环节就显得十分重要,各方面都需要审核到位,本篇文章讲述了AI技术在音频审核方面的应用,一起来看一下。
音频审核作为内容安全产品的一个模块,在内容审核中既需要支持视频中的音频审核,还需要能支持单独的音频审核,本节将跟大家一起讨论关于音频审核的产品设计与应用。
一、背景
随着各种各样的内容类产品发展,当内容管理不到位时,就容易触犯到国家对内容监管的的政策。
如何避免违规内容的传播可以说是各大内容厂商最关注的环节之一。
因此,对内容的管理,都需要进行审核到位,但是如果纯靠人工审核,估计像头条号这样的资讯平台,一天得有上万人审核了。
目前各家对内容都会接入内容审核平台,基于人工智能技术实现内容审核,其中根据素材维度可以分为视频审核、文本审核、图片审核和音频审核。
从审核内容角度看又包括色情、涉政、图文违规、暴恐、违禁、广告等。
本文将选择音频审核的维度展开讨论。
二、关键技术
关于音频审核中的关键技术,我们可以从两个方面进行理解,分别是“有语义”和“无语义”。
1. 有语义类型
有语义类型是指待审核的内容中有明确的语义信息。
这里文本审核一般可以先经过ASR识别后,转成文本信息进行审核,所以会涉及到以下技术。
- 语音识别:通过ASR技术将音频转换为文本信息;
- 语种识别:针对部分小语种或者方言进行判别,识别后,再经过语音识别转换为文字信息;
- NLP技术:针对语音识别后的文字信息进行处理,识别违规内容;具体的可以包括广告词文本识别、违禁词识别、辱骂词汇识别等。
2. 无语音类型
无语义类型识别是指音频内容中不含语义信息,所以无法通过ASR+NLP进行识别处理。
主要包括娇喘、呻吟、ASMR 等没有明确语言含义的音频内容。
直接提供提取音频的声纹特征进行分类识别,判断是否违规。
3. 特殊的类型
这里主要是指违禁歌曲识别,一般这样的违规内容虽然包含了语义信息,但是可能直接从内容信息上是无法判断的。
所以需要结合声纹识别+音频检索的技术进行来识别,首先构建违禁歌曲库,然后再根据音频声纹特征进行识别并检索。
如果出现在曲库中则判断违规,否则放过。
三、产品设计
1. 应用场景
(1)场景:常见的需要应用到音频审核的场景有语音聊天室、视频直播间、语音广场、FM电台、音频文学等都需要采用音频审核保证内容的安全性。
(2)审核内容
- 涉黄审核:色情、低俗、污秽、娇喘等识别;
- 广告审核:手机号等商业推广内容识别;
- 涉政审核:涉政人物、反动分裂、恐怖主义等违规音频;
- 违禁审核:毒品,赌博,违禁品等违禁内容。
注:其实音频只是一个载体,以上审核的内容实际上视频审核也会涉及。
(3)场景发散
这里多发散下思维,由于目前各个内容审核厂商已经基本是同质化竞争了,所以产品的后续要想继续保持竞争力。
一方面是技术能力的迭代加强,另一方面也是需要进一步拓展场景。
比如是否支持AR内容的审核,又或者跟当前元宇宙结合,是否开始研究将来元宇宙内的信息审核呢。
2. 业务流程
这里从宏观点的角度陈述产品的业务流程,具体的细节可以交流,不在文章中赘述,业务流程中主要包括三块。
- 源数据+预处理:通过接入待审核的内容,再进一步做预处理,包括分段等操作;
- 模型处理:审核的核心,通过输入预处理后的数据,进行AI分析,输出机器审核结果,包括确认违规、疑似违规和未违规;
- 人工复审:对疑似违规内容进行复审,同时也对违规和未违规的内容抽样审核,尽量确认判断的准确性,同时在这一步也可以将人工复审出来的badcase做数据回流用于算法升级迭代。
注:在实际业务场景中,一般会考虑是先审核再内容发布还是先发布再内容审核。
这里就需要根据业务进行判断,因为这同时涉及到内容时间(希望抢占热点)和风险的制约。
一般可以考虑将违规风险很低的内容做先发后审(但是要提供及时下架的能力,避免出现扩散风险),比如PGC内容。
3. 产品功能设计
本节的产品功能设计主要从能力平台角度出发进行讲解,至于业务结果输出后涉及到的业务系统这边不做分析。
一个比较完备的音频审核产品可以从以下几个角度进行设计。
(1)功能接口:提供好用的API和SDK能力,包括数据请求分析、数据结果查询、规则定义接口(比如添加违规词等)等接口。
在设计时,需要设定好字段的支持力度,比如对于请求时要支持URL,同时是否需要支持音频审核模板(模板这里是指一段音频全部审核,还是根据模板中选定的审核维度进行审核,比如只审核涉黄)。
(2)可视化界面:建议同步提供可视化界面便于接入的用户进行数据查看,可视化界面不仅可以提高用户体验,也可以辅助用户进行产品使用。
一般可视化界面可以包括以下几点。
- 音频分析:除了接口外,用户可以在可视化界面上传音频文件进行分析,分析后可以查看分析结果
- 规则设定:支持用户自定义设定违规的内容,比如设定违规广告词、涉政敏感词等;
- 数据统计:可以包括两个部分,一部分是统计数据分析的量级,以及分析成功失败的次数等;另一方面以违规类型进行统计违规次数,比如某段时间内广告违规发生了多少,涉黄内容发生了多少等;
注:除了上述三点,还可以支持用户管理,比如用户可以在系统中创建用户账号,支持不同业务系统使用等。
4. 评估指标
评估指标需要考核两个方面。
- 违规识别准确率:统计机器识别为违规并且人工复核确认违规的数据量/机器识别违规的数据总量;
- 违规识别召回率:统计机器识别为违规并且人工复核确认违规的数据量/实际存在的违规数量。
音频审核的发展对音频市场扩大可以起到很好的辅助作用,对内容发布的监管可以实现降本增效。
但是在实际使用过程中,我们还需要思考业务应用场景,针对场景进一步迭代优化技术,比如车载场景的音频内容是否可以很好审核呢。
目前还存在很大的难度,因为车载场景的音频容易受到很多噪声的影响,所以不利于识别。
因此,总的来说,对于产品,需要能够结合业务做到场景可控,让AI真正发挥作用。
本文由@Eric_d 原创发布于人人都是产品经理,未经许可,禁止转载。
题图来自 Unsplash,基于CC0协议。
专栏作家
Eric_d,人人都是产品经理专栏作家。关注AI、大数据等领域,擅长需求分析、产品流程和架构设计等,日常喜欢徒步。
本文原创发布于人人都是产品经理,未经许可,禁止转载。
题图来自 Unsplash,基于CC0协议。
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
请教一下,违规识别召回率分母是如何确定的?如何发现实际存在的违规数量呢
您好,阔以看下一条评论,重点是看验证阶段~
违规识别准确率:统计机器识别为违规并且人工复核确认违规的数据量/机器识别违规的数据总量;
违规识别召回率:统计机器识别为违规并且人工复核确认违规的数据量/实际存在的违规数量。
————————
想问下实际存在的违规数量怎么看,怎么来定义这个分母
分两个阶段,测试验证阶段数据集是提前准备的,此时实际存在的违规数量是人为控制的,比如故意收集违规的数据
到了实际验证阶段,通常可以只看准确率,如果有些客户非要看召回率,那实际违规数量也只有人工判断了