AI PM老司机告诉你:如何评测声纹识别系统?

4 评论 6355 浏览 20 收藏 8 分钟

当我在和别人介绍声纹识别的时候,大家总会有各种疑问,声纹识别准确率怎样?感冒了能识别出来吗?故意变声能否识别?模仿别人的声音能否识别?被人录音了是否就能用于验证?问题大同小异,总结起来一句话,这玩意靠谱么?

当你准备在你的产品上增加声纹识别这一黑科技的时候,你除了需要清楚知道声纹识别能做什么之外,还需要了解它能做到什么程度。在原来的文章中科普了声纹识别这一黑科技的知识(见:《AI PM老司机带你认识声音黑科技:声纹识别》),里面也提到声纹识别算法的技术指标,除了这部分常规技术指标外,本文重点介绍声纹识别在实际应用场景中的性能指标:

  • 环境噪音鲁棒性
  • 信道鲁棒性
  • 语音内容鲁棒性
  • 时变鲁棒性
  • 表达方式鲁棒性
  • 群体普适性
  • 假冒攻击防范能力

1. 环境噪音鲁棒性

不同场景下的产品都会有不同的环境噪音,即使是同一产品也会有不同的背景环境,比如智能音箱,在家庭使用和在公司使用,环境噪音也会不一样,在使用声纹识别前需要对这一黑科技的环境噪音鲁棒性进行评估,这一指标表明此技术在不同环境噪音下的适应能力,避免在公司调试时都是好好的,一到用户环境就不灵光了。为了测试声纹识别系统的环境噪音鲁棒性,可以收集产品在不同应用环境下的语音数据进行评测。

2. 信道鲁棒性

信道即为声音信号传输的通道,由于声音从麦克风采集后到声纹识别系统中经过了很多环节,包括有不同的麦克风类型、不同的音频CODEC、不同的传输通道等,这些都会对声纹特征存在影响,还是以智能音箱来举例,假如在注册时是用手机端app,而验证使用时则是直接对着音箱说话,手机MIC和音箱MIC就是两个不同的信道,这种情况下可能会降低验证的准确率,在专业术语上叫信道失配。因此,除了在产品层面做规避,也需要考虑声纹识别技术在不同信道中的表现。

3. 语音内容鲁棒性

我们说话内容都可能包含了数字 、中文、英文,在读特定内容和说口头禅的时候,我们会不自觉表现不一样的说话方式,比如说口头禅或熟悉的话时就会表现得很自然随意,而拿着文稿照着念时,就显得一本正经。在做声纹识别技术评估时,也需要考虑到对语音内容的鲁棒性。

4. 时变鲁棒性

个体变化通过长时的积累,会对个体的发音有特点有影响,进而影响声纹识别系统的识别性能。好的声纹识别系统能在一年,甚至在三年内都不需要重新注册而能正常使用,否则你可能会遇到,三个月前注册了声纹用着都是好好的,三个月后怎么就不认人了呢,这就尴尬了。

5. 表达方式鲁棒性

说话人的表达方式对声纹识别的性能也有影响,比如情感的变化、语速的变化、音量的变化和聊天的区别。还是以智能音箱为例,你在注册声纹时是很开心的,当有一天,你心情不好想和TA聊天时,却怎么也不认你了,这时你砸了TA的心都有了。同样,在做声纹识别评估时都需要考虑到在不同表达方式下的表现。

6. 群体普适性

群体是具有某种(些)共同特征的不同个体组成的集合。不同群体之间存在某些特征的差异,声音上的差异就是其中之一,这种差异会影响声纹识别系统的普适性。这种差异主要体现在性别、年龄、地域划分的不同人群人声纹差异。

7. 假冒攻击防范能力

今年315用照片直接攻破人脸识别系统的事仍让大家对生物识别系统有所担心,同样,声纹识别系统在用声音进行身份认证的过程中,也会存在用假冒声音来企图骗过系统,因此,声纹识别系统应具备活体检测技术,应正确鉴别声音的用户身份,能够拒绝假冒的验证信息,对于利用各种手段形成的假冒声音,应该能正确区分。

假冒声音包括通过如下几种方式生成的声音,声纹识别系统应提供对如下几种攻击的防范能力。

7.1.波形拼接攻击

攻击者将目标说话人的语音录制下来,通过波形编辑工具,拼接出指定内容的语音数据,以放音的方式假冒目标说话人,试图以目标人身份通过声纹识别系统的认证。

7.2.录音重放攻击

攻击者录制目标说话人的语音进行播放,以目标人身份试图通过声纹识别系统的认证。

7.3.语音合成攻击

攻击者用语音合成技术生成目标说话人的语音,以放音的方式假冒目标说话人,试图以目标人的身份通过声纹识别系统的认证,

7.4.语音转换攻击

攻击者用语音转换技术得到目标说话人的语音,以放音的方式假冒目标说话人,试图以目标说话人的身份通过声纹识别系统进行的认证,

7.5.语音模仿攻击

攻击者通过模仿目标说话人,试图以目标说话人的身份通过声纹识别系统的认证。

8. 总结

声纹除存在个体差异外,个体的生理特征和使用环境的变化也会对其特性造成一定影响,声纹识别系统在上述各种条件下的鲁棒性是在实际应用中必须考虑的。

当你面对多家声纹识别厂家时,你需要考虑这厂家的技术与你的应用场景是否匹配,正如世间妹纸帅哥那么多,你要找的,不是最好的那位,而是最合适的那位。

 

作者:Micos,昵称:不知道,在人工智能浪潮中推波助澜的产品经理,致力于用智能语音实现人与机器最自然的交互方式。

本文由 @Micos 原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自pixabay,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 您好,我是一个小白AI产品,您的两篇关于声纹的文章,我想缩写简略之后,放在我的小号uxeason上,只是作为小白做的一些功课输出,没有商业利益输送。我在文末会注明您的知乎和本站的专栏名称,阅读原文加上这篇连接。今天有点晚,我一般早起推送,冒昧的先发出去了,如果您觉得不妥,请留言,我会第一时间删除。打扰了。

    来自北京 回复
  2. 这是我读过的最鲁棒的文章😁

    回复
  3. 卧槽。遇到声纹同行真惊喜

    来自福建 回复
    1. 一起勾搭 💡

      来自广东 回复