车载语音助手——信号处理(一)

0 评论 1296 浏览 3 收藏 9 分钟

在语音交互流程中,最具挑战性的是“语音处理”。语音处理的核心目标是提高有效声源的接受质量,那么该怎么提高呢?作者以生活中的案例类比分析,一起来看看吧。

作为语音产品经理,这部分在我们的工作中可能不会涉及到,但是一定要清楚,对于一次语音交互的流程来说,最具挑战性的部分并不是语音和语义本身,而是“音频信号处理”。

音频信号处理的结果,即音频数据的质量,直接影响到最终的语音识别效果。而语音识别的效果,又直接影响到语义理解的结果。这就像一条链,每个环节都紧密相连,缺一不可(没录上人声总不能指望机器无中生有吧)。

每一环到下一环都会导致有效信息的损耗,而我们要做的就是尽可能减少每一个环节的信息损耗。

所以信号处理环节核心目标就是一个:提高有效声源的接受质量。如何做到呢?第一提高有效声源的质量;第二降低干扰声源的影响。

对于影响信号处理的原因,用我们生活中的案例类比👇

1.玩绝地求生如果只戴一只耳机,是不是脚步来源的方向就不确定了?

2.在卫生间唱歌,在KTV包厢里唱歌和在操场上唱歌自己听的效果是不是完全不一样

3.如果课堂上大家都在说话,要听清楚老师讲课的内容是不是很困难?

对应到上面三个例子中“信号处理”的影响因素主要是【硬件】、【空间】、【噪音】。现在看看他们分别可以在哪些地方做文章。

一、硬件音源拾取

1. 麦克风阵列定向收音

和信号处理强相关的硬件,主要是麦克风,一个麦克风很难定位出声音的位置,这里引入一个新的概念,叫“麦克风阵列”,它可以进行”声源定位“,用来确定声源发出的具体方向,甚至是位置(距离)。一般情况下,麦克风数量越多,定“向”的精准度越高。如下图理想汽车麦克风布局图示意,采用四麦克风阵列的方式,这些麦克风的组合在一起共同去完成指定声音的采集,这些采集好的声音,其实就是“信号处理”的“输入”。

(车厂一般采用双麦方案,若支持四音区识别的一般采用四麦阵列方案)

2. 麦克风阵列定向抑制

从原理上看,既然多麦方案可以分辨出声源的方向,那我们就可以在这基础之上,增加“定向抑制”的要求,从而达到,在一个合理角度区域内采集的声音进行增益,对这个区域之外的声音进行抑制。进而可以降低其他区域产生的声音的干扰。

硬件会影响信号处理,但公司用谁的麦克风产品,或者开发什么收音设备不是一个软件产品经理可以影响,并且目前大部分语音公司的基础硬件能力都够用了。所以关于硬件就先分享到这儿。

二、空间降低自身噪音

初中物理讲过声音在传播过程中会出现反射和混响,简而言之就是声音会在一个空间内不断的反射,并且混合其他声音一起反射。比较大,吸音做的比较好的空间可以让人耳分不清原声和回声,但是这些声音是存在,会被麦克风收入影响后续的信号处理。

举例:车载场景,在导航态和音乐播放态下 用户说:“打开座椅按摩”。

在这个例子中,麦克风采集到的音频包含:

  • 声源原音:“打开座椅按摩”的原声音频,打开座椅按摩”的回声音频*N
  • 内部噪音:比如车载音乐的音频,导航的播报音频
  • 外部噪音:比如车噪,风噪

麦克风直接懵掉,这么多声音混合在一起,该提取哪一个呢?

这里引入一个新的概念,叫“回声消除”(AEC),主要的工作原理就是将由设备所发出的声音,比如车载音乐,导航播报,告诉“信号处理”,这是我自己说的话,麻烦处理掉。

当然,语音助手的回复也会被一起处理,不然就会出现车载助手说话,然后识别自己的话,再回复自己的话,陷入一个无意义的循环。

补充一下AEC的效果影响因素:音频设备的质量、空间的大小/形状、声源与麦克风的相对位置、背景噪声的影响、AEC算法的复杂度(通常越复杂,需要的算力越高,效果越好)

为什么要补充这个,因为车载的场景尤其复杂,车型,车内空间,车窗,车速,空调,天气等等原因都远影响AEC的效果,每一个AEC的算法都有其最佳的适用范围,所以我们也要知道AEC不是万能的,看到漏网之鱼要知道缘由,并能给出解释

(拓展一下:AEC虽然好用,但是也不能杜绝所有的回声情况,所以你会发现在车载场景,在语音助手被唤醒后,其他声源的音量都会被主动降低,以此来保证用户说话的清晰度;同时在语义处理阶段,也会有拒识的能力介入,将非用户声源或者用户声源的无意义query过滤掉)

三、噪音降低外部噪音

从语音产品的角度,除了声源之外的所有声音都是噪音,信号处理的一个重要职责就是降噪,或者叫噪声抑制等。

以车载场景为例,噪音可以分为自身噪音、天气噪音、路况噪音、车速噪音、风速噪音、环境噪音(城市&乡村)、空调噪音、人声噪音等等。

在这个阶段,信号处理会通过“噪音抑制技术”来减少这些噪音的影响,主要包括:

  • 优化噪音抑制的算法(研发)
  • 调整麦克风阵列(抑制非声源方向噪音)(硬件)
  • 利用深度学习技术训练更好的噪音模型,通过高质量的噪音素材训练提高模型效果(研发+产品)
  • 硬件改进(硬件)

咱们产品可以做的比如说具体的使用场景,提供高数量高质量该场景下的噪音音频,用于模型训练

四、其他自动增益控制(AGC)

当检测到用户的声音忽高忽低的时候,通过AGC对较低语音信号的某些属性进行调整(如音量,音调,清晰度等)来实现。这可以使语音信号在 录音质量较差或背景噪声较大的情况下仍然清晰可辨。

以上均是在信号处理阶段可能会影响音频质量的因素,我们不用更深入的去理解背后的原理,但是作为PM,要了解这个阶段的影响因素,才能更好的考虑产品的落地效果。

参考:

《智能座舱颠覆传统,蔚来改变出行体验》湘怡聊汽车

《头疼的音频处理》秋歌

《想知道|理想ONE的听声辩位》产品想知道

本文由 @大鱼 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 目前还没评论,等你发挥!