车载语音助手-技术流程梳理(概览)
一次完整的语音交互👇
信号处理→语音识别(ASR)→自然语言处理(NLP)→语音合成(TTS)→对话管理(DM)
一、什么是语音交互
先举例语音中的一个经典案例;
酒吧里灯光耀眼,音乐劲爆,尽管周边的噪音很大,尽管周围的人使用的是各自的母语,英文、西语、等等,此时,如果远处突然有人用中文叫你的名字时,你还是能够马上就注意到他,甚至可以听到他说的内容;这是语音中一个非常经典的现象,称之为“鸡尾酒会效应”,它体现出了人耳在听觉上的天赋异禀,同时也是语音识别中的经典难题。
1. 在这个例子里,语音助手先做了一件事,就是“听清楚”,我们把这个过程,叫做“信号处理”。信号处理的目的是能够让这段声音,尽可能干净,高质量地提取出来,而要做到这个,需要解决很多问题,比如:“声源定位”,在环境中,找到“叫你的名字”的那个“他”的具体位置;“降噪”,将“酒吧的噪音”、“其它人交谈的噪音”都消除干净等等。
2. 当语音助手“听清楚”了,之后就要“识内容”,要识别出声音中的具体内容,这是我们经常说到的“语音识别”,即“声音转写成文字”的过程;比如他说:“现在几点了?”,将音频转换为文字的过程
3. 语音助手知道内容了,就得“想意思”,想“现在几点了?”里的具体意思,这个过程为“语义理解”,即“自然语言理解”;他的意思是:“他期望我反馈”、“现在”、“时间”、“具体时间中的小时”;听懂了,就得“去行动”,得先看下手表里显示的现在时间,然后把小时的数值反馈给他,我们把这个处理过程称为“语义处理”;行动完了,要“想话术”,同样都是告诉他时间,说法会有很多种,可以说“8点”,可以说“现在是2024年4月7日20点12分50秒”,也可以说“刚过8点,咋啦”等等,不同的表达方式,会给人带来不一样的体验和感受,我们称这个过程为“语言生成”;当然,我们也会把“想意思”->“去行动”->“想话术” ->”语言生成“放在一起,都叫做“自然语言处理”。
4. 想清楚怎么表达之后,就要“说出来”,将“文字转换成声音”的过程,我们叫它“语音合成”,之后再通过扬声器播放出来,不同的声音会给人带来不同的感受,比如“星河”和“蜜糖”(小爱同学的音色),两种声音给人的体验是不一样。
二、小结
一次语音交互=“听清楚”->“识内容”->“想意思”->“去行动”->“想话术”->“语言生成”->“说出来”
在这个过程中,用户感知到语音助手的状态即为:
1. 初始/休息状态:语音机器人未唤醒,大家相安无事,无互动(以Nomi为例子,Nomi会处于待机状态,或者根据车况做出伴随表情)
2. 倾听状态:通过唤醒词唤醒语音助手,语音助手提供反馈高速用户可以说话了,我在听。这种信号通常会采用视觉文字上屏文字+虚拟人物表情,表示人类发出的音频流正在被语音机器人接收。
3. 处理/思考状态:发生在人们停止说话但语音机器人还没有处理好用户需求给出结果反馈的时候。通常还伴有声音+虚拟人物表情反馈。
4. 说话状态:这种信号是通过语音机器人在回应时发出声音来传递的。
5. 免唤醒状态:通常语音机器人被中断,或者已经处理完用户的一个语音需求后处于免唤醒状态(通常维持20-60秒,大家可以测试一下自己的语音助手可以维持多久)。免唤醒状态和初始状态之间的区别在于前者支持上下文理解,后者不支持,前者不需要唤醒词唤醒可以直接呼出,后者需要。
参考:
–《语音优先:智能语音技术驱动的交互界面设计与语音机器人设计》艾哈迈德·布齐德
–《一段声音的旅程》秋歌
本文由 @大鱼 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Unsplash,基于CC0协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务
- 目前还没评论,等你发挥!