从“Hey Siri”到“Siri”这一小步,是苹果语音识别的一大步
不少iPhone用户可能已经习惯了通过“Hey Siri”来唤醒智能语音对话,但未来,iPhone用户也许可以直接通过“Siri”来实现唤醒,而这一看起来微小的变化,其背后隐藏的是苹果在语音识别技术上的突破。具体如何理解?不如来看看作者的解读吧。
“Hey Siri,讲个笑话”,相信许多iPhone用户都尝试过这样与苹果的智能语音助手Siri对话,但在未来,大家与Siri聊天时可能就要换一个词了。
日前有消息显示,苹果方面计划将智能语音助理Siri的唤醒词从“Hey Siri”简化为“Siri”,这一变化预计将在2023年某个时候或2024年推出,同时苹果正在将Siri整合至第三方APP,来为用户提供更多语境和帮助。
作为苹果推出的智能语音助手,早在2011年就已亮相的Siri,无疑是这十余年来手机厂商在AI领域探索的代表之一。别看苹果未来仅仅只是去掉了“Hey”这个单词,但这一微小变化的背后却代表着苹果AI技术的长足进步,同时也意味着苹果在智能语音助手领域已经追上了竞争对手亚马逊的脚步。毕竟在很长一段时间里,尽管作为智能语音助手领域的先行者,Siri却一直被用户吐槽“有点蠢”、“不智能”。
从“Hey Siri”到“Siri”,反映的是苹果在语音识别技术上有了重大的突破。就像每个人都有自己的名字一样,智能语音助手其实也需要特定的词汇来让它知道用户是在喊自己。
从某种程度上来说,唤醒词同时也是智能语音助手品牌形象的一大组成部分,通过每一次激活语音助手时说出的唤醒词,消费者关于这个品牌的记忆就在这样日复一日的复读中不断被强化。
那么为什么智能语音助手一定需求一个唤醒词呢?
这是因为智能语音助手如今还不可能24小时时刻保持在线状态,需要保证只有在用户需要时才进入工作状态,其他时间则保持休眠。相比于按专属按键唤醒、点击图标唤醒这类触摸唤醒机制,使用特定的唤醒词来激活智能语音助手,也更契合这一产品的特质。
语音唤醒被称之为keyword spotting(下文简称为KWS),即在连续语流中实时检测出说话人的特定片段,而这个特定片段就是唤醒词。
通常来说,如果不是手动禁用语音助手,后者作为系统级服务会长时间驻留在后台,然而智能语音助手作为一个需要大量AI算力支撑的功能,在工作状态下需要不低的性能开销,同时也会相应的提升功耗。
面对这一问题,开发者想出的办法是通过专用于语音唤醒的低功耗协处理器来实时监听麦克风,一旦监听到类似“Hey Siri”、“小爱同学”、“Hey Google”这类关键唤醒词时,就会将语音助手从休眠状态转换到工作状态。这个策略的好处除了降低对设备的续航压力外,也会避免一直处于工作状态的语音助手,处理并不是发送给自己的音频信息。
其实语音唤醒的难点,主要就是低功耗与用户临时需求之间的矛盾,一个既能有效唤醒语音助手,又不至于让系统误判的唤醒词也是整个KWS机制的核心。
大家想必已经发现,目前国内市场的智能语音助手唤醒词往往是4个字,比如“天猫精灵”、“小爱同学”、“小度小度”。这是由于汉语发音与音节的关系,大家可以简单的把字数理解为音节。
为什么唤醒词普遍是4音节,而不是中国人更习惯的3音节或2音节?这是因为音节越短,误唤醒的问题就会越严重,可如果音节再长,就从短语变成了句子,会降低用户的交流体验。
同理,“Hey”作为一个英文语气词,就像在中文语境中使用“你好”一样,是为了增加唤醒词的音节,让系统能更准确的判断监听到的声音到底是对谁说的。
反过来说,省略掉“Hey”就意味着苹果的KWS技术有了巨大的进步,已经能够实现只需要一个单词即可判断用户意图的水平。之所以能够实现这一效果,技术原理其实并不复杂,苹果方面大概率是利用声纹识别技术实现定向人声分离,再通过卷积神经网络搭配声纹识别编码器,在复杂的声学环境下准确捕捉到目标用户的声音。
到目前为止,谷歌相关设备依然需要通过“OK Google”与“Hey Google”来唤醒Google Assistant,其中一个很重要的原因,就是“Google”一词本身由于谷歌已经深入到了用户的日常生活中,所以并不算冷门,只有这个词作为唤醒Google Assistant的“钥匙”,会不可避免的导致频繁误唤醒。
作为对比,Siri这个被生造出来的词汇适用范围就很窄了,iPhone只需监听到契合“Siri”发音的声纹,即可判断用户有使用智能语音助手的需求。
并且值得一提的是,据悉苹果还计划允许Siri与第三方应用结合,而这对于Siri的易用性将有着极大的促进作用。
要知道,此前曾有前Siri团队的成员表示,领导力的缺乏和管理层的不断变化拖累了Siri前进的脚步,其中最关键的原因,就是苹果方面一直以来坚持的封闭模式并没有对Siri破例,也未能让第三方开发者有更多机会创造更多有用的Siri应用。
在Siri还没有被登录iPhone或被收购前,其创始团队的预想其实是希望能够拥有一个第三方的开发生态,而这一点也被后来的一众智能语音助手陆续实现。比如说,最初Siri被希望实现的预约餐饮功能,是包含着日期、地点、菜品等多方位要素,而非简单地搜索一个餐厅的订餐电话。
未来Siri能够接入第三方应用,也就意味着苹果的智能语音助手可以借助第三方的力量,来为自己赋予更多的功能、完成更多的任务。如果这一消息属实,也就意味着在被忽视了多年后,Siri或许将要雄起了。
【本文图片来自网络】
作者:三易菌;公众号:三易生活
原文链接:https://mp.weixin.qq.com/s/yvGhakRlbG4ufUKGsY-Q4w
本文由 @三易生活 授权发布于人人都是产品经理。未经许可,禁止转载。
题图来自 Unsplash,基于CC0协议。
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
虽然只是语音唤醒的改变,但背后确实是很大的进步,苹果是一个强大的生态,背靠优越的硬件环境,搭载更多第三方后只会更加青云直上,想必会迎来新一轮的技术革命。