让智能音箱连续对话，百度工程师都做了些什么？

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

让智能音箱连续对话，百度工程师都做了些什么？

Alter

2018-11-05

1 评论 3453 浏览 27 收藏

18 分钟

怎样让人工智能变“聪明”？百度工程师们为了使我们和智能音箱的对话和人交互一样，攻坚了许多技术难题。

如果家里没一台“智能音箱”，怎么好意思说自己是极客Boy。

可当你忍不住剁手后，体验了一两天的尝鲜感，十有八九会把它扔在角落里吃灰。

每次对话都要喊一下唤醒词，感觉好不别扭，邻居家还可能以为你养了条叫“XX”的狗；指令说道一半就会被打断，莫名其妙的回了句“对不起，请再说一遍”；上一句还在问今天天气怎么样，下一句问今天穿什么衣服，给到的是和天气毫无关系的答案……

不只是你觉得这种体验很不爽，百度的工程师们也忍受不了这种“人工智障”，在今年的百度世界大会上，百度语音技术部总监高亮就聊了聊语音技术是如何让智能音响变聪明的。

一、先定一个小目标

钢铁侠和自己的AI管家贾维斯对话时，如果每次交互都要重新唤醒，不管是什么人都能发号施令，环境太吵的时候就听不清，钢铁侠不知道会被打趴下多少次。

在百度世界，高亮说：“远场语音的技术发展特别快，百度的唤醒、远场识别以及基于高频Query解决的语音语义一体化等技术，可以解决基础体验问题，让音箱唤得醒，听得清。”

但是，解决基础体验还不够，如果和智能音箱交互，你就会发现：“听懂”才是最难的。

“小度小度，放一首许巍的歌”

“现在播放许巍的歌曲《故乡》”

“嗯……这是……他哪张专辑里的？”

“来自专辑《那一年》”

……

在高亮现场的演示里，搭载了百度远场语音技术方案的智能音箱只需唤醒一次就可以连续多轮对话，能够准确识别用户说话时的犹豫停顿、能够区分并跟随首次唤醒的人。

与此同时，回应还相当灵敏，与小度的问答越来越像一场“交谈”而不仅仅是一次“交互”。从“交互”到“交谈”，这就是百度工程师们正在做的事情。

当下的人工智能远没有科幻电影中成熟，普遍认为还只有五六岁小孩的智商，可你和五六岁小孩沟通时也会这么费劲吗？

就如高亮所言“每一个技术问题都会面临一个技术解决的方法”，或许普通用户只能吐槽抱怨一下，但百度的一群工程师们却默默定了个小目标，不是先挣一个亿，而是：

一次唤醒可以连续交互：只需要唤醒一次，就可以进行连续对话，不管智能音箱处于什么样的工作状态，哪怕正在播放音乐。就像人与人之间的对话那样有问有答，不再是每次对话都要说出唤醒词，真正的语音交互不应该是刻板的。
说话停顿不会打断：当你说“给我放一首周杰伦的…呃…菊花台”，智能音箱不是着急随便放了一首周杰伦的歌，而是播放菊花台。智能音箱要明白你什么时候说完了，什么时候没说完，不会把你没说完的话切断，毕竟谁还没有犹豫的时候呢？
知道说话人是谁：一个典型的三口之家，有爸爸、妈妈、孩子，每个人的需求是不一样的。智能音箱要精准识别出每一个人的声音，知道问题是谁问的，然后给出准确的答案。
上下文对话连贯：智能音箱在回答你现在的问题时，也要知道上一个问题是什么，要学会结合上下文，不能答非所问。只有这样人和智能音箱的对话才会更自然，我们想要的不是没有情感的机器，至少对话要有逻辑性。
听清听懂不傻冒泡：你在客厅和朋友聊天时，可能有些话是说给朋友听的，有些是给智能音箱的指令，这时候智能音箱就要进行精准判断，准确识别出你是不是在和音箱对话，而不是在不该出现的时候“插两句嘴”。

现在语音交互用到的技术主要是麦克风阵列、语音识别、语义理解、语音转文字、文字转语音等等，都是人工智能技术最基本的应用，几乎一个十几人的创业团队就能完成。但百度工程师们的小目标，却需要一连串的技术攻坚。

百度高级副总裁、AI 技术平台体系总负责人王海峰所说过：AI技术与产业的结合愈发多元化，单一技术已无法满足应用需求，只有更懂得理解和思考，最终将帮助人们更便捷自然地获取信息找到所求的交互，才能带动整个生态的发展。

二、用技术拯救“人工智障”

想要智能音箱可以连续对话、应答如流，最简单的办法就是“人工”智能，比如2015年横空出世的某客服机器人，凭借软萌的声音、流畅的反应、高度人性化的对答，几乎可以和钢铁侠的贾维斯媲美，最后却被扒出是“摄像头+变声器+人工客服”。

当然，“人工”智能也只有在演示时骗一骗领导，让几千万台智能音箱、智能家居、智能手机等都能对答如流，又该怎么实现呢？

高亮在百度世界告诉我们，百度的工程师已经想出了一套系统化方案：

1. 语音信号处理

语音激活检测技术已经非常成熟，苹果的“Hey，Siri”、DuerOS的“小度小度”都是案例，一次唤醒多次会话看起来也不复杂，比如设定智能音箱在一定时间内自动收音。难点在于怎么知道用户的话到底有没有说完。

因为我们说话不会永远都是连续不卡壳的，比如我想听一首薛之谦的歌，我可能会说“小度小度，给我播首薛之谦的……”思考1-2秒，然后说“认真的雪”。而这1-2秒间，就可能让智能音箱以为你说完了，从而接收指令给你播起了薛之谦的所有歌曲，甚至停止响应。

百度的工程师们准备了十几万小时的仿真训练数据，数千套房间数万组冲击响应函数，上万小时真实AEC录制数据，以及几十万小时的无监督声音数据，利用云、端语音完整性联动训练的方法，然后基于大数据进行声学建模和尾点检测，打造了全新的语音识别引擎。

当你对智能音箱说话的时候，音箱会立刻感知到，然后持续不断向云端发送语音数据，进行语义分析，监测你说的话是不是完整，然后智能音箱就能判断你的话是否说完了。

上传的语音数据只有几十K大小，整个过程不到一秒钟就能完成。不会出现诸如音箱在放着音乐，你说了一句“暂停”，音箱两三秒才响应，这个时候你可能会觉得音箱没有听见（尤其是音箱播放音量比较大的时候），然后再补一句“暂停”的情况。

就像高亮在现场的举例：“给我放一首刘德华的…呃…忘情水”，这个犹豫发问和提笔忘字一样，是很普遍的场景，需要对声学建模做一些特殊处理，要有非常精准的尾点检测，让系统能够明白我们什么时候是犹豫，什么时候是说完了话，从而明确用户所表达的意图。

2. 声纹跟踪和决策

成年人的声音可以长期相对稳定不变，就算别人故意模仿你的声音和语气，声纹却始终不会相同。和指纹、虹膜等生物识别一样，声纹也是独一无二且相对稳定的生理特征，这样智能音箱可以拒绝掉不需要的声音。

于是百度的工程师们，根据自然界声音标定的声学置信度，对百万人量级的声纹进行学习建模，并推出了面向智能音箱连续交互场景的语义置信度技术，也是业界首创自动区分语音中不同说话人身份的商用系统。

会对唤醒人的声纹进行注册、跟踪、拒识，和唤醒人方向不一样的声音会被拒绝掉，声纹不同的声音会被拒绝掉，和智能音箱场景不匹配的声音也会拒绝掉。

比如说你和朋友聊天的时候，聊到某首歌时想让智能音箱播放，也可能会聊到一些电视剧和工作上的事情。百度的智能音箱已经达到了这样的聪明程度：自动判断是不是在和它说话，发现命令会立刻执行，不相关的对话绝不插一句嘴。

3. 交互上下文管理

现在的人工智能不是仿生学，而是通过各种各样的算法，毕竟人类连大脑的工作原理都还没有搞清楚，让人工智能像人类一样思考还很遥远。

那么问题就来了：和人工智能进行单次的对话并不难，想要把上下文的信息关联在一起就需要考验工程师们的脑洞了。

百度的工程师们先做了语音语义一体化技术，把声学、声纹、语义置信度和从DuerOS获得到的垂类信息资源融合起来，在深度神经网络的多信息融合技术、高频图和通用图并行解码决策的基础上，对对话的上下文进行跟踪管理：判断了说话对象后，可以知道之前交互的内容，知道对象的角色、喜好，然后综合所有这些信息作出精准决策，这样就解决了上下文关联的问题。

假如你问百度智能音箱明天天气怎么样，下一句问穿什么衣服比较合适，听到的回答会是和明天天气相关的穿衣搭配。不会像一些智能音箱一样，你问穿什么衣服，冷冰冰的来一句：“我找到附近有三家卖衣服的店铺……”

技术可能不是万能的，但没有技术是万万不能的。