语音交互规范（第一讲）

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

东哥的设计分享

2021-11-10

9 评论 8547 浏览 51 收藏

15 分钟

编辑导语：随着互联网的发展，语言交互融入了我们的日常生活中。那么，关于语音交互规范，你又了解多少呢？本文从AI语音交互发展谈起，总结了一些语音交互规范内容，供大家参考，希望对你有所帮助。

一、AI语音交互发展

语音交互的发展经历了三个阶段：

第一阶段是上世纪80年代，语音交互能够实现一问一答，前后回答并不具有内容的相关性。随着人工智能和深度学习的发展，机器的理解能力越来越强。

自从2009年开始，随着iPhone手机siri的出现，进入第二阶段，语音的对话能做到有问有答，能够理解上下文，但是这种应用场景还比较局限。

第三阶段，2014年Amazon Echo的出现，实现了应用领域的革新，拓展了语音交互的场景，智能语音交互的爆发则在2017年智能音响的发展，语音交互得到巨大的突破，语音和语意的理解更加准确，具有代表性的产品有小爱音响、天猫精灵和小度音响等。

二、什么是AI语音交互？

AI语音交互通俗的理解就是：人与机器的对话。语音交互在技术方面讲主要包括：听（ASR）、语义理解（NLP）、说（TTS）。

听（ASR）：用ASR技术把语音识别成文字。

语义理解（NLP）：使用NLP技术，把文字输入转化为文字输出。通过语法判断、上下文理解、关系理解、知识图谱等技术。就是理解文字的含义后，把想反馈的回答以文字表达出来。

说（TTS）：使用TTS技术把文字合成为语音。

三、为什么要建立AI语音交互规范？

在公司角度：有统一的交互规范便于公司内部产品形成统一的共识，减少沟通的成本，提升工作的效率。

在设计师角度：对外有了统一的交互规范便于与产品、开发等人员的沟通，对内便于组织内的成员学习与提高。

在设计管理者的角度：对内能达成设计共识，对外提升设计组织的影响力。

在我看来交互规范是一个内部产品，它随着产品的生命周期迭代演进；交互规范是一套内部共识，它不仅仅解决了设计问题，更是组织协同的解药；交互规范是一种思维方式，不仅产品设计，甚至自己的生活都可以借鉴设计系统来提升效率。

四、AI语音交互规范主要内容是什么？

语音交互原则
语音交互框架
语音逻辑规范
语音控制原则
多模态交互
弹框机制
操作反馈
界面架构
情感化设计

五、语音交互的原则

1. 通用原则

及时反馈原则。用户在与系统进行语音交互的过程中，系统要给予及时的反馈。

合适的速度。语音的播报速度、结果呈现速度、IP形象展示的速度、文字展示及纠错的速度都在一个合适的范围内。

易取原则。尽量减少用户对操作目标的记忆负荷，交互动作和结果都是可见、可听的。

人性化帮助原则。在用户需要帮助的时候提供必要的帮助说明和引导。

灵活高效原则。语音交互可以跨越层级，直接高效的触达目标。

防错原则。在用户意图不明确的时候，可以向用户询问，还可以预测用户的可能的意图提示用户。

消除歧义。交互的形式和内容不会让用户感到困惑，当用户的命令存在歧义时，通过交互的形式消除歧义，帮助用户达成目标。

适应当地文化。语音的形象IP和话术的提问及回答都要符合用户所处的文化背景和地域文化。

2. 交互的可用性要素

轮流对话。在对话中基于信号的传递，进行轮流的表达。回答的机制是一问一答。

上下文串联。在对话的语言中需要结合上下文的语意串联起来进行回答，这样有助于提升对话的准确性。

多样性。对于具体的场景，应该多样的问与答，结合情景多样性的回答。

理解行为。在对话的过程中尽可能的真诚、详实和有效的理解对话的内容。

反馈。对于用户的请求应给予反馈，无论是声音、文字还是图像。

语音的效率。在对话的过程中往往有一些隐晦的潜台词，在对话的过程中要理解口语之下的更深层次的意图，并给予准确的回答。

3. 人性化的表达

语言是人类表达情感的重要方式，在语音交互的过程中，人性化的设计必不可少的。状态可见原则。在整个语音交互的对话过程中，对于场景、角色都需要从人与人对话的角度出发。

对话的逻辑。语言对话逻辑应该遵循人类语言的本能，不应该强迫用户为了适应机器对话而采用层级递进的逻辑思维，用户只需要正常的表达就可以。

情感化。语音交互需要人格化、情感化。需要与产品的品牌调性相契合。语音人格方向特征具有：有趣、正能量、机智和温暖等特点。

口语。口语化的交流，同时也需要避免说显而易见的内容，对话需要多样性，使体验更加自然。

环境贴切。使用简单易懂和约定俗成的表达，尽可能的贴近用户所在的环境。

地方语言。语言的本身要有地域的特色，语音的表达要有广泛的群众基础，其中方言识别也是语音交互中重要的技能。

六、语音交互框架

1. 语音交互流程

一次完整的语音交互流程，包括：唤醒—ASR—NLP—Skill—TTS语音应答/界面结果展示（如下图所示）。

AI语音交互规范（第一讲）

2. 语音交互框架

1）根据苹果公司的全品类设备的特点，在语音框架需保持一致，兼顾mac、paid、手机大小屏和横竖屏。Siri交互包括：Siri的状态、ASR内容/话术、语言TTS反馈。

AI语音交互规范（第一讲）

3. 远场与近场

远场应用比如Siri。直接说：“Siri”唤醒语音助手，唤醒后可以远程进行语音交互。

近场应用比如智能电视。使用遥控器，按住语音键，对着遥控器进行语音近距离语音交互。

设计用例：

User：“Siri，定个闹钟”。

语音助手：“你要定什么时候呢？”

User：“明天早上8点”。

4. 正常/异常状态

正常状态：

语音交互的过程中，通过TTS和Siri状态（包括：等待与加载），来满足及时反馈。

异常状态：

语音交互过程中，判断外网终端->提示：待命+网络异常，请检查网络。

注：无界面时，直接TTS反馈：【网络异常，请检查网络】（要求TTS写在本地）。

5. 对话澄清

指语音主动与用户的对话，达到意图的确认。

说明 ：

① 澄清应用于用户意图不清晰，必须进行再次对话才能进行意图确定，否则导致机器执行的任务错误。

② 假如在远程的交互中，澄清的过程中，需要语音一直处于待命状态（也就是无需再次唤起即可对话）。

③ 在澄清的过程中，需要关键词引导，以便于用户表达明确的意图。

④ 为了让用户能自然的回复和应答，同时也防止自然口语化，语音的澄清话术需要采取封闭式关键词引导。

⑤ 关键词的引导，根据人的记忆及听力的规则，每次小于等于3个，且近俩个每句话术文字在7±2之间。

设计用例：

User：“帮我定下明天闹钟？”（意图不明）

语音助手：“你要定几点闹钟？”（几点钟为关键词）

Uesr：“明天早上8:00”（意图明确）

6. 多伦对话

多轮对话指语音助手与用户进行一轮（一问一答）以上的对话。

说明：

① 应用于意图虽然清楚、可执行，但任务执行结果不清晰。如：结果的集合过大，用户没有找到具体的内容。

② 多轮的引导，应能帮助用户完成任务，同时防止用户自然语言的发散。

③ 多轮对话的轮次意味着用户与智能设备的多次交流。在搜索工具语言中，语音交互较快的达到目标是关键，轮次越多代表执行的效果不理想，通常以小于3轮较为合适。但是在闲聊类型功能中，轮次越多，代表用户聊天的意愿越强。

设计用例：

User：“能帮我找一下好看的电视剧吗？”（意图清晰，任务集合过大）

语音助手：“你要看中国的？还是国外的？”（关键词引导）

User：“中国的”（意图明确）。

7. 话术

话术指用户与智能设备对话的形式。

说明：

① 话术来源：a 语音产品中需要互动交流产生场景话术；b基于人与人对话的原则撰写而成的话术。

AI语音交互规范（第一讲）

设计用例：

AI语音交互规范（第一讲）

8. 话术（TTS）设计

语音话术指在语音交互过程中语音助手通过语言与用户进行互动，包括文字话术和语音话术。

说明：

① 显示的文字话术与语音助手的形象关联，并配合出现。

② 显示话术与当前语音逻辑相呼应。

③ 语音话术：用户发出请求后，需要给予语音应答。比如：“定今天下午3点闹钟”，反馈；“好的，已经定好下午3点闹钟”。

④ 声音及文字：引导过程中，根据业务的需要进行声音与文字的引导。

声音引导：引导澄清用户的意图。

文字引导：语音域中的引导话术。

声音+文字引导：比如问题及内容的搜索结果。

⑤ 运营类话术：针对高频词的结果及当前热门的内容，定制化的话术，目的是增加产品的情感，更加贴切用户的反馈。实现的方式：由运营后台配置。

9. 用户对话引导

语言具有自然性，为了避免用户语言的随意泛化，导致用户指令无法识别，需要在语音中进行话术规范性引导。

说明：

引导话术结构-“唤醒方式+需引导的技能话术”。

① 全局性引导。由话术平台统一部署，引导分为3类：

语音更能引导；
当下热门内容引导；
新上线或主推功能引导。

② 相关域引导。在语音交互过程中，提供当前领域的相关话术引导。分为两类：

当前领域中多维度的引导；
多轮进阶式引导。

③ 运营类的引导。专门为运营类产品定制的语音话术引导。

10. 情感表达机制

语音交互人性化，是语音交互重要特征之一。

说明：

基础状态：

唤醒状态；
待命；
加载；
免唤醒；
声源定位。

基础情绪：

欢呼；
陪伴；
安抚；
帮助；
其他（更多的类型根据业务需要进行添加）

基础情绪的表达（如图所示）：

AI语音交互规范（第一讲）

七、小结

语音交互规范主要内容分为：

语音交互原则
语音交互框架
语音逻辑规范
语音控制原则
多模态交互
弹框机制
操作反馈
界面架构
情感化设计

本篇仅写了：（1）语音交互原则（2）语音交互框架，后续分为3篇完成，谢谢大家阅读，后续内容敬请期待！

本文由 @东哥的设计分享原创发布于人人都是产品经理，未经许可，禁止转载

题图来自 Unsplash，基于 CC0 协议

本文由 @东哥的设计分享原创发布于人人都是产品经理，未经许可，禁止转载。

题图来自 Unsplash，基于 CC0 协议。

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容，请关注人人都是产品经理微信公众号或下载App

交互规范指南文章被收录于该专栏

共 14 篇文章14577 人已学习

语音交互的入门指南文章被收录于该专栏

共 15 篇文章19769 人已学习

东哥的设计分享

产品设计师公众号【东哥的设计分享】微信【duanzhidong123】

10篇作品 84245总阅读量

01-0310889 浏览

07-204973 浏览

07-174245 浏览

04-288821 浏览

04-273830 浏览

一

等更新~

最近来自安徽回复
leom

这位同学，你这盗用的有点彻底，里面的内容有一个字是你写的吗？

最近来自广东回复
四毛

这位雷鸟的同学，你盗用的时候跟原作者申请过了吗?

最近来自广东回复
四毛

你用的好多图和内容都是我TCL的同事自己工作辛苦产出的工作沉淀，麻烦你删除并道歉！

最近来自广东回复
爱产品的小白产品

兄弟你瘦了，看着疲惫了

最近来自广东回复
东哥的设计分享作者

不好意思，最近太忙了～我尽量抓紧时间更新！感谢各位读者的关注～

最近来自广东回复
贾碧莹

求更，急

最近来自北京回复
Haha

大神你继续更新啊，求更

最近来自湖北回复
噜噜啦

第二讲抓紧更啊。。。。

最近来自天津回复