语音交互规范(第一讲)

9 评论 7670 浏览 49 收藏 15 分钟

编辑导语:随着互联网的发展,语言交互融入了我们的日常生活中。那么,关于语音交互规范,你又了解多少呢?本文从AI语音交互发展谈起,总结了一些语音交互规范内容,供大家参考,希望对你有所帮助。

一、AI语音交互发展

语音交互的发展经历了三个阶段:

第一阶段是上世纪80年代,语音交互能够实现一问一答,前后回答并不具有内容的相关性。随着人工智能和深度学习的发展,机器的理解能力越来越强。

自从2009年开始,随着iPhone手机siri的出现,进入第二阶段,语音的对话能做到有问有答,能够理解上下文,但是这种应用场景还比较局限。

第三阶段,2014年Amazon Echo的出现,实现了应用领域的革新,拓展了语音交互的场景,智能语音交互的爆发则在2017年智能音响的发展,语音交互得到巨大的突破,语音和语意的理解更加准确,具有代表性的产品有小爱音响、天猫精灵和小度音响等。

二、什么是AI语音交互?

AI语音交互通俗的理解就是:人与机器的对话。语音交互在技术方面讲主要包括:听(ASR)、语义理解(NLP)、说(TTS)。

听(ASR):用ASR技术把语音识别成文字。

语义理解(NLP):使用NLP技术,把文字输入转化为文字输出。通过语法判断、上下文理解、关系理解、知识图谱等技术。就是理解文字的含义后,把想反馈的回答以文字表达出来。

说(TTS):使用TTS技术把文字合成为语音。

三、为什么要建立AI语音交互规范?

在公司角度:有统一的交互规范便于公司内部产品形成统一的共识,减少沟通的成本,提升工作的效率。

在设计师角度:对外有了统一的交互规范便于与产品、开发等人员的沟通,对内便于组织内的成员学习与提高。

在设计管理者的角度:对内能达成设计共识,对外提升设计组织的影响力。

在我看来交互规范是一个内部产品,它随着产品的生命周期迭代演进;交互规范是一套内部共识,它不仅仅解决了设计问题,更是组织协同的解药;交互规范是一种思维方式,不仅产品设计,甚至自己的生活都可以借鉴设计系统来提升效率。

四、AI语音交互规范主要内容是什么?

  1. 语音交互原则
  2. 语音交互框架
  3. 语音逻辑规范
  4. 语音控制原则
  5. 多模态交互
  6. 弹框机制
  7. 操作反馈
  8. 界面架构
  9. 情感化设计

五、语音交互的原则

1. 通用原则

及时反馈原则。用户在与系统进行语音交互的过程中,系统要给予及时的反馈。

合适的速度。语音的播报速度、结果呈现速度、IP形象展示的速度、文字展示及纠错的速度都在一个合适的范围内。

易取原则。尽量减少用户对操作目标的记忆负荷,交互动作和结果都是可见、可听的。

人性化帮助原则。在用户需要帮助的时候提供必要的帮助说明和引导。

灵活高效原则。语音交互可以跨越层级,直接高效的触达目标。

防错原则。在用户意图不明确的时候,可以向用户询问,还可以预测用户的可能的意图提示用户。

消除歧义。交互的形式和内容不会让用户感到困惑,当用户的命令存在歧义时,通过交互的形式消除歧义,帮助用户达成目标。

适应当地文化。语音的形象IP和话术的提问及回答都要符合用户所处的文化背景和地域文化。

2. 交互的可用性要素

轮流对话。在对话中基于信号的传递, 进行轮流的表达。回答的机制是一问一答。

上下文串联。在对话的语言中需要结合上下文的语意串联起来进行回答,这样有助于提升对话的准确性。

多样性。对于具体的场景,应该多样的问与答,结合情景多样性的回答。

理解行为。在对话的过程中尽可能的真诚、详实和有效的理解对话的内容。

反馈。对于用户的请求应给予反馈,无论是声音、文字还是图像。

语音的效率。在对话的过程中往往有一些隐晦的潜台词,在对话的过程中要理解口语之下的更深层次的意图,并给予准确的回答。

3. 人性化的表达

语言是人类表达情感的重要方式,在语音交互的过程中,人性化的设计必不可少的。状态可见原则。在整个语音交互的对话过程中,对于场景、角色都需要从人与人对话的角度出发。

对话的逻辑。语言对话逻辑应该遵循人类语言的本能,不应该强迫用户为了适应机器对话而采用层级递进的逻辑思维,用户只需要正常的表达就可以。

情感化。语音交互需要人格化、情感化。需要与产品的品牌调性相契合。语音人格方向特征具有:有趣、正能量、机智和温暖等特点。

口语。口语化的交流,同时也需要避免说显而易见的内容,对话需要多样性,使体验更加自然。

环境贴切。使用简单易懂和约定俗成的表达,尽可能的贴近用户所在的环境。

地方语言。语言的本身要有地域的特色,语音的表达要有广泛的群众基础,其中方言识别也是语音交互中重要的技能。

六、语音交互框架

1. 语音交互流程

一次完整的语音交互流程,包括:唤醒—ASR—NLP—Skill—TTS语音应答/界面结果展示(如下图所示)。

AI语音交互规范(第一讲)

2. 语音交互框架

1)根据苹果公司的全品类设备的特点,在语音框架需保持一致,兼顾mac、paid、手机大小屏和横竖屏。Siri交互包括:Siri的状态、ASR内容/话术、语言TTS反馈。

AI语音交互规范(第一讲)

3. 远场与近场

远场应用比如Siri。直接说:“Siri”唤醒语音助手,唤醒后可以远程进行语音交互。

近场应用比如智能电视。使用遥控器,按住语音键,对着遥控器进行语音近距离语音交互。

设计用例:

User:“Siri,定个闹钟”。

语音助手:“你要定什么时候呢?”

User:“明天早上8点”。

4. 正常/异常状态

正常状态:

语音交互的过程中,通过TTS和Siri状态(包括:等待与加载),来满足及时反馈。

异常状态:

语音交互过程中,判断外网终端->提示:待命+网络异常,请检查网络。

注:无界面时,直接TTS反馈:【网络异常,请检查网络】(要求TTS写在本地)。

5. 对话澄清

指语音主动与用户的对话,达到意图的确认。

说明
:

① 澄清应用于用户意图不清晰,必须进行再次对话才能进行意图确定,否则导致机器执行的任务错误。

② 假如在远程的交互中,澄清的过程中,需要语音一直处于待命状态(也就是无需再次唤起即可对话)。

③ 在澄清的过程中,需要关键词引导,以便于用户表达明确的意图。

④ 为了让用户能自然的回复和应答,同时也防止自然口语化,语音的澄清话术需要采取封闭式关键词引导。

⑤ 关键词的引导,根据人的记忆及听力的规则,每次小于等于3个,且近俩个每句话术文字在7±2之间。

设计用例:

User:“帮我定下明天闹钟?”(意图不明)

语音助手:“你要定几点闹钟?”(几点钟为关键词)

Uesr:“明天早上8:00”(意图明确)

6. 多伦对话

多轮对话指语音助手与用户进行一轮(一问一答)以上的对话。

说明:

① 应用于意图虽然清楚、可执行,但任务执行结果不清晰。如:结果的集合过大,用户没有找到具体的内容。

② 多轮的引导,应能帮助用户完成任务,同时防止用户自然语言的发散。

③ 多轮对话的轮次意味着用户与智能设备的多次交流。在搜索工具语言中,语音交互较快的达到目标是关键,轮次越多代表执行的效果不理想,通常以小于3轮较为合适。但是在闲聊类型功能中,轮次越多,代表用户聊天的意愿越强。

设计用例:

User:“能帮我找一下好看的电视剧吗?”(意图清晰,任务集合过大)

语音助手:“你要看中国的?还是国外的?”(关键词引导)

User:“中国的”(意图明确)。

7. 话术

话术指用户与智能设备对话的形式。

说明:

① 话术来源:a 语音产品中需要互动交流产生场景话术;b基于人与人对话的原则撰写而成的话术。

AI语音交互规范(第一讲)

设计用例:

AI语音交互规范(第一讲)

8. 话术(TTS)设计

语音话术指在语音交互过程中语音助手通过语言与用户进行互动,包括文字话术和语音话术。

说明:

① 显示的文字话术与语音助手的形象关联,并配合出现。

② 显示话术与当前语音逻辑相呼应。

③ 语音话术:用户发出请求后,需要给予语音应答。比如:“定今天下午3点闹钟”,反馈;“好的,已经定好下午3点闹钟”。

④ 声音及文字:引导过程中,根据业务的需要进行声音与文字的引导。

声音引导:引导澄清用户的意图。

文字引导:语音域中的引导话术。

声音+文字引导:比如问题及内容的搜索结果。

⑤ 运营类话术:针对高频词的结果及当前热门的内容,定制化的话术,目的是增加产品的情感,更加贴切用户的反馈。实现的方式:由运营后台配置。

9. 用户对话引导

语言具有自然性,为了避免用户语言的随意泛化,导致用户指令无法识别,需要在语音中进行话术规范性引导。

说明:

引导话术结构-“唤醒方式+需引导的技能话术”。

① 全局性引导。由话术平台统一部署,引导分为3类:

  1. 语音更能引导;
  2. 当下热门内容引导;
  3. 新上线或主推功能引导。

② 相关域引导。在语音交互过程中,提供当前领域的相关话术引导。分为两类:

  1. 当前领域中多维度的引导;
  2. 多轮进阶式引导。

③ 运营类的引导。专门为运营类产品定制的语音话术引导。

10. 情感表达机制

语音交互人性化,是语音交互重要特征之一。

说明:

基础状态:

  • 唤醒状态;
  • 待命;
  • 加载;
  • 免唤醒;
  • 声源定位。

基础情绪:

  • 欢呼;
  • 陪伴;
  • 安抚;
  • 帮助;
  • 其他(更多的类型根据业务需要进行添加)

基础情绪的表达(如图所示):

AI语音交互规范(第一讲)

七、小结

语音交互规范主要内容分为:

  1. 语音交互原则
  2. 语音交互框架
  3. 语音逻辑规范
  4. 语音控制原则
  5. 多模态交互
  6. 弹框机制
  7. 操作反馈
  8. 界面架构
  9. 情感化设计

本篇仅写了:(1)语音交互原则(2)语音交互框架,后续分为3篇完成,谢谢大家阅读,后续内容敬请期待!

 

本文由 @东哥的设计分享 原创发布于人人都是产品经理,未经许可,禁止转载

题图来自 Unsplash,基于 CC0 协议

本文由 @东哥的设计分享 原创发布于人人都是产品经理,未经许可,禁止转载。

题图来自 Unsplash,基于 CC0 协议。

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 等更新~

    来自安徽 回复
  2. 这位同学,你这盗用的有点彻底,里面的内容有一个字是你写的吗?

    来自广东 回复
  3. 这位雷鸟的同学,你盗用的时候跟原作者申请过了吗?

    来自广东 回复
  4. 你用的好多图和内容都是我TCL的同事自己工作辛苦产出的工作沉淀,麻烦你删除并道歉!

    来自广东 回复
  5. 兄弟你瘦了 ,看着疲惫了

    来自广东 回复
  6. 不好意思,最近太忙了~我尽量抓紧时间更新!感谢各位读者的关注~

    来自广东 回复
  7. 求更,急

    来自北京 回复
  8. 大神你继续更新啊,求更

    来自湖北 回复
  9. 第二讲抓紧更啊。。。。

    来自天津 回复