智能语音机器人底层系统设计逻辑
编辑导语:未来最大的交互,不是现在的人机交互,而是人与人工智能的交互。人工智能行业现今取得了不少的成就,也逐渐进入了千万家庭,陪伴在了很多人的身边,其中就包括智能语音机器人。本文笔者将以智能客服领域为出发点,结合自己的工作实践进行详细分析。
3 月 4 日,中共中央政治局常务委员会召开会议,指出要加快推进包括5G 网络、人工智能、数据中心等新型基础设施建设进度。
结合此前人工智能赋能技术在疫情防控中发挥的重要作用,加上新基建政策,可以预见的是未来人工智能必将迎来新一轮的发展。
据艾瑞网发布的《2019年中国人工智能产业研究报告》中显示,到2022年中国智能客服业务规模将突破160亿元,泛智能客服市场将突破600亿,也预示着这一领域依然拥有广阔的市场空间。
本篇笔者将着重就智能客服这一应用较为成熟的领域,结合自己的工作实践进行详细分析。
一、智能客服背景
智能语音客服机器人是在传统的客服系统基础上,集成了语音识别、语义理解、知识图谱、深度学习等多项智能交互技术,能准确理解用户的意图或提问,再根据丰富的内容和海量知识图谱,给予用户满意的回答,目前已广泛应用于金融、保险、汽车、房产、电商、政府等多个领域。
对比于传统客服,智能客服具有为企业降本增效,提升商机转化率,提升用户体验、更加方便简洁、移动性及时性社交性能一体化的优点。
智能客服机器人应用场景十分丰富,
- 从交互模式上来看:可以分为文本客服机器人、语音客服机器人两大类;
- 从场景和功能类型来看:又可分为问答机器人、任务机器人、闲聊机器人三大类。
那么语音外呼机器人这个形态的产品在实际场景中如何应用的呢?
下面我会从语音外呼机器人工作流程、外呼系统搭建、应用案例,应用重难点等4个模块来做详细阐述。
二、智能外呼机器人工作流程
AI外呼机器人是集合了自动拨打电话、多轮语音交互、客户意向智能分级、外呼任务自定义等多功能于一体智能语音对话机器人。
以下是一个基本的智能外呼机器人工作流程:
如上图所示,一个完整的智能外呼流程(不涉及转人工)包含了四个环节,各环节会由外呼系统整体串联起来进行运作:
- 用户接听:外呼工作流程的开始,外呼系统需识别用户接听信号。
- 客户机器人响应:这一环节关键在策略输出,外呼系统需根据用户应答,识别用户意图或动作,根据机器人预设任务流和策略给出响应话术。
- 用户应答/动作:这一模块主要在外呼系统需对用户的意图和动作进行精准识别,做用户状态记录,以便一下步策略的实施。
- 用户/客服机器人挂机:当机器人走完任务流会主动挂断,或用户提前自主挂断,外呼工作流结束。
三、外呼系统设计
以上工作流的实现依赖于外呼系统同时涉及多方技术,下面整体来介绍下外呼系统的底层架构。
上图为笔者结合所学及所做机器人的实际业务逻辑梳理的呼叫系统架构,如图,整体上语音外呼系统可分为五大模块:
1. 通讯管理模块
由通讯线路和FreeSwitch电话系统构成,通过SIP和RTP协议,实现进行各种信令和语音流的传输。其中,通讯线路包括三大运营商、各家集成线路商,用于提供线路资源将电话拨打出去。
电话系统采用的是开源的FreeSwitch,主要用于处理外呼请求和传输SIP信令和语音流。
2. 语音模块
负责语音相关操作,包括语音识别(ASR)、语音合成(TTS)、录音播放等。
其中ASR和TTS这块,目前一般采用阿里云、科大讯飞等技术较为成熟的供应商服务,主要通过接口形式对接使用。
3. 中控模块
主要任务是实现与其他模块之间的通信互联,负责将ASR识别后的文本传输给机器人模块,将机器人模块的指令策略转化为电话系统的执行指令,并将数据同步至Saas后台(中控模块命名各家公司都有所不同)。
4. 后台管理模块
负责机器人外呼任务的发起和相关业务操作,主要包括外呼任务的创建,通话流水查询,客户管理,数据统计等功能。
5. 机器人管理模块
此为整个外呼流程中的核心AI模块,通过自然语言处理(NLP)和对话管理(DM),进行用户意图理解,对话状态追踪,机器人应答策略匹配等,实现人机对话交互。
关于NLP和DM模块比较复杂,笔者将会在下一篇文章中单独对任务机器人对话系统的设计做详细阐述,这里就不过多补充了。
四、应用案例
下面以58同城二手车回访的业务场景,具体分析下外呼机器人是如何通过外呼系统进行作业的,外呼系统各模块间又是如何耦合实现业务需求的。
1. 对话管理设计
正常情况下,外呼业务场景一旦确定,产品需先梳理出任务场景的主干流程,选定深度意图,设置匹配QA,设置槽位,准备话术,设计对话状态追踪,设计对话策略等一系列工作。
这里的对话管理的设计配置,涉及到外呼系统里机器人管理模块。
如:上图对话框中机器人话术均为事先根据二手车回访业务提前设计好的主干话术。
2.外呼任务创建
对话管理模块配置完善后,业务人员可在Saas后台创建外呼名单,通讯管理模块接受任务指令,拉取话单进行电话外呼。
3.拨打流程
拨打流程涉及模块较多,主要包括通讯管理模块,语音模块,中控模块,机器人管理模块。
- 运营商的通信线路根据业务人员创建的外呼任务,开始逐个拨打用户电话;
- 用户接通电话后,开始进入对话处理循环流程;
- 通讯管理模块的FS将用户语音流传输给语音模块进行ASR识别为文本信息,然后将动作/文本信息一起输送到中控模块;
- 中控模块将用户文本/动作信息推送至机器人模块,并将机器人返回的策略指令转化成电话系统的执行指令;
- 电话系统结合语音模块,进行语音合成后,执行话术播放或转人工、挂机等机器人动作策略,随后开始新一轮对话循环处理流程;
- 机器人/用户挂机后,中控模块将相关录音文件、系统信息,状态信息等数据进行存储并同步至管理后台。
五、智能外呼机器人应用重难点
我们考虑一个外呼机器人的外呼质量会从两方面去看,一个是能保证外呼流程的通畅性,另一个是保证外呼任务的完成率。
决定机器人外呼质量的影响因素有很多,笔者从产品的角度去理解,除去目标客户的精准度、客户接听电话的环境、客户状态等非可控因素外,主要还受限于以下几个方面:
1. 电话线路的稳定性
在呼叫失败的原因中,很大部分是由于供应商提供的线路不稳定。
关于这一点的问题规避,更多的还是申请基础运营商的线路或寻找到正规渠道的认证供应商,以保证线路质量。
2. FreeSwitch的并发量
FreeSwitch的具体性能根据实际使用环境差异较大,如果因前期预估不足,设置的FS并发量过低,超过并发则会出现呼叫异常或语音卡顿等现象。
应从系统的实际业务需求去考虑并发数,保证FS的性能稳定。
3. ASR识别准确率
虽然目前很多供应商标明的语音识别率都达到了97%甚至98%,但此指标对环境的要求较高。
而实际环境在噪音较大,口音,语言混合等场景下,ASR识别准确率均有一定程度的下降。
4. 语义理解
在对话机器人中语言理解(NLU)模块主要包括意图识别和槽位识别,这两点直接影响语义理解的效果。
语音场景下,经常出现用户回复单语气词的情况,如“嗯”,“啊”等,或语音特有意图,如“大点声”,“说快点”,要求“重说”等,在意图设计时需考虑到此类特殊场,以及其应答策略。
前面提到的ASR识别错误会导致语义理解部分受影响,目前可采用加入多模态学习的优化方案,同时融合音频特征,纠正语音识别结果,此方案经验证对意图识别模块准确率会有近2%的提升。
5. 对话管理模块设计合理性
机器人对话管理模块设计的合理性,直接决定了整个呼叫任务流程的体验感和完成率。
对话管理模块的重点在于对话状态追踪(DST)和对话策略设计(DPL)的合理性,如:打断、无声等语音特有场景,如何在提升用户体验的同时确保外呼任务流的正常正常进行。
6. 话术设计的合理性
话术设计也是语音任务机器人设计中非常重要的一个部分,为提升用户的体验。
话术设计可遵循以下几个原则:
- 话术设计更贴合应用场景;
- 主干话术设计精简有吸引力;
- 话术拟人化;
- 不同状态下话术变化。
六、结语
目前,随着AI技术的不断进步,市场需求的进一步扩大,智能语音机器人在实际应用场景中的表现也越来越好,逐渐能胜任更多的业务工作。
不过其难点仍然存在,期待未来在更多AI技术的赋能下,智能客服机器人能力有更大程度的提升,能让我们在生活中体验到更贴心智能的机器人服务。
以上内容基于笔者结合学习和工作实践的思考,若有理解不到位之处,还望大家指正,更希望通过这篇文章能与各位多多交流。
参考资料:
- IDC《中国人工智能市场软件及应用半年度研究报告(2019H2)》
- 艾瑞网《2019年中国人工智能产业研究报告》
- 58同城《智能语音机器人助力企业提效增收》
本文由 @岑为 原创发布于人人都是产品经理,未经许可,禁止转载
题图来自 Unsplash,基于 CC0 协议
- 目前还没评论,等你发挥!