智能外呼系统怎样更“拟人化”?
随着AI技术的发展,智能外呼系统正在逐渐解决机械重复的问题,提高人工客服的效率。但在实际工作中,智能外呼系统还是面临着重重困难。本文作者基于自己的工作经验,对智能外呼系统设计提出了自己的一点思考。
在AI技术中,基于AI能力的营销、客服系统算是比较能落地的应用场景。从调研到项目落地,本人也是有幸完整参与了一个智能外呼的项目,当然期间也踩了不少坑。
本文将尝试着用自己的理解,对系统重新梳理一遍,也算是对这段经历的复盘和总结。若是写得浅薄,还望见谅~
一、AI外呼系统的构成
智能外呼业务流程图(PS:客服系统也类似,只是由用户主动呼入)
智能外呼、智能客服功能繁多,系统设计复杂,这里也只能是想到哪,写到哪。简单地将系统归类一下,整个系统围绕着通话的三条线展开(两个终端和一个通信过程)。
终端中用户端的核心是对用户的管理,也就是常用的CRM系统。而AI端,则是围绕着AI机器人的设计、优化去设计。
通信过程,由呼叫系统实现,包括通话的拨打、接听、挂机、转接等,也包括通话线路的管理、配置。
1. 呼叫系统
呼叫系统是一种针对电话的软交换解决方案,通过呼叫系统,电话机器人才能与用户通信设备进行通话。
机器人、呼叫中心、终端间简单的关系图
呼叫系统由来已久,经过这么多年的发展,其功能已经十分完善和稳定。
在AI驱动的公司里,也会采用FreeSwitch之类的开源系统进行自研。但是这个只有在有相应技术栈(C++),对呼叫系统有开发经验积累时可以去尝试。
因为,对于呼叫系统的租户来说,呼叫系统最关键的就是高效和稳定。要想进行商业化,就必须保证呼叫系统的高并发和稳定,这是一切的前提条件。
除去FreeSwitch之外,也可以购买第三方成熟的呼叫系统,例如国外比较有名的Genesys等。
购买成熟的呼叫系统,一个是系统本身已经比较稳定、功能齐全,该踩的坑前人已经帮忙全部踩过。还有就是减少研发成本,尤其是对于AI型公司来说,无需为呼叫系统再浪费研发资源和时间。
在呼叫系统中,会有一些专用名称,不是这个圈子的一般很难理解,例如坐席、线路、并发等。
坐席:
主要是软电话,一般也叫SIP电话。每个客服人员的账号会绑定一个坐席,拥有坐席之后,即可通过电脑在线进行拨打、接听电话。
线路:
可以理解为外呼时用到的主叫号码,通常为一批号码的集合,号码的类型很多,手机卡、中继线等等,有不同的接入方式。
线路资源会根据运营商时常变动,所以通常由专门的线路商去维护和运营。线路会被很多业务共用,只能外呼,不能呼入。为便于区分,这条线路下的所有号码会有相同的归属地,拨打的是类似的业务。
例如:北京教育线,便表示外显是北京,主要拨打教育营销相关的业务。
当然上述主要针对的是外呼场景,呼入场景只需要向运营商购买稳定的线路即可。
并发:
指同时间可以进行几路通话。并发受限的因素较多:呼叫系统性能、机器人配置数量、线路资源。
- 呼叫系统性能:这是个技术问题,当高并发时,服务端无法处理,容易造成漏接、无响应等各种问题,并影响接听率。
- 机器人配置数量:这个主要是种收费模式,按机器人并发量进行收费。
- 线路资源限制:简单理解为线路中实际可外呼的sim卡限制(实际上很多种类型),算是种物理限制,只能多找一些线路,没有其他办法。
2. AI机器人
严格地来说,AI机器人就是一整套回应的话术,内容包括核心的对话流程和知识库。根据业务的不同,采用不同的技术方案。
1)两类业务场景
在业务上粗略地可分为两种场景:呼出场景、呼入场景。
呼出场景:
主要是电话营销、通知等业务。
大部分的呼出电话都是陌拜电话,例如教育培训、股票投资、医疗保险,都是广撒网的方式大量外呼。这些电话本身就是对用户时间的一种侵占,对用户来说没有意愿来配合进行问答,随时都可能被用户提前挂机。
总的来说,呼出场景的特点是:话术简单,单通价值低,用户不配合。针对此类场景,机器人采用的堆关键词的方式即可实现。
呼入场景:
主要是业务查询、预订等业务。
常见的呼入场景,例如有10086。之前拨打10086,使用的是IVR模式,需要按键操作,现在已经可以语音直接查询话费信息。由于是用户主动呼入,带有明确的目的,对电话机器人的容忍度相对较高。而机器人核心价值是帮助用户完成任务,在无法识别等情况下,可与用户确认,方便明确意图。
总结一下,呼入场景的特点是:业务稳定,单通价值高,用户配合。此类场景,就需要用到Rasa之类的聊天机器人框架,利用意图识别、实体提取完成任务。PS:呼入场景,类似于智能音箱。
2)电话机器人和在线机器人对比
本质上电话机器人与在线客服机器人相同。区别在于输入端一个是语音,一个是文本。
语音信息包含着更多无用的信息,文本要比语音更加精准和高效。当然语音中包含的语气、语速、情绪等也有部分价值,例如可以用来判断男女。
电话机器人由于需要先ASR(语音识别),转成文本之后,再NLP(语义理解),而在线机器人是直接进行NLP处理。因此,在最终的理解效果上,电话机器人的准确性会差一些。
3)语音输入的难点与方案
语音输入的难题,便是上文中所罗列的,这里不再赘述。这些难题不是目前技术可以解决的,或者说解决成本很高。这里就简要列举一些方案,具体需要在实际场景中多次尝试,才能得出最优方案。
方言问题:
最直接的方案是采用方言的ASR识别引擎。针对方言的ASR识别,在科大讯飞、阿里云等基础服务商都有提供。
问题是:第一,方言种类多,而一般识别引擎只能识别部分使用范围广的方言,如四川话、粤语;第二,不知道该用哪套识别引擎,用户范围广,在接通前都是未知的;第三,比较贵,商用成本高。
另一种是笨办法,但是也有效。通过人工巡检,将ASR识别结果中的拟声词、错别字、近似词都作为关键词积累起来,积累越多,越容易被识别。
噪音识别问题:
噪音可分为人声噪音和环境噪音。
常见的人声噪音例如:周围有人在说话、电视剧的声音等。由于设备的限制,没办法利用麦克风阵列等硬件去判断远近场,因此没有什么特别好的解决方案,毕竟电话的音频就只有8000Hz、单声道、16位。
环境噪音,在呼叫系统中就可以用滤波器、谱减法等方式降噪,还可以声音切片的长度。
例如:正常说话单个字的时长都大于200ms,过滤掉短促的噪音。此外,在送往ASR之前,还可以利用AI进行一次噪音识别,过滤之后再送往ASR识别。而ASR识别引擎本身也具备过滤噪音的功能。具体的实施方案可根据实际效果、商业化角度去搭配组合。
语气词、口头禅:
例如:嗯——这可能只是在组织语言时的停顿或者是倾听时礼貌性的反应,但会被识别成肯定的意思。
此类情况比较常见,在人工巡检过一批录音后,发现作为语气词的情景次数要大于作为肯定的情景次数。
因此,第一步是将单字的“嗯”、“哦”等词从意图中剔除,保留“嗯好的…”等更明确表达该意图的词。
第二步则是在AI对话时候,尽量不要让用户开放式回答,而是引导用户回答,比如用“是不是”、“可以吗”等结尾,潜移默化地影响用户回答“是”、“不是”、“可以”等指令明确的词。
打断、表达不清:
这个问题比较难表述,继续举个栗子:
假设AI询问儿童年龄,用户回答:“噢……我小孩4岁”,中间停顿了一下。在正常逻辑中,为让AI快速响应,在用户回答停顿的时候,已经执行下一流程。因此,这时AI可能会忽略用户后半句有价值的对话。
该问题往往容易使AI漏掉关键信息,同时也影响通话体验,给人生硬的感觉。针对该问题,目前是通过规则去控制,通过人工对通话记录的总结,制订处理规则。如什么情况下允许打断、什么条件下替换为上节点意图,这些都需要在实际场景中不断总结优化。
4)话术设计
机器人的对话设计有很多配置方式。底层基本都是Taskflow的模式,是类似于流程图,将多个节点连接起来。这种方式能够逐渐让问题的范围收敛,处理复杂的业务对话。
节点:
节点主要是针对输入的内容进行意图判断,最后根据判断分流给下一个节点。
在智能设备中经常会提及一个词叫“技能”,通过技能,可以完成特定的指令。节点也类似于技能,不过在通话场景下,范围会比技能还要大一点。
- 针对语音进行判断,即“技能”,可通过关键词、实体提取等方式判断意图。
- 针对按键进行判断,也就是IVR,这是电话独有的功能,用户可以准确地输入数字,不用担心ASR识别错误,在核对用户身份证信息等场景下特别有用。
- 针对系统数据进行判断,此时不需要用户输入,是由系统根据已有信息直接给出判断结果,如上一条中的身份证信息判断。
流程组:
在常见的销售、客服话术中,通常可以分为开场白、业务介绍、业务处理、结束语几个阶段。为了方便话术设计和后期优化,也会根据此类分发去设计节点流程,并用流程组作为阶段进行分隔。
5)AI效果优化
衡量一个AI机器人的好坏,要看它最终带来的收益和成本。
在呼出场景中,需要让AI最终意向率到达或者略小于人工水平,毕竟每一通电话、每一个号码都是成本的。
在呼入场景中,则需要关注问题解决率、客户满意度等。必要时刻还是得使用人工坐席兜底,因此还需要关注人工介入情况。
优化话术效果,主要通过录音巡检和分析每个节点的识别率、挂机率,为节点补充关键词、说法集,也会尝试不同的说话方式,具体的有时间再细讲。
就目前而言,纯AI接听的完成率与人工接听对比,还是有一定差距。因此真正适合纯AI的应用场景还是比较少,适合用在呼叫量大、内容单一的场景,如:电话通知、催收M0。
在其他场景下,还是以AI+人工配合更为合适。AI负责前期简单的对答,过滤和分流部分用户,再由人工更灵活地解决问题。等到收集足够多的说法集,归纳完善的话术之后,由 AI逐步接手,将人工后撤到下一节点,层层后撤,减少人工投入。
3. CRM系统
每一通电话记录都会经过CRM分析用户意向、最终通话结果。CRM系统基于业务,主要负责对客户的管理和跟进,整个CRM系统主要可分为3个方向:
- 对人员的管理:包括销售、客服坐席的增删改查和业务报表。
- 对客户的管理:涉及到客户信息、通话的意向度、完整跟进记录、状态的流转。
- 对资源的管理:这里的资源可以包括线路的管理运营、话术设计和优化。CRM系统较为常见,这里就不再多说,根据实际需求,进行调整和功能扩充即可。
二、主要竞争对手
图为当时做竞品分析时,归纳的竞品公司
在智能外呼这个赛道,直接竞争的是两类企业:传统的软件提供商和以AI为核心的科技公司。
客服软件提供商在客服系统、呼叫中心等产品上深耕多年,有相当完善的产品矩阵和客户资源,对客户需求、实施解决方案都是经验丰富。
AI型科技企业,则是垂直切入外呼场景,依托自身的AI技术,对单一场景进行单点突破,巩固自身的技术壁垒。只是就目前来看,AI技术的瓶颈还未突破,对智能对话、通话体验的改变不大。
除了上述两类企业外,百度云、阿里云、腾讯云之类的云服务商,利用自身优势,将技术集成到开放平台中,形成完整的行业解决方案。为企业提供ASR、NLP、TTS、呼叫系统甚至是线路等基础技术服务,降低了技术门槛,企业不需要特别的技术储备,即可搭建出自己的系统,可以说是一种降维打击。
PS:事实上AI驱动的企业,完善自身技术后,也在逐步开放AI能力,提供技术服务,为其他企业赋能。
而研究聊天机器人的企业,在NLP技术的研究和积累颇多,也容易快速切入。
三、核心竞争力
虽然说是AI机器人,核心亮点是AI。但是,在实际应用中真正利用到AI技术的并不多。
- ASR:除非自身有足够多的语料和研发能力(还要考虑研发成本、更新维护能力),否则ASR大多都是通过科大讯飞、阿里云等大平台进行识别。
- NLP:这个是一个技术核心,不过就目前的提升效果,通过填充关键词之类的笨办法也能达到相同效果。
- TTS:在实际语音播放中,除了变量等必须由TTS合成外,大部分话术都可通过提前人工录音的方式完成,且播放效果比TTS还要好。
个人认为AI机器人的核心,不在于AI,而是基于业务场景的话术。客户不会关心技术如何先进,而是看最终的接听效果。当一个话术调整成接近人工坐席效果时,那么在这个业务场景可以说是形成了壁垒,拓展相似业务会更有优势。
本文由 @jessi 原创发布于人人都是产品经理。未经许可,禁止转载
题图来自Unsplash,基于CC0协议
大佬,可以讲解一下CTI的信令和媒体流的运行流程吗?
NLP:这个是一个技术核心,不过就目前的提升效果,通过填充关键词之类的笨办法也能达到相同效果。
对于这段话,我有异议。NLP的能量是关键词根本无法比拟的,目前自然语言理解方面也大大降低了成本,相似问法语义的扩展支持度也很好。只是NLP研发门槛高,以至于很少能让客户发现NLP真正的价值。试想一下,中华文字博大精深,哪是几个关键字就能搞定的。
在实际落地过程中除非和合作伙伴深度合作,不然会发现枚举、正则对结果提升更快更容易。
通过多个实践项目落地,nlp的价值在不断放大,正则也不是完全放弃,只是在能量级上还是有差距的。
多年nlp对话领域经验告诉你,多轮对话领域,正则比纯模型好用。原因很简单:确定性。在项目交付过程中便与和客户解释并维保。
部分认同。但,确定性不代表覆盖率,需要人肉堆无数条数据,本身客户也不太能接受,若需要提高确定性,是可以设置较高的阈值,除非行业要求0错误,还是以行业要求来定义。(也是多年nlp对话领域经验告诉我的)
就实际应用来说,纯关键字(正则)的优势比较突出,nlp的语义发散在呼叫场景应用中产生了很多负面效果。正则的缺陷也很明显,无法覆盖实体类的表达。长远意义看,应当针对呼叫的场景特性设置更合适的语义规则,而不是沿用智能客服的那种算法。
后半段同意,需要针对具体场景选择更合适的方案,而不是一刀切!但不可否认,nlp的能量级是远超正则的。
哈哈哈哈,有幸看到一个从20年聊到22年的话题,来自23年的小弟加入讨论。正则非常好用,快速服务客户落地业务我选择正则,并且在业务taskflow不是那么明确的情况下(大多数情况下都是需要调整的),正则也可以快速迭代业务能力。但对于业务较为稳定,且客户价值较大或者具备标杆的行业就非常值得应用NLP能力了,效果的提升不是正则可比的。另外就是也可外呼机器人公司的特点,如果在深挖某垂域,NLP能力必不可少,甚至需要构建图谱,问答库,通用技能等高阶能力。
最后:GPT真强,产品层面将GPT能力接入业务,对一般NLP(就指非特大模型吧)和正则能力降维打击,哈哈哈哈,希望接口不要太贵。
大家都是跨年沟通的,不晓得24年我能收到回复不
跨年回复,我来了!现在有了大模型,一切都变了,大模型充满期待,但同时也存在落地的难度,尤其是本地部署,如何大小模型配合使用,相得益彰呢~(正在研究大模型落地实践中路过~~)
GPT效果是真不错,有了GPT要啥正则,要啥相似问,告诉它要干啥,理解能力超强
可以分享一下竞品分析吗?