如何评测语音助手的智能程度（2）：服务提供

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

如何评测语音助手的智能程度（2）：服务提供

饭大官人

2020-03-15

4 评论 13164 浏览 46 收藏

24 分钟

关于如何评测的问题，笔者从四个维度展开了分析，而本文服务提供维度展开评测点的拆解，考量的是场景理解及整合应用CP和SP的能力。

很多人觉得AI是一个行业，但AI其实并不是行业，真实的情况是行业+AI，即原本的各个行业如何释放AI的能力促使产业升级，提升运转效率，创造更多的社会价值。

在前一篇文章里，用户提出一个需求——“我就想要一个聪明且好用的智能助理，能够满足我生活中的各种需求。”

这个“各种需求”的满足，其实是原本已经存在解决方案的，AI只是试图去革新体验。

我们都知道那个著名的公式：用户价值=(新体验-旧体验)-替换成本。

那么问题来了，用户原本用得好好的，为什么要来用你呢？

很多AI创业公司就是理解以及处理不好这个问题，经营不好而半路夭折。

任何一个服务背后的构建，智能助手其实都依赖于CP（内容提供商）和SP（服务提供商）的能力，那么如何将这些能力巧妙地与AI结合，是非常值得研究的部分。

前一篇文章，笔者重点谈了【意图理解】维度，本篇文章为大家带来【服务提供】维度的评测点拆解。

在谈及这个模块的时候，评测考量的是场景理解及整合应用CP和SP的能力。

1. 资源/服务的全面性

机器猫有一个百宝袋能够解决足够多的问题。

《超能陆战队》的大白最初的定位是在医疗健康领域，相对就比较窄一些。当然后续大白经过版本迭代升级，也开发出自己的其他能力，这就是能力拓展。

“你看我家的这只大白，他又大又圆，能治病救人，还能打，要是能再多做一些事就好了”

所以，智能语音助手的技能服务，能力范围自然是越多越好？

在理解这个维度之前，我们一定要明白比较的对象。

在前面一篇文章里笔者曾经提到过：“市面上，例如腾讯叮当、小爱同学、天猫精灵、小度音箱这类大生态的集合的处理方案，属于最大的开放域。”

这种产品形态的背后，其实是把集团的资源整合进一个智能硬件中，为音箱这个智能硬件提供更多附加价值。

笔者的视角看来，这也是在未来，各CP和SP在未来注定会到来的智能时代，尝试以音箱这类硬件载体，找到AI为用户提供服务价值的一种探索性行为。

从这个角度去评判，他们无疑是大而全的。

巨头们的打法，他们做的是生态。用评价应用商店的角度，去评判智能助手，根本就不对。

故而SIRI的未来，定位一定是基于苹果的大生态，做一个向用户提供SP和CP的连接器。它是中介，提供的服务能力是，帮助用户寻找CP和SP。

而实际上，真正去解决我们生活中的问题的是，各个行业细分领域的CP和SP们。

CP角度：视频、音乐、音频内容、文字内容、游戏等领域。

SP角度：出行、教育、医疗、金融、电商、旅游、餐饮、客服、线下生活服务等领域。

所以，真正比拼服务全面性的，指的是解决某个具体问题的能力。

例如滴滴的定位是解决用户的出行问题，如何解决一公里内的出行服务需求，收购一家“自行车”呗。

在实际的业务评测，体验测试很多市面上的AI助理，就觉得有些服务有，但是服务的覆盖不够。

例如很多的AI助手都是订机票功能的，但是似乎少有的能做到整个服务链条的全覆盖。比如：

能定国内的机票，没法定海外的机票；
买机票的同时，不能买出行相关的保险；
乘坐飞机相关的各种FAQ服务问题能不能答得上来；
行程单邮寄以及发票报销，解决得是否到位；
预约送机和接机的服务需求如何解决；
商旅人士定酒店的服务是不是也得加上；

……

定位可大可小，只有先明确产品的定位，然后基于定位所覆盖的服务范围，去满足用户需求，基于这个角度去评测“资源/服务的全面性”才更准确。

而作为AI从业者，实际上应该思考的是，用如何用现在的AI能力升级某个产业，更好的为用户提供更多的价值，争取做到某个细分需求领域里面的最好。

此为，我辈中人，应该反复思考的命题。

2. 资源/服务的质量

既然有全面性考量，相对应也有质量的追求。

行业内能提供最好质量的也就是BAT的那几家，这个背后是接口，即SP和CP的比拼。无非就是把手机上获取的内容和服务，换一个硬件载体所承载。

从用户角度而言，是通过点触找到自己想要的内容/服务，还是和通过语音找到自己想要的内容/服务，这个过程并不重要，而真正在意的是能否满足需求，有无体验升级？

即，只要让我能拿到能回家的火车票，我才不管哪个软件，通过什么形式完成交易行为。

在这一点上，巨头的SP和CP非常齐备，而小厂往往就惨兮兮，比如我想听周杰伦的歌，我也能做好相关的语义理解，结果公司的背后没有QQ音乐的支持，那只能找一些替代方案，还担心版权问题。

中等厂商如喜马拉雅，基于内容做音箱，然后捆绑内容完成销售。

那么问题来了，如果自己不是巨头公司，手里也没有内容，公司也没太多的钱，买不到版权，如何去做呢？

在一些细分领域，是存在内容自建这一说的。我们可以开一些也许不严谨的脑洞。

先定义一下场景：智能厨房，如何给用户带来革新的体验？

比如说，电冰箱上开个屏幕，外加麦克风扬声器wifi模组，这个硬件成本是可控的，如此可以构成一个厨房AI机器人。

每天推特价菜，整合每日优鲜或楼下便利店，对厨房的需求直接语音配送下单。在厨房这个场景下，屏幕上可以语音搜索，做菜烘培类的视频资源等，可以用知乎，抖音，下厨房等任意地方的内容，这个细分领域，维系好内容建设，成本并不高。

再比如说，市面上一些热门游戏，已经有了自己的智能助手，有些做的好，有些不好。

在这里可以寻求的服务可以有：提供游戏攻略、提供客服入口以及服务、收集用户建议，做运营营收类动作一类系统整合服务。

就单单一个服务点，当用户在游戏中挫败的时候，卡在某个关卡下死活过不去，可以提供游戏图文/视频攻略，贴心的送一些临时性的道具关怀，甚至帮助用户完成战斗。这些都是可以通过助手实现，并有效提升用户留存的。

所以，智能助手能不能基于场景和需求，给予用户高质量的内容价值，是非常重要的考量点。

3. 反馈样式的丰富性

简单来说，就是智能助手的回复类型有多丰富。

还是举个例子：现实生活中，你向其他人提问我想了解一下这个房子，你能介绍一下么？

如果现在同样的问题，抛给语音助手，对方回复的内容样式包含如下：

纯文本介绍
图片搭配文本，语音介绍
视频内容介绍
带交互的功能式页面
导购讲解外加VR视觉交互

无论是问问题和反馈需求，我的智能助手怎样回复我，总会有一个反馈样式。

在实际使用其他的智能客服交流的时候，问他一些非常基础的问题，比如说找一下签到功能页面。

机器人会非常细心的告诉我，先点哪里，然后点哪里，然后点哪里就可以找到了。

问题就是他是一串纯文本，为什么就不能给我一个直接跳转到指定页面的功能按钮呢？显然，它并没有提供一个【跳转】的功能样式。

故而，智能助手输出结果样式的丰富性也应该作为评测指标。

列举一下当前的回复样式，文本、图文、视频播放器、音轨、选项卡、表单、功能按钮、多模态交互等等。

必要说明的是，样式并非越华丽炫酷越好，而是恰当好处就好，往往越是华丽炫酷的东西，越是加载效果多，反馈速度慢也是评测丢分项（这个后面的评测维度会提及）。

样式的选择，就是具体场景具体分析了。

所以评测点是，是否能够理解用户需求，使用丰富的反馈样式，提升用户体验。

4. 内容展示合理程度

这一块其实非常考验人的设计功底，好的UI界面一定是简单而优雅的。

它只在用户需要的时间，展示需要的内容

展示是分为GUI（图形界面）的和VUI（语音界面）两个部分的。

就好比飞机的驾驶舱，一定是让人抓狂和恼火的，太多的仪表盘和功能按钮会让人决策瘫痪。而这种设计我一般称之为劝退性设计。而汽车的驾驶舱的设计就好的多，因为他简化了操作。

而就算是汽车的驾驶舱，不同的厂商处理能力也完全不一样，Tesla的处理表现是非常优雅的。

经历过功能机年代的人都知道，那个年代实体键盘占据屏幕的一大部分，而当前的手机键盘仅仅在需要出现的时候出现，类似的例子实在是太多了。

故而内容展示的合理程度，也应该成为一个评测标准。

就算是复杂的内容，也需要做好信息处理，根据用户的情况，分层次分阶段，进行内容展示。

为了帮助大家理解，我举几个语音交互层面的例子。

比如说，大家周末相约到你家聚会，有些同学由于不熟悉路况，然后打电话给你。你通过语音跟对方完成指路行为。注意，这是一个纯语音对话的场景。

一般情况下，你采用的的话术表示是东南西北，一二三四某个街道楼栋门牌号这类语言结构，这种固然没什么问题，但是往往是对空间感较好的男生比较友好。

而这类话术在女生那边就不那么管用了，她们熟悉什么呢？商店品牌，广告牌标识，建筑形状，颜色等等，所以你自然就应当调整自己的话术，相信她们会更接受。

上述例子就是基于用户的情况，去设计自己的话术呈现。

前面一个智能厨房的场景，询问如何做菜，一般会给予视频推荐。如此，解放双手，边看边听边做，这个是我们想象的美好场景。

如果内容不加以控制和处理的话，用户的使用路径是，先看视频后做菜，或者是边看视频边做菜。如此，大概率会出现，一看就会，一做就废的情况。

原因无他，信息过载，细节过多，记不住。

而对内容进行管理，加以处理的话，合理的处理分层次分阶段，体验便能再上升一个台阶。

上述例子就是基于分层次分阶段，去设计自己的内容呈现。

笔者曾经设计过一些语音交互游戏。在进行业务教学的时候，曾经走过类似的弯路。

往往我们一开始是需要向用户介绍基本状态，以及基本操作指令的，在介绍游戏指令的时候，有这一段描述：

……游戏的命令列表分别是：“继续”、“重复一遍”、“下一步”、“退出游戏”。

问题1：命令列表是计算机语言，不具备亲和力，更好的表述应该是替换成你可以对我说：

而在后续实际的体验过程中，以及观察用户实际使用情况是：

当AI讲完，用户并不知道接下来该怎么办，顿在那里里发呆。

当AI讲完，用户走神没听清楚，也忘记了前面“重复一遍”的命令列表。脱口而出你说啥？

问题2：一开始用户拿到这一串命令的时候，其实是不知所措的，就好比跟你念了一段说明书。因为信息过载，而可能会遗漏掉某些信息。

这就是语音交互的尴尬所在，操控命令无法图形化显示，只能想办法在用户需要的时候提示。（这就非常考量出现的时机）而交代也需要细节，比如：

AI：说“继续”进入下一步。

用户：继续进入下一步。我们真的不希望用户如此表述。

问题3：我们期望用户的表述，与预想不符，而修订后的是

助手：进入下一步请说“继续”

类似的例子还能列举很多，无论是GUI还是VUI，对用户一股脑呈现，不加以管理是非常不负责的。

在自然语言处理领域，特别是纯语言的表述，逻辑顺序非常非常重要。所以我提炼成，内容展示合理程度，故而列为评测点。

5. 兜底处理表现

尽管我们都希望自己的智能助手能够给予最好的回复。

而在实际的业务中，总会有一些搞不定的情况。

此处搞不定分为两种，一种情况是，AI听懂了，但是需求超出范围，如何回复？

另外一种情况是，AI真的没听懂，但是能猜测一个大概，但拿不准，如何回复？

实际业务中的解决方案，每个业务单元处理均不一致。

私以为常见的处理方案如下。

下面的这个例子中，有什么理财推荐和我想买理财其实意图近似，但是AI则根据自己的理解，给予了两种不同的处理方案。

下面的三个例子中，其实都是归属于成功理解意图，但是回复不一致。

案例1，采用闲聊接话的方式，显然是不过关的。（这类不过关真的非常多）

而案例2和案例3，则是相对过关的。

案例2和案例3，都无法直接满足，虽然方向不同，但也是努力兜底，为用户解决问题。

一种是通过下载APP作为解决方案，一种是交给导航去处理，提供解决方案。这两种选择的背后，都是可以产生商业价值的。

所以兜底回复的表现，衡量的是，能够为用户，为公司带来多少价值。故而列为评测点。

6. 阶段性结尾

写东西不光光是罗列和定义评测点是什么，笔者更期望在每个点上，加入更多的业务思考和理解。

实际上，原本在【服务提供】这个维度，有更多评测点去列举，受应用性所限，删掉的一些内容。

用提问的方式，列举一下我删除掉的指标。

第（6）点，列举一个例子，特别跟我们工作中一样，马总下周去北京出差，你帮忙安排一下相关行程。然后秘书会沟通具体时间，航班的班次，酒店，路上的交通，出差相关的事项提醒以及资料。当这类事情，交付给AI的时候，AI如何处理。

第（7）点，智能助理可以出现的地方，麦克风，扬声器，wifi模块，就可以使用语音交流了，如果有屏幕，则多一种点触交互。那么这意味着智能助理，可以存在的载体非常多，手表/环、手机、电脑、眼镜、耳机、音箱、车载硬件等任何地方。那么当用户在不同场景的下的需求，到了另外的地方，如何对人类提供反馈。

第（8）点，开放域闲聊，解决用户的寂寞问题。要知道，“树洞”也是一种待满足的需求。表现得最好的是电影《Her》里面的萨曼莎，不熟悉这个电影的朋友可以去B站搜下内容。其次表现得最好的，我所知道的，应该是被很多人调戏了这些年的微软小冰了。

（6）、（7）、（8）三点毕竟高难度，虽然想过方案，但是对绝大多数智能助手而言，相对低频，故而弃之。当然也可以把这些评测点纳入，作为加分项。如果能实现得比较好，那就是亮点，甚至是当成重要卖点去赢得市场竞争力！

当用户提出需求后，AI先理解，后反馈，这个反馈表现，就是本文【服务提供】维度各个考量角度。

我们都知道那个著名的公式：用户价值=（新体验-旧体验)-替换成本。前段时间读《俞军产品方法论》时，更是加深了理解。

我们如何释放AI的能力去革新体验，尽量提升（新体验）的价值。

同时用户（替换成本）是什么，如何降低。如何两头用力，最大化创造用户价值。

此为，我辈中人，反复思考的命题。

以上，关于第二大维度【服务提供】的考量部分，就此完结。

后续文章会补充余下的部分，并以相同的形式去进行补充解释和完善：

【交互流畅】——当用户与AI进行交互的时候，重点就交互反馈过程中的性能指标，体验是否流畅来设计评测指标。
【人格特质】——智能助手是否具备足够的魅力/人格化特质，就情绪表现，情商，共情、个性化、拟人化程度来设计评测指标。

谢谢你看到了这里，有疑问，可以在留言区评论与作者深入讨论。

如何评测语音助手的智能程度（2）：服务提供

1. 资源/服务的全面性

2. 资源/服务的质量

3. 反馈样式的丰富性

4. 内容展示合理程度

5. 兜底处理表现

6. 阶段性结尾

相关阅读