一文看懂语音技术商业化逻辑：对品牌意味着什么 ?

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

一文看懂语音技术商业化逻辑：对品牌意味着什么 ?

Darcy

2018-01-16

1 评论 4419 浏览 12 收藏

36 分钟

语音技术，对品牌意味着什么？

基于语音的技术将对许多行业产生巨大影响，在短短两年内，预计50%的搜索将基于语音技术。

该项技术的普及率可能因用户的年龄、地理位置和读写能力而有所不同，但一些市场和平台已拥有很高的渗透率，而全球10%的搜索已经是基于语音的搜索。

在这一领域将会出现新的赢家和输家，而现有品牌将需要考虑到在收购过程中失去对消费者对话的控制的影响，这加大了在竞争中脱颖而出的难度。

然而，语音界面为各品牌提供了前所未有的机会，让它们能以一种极为强大的新方式与消费者进行互动，而目前来说，很少有品牌利用到了这一点。

当前广泛使用的功能在范围和用途上均受到限制。就开发创新的内容和体验，以及全新的服务来说，现下各品牌仍有机会。

那些能在此情景下崛起的品牌，在提升市场份额方面处于有利地位。此外，市面上有许多工具，让用户可以用最低限额的投资来轻松地进行语音实验。

我们的建议是尽快开始一项服务设计和声音试验的低投资计划，可能还要与市场推广活动相结合，以便让你的品牌充分利用这项技术所带来的机遇。

我们所说的“语音”是什么意思？

在本文的语境中，我们对“语音”的定义是自动化的语音服务。它涵盖了从交互式文字到实用工具内的所有信息，内置于定制的硬件设备，以及手机和云端应用内的各种应用，可通过品牌产品或人工智能行业内的几大公司的虚拟助手来进行访问。

很多关于基于语音的技术的宣传都围绕着智能音箱的普及（75%的美国家庭预计在2020年均拥有智能音箱），以及音响附带的“语音助手”。现在已有几个公司允许第三方直接整合旗下的智能助理，有点像智能手机上的应用。

此外，需要注意的是，不论是上文提及的还是其他语音助手也可以在其他硬件（通常是手机和平板电脑）上使用，人们可通过手机应用和深度操作系统集成来使用，但也可以通过定制硬件设备，甚至是网站来使用语音助手。

从许多方面来看，语音和机器人背后的技术都是一样的，但二者之间在生态系统和影响这两方面的差异足以使语音技术成为一个非常重要的领域。

语音简史

基于语音的交互界面已经存在了几十年，尽管它们最具影响力的方面一直是客户服务电话。大多数与语音相关的系统都遭遇了各种各样的问题，从语音识别到复杂的生态系统。

五年前，行业领先的语音识别技术的准确率仅为75%左右，机器学习技术、系统和硬件的最新发展，使得最好的语音识别系统的准确率提高到了95%到97%。

不断接近并跨过这一认知门槛成了当前语音产业繁荣的最大因素。人类识别口语词汇的准确率约95%，并能使用语境来纠正错误。对于大多数用户来说，任何具有较低识别准确率的自动化系统都会让他们失望，因此这在商业上并不可行。

机器学习在意图推导方面的相关发展（后文另作解释），这也是产业繁荣的一个巨大贡献因素。几年前，这一功能的商业系统已经跨过了类似的门槛，并推动了机器人产业的繁荣;语音其实就是无文字版本的机器人。

机器人本身也已经存在了几十年，但处理自然语言的能力，而不是简单地识别关键字，才带来了基于对话的互动，这反过来又推动了相关平台和服务近期的爆炸式增长。

在当前的语音技术领域，虚拟自动化助理的崛起首屈一指。尽管Siri（以及其他一些不太知名的语音助理）已经推出多年，但Alexa和谷歌助理的崛起预示着一种更广泛的平台方式。

这些新出炉的助手会在一系列设备上推广整个生态系统和功能，Alexa可以控制你的灯光，告诉你当天的会议是什么，并帮助你烹饪食谱上的菜品。

语音技术只是炒作吗？

当然不是。的确，人们对语音技术的大肆宣传，就像之前的3D打印和其他“改变我们生活方式的技术”的过度炒作一样，但通过语音界面与计算机进行互动的趋势将会持续下去。

除此之外，还有一系列极具说服力的统计数据，例如，超过20%的移动搜索已经是基于语音的搜索，并且，预计到2020年，这一比例将上升到50%。或许更有趣的是，这些统计数据背后有一些原因也许更值得我们去探讨。

在科技圈，人们经常说，未来初次上网的10亿人中的大部分，其受教育水平很低，还很可能是文盲，因为“不发达”国家的人们也开始接触互联网。对于这些群体来说，视频和声音或许是最重要的，而且声音可能是他们能接触到的唯一双向媒介。

此外，iPad效应还揭示出，即使是非常年幼的孩子，还握不住鼠标时也能与触摸屏互动，而语音交互甚至能更快、更直观与孩子互动（一旦有人可以说话），而且毫无疑问将成为几年内某些功能的主要交互方式。

此外，也值得考虑到这其中涉及到的风险和利益，尤其是谷歌和亚马逊这两家分别在广告收入和发掘新产品方面最强大的公司。亚马逊进军语音市场的举动，已经对谷歌的利润产生了明显的影响，因为它使得搜索业务走出了网页和谷歌广告的覆盖范围，这也解释了为什么谷歌要努力让旗下的谷歌助手取得成功。

为了自身利益，谷歌可以利用他们现有的25亿台Android设备。随着数字的不断增长，你可以理解，到2021年预计将会有75亿个已安装使用的语音助理。在某些方面，对隐私和安全的担忧会慢慢地被采纳，我们将在本文的后续部分对此进行探讨。

反对语音技术的一个常见言论是，对着设备大声说话，尤其是在公共场合会让人觉得怪异或者是尴尬（尤其是年龄大一点的人会这样觉得，我们指的是20岁以上的人）。

BBH公司的观点是，这些标准很快就会改变。例如，十年前，在大多数情况下，把手机放在餐桌上简直是天方夜谭，如今，这可能是一种专注的表现（取决于细微差别），或者在某些情况下，在吃饭时接听电话或写短信也是可以接受的。

应用场景

语音正在迅速为产品和服务的技术接触点的融合创造一个空间。从许多方面来看，这并不令人惊讶。使用我们的声音进行交流的速度是打字的3倍，而且说话比打字要容易得多。

尽管它带来了一种全新的社会规范，但这是一件很简单的事情，用户只要用30分钟就可以轻松地享受这个全新的界面。

在某些情况下，声音可以轻而易举地打败非语音输入方式，比如手是湿的或者两只手都空不出来，比如做饭和洗澡，或者眼睛只能专心干一件事时，比如驾驶，还有其他一些对于我们来说需要一定程度上使用我们的双手和眼睛的事情。在这些情况下，使用语音输入显然更加轻松。

尽管语音在可预见的未来不太可能完全取代文本，但它无疑会对许多与技术相关的领域产生重大影响，尤其是电子商务和搜索领域。

对市场和品牌的影响

这为各品牌和新的加入者提供了参与语音体验的机会。电子商务行业的一个全新的、广泛使用的系统总是具有巨大的颠覆性，目前还无法详细了解语音对品牌的影响。

首先要考虑的三大因素之一是，许多交互将完全在平台上进行，减少或移除了搜索营销的机会。其次，基于对话的互动并不能很好地支持项目列表，这意味着助理们通常会推荐单件商品，而不是向用户展示选项。最后，在很多情况下，整个购买过程将会在没有视觉刺激的情况下进行。

所有这些因素目前都受到了广泛关注，但可以肯定的是，这将对品牌带来巨大的影响（特别是快速消费品行业的品牌），尤其是当这三大因素与其他因素相结合，如亚马逊目前作为市场和自有品牌供应商的双重身份在电子商务业的主导地位。

目前正在讨论的两种有可能解决这些新挑战的策略是，要么向平台推销，比如确保亚马逊、谷歌等向用户推荐你的产品，或试图大幅提升品牌认知度，让用户通过名字而不是产品类别在平台上寻找你的产品。例如，英国人说“胡佛”就意味着“吸尘器”，或美国人使用“施乐（Xerox）”就是说的 “复印”。

在接下来的几年里，许多品牌将会出现在语音平台上。它们可以采取任何形式，从提供实用工具的服务，或减轻客户服务的负担，到通信和营销还有娱乐。

由于语音界面的会话特性、缺乏有保证的视觉效果以及在感觉沟通中语境所扮演的角色，很少或没有品牌会完全依赖于语音。它不会取代社交、电视、印刷品和网络，而是成为这些平台的补充因素。

同样值得注意的是，不论哪一个品牌，都有一小部分用户不能说话或听到声音，对于他们来说，只有语音界面无法访问（尽管像Google Assistant这样的平台也有视觉界面）。

从理论上讲，语音技术为品牌提供了一个前所未有的机会，可以以一种私人的、甚至是亲密的方式与消费者建立联系，在所有潜在的品牌接触点中，没有一个能有语音那样的潜力，能大规模地与消费者建立深厚的人际关系。

与此同时，现有的助理平台都给想要在某种程度上实现情感联系的品牌提出了一些严肃的问题。

谷歌助理为各品牌提供了最为丰富的平台机会，但相比谷歌自有品牌来说依然还是有区别，而亚马逊Alexa则对品牌有额外的限制。话虽如此，语音技术的确代表了一个全新的拥有一些引人注目的品牌特征的渠道，尽管其缺点可能代表着一个提升品牌认知度的重要机会。

语音带来的类人特征

众所周知，人们把人类的特征分配到他们的所有互动中，但是这种现象在口语对话中尤其明显，这是如此，人们会对语音助理产生感情。超过三分之一的普通用户希望自己的助手是人，四分之一的人则对自己的助理产生过幻想。

基于语音的服务首次允许品牌完全构建代表它们的实体的特征。与选择品牌代言人相比，这一过程的深度和广度都是相似的，重要的是要考虑代表品牌或服务的声音的各个方面。

设计语音界面时值得考虑的因素包括：（虚拟）说话者的性别、种族和年龄，以及他们的口音。也许可以有多种不同的声音，但这就提出了一个问题，即如何选择使用哪一种声音。也许是通过提供的服务或者客户来源（如果知道的话）或其他数据点。

另一个有趣的因素是虚拟角色与用户和品牌的关系。语音助理是否像主人一样？是一个顾问？也许是家庭成员之一？是否代表了品牌本身？或者它是以第三方的身份谈论品牌？在它说“我来帮你查一下”时，这是否意味着你可以使用与助理本身截然不同的品牌核心服务？

当然，还有一些技术因素需要考虑，这取决于你所创建的服务和它所依赖的平台，在这平台上你也许根本不可能创建一个定制的语音，或者平台上可能存在着对定制化可能性的限制。下文将对此进行更详细的探讨。

在某些情况下，你甚至有可能探索更丰富的因素，比如声音的音质和一些“柔和”的方面，比如语言所带来的温暖。

最后，值得注意的是，语音机器人与单独的用户进行的是双向对话，这些对话完全是由品牌所控制的，在对话中，没有人会有糟糕的一天，或者感到疲惫。

语音服务设计

无论是基于实用性、娱乐性还是其他特征，在构建基于语音的服务时，一些核心因素都会发挥作用。这些因素导致为品牌打造全新服务的情况并不少见。显然，重要的是要考虑到没有屏幕对用户体验产生的影响。

举个例子，在一个语音界面上，搜索结果的列表让人很难满意。你可以做一个实验，大声读出谷歌搜索结果的第一页就行。这意味着，用户体验往往更“受引导”，而较少依赖用户去选择，尽管也存在着很多其他的含义。

考虑到这一点，我们也要注意到，越来越多的语音平台用户可能拥有他们和语音助手都能访问的屏幕，要么是内置在设备中（比如Echo Show），要么是通过智能手机或生态系统的屏幕，比如谷歌助理。虽然不能完全依赖这些屏幕，但它们可以用来丰富用户体验。

另一个重要的因素是界面的对话性质，这对服务设计的细节产生了巨大的影响，但也可能意味着用户可选择有高比例内容的选择服务，或者至少是通过决策矩阵进行线性旅行是有意义的。此类界面往往对复杂的流程极为有利，因为在这些过程中，基于屏幕的界面往往会变得混乱并让人感到困惑。

最后，和社交一样，周围环境对于用户访问语音服务的方式非常重要。如果他们正在使用手机时，他们可能在公共场所或家中，他们也许匆忙也许悠闲，所有这些都会影响到服务质量。如果用户通过智能音响访问该服务，他们很有可能在家，但可能会有其他人在场，这就再次影响了服务的细节。

一般来说，非常适合于使用语音的服务在范围上通常是有限的，并且只能提供给用户很少的交互。更复杂的现有服务通常需要人工智能工具来进一步简化它们的访问过程，然后才适合使用语音进行访问。

语音技术优化因素

在过去的两三年里，随着基础技术达到了重要的临界点，语音技术的前景发生了巨大的变化。从谷歌、亚马逊到IBM和三星，许多大型科技公司似乎都在语音领域提供了服务，但它们各自提供的服务存在巨大差异。

1.设备和环境

需要指出的是，许多设备的确拥有超越语音功能的能力。一般来说，智能音箱只播放声音，但当它们在向用户显示它们在听和回应的时候也会有灯光，这也因此有助于引导对话。

更新后的Alexa设备，比如Echo Show和Echo Spot，现在可以通过内置的屏幕和摄像头传送信息，而谷歌助理在智能手机上最常用的功能是，默认情况下，屏幕会用文本来显示对话。

在智能手机和其他一些设备上，用户可以选择通过文本而非语音来进行整个对话，这将改变他们接收到的输入类型，以及输出中会出现的细微差别。

基于屏幕的会话界面正在快速发展，还包括交互式模块，如列表、幻灯片、按钮和支付界面。很快，语音控制助手也将可以使用附近的联网电视来补充会话界面，不过在这里展示的内容与智能手机界面不同。

应该清楚的是，除了广泛的可用功能外，影响语音交互的另一个主要因素是周围环境。用户可能是在个人设备上，也可能是在共享的公共空间中使用语音助理，比如厨房或办公室，这将影响他们进行舒适交互的方式。

2.平台和生态系统

① 亚马逊Alexa

也许最著名的英美语音服务是亚马逊的Alexa，一开始可以通过Echo音箱设备来访问，但支持访问的亚马逊和第三方硬件也越来越多。

亚马逊在市场上拥有相当大的先发优势（72%的智能音箱市场份额），而且这可以说是亚马逊Echo系列设备的商业成功，这些设备所支持的其他公司提供的服务最近数量激增。

Alexa是一个面向消费者的平台，可以让品牌厂商创造消费者可以安装的“技能”。终端用户可以通过一个配套应用来配置Alexa。除此之外，用户还可以在应用商店中安装来自第三方的“技能”。

一项安装的技能就可以让终端用户向Alexa询问一些特殊的额外问题，这些问题能显示出该技能所提供的服务，例如，“Alexa，我的银行存款余额是多少？”

目前，在所有市场中，Alexa的技能数量约为2万，2016年底这一数字还只有6000。

尽管目前许多技能的使用率极低，但亚马逊最近推出了融资模式，以继续激励第三方开发者加入其生态系统。

据估计，到2017年底，Alexa设备的销售量大约有3200万台（在第四季度时约为2000万），毫无疑问，这个平台的覆盖范围很广，但Alexa技能的模式和亚马逊的整体市场战略的结合让各品牌方处于亚马逊的控制之下。

② 谷歌助理（Google Assistant）

就在亚马逊推出Echo音箱一年后，谷歌在2016年5月推出了这款Google Home设备，这款设备内置谷歌助理。谷歌一直在积极地向消费者和合作伙伴以及品牌推销其谷歌助理（以及家用硬件设备）。

谷歌已经占据了15%的智能音箱市场份额，是前一年的两倍，而智能手机语音助理的市场份额为46%，预计到2022年这一比例将上升到60%。

谷歌的智能助理也在以不可思议的速度更新，新功能层出不穷，可以说，它已经在给用户和第三方开发者提供功能方面领先一步了。或许最有趣的是，与其他产品相比，谷歌助理在品牌整合方面采取了一种有趣而不同的方式，正如Actions on Google这样的应用平台。

通过这个平台，品牌不仅可以开发服务，还可以开发整个会话界面，包括他们所提供服务的语音输出。用户不需要安装第三方应用，只要直接要求与这些应用对话即可，就像有人会要求总机或接待员与某个特定的人通话一样。一旦与某款应用进行对话，用户就可以通过基于谷歌助理的语音界面使用身份验证、允许通知、切换设备和支付等功能。

通过将谷歌助理与Android紧密结合，这个平台拥有巨大的潜力;目前有25亿台使用中的Android设备。该软件也可为第三方硬件制造商使用，进一步提升了该生态系统的潜力。

③ 微软小娜（Cortana）

每一台Windows 10设备都装载了微软小娜，其月活跃用户数达到了惊人的1.45亿人次（用户可能主要是通过XBox访问），但微软对Cortana的推广和更新要低于谷歌和亚马逊对旗下产品的推广和更新力度。Cortana提供了类似于Alexa的“技能”界面，但它的开发时间相对较晚，在核心功能和可用整合数量方面也尚不及Alexa。

尽管微软小娜在智能音响设备上的份额很小，但微软庞大的整体用户群，以及它在与工作相关的软件和游戏生态系统中占据的主导地位，确实让Cortana在市场上拥有了强大（并且不断增长）的存在感。

④ 百度DuerOS

百度可以说开创了语音界面的最新潮流，它结合了突破性的技术和庞大的用户群，以及不同的文化和社会经济倾向，更偏向于使用语音技术而非文字技术。

百度最近发布了DuerOS（新一代对话式AI操作系统），这是一个让第三方硬件开发者打造自己的语音驱动设备的平台，通过“百度大脑”提供了一套用于各种用途的人工智能平台（其中很多都涉及语音功能）。目前，大多数消费者通过百度仅支持中文的服务与其语音技术进行互动（即没有第三方整合）。

⑤ Siri、Bixby和Watson

苹果的Siri和三星的Bixby都是语音助手，目前支持在特定设备上使用，也可以在制造商的生态系统中使用。这两种语音助手都不能被称为平台，因为它们不提供第三方访问来创建服务。

目前，这两个语音助手的市场份额都是有限的，因为可支持的手机数量有限，但它们有使用门槛，且语音识别准确率也较低，使得它们在与其他助手的对比中显得很有限。IBM的Watson也许是最有效的工具，可以被看作是品牌可以用来创建定制服务的一套工具。

3.内容和服务

在为基于语音的对话界面设计服务时，需要考虑很多因素;这些因素均在上文提到过，会影响可用的功能范围。

① 效用

目前可用的大部分语音服务都是实用型工具，它们可以通过其他方法获得简单的功能。既有更普通的功能（播放特定的广播电台或听新闻），也有更具未来感的（在电视上调整灯光或播放特定的电影），还能访问特定于供应商的功能，比如点一份披萨或者叫一辆出租车。

许多品牌开始在这一领域提供服务，从家庭自动化或类似于WeMo、Plex或Philips Hue这样的小企业，到更广泛使用的服务，如Uber和Dominos，但有趣的是，这一领域还有提供创新服务的大品牌。例如，梅赛德斯和现代都允许用户启动自己的汽车，并在不同的语音助理平台上预热汽车。

② 娱乐

各种各样的游戏、笑话和音效库都可以从所有的主要平台获得，这些平台来自于各种各样的提供商，这些提供商要么是平台提供商本身（比如谷歌或亚马逊），要么是小公司或个人开发者。不过，有少数几个品牌开始更多地尝试这一平台的可能性。例如，Netflix和谷歌推出了《陌生人的伴侣》第2季，而BBC最近为Alexa制作了一段互动小说。这一领域的娱乐项目潜力尚未得到开发，只是处于初步探索阶段。

③ 工具

有许多工具可以用于构建语音服务，以及相关的（通常基于人工智能）的功能。总的来说，基于云计算的服务就算不免费也很廉价，而且易于使用。一些严肃的项目可能需要人们自行开发定制解决方案，但这对于大多数需求来说都有些多余。

对所有可用工具的完整介绍不在本文涵盖的范围之内，但值得注意的工具有IBM的Watson Services、谷歌的Speech API和DialogFlow，以及微软的认知服务（Cognitive Services）。

所有这些都意味着，原型设计和实验可以快速、低成本地完成，而生产就绪的应用程序也可以在一个使用模型上进行成本估价，这种模式在小范围内是非常划算的。

④ 语言合成

有关于各品牌尤其值得注意的是，其围绕语音合成的选择，因为这些都是终端用户与之互动的品牌的一部分。如果提供的服务有一个静态的、有限的、针对所有用户输入的可能响应，那么就有可能使用录制好的语音。在某些情况下，这种方法可以进行扩展，与记录并剪切结合的方法一同使用。

对于拥有广泛输出的服务，生成的声音是唯一可行的方法，但即使是这种情况，也有多种选择。有很多免费的、或多或少的“计算机”声音可供使用，但我们建议探索其他的方法去创建像卫星导航一样的语音合成系统。

机器学习技术的快速发展，让生成的语音听起来非常真实，甚至像真人一样，这值得关注。这一技术目前还没有普及，但谷歌已经在美国使用Wavenet来辅助谷歌助理，而Adobe也正在开发一个类似的项目。

语音背后的技术

人们所说的“声音”其实是一套不同的技术，它们需要一同运作。值得注意的是，Speech To Text是处理一些音频和输出文本的“语音识别”组件。

近年来，这一领域取得了巨大的进步，以至于一些系统在不同的条件下比人类更擅长于语音识别。据报道，今年6月，谷歌系统的准确率达到了95%（与人类相同，比4年的准确率上升了20%），而百度则被认为拥有语音识别最准确的系统，其准确率在97%以上。

每个特定服务的核心都是意图推导，一组基于计算出一条文本暗示潜在用户意图的技术集合，这将用户请求与该服务能够提供的响应相匹配。

机器人和机器人平台的数量最近的增长（和炒作）与这项技术有关，而且几乎所有的语音系统都是加入语音识别的机器人，这项技术至关重要。有许多平台提供了这种功能（尤其是IBM Watson，以及免费的DialogFlow）。

另一套重要的语音相关技术是语音合成。实现这一目标的方法有很多，而且这些选项与特定语音服务的功能密切相关。本文前面已经探讨了与此相关的工具和选择，但是它们的成本和质量都存在着巨大差别，因为基于服务的范围和可以提供给用户的输出类型存着着差异。

隐私问题

与其他数字服务相比，创建语音优先服务需要多加考虑。首先也是最重要的一点是，用户的隐私受到越来越多的关注，因为用户的音频记录被发送并经常存储在平台和/或品牌那里。

根据对用户提供服务的方式，这可能只是一个涉及平台的问题，也可能是该品牌需要直接解决的问题。

最近，C4 Show《名人搜索》引发了对Alexa的强烈抵制，因为用户们直接看到了存储的录音有被泄露的危险。也有人担心录音具有的“永远”的存储能力，尽管主要的平台一再试图向用户保证，只有从关键字开始的短语才会被记录下来并被发送到云端。然而，就像大多数事情一样，合理的价值交换是最安全的方式。从本质上讲，应当确保产品的实用性或娱乐性。

本文前面提到的另一个注意事项是，可能你的品牌暂未提供语音优先界面的正确服务，或者至少是服务可能需要进行改动以完全适合这种格式。我们在研讨会上发现，品牌语音服务最有趣的用例往往需要向全新领域扩展。或许最有趣的是，这个领域允许收集关于使用该服务的用户的一整套全新的有趣的数据，除了实际的音频记录，新环境中使用的新服务应该会带来有意思的新想法。