关于智能音箱,你知道的都是错的(一)

6 评论 11484 浏览 33 收藏 10 分钟

本文主要从产品经理的角度出发,聊一聊你“所了解”的智能音箱,希望能带给你新的思考。

互联网创业最流行的一句话就是:站在风口上,猪也能飞起来。

所以寻找风口,是大大小小的公司都不轻易放弃的事情。最近火热的智能音箱便是“人工智能”风口下的产物。

有趣的是,虽有美国亚马逊的echo出货量超过700万台的案例在前,但智能音箱这头“猪”在中国的起飞却磕磕碰碰,格外笨重。

现在,随着中国的智能音箱的产品越来越多,叮咚音箱、小雅AI音箱、天猫精灵X1、小米AI音箱等——风口,好像起风了?

对此,笔者有以下一些思考,让我们一步一步来分析。

一、智能音箱是人工智能吗?

智能音箱的核心是语音技术,而语音技术涉及到大数据分析、深度神经网络等,本身属于人工智能技术的一种。所以说智能音箱是人工智能技术的产物并不为过。

但是,这也给了很多消费者误解,认为智能音箱就是人工智能。严谨地说,这个差别还是很大的。

如果大家有体验过任意一款智能音箱,可以发现它在语言的逻辑理解上存在着根本的缺陷。这是因为整个语音交互背后的自然语言理解,依然是传统的关键词人工匹配为主。

所以,智能音箱目前只是语音合成、语音识别等人工智能技术综合应用的产品,但本身不是人工智能。

二、它的市场容量

对于为什么智能音箱在欧美大卖,在中国却一直火不起来的原因分析有很多。

但作者提供这么一个角度——智能音箱的市场容量,本身是音箱市场容量的一个延伸。并且这个音箱市场,还得排除掉和电视匹配的家用客厅音箱。

为什么说智能音箱市场容量脱离不了音箱本身?

用户买智能音箱,可以大体分为2类。

  • 本身有购买音箱需求,买一个具备语音助手的音箱是个不错的选择
  • 本身对音箱需求不强烈,体验语音助手在购买决策中起到很大的作用。

对于第二类用户,数量其实是非常有限的。从用户画像上看,第二类用户对互联网关注度也高。可是目前智能音箱比较糟糕的用户体验和不完整的生态,还不能触碰到他们的G点。

所以智能音箱的绝大部分销量,离不开本身对购买音箱有需求的消费者。

这从国外的echo用户交互数据上也可看出,播放音乐依然是占比最大的用户行为,像问天气、闲聊反倒是低频次的行为,用户基本尝尝鲜,没了新鲜感,这类行为频率就降到很低了。

(echo用户使用习惯)

有趣的是,大部分中国人还是更喜欢佩戴耳机听音乐。它的原因包括了中国人内敛的性格、较小的房屋居住面积等。所以中国的智能音箱市场容量,是没办法和欧美相比的。

三、它是什么入口?

如果以电影《her》里的人工智能技术,语音助手可以是所有东西的“入口”。

但显然,今天我们要讨论的,是目前技术水平前提下,智能音箱究竟是什么的“入口”?

以目前发布的音箱分析,喜马拉雅FM的小雅AI音箱核心是音频内容、小米AI音箱的布局是物联网硬件生态、天猫精灵X1甚至在尝试把它用于购物平台入口。

大体可以发现,比较明显的入口是智能家居、音频内容,搜索、购物、服务、甚至社交等。

但作者认为,目前的值得关注的入口只有2个:智能家居和音频内容。在“百箱大战”中真正起到核心竞争力的,也只有这2个。

理由很简单,由于目前语音助手不像个“伴侣”,回答过于机械化,用户对它的沟通是不存在“耐心”这一说的。

所有产生的语音交互,必须简短、清楚。

而搜索、购物、服务、社交等功能,它们共同存在的问题是:

  • 语音回答的篇幅过长
  • 问题解决的步骤过多

这2个问题对用户体验是毁灭性的打击,没人可以让智能音箱的交互回答时间超过20秒钟。用户必然会通过手机、电脑替代。

所以短时间内,凡是出现这2个体验黑洞的入口,都不会有什么起色。

智能家居入口就避免了这2个问题,以目前的语音技术,可以对控制类交互做到非常好的体验效果,并且智能家居的交互反馈,是非常及时有效的。

音频内容入口方面,语音搜索具备不可或缺的优势,用户得到的音频,本身是结果,不是过程。所以也就避免了这2个问题。(这和前面所说的搜索入口有所不同,因为播放的音频是独立的,不属于语音交互范畴)

此时,可能有人会质疑,语音助手在询问时间、天气等服务上的表现很不错,并不存在这两个问题。

这里做个解释:

询问时间、天气这些是基础服务,是没有入口属性的,作者这里指的“服务”是具备入口属性的服务平台,比如:滴滴打车。

四、智能音箱需要屏幕吗?

这个问题其实是上一个问题带来的。

由于语音助手本身接受信息和反馈信息的能力是受限的。在目前的语音技术下,一旦智能音箱的布局超出了智能家居、音频内容2个入口,是必然要加屏幕的,否则用户体验上不去。

那为什么不加个屏幕呢?其实还是回到智能音箱本身,它有2个特点

  1. 体积小巧
  2. 不便携

这两个特点很有意思,因为只要把其中一个改成相反的,都可以成为加上屏幕很好的条件。但这2个特点在一起后,屏幕的效率就小得多了。

智能音箱最重要的功能特性是远场拾音,这能解放双手,让用户更加自由。但智能音箱加上屏幕之后,用户对它的操作距离一下又回到了手机的操作距离,那么用户为什么不直接用手机呢?

所以,作者是不赞同在智能音箱上加屏幕的。

那怎么解决目前受限的用户体验呢?或者我们可以换个方向,屏幕需要加,但屏幕的载体不再是音箱本身——这或许有更多的想象力。

五、音箱是语音助手最好的载体吗?

echo的出现,让大家发现,音箱似乎是人工智能时代被选中的天之子,甚至不少人做出这样的结论:音箱是人工智能时代最合适的载体。

当然,说人工智能太泛。我们往小点说:音箱是语音助手最好的载体吗?

语音助手的交互方式是对人来说最自然的语音,这也决定了声音在交互过程起到的比重前所未有的提升。

由于音箱和播放声音有着极其紧密的关系,自然成为所有设备中的首选,从目前的状态来看,这种选择也是正确的。

但实际上,以音箱作为载体,最大的问题在于它和“生命”无关。

我一直坚信,语音助手最好的载体是要有“活着”的感觉,这种感觉甚至可以用“跳动的线条”来展示。

比如,一颗会凋谢、会绽开的机械花都会比音箱更适合作为语音助手的载体。

目前作者认为这方面做得最好的是“若琪”的外星人。

(若琪·外星人)

所以选择音箱作为载体,是因为技术所限,是人类目前缺乏其他选择下的一个妥协。

 

作者:林学仕,科大讯飞 产品经理,欢迎交流。

本文由 @林学仕 原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自unsplash,基于CC0协议

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 赞同作者提出的语音助手的载体要有“活着”的感觉。和语音助手对话,给出的回复内容以及语气语调更接近和真实的人交流的感觉是最理想的状态,这也是一种“活着”的感觉,而这种感觉还可以从其他方面去体现,这个需要再去探索实现。

    来自浙江 回复
  2. 感觉智能音箱主要是作为入口去控制其他设备,就像一个桥梁,联通用户和其他设备,让之间的复杂操作变成简单的语音控制操作,达到解放双手的目的
    其“音箱”的功能感觉没怎么体现出来,音质一般般,真要听歌还需要连接一个优质音箱

    来自江苏 回复
  3. 如果屏幕是给交互反馈呢?而且目前语音交互有一个问题,当音箱要念的东西太多太长的时候,传送到屏幕快速浏览可能是以后的另一个需求。

    来自广东 回复
    1. 是的,文中有提到以现在的语音技术,加屏幕是必要的,否则用户体验上不去。但音箱不应该是屏幕的载体,因为它的核心是远场拾音,让用户去近距离去阅读它、点击它是一件本末倒置的事情。所以屏幕是脱离音箱存在的,就像你所说的,传送到屏幕,那这个屏幕的载体是什么,就值得想象了。

      这里顺便解释下文章第五点,因为 若琪·外星人 的图片会给读者误解,这不就是有屏幕吗?实际上,文中想表达的观点是,这个屏幕是告诉用户,这个产品是有“活着”的感觉的,仅此而已,而不是去输出文字或图片等内容。

      来自广东 回复
    2. 对,当那个屏幕不再只是电子元件屏幕,起码是家里任何能接受投影的地方,才比较满足到使用愿景啊

      来自广东 回复
    3. 极其赞同,承载交互反馈的屏幕不应该是固化在音箱上的一块屏,它可以是任何事物的屏,电视机的、投影仪的;或者是任何随着人的的移动对应空间内的显示~

      来自上海 回复