为什么手势会是下一个设计爆点?

8 评论 17153 浏览 49 收藏 12 分钟

语音交互存在其非常明显的局限性,譬如,当你对着空气大声喊着:“Hey,Siri”,特别这时身边还有其他人的时候,是否会觉得特别尴尬?不过别担心,手势交互将会解决这个问题!

译者篇首语:

从语音识别、语义理解等基础技术的日臻成熟,到各大厂商纷纷发布各自的智能语音产品和语音操作平台,语音交互正在成为主流交互方式之一。但是语音交互也存在私密性差、易干扰他人等局限性,因此语音交互需要与其他交互方式进行配合组成多模交互才能发挥最大效用。

而在众多其他交互方式中,手势交互符合人类自然心智模型,且已具备成熟的技术基础,无论是单独使用还是与其他交互方式组成多模交互,都能发挥良好作用,极有可能成为下一个设计引爆点。

本篇文章中,麻省理工学院媒体实验室讲师David Rose结合他在全球创新设计公司IDEO的项目经历,分享了手势设计思路与方法、对手势交互的洞察以及手势交互的优势。

本文基于他《Why Gesture is the Next Big Thing in Design》一文进行编译,在不改变作者原意的情况下,做了删减和编排。

导读:

  1. 手势交互会是下一个设计爆点?
  2. 如何设计手势交互模型?
  3. 手势的特点
  4. 手势交互的优势

自2010年Siri(译者注:苹果语音助手)问世以来,人们越来越热衷于语音交互界面。当我们需要调节室内温度时,我们会找Alexa(译者注:亚马逊公司的智能语音助手)。

当我们想播放电影时,我们会通过遥控器进行语音搜索。据报道,截至2017年底,美国家庭中已拥有大约3300万台语音智能设备。

但是,语音交互存在明显的局限性。语音交互很慢,当旁人在场时会使人难为情,而且必须使用令人尴尬的唤醒词,如“Okay,Google”或“Hey,Siri”。

不过值得庆幸的是,对着空气说话,不再是我们唯一或最好的选择。

一、手势交互会是下一个设计爆点

苹果公司的新款手机所采用的摄像头(译者注:此处应指iPhone X的3D摄像头“TrueDepth”),可以感知三维空间,能记录每个像素的深度信息;而诸如Nest IQ(译者注:谷歌子公司Nest推出的智能家用监控摄像头)、Amazon’s Echo Look(译者注:亚马逊推出的一款搭载Alexa语音助手的相机,可根据用户的指令来完成拍照等动作)这样的家庭设备,也配备有摄像头。

神经网络可以学习这些信息,并利用更多的训练集来提升学习效果。

结合神经网络,这些新型相机可以在场景中创建人物的点云(译者注:计算机视觉领域术语,指三维空间参考系下表示目标表面特性的海量点集合)或深度图(译者注:计算机视觉领域术语,指有深度信息的图片,可以表示出物体的到镜头的距离),描绘他们的运动姿势,以及运动形态。

经过训练,神经网络能识别特定的人,对他们的活动进行分类,并从远处对他们的手势进行回应。神经网络和摄像头技术的进步,共同为手势设计和基于手势的交互模型开辟了新纪元。

这些新的选择带来了一个问题:在现有的交互模式中,触觉(触摸),声音(语音)和视觉(手势),哪一种更好?它们各自更适用于哪些场景?为什么?

现有用例指向了一个答案。当你在潜水、滑水、活在航母甲板上指挥交通时,听觉通道不可用,手势或触摸操作就变得重要了起来。

在手术室内,外科医生的手是无菌的,所以她无法手动操作放射扫描仪,只能用语音和手势。如果你正在指挥管弦乐队或正在进行军事突袭,你无法喊出指令,因此,我们别无选择,必须使用手势。

在进行手势交流设计时,从查理卓别林到板球,有各种各样的资源可以启发我们:https://v.qq.com/x/page/a0812soz0nb.html

(译者注:视频中展示了各种各样的手势,按出现顺序依次为:公共空间(台阶上的行为艺术、公园中的情侣)中的手势,挥动旗帜的士兵、气象播报员、隔空手势控制计算机桌面、卓别林在狮笼中的动作、舞台剧表演中的手势、指挥家的手势、手语中的手势、猜字游戏中的手势、板球中手势、音符的手势表达、瑜伽中的手势、校园中见面问候的手势、日本茶道中的手势、演唱中的手势、日常聊天中的手势、街舞表演中演员及台下观众的手势、科幻电影中的手势、哈利波特电影中的魔法手势、小丑的手势、太极中的手势、Butoh舞(日本一种另类舞蹈)中的手势,其它舞台表演中的非手势形态,星际迷航电影中外星人的手势等。)

二、如何设计手势交互模型

为了进一步了解手势的用途,我们剑桥工作室的团队利用了一个类似iPhone X上搭载的摄像机,进行了一系列的实验,来探索什么情况下使用手势可能是最佳选择。

首先,设计师们两人一组,给每组一个想法,然后让他们通过四只手的姿势来表达这个想法。

IDEO设计师两人一组用手势表达想法

然后,两人相互讲故事。利用计算机视觉技术记录他们讲述的故事,并实时跟踪他们在讲述时手势,以研究什么时候我们会自然地通过手势来增强情感或者解释某个概念。

跟踪手势如何帮助讲述生活中的故事:https://v.qq.com/x/page/l0812xeo4oj.html

译者注:

视频中展示的两组研究及采集手势的示例:两人一组,其中一人向另一人讲述一个故事,同时采用计算机视觉技术去跟踪讲述人在说话过程中的手势(如视频中的白点)。两组讲述人分别讲了两个风格不同的故事,一个讲的是自己想成为超人的梦想,可以控制原子去创造各种东西;另一个讲的是自己小时候的一件趣事。)

让一组人演示同一个动作或指令,能看到不同人动作差异。这样做的目的是找到尽可能通用的手势:https://v.qq.com/x/page/u0812u0y5j7.html

最后,我们训练神经网络来识别一小部分手势,用这些手势来控制飞利浦HUE灯(译者注:飞利浦推出的智能照明灯,可以通过手机或平板电脑灯光调节)、Spotify网站(译者注:瑞典音乐平台,当前最受欢迎的流媒体音乐服务提供商之一),在办公室创建了一套支持手势交互的系统。

通过一组手势,我们训练办公室的的一些设备来响应我们的指令,调节灯光和音乐:https://v.qq.com/x/page/x08125qhfef.html

三、手势的特点

在尝试这些操作时,我们发现,手势必须具有一定顺序。就像在一个句子中,先名词后动词,手势必须顺序包含以下信息:施动主语以及动作。例如,对于“打开扬声器”这一指令,就需要用一只手表示施动主语,另一只手表示动作:用左手指向扬声器,然后抬高右手调大音量。

另一个令人意外的发现是,手势具有代际特征

当我们发出“调高音量”的指令后,只有少数几个人作出了扭动旋钮的动作,而大多数30岁以下的人则是举起一只手掌或者用手指做了一个捏合的手势。

四、手势交互的优势

分析研究结果后,我们将选择手势而非语音或触摸的原因归结为以下四点:

  1. 速度:如果需要快速响应,手势比说话更快。
  2. 距离:如果需要跨越房间进行交流,做手势比动嘴巴更容易。
  3. 表意简洁:如果你不是一次要说很多事情,手势就比较好用。表达一定含义用到的手势越简洁,它就越容易被记住。(例如,拇指向上/拇指向下)。
  4. 当强调表现力胜过准确性时:手势非常适合表达情感。乐队指挥所传达的信息,除了强拍和节奏,还有更多含义,如柔和,着重,自信、悲伤、渴望等等。

试想,一个新产品能够利用手势巧妙、具有表现力和快速的特点,该是一件多么令人兴奋的事情。

我们将如何以意想不到的方式来应用手势呢?我非常期待聆听你的想法。

作者介绍:

David Rose是一位屡获殊荣的企业家、作家,麻省理工学院媒体实验室讲师。他曾于2017年担任IDEO剑桥的家居未来学家。他的研究致力于使物理环境成为数字信息的接口。

他的第一本著作《Enchanted Object》聚焦物联网的未来,以及这些技术将如何影响我们的生活及工作方式。

– END –

作者:David Rose

编译:AIID非正式编译组

原文链接:https://www.ideo.com/blog/why-gesture-is-the-next-big-thing-in-design

版权声明:本文在不改变作者原意的情况下,做了删减和编排,版权属原作者所有。本文仅为翻译,不代表本院观点。

本文由 @AIID(百度) 翻译发布于人人都是产品经理。未经许可,禁止转载。

题图来自网络。

更多精彩内容,请关注人人都是产品经理微信公众号或下载App
评论
评论请登录
  1. 还是要结合场景,试想如果单纯是手势操控,就会遇到现在语音交互中为了顺利执行一个命令,多次重复说出指令,很尴尬。会想到手势交互是因为出现了语音交互尴尬的场景,比如在一家人团聚畅聊的晚上,想要开空调,是会突然中断大家的说话大喊一声“hi.siri”吗,自然这个时候手势交互会比较好,不会那么突兀,当然遥控器也会相对比语音交互有优势。所以真正的人工智能应该是多种交互方式并存,更贴近用户的行为。

    回复
  2. 难道你们没有见过罗老师的TNT和无限屏吗?

    来自美国 回复
  3. 大街上多了很多火影忍者

    来自北京 回复
    1. 666

      来自广东 回复
  4. 智能硬件的场景应该没问题,确实是个真实需求。特别是讲究礼貌的中国,很多场合语言交互是不太符合用户条件的。希望智能硬件在这方面越做越好

    来自山东 回复
  5. 很期待在智能家居行业手势交互的爆点。

    来自江苏 回复
  6. 我们现在的手机 不都是手势交互吗?

    回复
    1. 隔空你试试看呢

      来自上海 回复