跨越感官 – 产品的多模态交互（系列二）

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

跨越感官 – 产品的多模态交互（系列二）

小末就是小末

2024-10-24

0 评论 2769 浏览 4 收藏

27 分钟

在数字化时代，我们的交互体验正变得日益丰富和多元。这篇文章深入探讨了多模态交互如何跨越传统感官界限，创造出更加直观、情境化和动态的用户体验。

🌷 本篇知识点概括：

物理信息与多模态交互数据
感知、理解、决策和行动：人机交互因素
注意力机制在多模态交互中的应用
通过多模态创造产品的可用性
神经适应 – 感官的期望基线
创造充满喜悦与信任的多模态交互
镜像神经元

01 物理信息 – 多模态交互数据

我们使用物理信息来指导我们所有的体验。我们用皮肤监测空气温度，以决定是否需要毛衣。我们用空间接近程度来衡量当我们走向门把手时何时伸手去拿门把手。我们听到迎面而来的火车的声音，开始拖着脚步向站台边缘走去。研究表明，仅眼睛每秒就可以捕获 1000 万比特的信息，每一天的生活我们都在使用大量的物理信息。

这些类型的物理信息正在通过设备中越来越多的传感器进入交互设计。这些组件和技术经过加固、小型化和功耗优化，可在智能手机中使用，现在可以轻松过渡到新的环境和使用环境。研究公司 CBI 表示，从 2004 年到 2014 年，传感器的成本下降到平均每单位 0.60 美元。传感器成本下降是物联网技术的主要驱动力之一，以及建筑环境中互联网连接设备的激增的基础。这些传感器使我们能够收集以前无法访问的新数据。在特斯拉中，它们被用来帮助汽车自动泊车。烤箱使用这些数据来通知用户可以把面包放进烤箱了。烟雾探测器用来监测一氧化碳，这也是一种人类自己无法轻易检测到的气体。

物理信息的使用扩展了我们与设备可以进行的交互范围，以及可以自动化的功能范围。使用基于传感器的数据来塑造交互，与表单、点击和其他基于屏幕的用户行为相比是一个重大转变。交互可以更直接、更情境化、更动态。植根于物理的交互对用户来说会感觉更加亲密，并赋予更强的体现感和认同感。

不可避免的隐私问题：

传感器数据通常是连续的信息流，而不是一组单独的数据点。这可能需要更多的处理和分析才能提取含义，而提取的含义可能比用户讨价还价的要多。生物识别分析可以从某些类型的数据中提取一个人的身份，让用户面临网络犯罪和不道德或非法形式的偏见。合规的法律对用户的健康与身份信息就变得格外重要。数据的类型、使用方式、存储位置和时长，这些信息的管理方式将决定人们是否信任下一代设备以及制造这些设备的公司。我们需要讨论这些新技术的成本和收益，权衡利弊后做出取舍。对数据的使用与其是否存在数据泄漏方面需要严格制定标准。用户和公司在这些问题上共同做出的决定不仅会影响我们的体验，还会影响我们的权利，因此这些数据使用的决策透明至关重要。

02 感知、理解、决策和行动：人机交互因素

我们现在大部分清醒的时间都花在屏幕上。在过去的 30 年里，屏幕的使用不断上升，直到它完全主导了我们任何形式的互动。我们花在屏幕上的时间比花在其他人、户外、宠物或其他类型的工具上的时间都多，另一个能和面对「屏幕」相提并论时长的物体可能只有「枕头」了。

以用户为中心的设计帮助许多人创造了以屏幕为中心的生活。

新型模态交互技术的兴起有望扭转这一趋势，重新定义技术在我们生活中的角色。基于传感器的技术兴起，让信息和交互可以分布在多种设备功能以及任何物理对象、环境、活动或事件中。

交互输入可以是用户的物理位置信息，例如使用 GPS 或信标设备，而不仅仅是用户手动输入位置，而交互输出可能是文本通知，也可能是完全自动化的其他行为，如自动拖地。

而要创建此类智能交互，需要对用户行为有更全面更新的理解。

（再次亮出这组图）

设计多模态交互组合的一种简单方法，通过人类在物理世界交互过程中所做经历的过程：人类如何感知、理解、决定和行动。这些过程是所有多模态体验的核心构建块。我们可能不会在每个体验中使用所有模态，但它们之间是存在重叠和相互作用的。并且，它们也可能会形成响应循环。

感知：

感知不仅仅是我们如何感知物理信息，还在于我们感知后如何组织和解释它。感知的一个例子是听觉：它在人声的范围内特别衰减，这并不奇怪。我们耳朵的面貌（鼓膜、中耳的锤骨、砧骨和镫骨）经过物理优化，可以传输这些声音频率。

就像文本易读性的标准被明确定义一样，其他类型的物理信息的交互标准也将开始变得更加明确。例如语音技术的出现就引入了新的指标，语音交互中的话数和置信度（正确识别单词的可能性）。触觉交互可以通过压力或力、振动速度和强度来测量。新模态的交互也需要定义可用性指标。用于衡量图标可用性的测试，也可以被用于触觉振动，这些指标能够衡量一个人对振动模式的记忆能力或区分两种不同模式的能力。

产品团队需要熟悉人体测量学，例如人类的视野、听觉的范围以及我们的触觉可检测到的力的大小。

理解和决策：

认知描述了人类如何理解和获得知识的过程。一个例子是，我们阅读能力的速度和准确性在道路标志的设计中起着决定性的作用。在高速公路上，由于我们超过标志的速度太快，我们阅读标志的能力会迅速下降，因此必须限制单词的数量。我们识别出口和关闭的能力也受到影响。为了适应这种情况，可能需要在出口前整整半英里处放置出口标志，以便我们有时间处理信息、做出决定和执行信息。这些响应时间不仅仅是良好的设计实践，他们也是一种法律规定。

执行认知是其中的一部分，这就是我们如何利用理解来控制我们的行为。心理学中有许多不同的决策模型，可能没有一个是正确的。举个轻松的例子，当涉及到甜点时，有很多种决定。你可以决定吃巧克力布丁而不是柠檬蛋糕，这就是是偏好。你甚至可以决定你根本不应该吃蛋糕，这就是抑制。您可以立即决定需要蛋糕，然后开始烘烤蛋糕，这需要程序能力。还有不同级别的决策，例如买蛋糕与开面包店，分别需要不同程度的信息、分析和行动流程。

行动：

我们的主要行动是身体运动和言语。身体运动涵盖基本技能，如在扫描图像时抓取物体和移动眼睛，以及更复杂的活动，如滑翔伞、切菜或弹电吉他。行动不仅包括活动本身，还包括我们如何获得这些身体技能。随着时间的推移重复一项体育活动可以提高我们执行它的能力。重复也可以使它成为我们行为中更持久和自动的一部分：像咬指甲这样根深蒂固的习惯，或者像网球挥杆这样的专业技能。这与增强、辅助和自动化技术尤其相关，了解来龙去脉对人类安全至关重要。一个例子是我们自动移动眼睛以聚焦它们的方式，这种反射称为焦点调节。因为我们无法控制这种反射，所以它会干扰 VR 和 AR 头饰的使用，导致头晕和恶心，也就是VR领域常说的「眩晕」。

人类很容易同时处理多项任务，比如可以同时观看多个电视节目；关键是平衡参与度与认知极限。

03 注意力与焦点

交通事故死亡人数的上升被广泛归因于分心驾驶——比如在开车时使用智能手机。虽然在驾驶中使用智能导航从根本上改变了驾驶体验，但使用其他智能功能也使开车行为更加危险。必须优先考虑并提前预防这些危险，人的焦点能力必须放在第一位。添加新的交互操作或改变用户习惯的交互都可能会导致用户错误操作或完全分心。参与度并不总是越高越好。

焦点在交互设计中越来越突出。它是以可控但舒适的方式确定优先级、组织和分配注意力的能力。减少分心是其中的一部分，但支持我们的注意力自然运作方式是另一部分。注意力设计还需要考虑活动的持续时间、疲劳和其他因素。

心流（Flow）是心理学家 Mihaly Csikszentmihalyi 首次描述的一种心理状态。作家 Dana Chisnell 将其描述为“专注状态”，是一种放松又专注的状态。外面的世界不复存在，时间也消失了。意识得到提高，感官充满活力，提高生产力和创造力。在身体活动中（几乎是所有活动中）心流是理想的表现状态。感知、认知和行动融合成无缝、轻松的多模态体验。

这些心流状态是在我们开发“调整意识以控制感觉和思想的方法”时出现的。心流对于完成许多不同类型的日常活动是必要的。想象一下向狗扔球。你很容易做到。现在试着想象一下用数学方式计算距离、力和轨迹，同时考虑球和你自己的手臂的重量。所有这些复杂的计算都已经在投掷动作中了。你本来就知道，你会下意识地去做。我们需要处于心流状态才能成功完成多种活动。心流从无意识的感知、认知和行为中产生控制。与直觉相反的是，当我们不完全的对我们正在做某些事情产生意识时，我们其实可以做得更好。

🌟 在多模态体验中实现专注就是在正确的时间创建正确的多模态组合：

过滤干扰、优先考虑和组织「意识的参与」、允许心流——无意识的参与，甚至允许无注意力参与。不同类型的多模态体验具有不同的关注程度的影响。例如，在嘈杂的环境中阅读会很困难，尤其是环境音中有大量口语的情况下，当我们的眼睛和耳朵都试图使用我们大脑的语言处理部分时，它会导致交叉信号。另一方面，有些人会随着音乐敲击脚步，感受节奏——这本身就是一种特殊的模态识别。他们甚至可能没有意识到自己正在这样做，但这却增强了他们当下的体验。有些模态相辅相成，有些则互相冲突，取决于包括人、环境和互动方式等各方面因素。

04 多模态设计使更广的人类和产品行为成为可能

我们拥有各种系统和跨模态的能力来处理我们收集的感官信息。例如，我们感受节奏的能力其实跨越了音频和触觉模式。部分感官感受是反射性的，或者与生理本能有关。如，响亮的声音或强光会引发惊吓反应，我们的注意力可能会从正在专注的事情上跳到其他突然发生的事情。

梅赛德斯-奔驰在其一项名为 PRE-SAFE Sound 的新安全功能中利用了这一点，根据 Wired报道：当检测到碰撞时，汽车会发出大约 85 分贝的静电声。这足以触发声反射，收缩中耳的镫骨肌以阻挡声音，保护敏感的鼓膜和内耳的其他部分。这种声音的声音不足以导致听力损失，但它可以保护耳朵免受安全气囊展开的影响，安全气囊会发出 150-170 分贝范围内的压力波，从而损害听力。人类具备无限的将他们的感官能力、分析和决策过程以及身体技能结合起来的能力。

多模态如何影响设计？–创造可用性

所有的交互都依赖于人类多模态的感知方面，尽管有时以意想不到甚至违反直觉的方式。比如，我们已经习惯了口袋里手机大部分是无声的、大部分是矩形的存在，除非我们坐在它上面否则我们根本不会时刻注意到它的重量或大小。寻找手机的时候，我们必须翻找我们所有的口袋才能找到它，但其实理论上讲我们的皮肤神经可以时刻感觉到它在口袋里。

神经适应

有时候我们会短暂忘记自己坐在椅子上的感觉，从而专注于眼前的饭菜。我们的眼睛可以适应黑暗，我们的味觉可以适应有点太咸的汤，或者我们的皮肤可以适应冰冷游泳池的温度。经过长时间的适应和重复，我们可以在嘈杂的城市公寓中轻松入睡，或者压力较小的在黑暗中在蜿蜒的道路上驾驶。这种现象被称为神经适应，使我们能够过滤掉重复的感觉刺激物。这也使我们能够将注意力集中在新信息上，以便快速将这些信息与我们现有的体验期望进行比较。

神经适应正是「通知」和「警报」等交互起作用的原因。一旦我们习惯了某个噪音水平或笔记本电脑屏幕的视觉状态，我们就会设定一个称为阈值的感官的期望基线，并将注意力集中在其中。突然的振动或声音偏离了该基线，我们会自动重新集中注意力。我们注意到那个声音并想办法做出回应。我们的静态屏幕上有不同颜色的闪烁和动画就会让我们去阅读警报信息。虽然参与度是用户体验中最重要的部分之一，但部分交互设计其实是希望我们的感官脱离原先的感知场景。

反之亦然，减少或消除预期的刺激也可以转移我们的注意力。例如当我们进入一个会议室，所有的谈话都突然停止时，会令人不安。当一个按钮突然不响应的时候，用户会试图重新寻找另一个有效的按钮。屏幕暗了让我们知道我们的笔记本电脑即将进入睡眠状态。人们会自动寻找并注意到这些变化，称为阈值事件。它们锚定了我们的体验并形成了它们之间的边界和过渡。

iPhone 和 MacBook 使用几种不同的方式来中断我们的阈值或基线感官体验来发送通知。

矛盾的是，神经适应也会导致交互设计的失败。随着时间的推移，我们会习惯某些类型的交互刺激，开始忽略它们——尤其是当它们被过度使用或没有直接相关性时。自 1993 年以来，基于浏览器的广告通常位于顶部附近的横幅中。结果，人们患上了横幅盲症，他们完全不再在页面上看横幅广告了。显然他们能看到横幅的形状和位置，但是却可以在不阅读的情况下将其过滤掉。正因为如此，互联网广告格式是我们的大脑过滤噪音的能力与广告商重新获得我们注意力的努力之间的无休止的竞赛。

神经适应是多模态的众多属性之一，可以在创造有效的用户体验方面发挥强大的作用。它是多任务处理、“专家”行为和平静交互的重要组成部分，它也是支持大多数辅助功能的设计策略。

创造喜悦、信任和爱

多模态的感知质量和体验愉悦密不可分。当我们关上一扇由实心硬木制成的门时，它的重量、缓慢的摆动和螺栓捕捉的精确咔嗒声确实令人满意。我们可以通过它的移动方式和发出的声音来判断它比空心刨花板门更坚固。

实心硬木门给人稳重的质感

无论是令人陶醉的香水、深情的歌曲、壮丽的景色，还是帆船在平静的海面上缓缓摇曳，体验的大部分乐趣都是感官上的。描述跨感官的愉快体验是很诗意的：天鹅绒般的蛋糕，美味满足的笑容，像白日梦者的叹息一样温柔的爱抚。这些看似诗意的描述其实是有科学依据的。无论是直接在体验中还是触发某个记忆，口感宜人的食物，让我们想起春天穿越树林的气味。温暖、毛茸茸、蠕动的可爱小狗，也能激发我们的感官感受。我们记住它们的时间也更长，回忆起来更清晰、更容易，并且更有可能渴望并在以后重复这种体验。感受联想（通感）也是我们与他人、品牌和我们使用的产品建立信任和亲密纽带的方式，物理上的接近和接触都是信任的标志，更频繁的接近和接触会增加这种信任。

小猴子更喜欢柔软的、布覆盖的代孕母亲，而不是那些只有铁丝和木头的代孕母亲，即使柔软的母亲不提供食物。

2014 年在英国进行的一项研究探讨了人们与移动设备之间深厚的情感依恋和纽带。当手机无法正常工作、损坏或丢失时，参与者表现出极度的痛苦和焦虑，他们对自己的设备表现出强烈的保护欲。“手机被认为是自我的延伸”，人们强烈希望通过触摸或视觉“检查”来确保手机的存在。研究人员发现，与手机的物理接触以及与手机的持续身体和视觉接触增加了主人对手机的情感纽带以及他们自己的安全感和控制感——设备就在那里，并在需要时准备就绪。

05 多模态设计是跨学科的

随着交互技术的进步，催生了各类新的交互载体——时尚技术、可穿戴设备、无人驾驶汽车、互联家居和智慧城市——将跨交互和现有物理设计学科的多模态体验融合在一起变得越来越重要。

我们已经与生活中被设计的物品建立了触觉关系。挖掘人们习惯的物理世界的交互，把它整合到产品中可以产生新的令人意想不到的愉快体验。劳力士经典的蚝式恒动手表，人们可以摇晃手腕来让手表转动，为手表增添一些额外的互动乐趣。

Pebble 智能手表中，摇晃手可以激活背光功能，这也为旧的使用习惯带来了新的意义

我们的大脑中有自动的认知过程来阅读面部表情和肢体语言，我们会注意到人们如何站立，他们说话时如何移动。在非语言交流中阅读情感线索，能够读懂彼此的情感线索是我们这个社会性动物的一项重要的生存技能。我们还将这些人类情感读入无生命的物体中，这种现象被称为拟人化。

汽车的姿态增添了个性并促进了和人类的情感连接

镜像神经元

这也是为什么 MacBook 上睡眠灯的增亮和调暗如此令人回味的原因，它与睡眠者呼吸的起伏节奏相匹配。用户可以迅速识别电脑的睡眠模式，知道计算机没有关机，再次翻开屏幕它就能立马 “醒来”。

为什么即使是输入错误的警告，如被拒绝的密码的摇晃动作也很可爱？因为它看起来有点像一个婴儿拒绝一口它不喜欢的食物。这些产品行为的设计充分利用了我们已经知道的微妙的肢体语言线索，让我们更快的理解并适应与当前产品的互动。

在认知神经科学中，镜像神经元被理解为当我们行动或感受到情绪时，以及当我们观察到其他人执行相同的行为或感受相同的情绪时，镜像神经元都会被激活。我们甚至可能有相同的肌肉绷紧。产品中的这些情感行为可能会引起相同的镜像，从而引发对我们产品的同理心。您会无意识地感觉到计算机需要睡眠、充电并让其处理器冷却。这实际上对设备有好处，不仅仅是理性地理解它，你还会感受并共情它。你会感觉到错误的密码对你的计算机来说很糟糕，因此你下次会尝试更仔细地输入密码。你对设备的运行状况负责，并更仔细地对待它。我们的设备需要我们的照顾，就像我们需要它们为我们服务一样。将其当作一种情感需求来设计——而不仅仅是用户手册中的一套实用说明，也会极大地优化用户与设备之间的自然交互体验。

感官是我们体验世界的唯一方式，了解它们的工作原理是设计更舒适自然的交互体验的关键，也拓展人类感官感受边界的途径。

作者：小末，公众号：Moer Talk

本文由 @小末is小末原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务

更多精彩内容，请关注人人都是产品经理微信公众号或下载App