跨越感官 – 产品的多模态交互（系列一）

2024-10-23

0 评论 1541 浏览 9 收藏

在当今的数字时代，我们越来越多地与技术互动，而这些互动往往是通过多种感官进行的。本文将带你走进多模态交互的世界，探索如何通过结合人类的感官能力与设备的技术能力，设计出更自然、更直观的交互界面。

人类是多感官生物，人类的交互也是多感官的，交互界面也应该是多模态的。

针对多模态交互好的书籍不多，想起当年刚工作的时候读过一本书叫《DesigningAcrossing Senses》，在这本书里读到很多有趣的案例和观点，最近又重新拿出来翻看，同时也想把多模态产品设计写成一系列文章，结合平时工作里的一些感悟一起沉淀一下，赋能认知，构建知识护城河（）

这世界就是一个巨大的「多模态」

几乎所有的产品和环境都是多模态的。我们看到一扇门，去敲，再等待门打开或听到里面有人问是谁。我们用手指在键盘上打字，看到字符出现在我们眼前的屏幕上。我们向 Siri 提问，然后看到类似示波器的波形。我们接到一个电话，感觉到振动，听到铃声，通过屏幕上的显示知道来电人的名字。我们玩电子游戏的时候，沉浸在来自屏幕、扬声器和手中隆隆声冲击控制器的感官信息中。

多模态产品将不同的模态紧密地融合在一起，它们使我们能够像体验日常生活一样体验技术：跨越我们的感官。

好的多模态设计有助于我们专注于我们正在做的事情，而糟糕的多模态设计会因笨拙或脱节的交互和不相关的信息而分散我们的注意力，轻则令人恼火，重则让人陷入危险。

而设计多模态交互，与了解人类的感官是如何运作的分不开。

回归我们的感官

我们的感官是通往富有的，多样的，让人愉悦的，有意义生命体的通道。

视觉起源于数亿年前寒武纪大爆发期间，作为单细胞生物体上基于蛋白质的光感受器斑块，自罗马时代以来，追踪犬就开始使用。警犬已经存在了一百多年。人类大约有 500 万个气味腺，而狗有 1.25 亿到 3 亿个。他们的嗅觉比我们好 100,000 倍。

在过去十余年内开发的技术可以扩展我们的自然感知能力，使我们能够看到亚原子粒子，听到整个城市的声音，监视一个大陆，并观察我们宇宙最遥远的地方。它让我们以前所未有的方式使用我们的感官，但当然也取决于我们最初如何自然地使用它们。

了解我们的感官是如何进化的，以及我们现在如何使用它们，将有助于我们设计未来使用它们的新方法。

一款产品无到有，产品经理需要做些什么？

在一个产品从无到有的过程中，要做好产品经理这个角色实在是不容易，除了大家都知道的写需求、写需求、写需求，要做的事多着呢。产品经理不是你眼中的只会找你麻烦，提要求..

查看详情 >

想想你的感官一整天的工作方式。阳光可以唤醒你。烹饪的气味可以提醒您有多饿。雨声可能会令人高兴或失望。

我们的感官收集我们周围的物理信息。这些信息无法通过 Google 搜索，但我们会一直在使用它。我们可以通过从窗帘渗入的光线来判断现在是早晨。我们可以通过厨房里散发出的香气来判断晚餐吃什么。当我们听到雨声时，我们会抓起雨伞。当我们听到一个笑话时，我们会笑。

在技术的帮助下，我们可以看出有人刚刚来到我们的前门，我们的电子邮件刚刚发送，或者我们面前的卡车即将倒车。

David Eagleman 是一位认知神经科学家，研究人类经验和心灵如何相互塑造。他写道：被封印在你头骨黑暗、寂静的房间里，你的大脑从未直接体验过外部世界，也永远不会。相反，来自那里的信息只有一种方式进入大脑。您的感觉器官 — 眼睛、耳朵、鼻子、嘴巴和皮肤 — 充当翻译。它们检测各种各样的信息源（包括光子、空气压缩波、分子浓度、压力、质地、温度），并将它们转化为大脑的通用货币：电化学信号。

我们所知道、所做的和所说的一切都是通过我们的感官发生的——包括我们积累的信息以及我们一整天如何根据这些信息采取行动。

人类的体验是基于物理世界的

我们的感官始终开启，通过我们的神经系统向我们的大脑发送源源不断的信息流。但很多时候，我们根本没有意识到我们的感官。

花点时间感受一下您的脚。当他们穿着鞋子时，我们几乎不会注意到他们。而当我们脱下鞋子赤脚走在草地上时，美妙的感觉可以完全占据上风。

根据当下场景的不同，人类具备从一个感官迅速切换到另一个感官的能力。当我们听到突然的巨响时，我们会转身看。当一条黏糊糊的鱼在水下碰到我们的脚时，我们会不寒而栗。有时我们会有意识地选择我们的注意力在哪里，有时我们的反应会接管。

人类的体验是基于多模态的

仅仅感知我们周围的世界是不够的。我们需要从这些信息中提取意义，并使用它来做出决策和采取行动。

我们感知到的信息类型、我们解释该信息的方式以及可以基于这些信息的决策和行动类型都是相互关联的。在我们的一生中，我们会发展出专属于自己的不同感觉通道的模式，这些被称为模态。它们也被称为感觉运动模式。这些模态通常由它们的焦点感来描述，例如视觉、听觉或触觉。视觉依赖于我们的眼睛，听觉依赖于我们的耳朵，触觉依赖于我们的触觉和运动感。将这些感官一起使用称为多模态。模态塑造了我们使用感官信息来告知我们的行为的方式。

感知 >>> 理解&作出决策 >> 采取行动

我们大多数时候都是多模态同时运作的，很少有人类行为是单一模态的。例如，走在街上结合了我们的平衡感、视觉、触觉和运动。进行对话结合了听觉和视觉、我们创造语言的能力，如果您倾向于用手说话，也许还可以结合动作和触觉。

多模态互动组合使我们的日常互动成为可能。在红绿灯处，我们学会了在看到绿灯时踩下油门。黄灯让我们考虑是否踩刹车。我们听到水壶的汽笛声，关掉了燃气。我们看到路径对面有一根树枝，我们决定是跳过它还是绕过它。我们听到手机铃声，掏出手机看看是谁在打电话。我们的感官支持广泛的行为，使我们对世界、彼此和各种设备具有适应性和响应能力。我们使用每种多模态组合的次数越多，它们就会变得越强大，从而形成我们一生中使用的核心行为、习惯和技能。

通过阅读、写作和唱歌学习字母表，多模态教学已应用于教育，让孩子们具有更强的视觉、听觉或触觉以及其他感官结合的能力，各种媒介的教材都在往多模态方向不断进化。

设备的多模态能力

在很长一段时间里，个人计算机的发展似乎都很稳定：从键盘和鼠标，到功能手机，再到智能手机。然后，它似乎突然加快了步伐：平板电脑、Siri、任天堂 Wii、XBox Kinect、谷歌眼镜、Nest 恒温器、可穿戴设备、无人驾驶汽车、Oculus Rift、亚马逊 Echo 和 Google Home再到现在的AI自然语言交互。

为了让人们能够更自然的互动，设备的交互方式一直在探索更多模态的融合。

设备多模态交互的构建与人类多模态感知是一种映射关系。

同一种互动场景可以有许多不同的交互方式，或者多模态同时交互来完成一个互动。当计算变得多模态（鼠标 / 键盘 / GUI / VUI）的那一刻，它才真正开始为每个人所用。

比如，拨打电话，您可以使用按钮自行拨打电话（左）或让 Siri 为您拨号（右）

‍人类的多模态感知 + 设备的多模态能力 = 自然的交互界面

交互技术现在可以嵌入到任何对象或环境中，无缝融入我们更广泛的物理世界体验中。甚至可以直接融入我们的身体。屏幕、锁、汽车、眼镜和许多其他物体现在可以作为交互设备，所有交互设备都在往互联和数字化发展。

我们与这些设备进行的交互范围已经远远超出了屏幕点击、滑动等。靠近装有智能锁的门可以解锁它，而走开可以再次锁上它。许多健身设备可以区分步行、跑步和骑自行车，从而触发它们开始跟踪活动。（但不幸的是，我们仍然需要自己进行锻炼，减肥这事儿害得自己来（）。

August 智能锁，可以在检测到主人靠近时自动开锁

单一模态的感官也具备不同层面的信息含义

VUI （语音交互界面）就是一个例子。韵律和节奏是包含在我们的日常口语表达中的。对话中的语调、语气、重音和节奏都表达了超越语言的意义和情感。语调和重音的变化可能表明讽刺，还可以将陈述语气更改为疑问语气。韵律对于设计语音界面也很重要，尤其是对所有声音设计。游戏设计师在游戏设计中会使用韵律，比如加快背景音乐的速度，让玩家知道他们的时间不多了。胜利的音乐往往是音调上升的，而挫折则以下降的音调为标志。