快速合意性测试：用户情绪测量的方法与案例

搜索

APP

起点课堂会员权益

职业体系课特权

线下行业大会特权

个人IP打造特权

30+门专项技能课

1300+专题课程

12场职场软技能直播

12场求职辅导直播

12场专业技能直播

会员专属社群

荣耀标识

发布

快速合意性测试：用户情绪测量的方法与案例

cyan_zheng

2017-07-20

0 评论 9093 浏览 24 收藏

25 分钟

快速合意性测试的主要目的在于让用户真切的表达，以便设计团队更全面真实的了解用户的情绪反应。

译者心得：做用户研究时，行为、态度往往最容易测量，而测量情绪反应很难——我们的很多研究方法都依赖于用户的自我报告，但是人们往往对自己的情绪反应缺乏清晰的认知。尤其是对于视觉设计，如果我们想知道某种视觉风格究竟唤起了用户怎样的认知和情绪，直接询问用户很难得到可靠的结果。

本文提供了一种来自微软的简单而有效的方法，能够帮助用户去探索和表达，也帮助团队全方位地了解某个设计方案唤起的情绪反应。

以下是原文：

在我们公司所遵循的设计流程中，一旦我们对一个特定的设计定义了概念方向和内容策略，并通过用户研究和迭代式可用性测试提炼出设计方向后，我们就开始进行视觉设计。一般来说，我们会选择一个已经确定了结构和功能的关键页面——比如，主页或者后台管理页面（dashboard page）的一种布局——然后探索三种视觉设计方案。这三种备选方案包括了相同的内容，但是反映了对配色和图象的不同选择。

这是为了向企业所有者和关键决策者展示不同的视觉设计方案以供选择。有时候关键决策人会有一个清晰的偏好，或者从品牌的角度可以选出最合适的方案。但是，项目团队成员常常会对应该选择哪个设计方向有不同意见。如果我们做得够好，每个不同的设计方案中会有关于设计决策的原理阐述，但是即使如此，团队成员也可能会对哪种原理阐述最合适产生分歧。

作为以用户为中心的设计的实践者，我们很自然地希望通过用户研究来帮助指导选择视觉设计的过程。但是传统的可用性测试和相关的方法看起来并不非常适合评估视觉设计，理由有二：

当我们寻求用户对视觉设计选项的反馈时，关键决策人一般会寻求较大样本——比典型的定性可用性研究更大。
我们寻求的用户反馈更加情感化——也就是说，更少关注用户完成任务的能力，而更多地关注他们对一个给定设计的情感反应。

考虑到这些，我开始对Christian Rohrer最近在他的博客上提到的合意性测试感到着迷。在其中一篇文章中，Christian认为合意性测试是允许你评估用户对美学和视觉吸引力的态度的一种定性与定量结合的方法。受到他对这种方法的观点的启发，我们深入研究了合意性测试并在我们的一个项目上尝试了这个方法的调整版本。

这篇文章回顾了经过我们仔细考虑的合意性测试的变体，以及我们在自己的项目上执行合意性测试来评估我们的视觉设计的过程中学到的东西。

为什么合意性很重要？

从可用性的角度，视觉设计的重要作用是以我们期望的方式带领用户体验设计的不同层次。通过元素的数值对比、颜色、尺寸和布局，可以帮助支持产品底层的信息架构和交互设计。

在设计过程的早期阶段，我们关注于设计的这些功能层面，并且通过研究确保整体的解决方案能够提供一个令用户感兴趣的价值主张。我们也致力于优化可用性并且让用户能够很容易地意识到这个方案的好处并且最终完成他们的目标。

有价值的功能，直觉化的信息架构以及交互设计自然会影响产品整体的合意性。但是，功能和易性跟情感和易性不同，后者源于美学、外观和感觉。视觉元素可以支持一个交互设计方案，但是它们也能够激发用户特定的情感反应。理解和利用这些情感反应可以帮助设计师适当地影响用户。

有趣的是，Lindegaard及其同伴发现一个设计可以非常快速地引发情感反应。在他们的研究报告中，他们列出了自己做的一系列关于人们从一个视觉设计中形成观点需要多长时间的实验。正如你从题目中可以猜到的，他们发现设计可以非常快速地激发情感反应——大约相当于读一个单词所需要的时间。

这非常重要，因为这种情感反应的光晕效应会导致，用户对设计的第一印象会影响用户对产品的实用性、可用性和可信度的认知。一般来说，用户更多地是通过对产品的视觉美学和图象的情感反应而不是特定功能的交互来形成对产品的第一印象。研究者将这个效应判定为积极或者消极。

比如，如果一个用户对产品的视觉设计有一个积极的第一印象，他们会更倾向于忽视或者原谅产品不良的可用性和有限的功能。如果对产品有一个消极的第一印象，用户更可能在交互中找到错误，即使产品的整体可用性很好并且产品提供了实际的价值。

这对于很多领域来说都有特殊的意义。比如，在一个电商环境中，用户觉得一个网站有多值得信任，会影响用户的购买决策或者用户与网站交互的意愿。对交互式应用来说，对组织的感觉会影响用户感知到的可用性并最终影响到用户对产品的整体满意度。

那为什么不直接问用户他们喜欢哪个设计？

正如前面所说的，在我所在的公司的设计流程中，我们尝试着通过用户反馈和可用性测试迭代式地提高我们的概念方向和交互设计。

通常来说，在测试过程中，我们要求用户think-aloud并且询问用户解释他们更喜欢哪种设计以及理由。对于视觉设计方案，我们会在可用性测试环节结束后向用户展示视觉设计方案并询问他们更喜欢哪个。这听起来足够直接，并且，我们发现这通常就是关键决策人对收集用户反馈的想法。

这个简单方法的问题在于用户对自己的喜好的解释不一定会跟设计的商业或者品牌目标相关。比如说，当我以前问这个问题的时候，我会听到用户说他们喜欢一个设计是因为这是他们最喜欢的颜色。他们的描述可能是可信的，但是这些类型的反应并不能帮助研究者去评估设计带来的情感反应或者它与我们期望的品牌属性的符合程度。

另外，有一些用户会很难清晰地表达出自己为什么喜欢或者不喜欢一个设计。在一次访谈中，用户可能可以选择一个更喜欢的设计，但是如果没有一个结构化的反馈机制，当需要他们描述为什么他们喜欢或者不喜欢时，用户可能就会遇到困难。

我们也发现了，当我们在一个定性研究比如可用性测试中询问用户对设计的偏好时，小样本并不符合关键决策人对验证一个设计的期待。尤其是公开的网站或者应用，视觉设计是对公司品牌的最重要的描绘之一，关键决策人和赞助商通常想要大量的用户反馈以确保设计方向是正确的。

一些潜在的研究方法

除了简单地询问用户对特定设计的偏好之外，我们发现几种其他的结构化研究方法可以帮助进行设计选择，包括：

三角比较法（triading）
体验问卷（experience questionnaires）
快速曝光记忆测试（experience questionnaires）
生理指标测量（measurement of physiological indicators）

三角比较法

在这个问题上，三角比较法提供了一种解决方案，因为它是对不同方案进行对比的结构化的方法。三角比较法的思路是，以不受研究者影响的方式，引出研究参与者和目标用户可能会用来比较不同方案的一些特性。

给定三个设计选项，研究员会要求用户选择两个自认为与第三个不同的设计，并且描述为什么不同。这个过程帮助研究者理解目标用户比较不同的设计时什么维度是重要的。这个方法可以用于从交互设计的视角，评估竞争性的风景画和不同的概念选项。但是，这个方法很难用于大样本研究，并且很难向想要知道怎么做出最佳设计选择的关键决策人展示出图表化的结果。

体验问卷

另一种可能的方法是通过综合的体验问卷来评估设计方案。像SUS、QUIS和WAMMI这些广泛的、基于体验的问卷，会包含有关视觉吸引力和美学的问题。在可用性专家协会（Usability Professionals’ Association）2014年的报告中，Tom Tullis 和Jacqueline Stetson写了一个比较这些问卷的有效性的研究。他们发现，所有这些问卷都能够可信地评估不同网站之间的差别，只是程度不同。

问卷具有的比较不同设计方案在用户认知中的差异的能力令人感兴趣。这些问卷相对来说比较直接并且容易在大规模样本中实施。但是很多问卷也包含了大量关于交互的问题并且要求参与者与产品已经有了一定水平的交互。如果要对静态的视觉方案进行快速对比，这些问题就不太合适了。另外，我们不止想要在这些设计中找到胜出者，我们也想知道每一个方案激发了怎样的情感反应，我们才能继续优化好的设计。这些问卷的结果并不能满足这个要求。

快速曝光记忆测试

我们看到的第三种方法是快速曝光记忆测试。在这个方法中，研究者向参与者在很短时间内展示一个用户界面，然后就将其拿开。然后，他们要求参与者从刚才简短的曝光中回忆出他们能记得的关于用户界面的信息。参与者与产品之间的交互有限，所以理论上，他们能够让你窥探到他们的第一印象——有什么东西还保留在他们的记忆里。在可用性测试中，我们曾经尝试过用这种方法激发对主页和其他开始页面的讨论，这个方法对于评估布局考量和信息设计很有帮助。

有一个叫做fivesecondtest的在线服务，可以帮助你在相对短的时间内收集反馈，并且有还不错的样本量——也就是50个参与者。我们不选择这个服务作为我们的视觉设计对比研究的首选方法，因为我们认为这个方法太过于关注人们对特定项目的记忆，而不是情感反馈，但是如果只有少量的预算和精力，这个方法在某些情况下会是有用的。

生理指标测量

最后，在寻找合意性测试的潜在方法的过程中，我们评估了关于能够用来评估情感反应的生理指标的大量知识。在一篇文章评估网页设计的多种方法中，Westerman和其他作者总结了一些可用方法：

脑电图 (EEG)测量了大脑部分区域的活动，这些区域可以与特定的情绪反应联系起来。
肌电图(EMG)测量了与兴奋水平相关的肌肉反应。
皮肤电活动 (EDA)测量了汗腺的活动，汗腺活动据说与唤起和兴奋水平有关。
血液容量和血压(BVP)测量了血管的扩张，这跟唤起程度有关。
瞳孔扩张与唤起水平和心理工作负荷相关。
呼吸作用测量可以指示负化合价或者唤起水平。

与眼动追踪类似，在这些研究中，当研究者向参与者展示设计方案的时候，多种感应器会追踪这些生理指标。一种或者多种指标的改变反映了某种特定情绪反应。研究者通常将这些测量和自我报告的态度问卷结合起来，以对参与者对设计的情感反应获得多角度的了解。这种对情绪反应进行定量测量的生理学方法非常好。但是，因为我们很多项目的时间和预算限制，我们寻找的是能够在实验室之外甚至在互联网上使用的方法，这样才能获得大样本的反馈。

我们选择的评估视觉设计合意性的方法

对所有我们考虑过的方法，最适合我们的目标的是微软的Joey Benedek和Trish Miner在他们的文章测量合意性：在可用性实验室环境中评估合意性的新方法中描述的方法。

与一个多学科团队一起合作，Benedek和Miner发展出了一套研究参与者可以用来描述他们对一个用户界面的情感反应的形容词。他们把所有形容词（如下图）放在可以与参与者交互的产品反应卡中。但是重要的部分是他们开发了一组术语，作为用户界面的潜在的描述词并且对于他们的研究来说可能较突出。这些形容词代表了人们可能觉得积极或者消极的描述的组合。他们会向参与者展示一个用户界面，然后要求他们从这个列表中选择3-5个自认为最能描述这个界面的词语。

通过分析参与者的结果数据，研究者可以将特定的形容词和每个视觉设计方案结合起来，并且评估哪个方案与企业试图唤起的情感反应和品牌属性更加符合。研究者可以在一对一的情境中或者问卷调查中使用这个方法。一对一的方法的好处是研究者可以询问用户为什么选择特定的形容词，这个过程可能会发现一些额外的洞见。

很明显，如果使用问卷调查的方法，研究者会错失一对一研究中的定性层面，但是他们可以收集到更大样本量的反馈。不管哪种方式，这个研究的结构化会让数据分析变得相对简单。另外，向关键决策人报告参与者对每个视觉设计最频繁选择的形容词，会非常有力并且容易理解。

我们的经验

我们在最近的一个项目中尝试使用这个方法进行合意性测试，看看它是否能够帮助我们提炼出我们的公开网站的视觉设计方向。一旦在我们的整体设计流程中到达了已经确定了内容、通知和信息架构的时候，我们就开始设计网站的多种视觉概念。

这个网站的目标是说服客户注册一个能够在现金支付的医疗费用中为用户提供优惠的折扣健康计划。我们设计网站和情绪影响的目标如下：

我们想要描绘出一个专业的和值得信赖的形象，战胜客户可能有的任何反对，如果他们对品牌不太熟悉的话。
我们不想让显得花哨和过度推销的网站吓跑顾客。
我们想要设计一个能够让潜在顾客觉得友好和亲切的网站。
由于健康护理开支的敏感性，我们希望访客对网站感到舒适，并且让设计富于同理心。

有了这些目标，我们设计了两种备选视觉方案。在第一种方案中，如下图1，我们使用干净的边缘和大胆的颜色，为了让网站看上去更加保守和稳定。我们的假设是访客可以在这个网站和其他他们很熟悉的知名品牌之间找到相似点。这会让他们对这个网站产生信任感。在下图2显示的第二种方案中，我们选择了更加柔和和温暖的配色，使用圆角和欢迎图片让这个网站看上去更加友好。

方案1

方案2

为了测试哪种方案最符合我们的既定目标，我们使用产品反应卡做了一场合意性测试。在对早期的用户研究进行评估之后，我们从完整的微软卡片列表开始，选择了那些我们认为对这个品牌来说重要的形容词。我们将最终的形容词列表减少到只有60个，但是按照Benedek和Miner的建议保持积极词汇和消极词汇比例为6:4。

我们通过问卷调查执行了这个研究，将参与者分为三组。

第一组我们只展示方案1，要求他们从列表中选择自认为最能够描述这个设计的五个形容词。
第二组只展示方案2，其他要求相同。因为设计是静态截图，参与者不能够与其中任何一个进行交互。
我们对第三组展示了两个设计方案——对展示的顺序进行随机以减少顺序偏差——然后询问参与者他们最喜欢哪个。

我们假设对第三组的数据分析会比较难，但是委托方非常热衷于询问这个简单的偏好问题，所以我们这么做了。最终，我们让所有参与者有机会通过评论给出他们选择的形容词或者偏好的理由。通过我们的研究，我们在三个组中分别收集了50个人的反应数据。

正如我们预期的，第三组的结果比较不确定。这一组的参与者在偏好上分布均匀并且他们对自己选择的解释也非常广泛。但是，另外两个从列表中选择词汇的组的数据表非常有用。我们找出了参与者最常选择的形容词，并且计算每个设计中积极词汇和消极词汇的总数。

与我们在做这个研究之前的假设相反，参与者认为第一个设计易理解和清晰，但也觉得它是枯燥的、复杂的、没有人情味的。我们试图唤起的信任感并没有在这个设计中被选择。

正如我们预料的，参与者认为第二个设计是亲切的、友好的，但是令人惊讶的是，他们也认为这是专业的和可信赖的。很明显，所有这些形容词都符合我们期待的情感反应。另外，第二个设计相比第一个获得了明显更多的积极评价。

相比于那个简单的问题“你更喜欢哪个设计”，我们对于产品形容词的调查在帮助我们对设计决策达成一致时表现更好。基于我们的研究发现和对参与者评论的总结，我们在设计师和关键决策人之间达成了一致，选择第二个方案作为设计改进的起点。最好的是，当项目团队之外的人因为自己喜欢其他风格而质疑设计元素的合理性时，我们可以提供一个基于研究的解释，可以最小化个人偏好的差异并且帮助我们更好地完成项目。