机器学习算法生成的界面,真的能被用户理解吗?
机器学习算法可以基于用户信息和行为数据,为用户推荐感兴趣的内容,但是当这些内容被展示到界面上时,用户真的能够理解吗?
一个基于机器学习的人机交互研究表明:在使用由机器学习算法所驱动的应用界面中,用户在操作时会有一定的使用困难,并且只能形成较弱的心智模型。(译者注:用户通常无法理解自己的使用行为,与应用内所呈现的内容推荐结果有什么关联。)
我们正处于信息大爆炸的时代,对信息的跟踪捕捉和人工整理归纳变得越来越难。但幸运的是,现代数据科学可以对庞大的数据和信息进行归类整理,在界面上直接展示与我们相关的内容(例如网易云音乐推荐歌单)。
机器学习算法可以基于用户信息和行为数据,为用户推荐感兴趣的内容。如今,机器学习技术能更多地被开发者利用,这推动了大批的公司利用大数据算法去改善产品和提升用户体验。
利用人工智能去提升用户体验的3个典型例子有:
1. 内容推荐:(例:为用户推荐潜在感兴趣的电影/商品)
2. 广告或内容(如新闻头条)的选择性展示:根据用户需求提供定制化的折扣和优惠信息。(如用户最近有搜索过汽车购买内容,推送给用户的可能是与汽车购买折扣相关的广告)
3. 定制个性化捷径,用户可以一键触发下一步的操作
遗憾的是,这一系列的算法对用户通常是不可见的:用户在操作过程中,无法感知自己的哪些行为会被定义为“影响算法的行为”。并且算法的产出通常很难以理解。
由算法所提供的内容建议或推荐有可能命中用户需求,有可能表面上看起来是随机的,甚至有可能是毫无意义的。通常的情况是,这些算法对展示内容的分类标准是不可见的,它们会把展示内容按照特定的、并不互斥的分类进行分组。
虽然从算法角度出发,这样的内容展示/推荐机制是有意义的,但是用户通常很难理解推荐内容的逻辑,而且还可能会与传统的内容构建方式产生冲突。
在本文中,我们会探讨 Facebook,Instagram,Google news,Netflix 用户以及 Uber 司机与机器学习人机交互过程中遇到的一些问题。我们所采用持续一周的日记研究方式,在研究中,14 位真实用户会用 v-log 的形式记录下他们的人机交互过程。
黑盒模型
若想与任何系统进行顺畅的人机交互,用户必须对该系统建立一个心智模型。
大部分人都不是软件工程师,对软件程序的执行过程都没有清晰的概念。但是人们通常都能根据他们之前对应用程序、用户界面甚至是对世界的认知去形成一个相对正确的心智模型。
在很多情况下,测试者将一个新的系统当成黑盒,并且会通过改变测试过程中所有潜在的输入方式(如:浏览的内容或浏览的路径)去改变系统的产出。
机器学习算法对于用户来说就是一种黑盒系统。参与调研的用户可以理解:机器学习算法会将他们的交互行为作为产出内容的判断依据。
为了与算法进行顺畅的人机交互,用户必须形成一个对人机学习机制有足够认知的心智模型,通过这个心智模型,用户需要理解机器学习算法是如何去改变产出结果,从而满足用户需求的。在形成这个心智模型的过程中通常会出现两种阻碍:
1. 不明确的用户输入:用户的何种行为会对产出造成影响并不明确。
2. 对产出缺乏控制:即使用户知道他们的何种行为会被算法判定为有效的输入,用户依然无法确定这些输入对产生所需结果是否有效。
我们将对以上的原因进行分类探讨:
不明确的用户输入
对输入行为若没有一个明确的认知或判断,将很难在黑盒实验里构建一个准确的用户心智模型。导致用户输入行为不明确的原因包括
1. 算法对于用户来说是不透明的:算法无法告诉用户,在他们的人机交互过程中,哪些行为是重要行为,会对算法构成影响。用户对于“潜在输入行为”的定义了解不充分。用户的行为不会仅仅局限于当前的应用,这些“潜在的输入行为”也包括在操作过程中的其他行为数据(如:阅读第三方网站)。
2. 用户输入行为与界面呈现的结果存在时间延迟:用户的某些输入行为不会直接影响界面上输出结果的变化。
在我们所讨论的机器学习系统中,Netflix 很好地帮助用户去了解他们的何种行为会对 app 的推荐系统有影响。Netflix 的主页通常是一长串的影片信息流,这些信息流列表会有相应的标签解释为什么这条信息会出现在用户的首页——因为你曾观看过相关的内容/因为你曾添加过某些内容到你的播放列表等等。
(译者注:补充阅读Netflix相关介绍)
人们非常喜欢这类型的推荐,不仅仅是用户感觉到对 App 内容的控制权,更重要的是,他们认为当前页面所展示的内容对于他们来说是有用的。
即便是这样, Netflix 在帮助用户去了解用户的操作行为与首页的推荐内容之间的关联性仍无法做到最好,因为 用户当前的操作行为 并不会立刻直观地影响App的推荐内容。
举个例子,一个用户在最近一次使用 Netflix 的时候观看了单口相声,但是她“最佳推荐”里的播放列表似乎没有出现这个内容相关的信息。这时候的用户可能会很疑惑:“我以为‘最佳推荐’里的内容会根据我曾经的观看记录而有所改变,但是看来两者似乎并没有太大的关系,我的‘最佳推荐’列表里并没有出现很多相关的喜剧”。
一个 Facebook 用户曾把他的首页信息流的一个广告关闭,但是在接下来的信息流里却再次看到了这个广告。另外一些用户认为“最佳推荐”里的内容和自己播放列表里的内容重合度非常高,他们也会疑惑:“我不知道‘最佳推荐’里的内容是怎样进行筛选的,我相信内容筛选的算法和我曾经的观看行为会有一定的关联。但无论怎样我希望这个算法能更精准一些,因为里面推荐的内容要么有一些是我很久之前已经看过的,要么是我已经添加到播放列表的,要么就是我根本不感兴趣的。所以我有时候也很奇怪为什么会推荐这些内容给我?”
Facebook 与 Instagram 的用户会更难理解他们的何种行为会对自己首页的信息流内容造成影响。用户会认为,信息流中自己曾经参与过互动的内容(互动包括:点赞等相关操作),会成为机器学习算法展示信息流内容的参考。但一些关于“潜在输入行为”的定义很明显是牵强的,有时甚至是错误的。(译者注:有些用户会误以为自己现实生活中的聊天内容也会被应用监控,成为 “潜在输入行为”。)
这也意味着,对于大部分用户来说,机器学习算法的逻辑关系并不清晰明确。举个例子,一个用户昨天和朋友聊到忽然很想吃越南粉,这是一样平常他很少吃的东西。然后不久后,他就看到了一个越南粉春卷的广告。“这是一件多么有趣又可怕的事情!”这个用户说“我很怀疑这些应用是不是甚至窃取了我们的聊天内容。”
另一个刚从再应用里看到夏威夷航空广告的用户,半认真半开玩笑地说:“或者算法也知道我需要一个假期。”
另一个怀孕的妈妈也表示:“自从我怀孕之后,我看到的广告都是关于怀孕,婴儿用品或者是人寿保险相关的。”
从上面的例子我们可以看出,当机器学习算法对于用户“潜在输入行为”没有明确公开的定义时,用户会产生相当多的疑惑——他们会假设自己的所有行为(包括应用内的操作和现实世界中的行为)都会被机器学习算法所记录并作为参考,最终他们会认为这些 APP 或操作系统非常“可怕”并会侵犯日常生活的隐私。用户对自己隐私被侵犯的感知越来越明显,尤其是被Goolge、Facebook等公司掌握了大量的用户数据的情况下。
Google 新闻的用户通常会为其高度定制化的信息流而感到愉悦,但他们仍然不清楚这个高度定制化的信息流来源于他们日常的哪些操作行为。一个参与实验的用户表示:“Google News 似乎在迎合我的兴趣——在信息流中我能看到三篇与汽车相关的文章,而汽车正是我感兴趣的主题。我对“为你推荐”这个页面上的内容是如何产生的非常感兴趣。它会为我推荐本地的消息,因此很明显它能获取到我的地理位置信息,地理位置信息对于内容的筛选非常有用。”
虽然 Uber 本身不需要对信息进行推荐,但据说它同样使用了机器学习去预测用户的需求,并以高峰溢价、推广活动、游戏化的任务系统* 等手段去激励司机。
(译者注:Uber开发了一套硅谷称之为“Gamification”游戏化的策略。最主要的体现就是搭建“任务系统”。比如在某高峰时段完成5单,可以额外获得100美金,每周完成100单可以额外再获得1000美金等等,就和打游戏做任务一样。补充阅读Uber 相关阅读 游戏化任务系统相关解释)
Uber 的算法并不是基于司机的行为,相反,Uber 算法中的“输入”更多的是来源于外部的数据,例如历史交通路况。即便是在这种情况下,对于哪些数据能被定义为“输入”的清晰认知,依旧会影响司机是否会被 Uber 的促销手段影响自己的判断。举个例子,一个司机被 Uber 告知,他需要去接一个位于 2.3 英里以外的乘客,这段路程行驶时长为 15 分钟,并且这一单乘客有可能会溢价支付。
这位司机表示:“Uber 的这个新的预测功能有时候挺让人恼怒的。以前我一般接到的单都是只需要 5 分钟左右的车程就可以接到乘客,但现在 Uber 告诉我,这个接乘客需要 15 分钟车程的单子很有可能会得到溢价奖励。我曾经试过接到这样的单子,但是乘客并没有溢价支付。我认为这个只是 Uber 引诱司机免费地去接远距离乘客的单子的一种手段。我并不喜欢这种不确定的溢价支付。”对于司机来说,他们对为什么溢价支付会出现以及它出现的前提条件并不了解,这会令他们去质疑 Uber 的意图。
对算法的产出结果缺乏控制
在我们所研究的系统中,产出结果往往不仅仅以用户的交互行为为决定因素,还会根据一些外部事件去进行调整,这些外部事件包括:当前时刻应用内其他人的发帖内容,新闻事件,最新电影的上演,甚至有可能是交通情况等等。这些大批量、广范围的数据会令整个算法变得更复杂,更难以理解和控制。同时,将用户自身的行为数据与这些第三方的数据分离开来也会变得更困难。
当应用内同系列的信息展示是取决于某个特定的自动预测算法时,这一系列的信息的展示顺序甚至是这一系列信息最终是否会被完全展示都会取决于一个相关性衡量指标:高相关性的信息会被优先展示,接下来展示的会是相关性稍低的信息。当某条信息的相关性低于某一个临界值时,它甚至有可能根本不会被展示出来。(Netflix 曾经公开展示过一个带有明确匹配分值的相关性衡量指标,但这个指标对用户来说并没有直接的利益关系,本次调研中的参与者完全忽略了这个匹配分值。)
虽然有些人认为一个好的相关性衡量指标不会将重要信息安排在列表中较后的位置,然而事实是,这些系统只能收集到用户很碎片化的信息。这些用户是复杂的个体,他们的需求不仅仅是基于过去的使用习惯,更可能是基于当前的内容甚至是当下的心情。(举个例子,其中一个参与调研的用户表示:“我希望我可以隐藏我 Facebook 首页上所有带有悲伤情绪的帖子。”此外,一些帖子与用户的兴趣可能有着强相关性,但是出现的频率非常低,因此系统无法收集到足够多的信息去判断这些信息与用户兴趣的关联性。)所以,即使是一个好的相关性衡量系统也有可能无法准确地预测信息与用户兴趣的相关性,至少偶尔也会出现这种情况。
一个不完善的相关性衡量系统会引发以下的一些问题:
1. 用户一些感兴趣的信息会被遗漏(在信息检索的层面上,这会被视作低召回率)
若信息流自动过滤掉一些与用户高相关性的信息,用户在阅读信息时会花费很高的成本。在 Facebook 和 Instagram 之类的应用内,当用户错过了一条他最亲密的好友的信息,这会对用户造成很大的困扰并带来较差的用户体验。
事实上,会给参与调研的用户带来很糟糕的体验的主要原因是,这些应用内的信息流若只包含帖子中的部分内容而过滤掉其他内容。其中一位参与者表示:“为了看到我希望看到的某些用户所发的帖子,我甚至需要和应用内的算法作斗争。”
用户试图通过 自己对该系统的理解而建立起的心智模型去引导算法(虽然用户对系统的理解往往可能是不正确的或是碎片化的。一些用户会通过对信息流里他所有感兴趣的内容进行点赞,试图引导算法去了解自己的兴趣并不再过滤掉相关的信息。在这种情况下,“点赞”的含义已经不仅仅是它字面所表达出来的社交层面的意思(“点赞”通常用于表达对某种内容或帖子的欣赏),而开始变成用户试图控制算法的一种手段。
即使是一些自认为自己可以操纵算法的人也很经常会怀疑这种行为的有效性。他们会不断地直接访问自己所感兴趣的用户或组织的主页信息流以确保自己不会错过任何信息。
但过滤掉一些和用户高相关性的信息亦不尽然会为用户带来高的阅读成本。例如,在 Netflix 和 Spotify 之类的平台,用户可能感兴趣的新闻信息/歌曲成千上万,过滤掉这其中的一些信息并不一定会引发用户的抱怨。(译者注:因为用户无法感知到自己感兴趣的信息被过滤掉了)
2. 信息流展示的内容顺序是不可预知的/难以理解的
信息流过滤掉一些用户感兴趣的消息不仅仅是因为 算法并没将其息包含在内容列表内,也有可能是因为这些信息的权重并不高,因此没有出现在信息流的头部位置。归根结底,这种考虑与“注意力经济*”有关(译者注:注意力经济是指企业最大限度地吸引用户或消费者的注意力,通过培养潜在的消费群体,以期获得最大未来商业利益的一种特殊的经济模式。) :如果用户对新闻或社交媒体的注意力有限,那么用户可能会遗漏掉一些对他们很重要的信息内容,因为这些内容在信息流的列表里处于较尾部的位置。(译者注:信息量太大,而用户对信息阅读的精力有限,往往只会阅读到头部的内容。)
对于一些我们所看到的信息推荐系统,推荐列表的顺序对于用户来说是毫无意义的:用户无法理解为什么在 Facebook 的信息流里,某一条内容会排列在另一条内容的前面。也并不知道为什么在 Netflix 的轮播模块里,某一部电影会展示在另一部电影之前。Facebook,Instagram 和 Google News 经常受到的用户投诉的其中一项内容就是:用户抱怨信息流展示的内容不是按时间顺序排列的(译者注:新版的微博信息流同样不是以时间线顺序展示的)。因此,用户无法确保他们已经完全地阅读完某个用户的所有信息并且没有无遗漏掉其它内容。同样地,对于新闻内容,这次调研中的参与者会担心,一些他们感兴趣的但是并不太重要的信息内容(例如汽车相关的文章)会位于信息流中的头部位置,因此他们会遗漏掉一些最近一般感兴趣但可能重要的内容。
在 Netflix 的情况里,根据特定的分类方法(如:因为你曾经看过某些电影内容)而构成的推荐列表会模糊了用户对之前已经形成的自然分类的方法的认知(如:按时间排序)。例如,对于视频内容,用户普遍关注的维度是时间(如:用户知道自己只有一小时的时间去观看视频)或者是视频内容的种类。然而,在 Netflix 创建的类别中,电视节目与完整长度的电影被混杂在一起,且被以无明确标识的顺序呈现在用户面前,用户的筛选过程会非常困难。
3. 一些用户并不太感兴趣的内容会被推荐给用户(在信息检索的范畴内,这被定义为信息匹配精度低)
糟糕的推荐体系会对花费用户巨大的注意力成本——用户必须仔细检查信息,判断他们为不相关内容,再跳过他们。然而,糟糕的推荐算法在不同的系统下并不一定会对用户造成相同的影响。在 Netflix 这种平铺轮播的列表布局下,不敢兴趣的推荐内容相对会更容易被跳过,因为这些不敢兴趣的内容并不会占用页面内太多的位置,用户可以轻易地略过它。
但是,在诸如 Spotify 或者 StichFix(服装运输服务平台)等平台上,用户略过一个不敢兴趣的推荐成本会变得很高。用户不愿意花费时间去尝试听一首他们所不喜欢的歌曲,或者穿一条不是自己风格的裤子。Facebook 的情况介乎于上述的两者之间:一个与用户不相关的帖子或者是广告会在首页信息流占用一定的空间,用户必须手动滑动才能跳过。
跳过页面上不感兴趣的内容所花费的成本,将决定了用户直接对帖子/广告内容提供反馈的可能性。例如,在 Spotify 的平台上,用户会参与推荐内容的筛选并标记他们不感兴趣的内容。这样做不仅是为了帮助调整推荐系统的算法,更是为了尽量避免自己花费时间去收听一些不感兴趣的曲目。
在 Facebook,我们的确注意到用户偶尔会使用到“隐藏该广告”的按钮。但由于这个按钮的入口比较深,有些用户并不愿意花费这个操作成本去隐藏广告。相对于隐藏不感兴趣的推荐内容,用户更愿意去“点赞”一些自己感兴趣的内容。
4. 推荐列表内的内容所占用的页面范围越多(或者是用户跳过的成本越高),内容的反馈按钮就应该越明显。
如果推荐列表的内容能被用户很容易地跳过,内容反馈入口的外露优先级可以降低。
5. 内容的个性化定制不应该增加用户的使用成本
我们在上面看到,在用户体验中,最成功的推荐算法应该能 成功地向用户传达合理的、关于“输入行为”的心智模型。尤其是,本次调研的用户非常喜欢 Netflix 的推荐列表上的内容,因为这些内容清晰地展示了用户“输入行为”与呈现内同的关系(如 你曾看过的/你曾添加到播放列表的等等)。
然而,这种方法可能会导致一个问题:同一个内容会被多次推荐。例如:在 Netflix 中,一部影片可能会出现在“曾经看过”模块,它同样有可能会出现在“我的列表”或者“热门推荐”模块中。用户在浏览页面的过程中,会为这些重复出现的内容花费更多的注意力。至少,用户需要辨别出哪些内容他们曾经看到过并跳过他们。其中一位参与调研的用户表示:“为什么首页中会有这么多的列表模块?并且模块中的内容在不断重复?我非常讨厌这些重复内容的列表。每一次查看列表我都会看到相同的东西,这让我非常困扰。这对我来说简直就是浪费时间。”
但是,在用户交互过程中,重复消耗的注意力成本不仅限于内容的重复出现。Netflix 承认,他们尝试去做超越内容个性化层面的更高的个人定制化页面,这包括用户个性化的页面布局(甚至是基于特定场景下的页面布局),为视频封面做个性化定制。但这一系列的个性化定制都有可能会增加用户的交互成本:
1. 模块限定的视频封面缩略图,内容描述与大标题
对某一项内容针对特定的用户进行个性化定制,这在很大程度长可以吸引用户的注意力。在研究过程中,我们的参与者用户被提供大量的内容。他们快速地浏览页面,缩略图,粗略地阅读页面上的文字内容。一位 Facebook 用户表示:“我通常并不会仔细阅读别人写了什么东西,我只是粗略地扫一眼。”而另一位 Netflix 的用户则表示:“在列表中,我通常会找一些和其他内容不同的,更有趣的内容,通常一个特别的封面图片能吸引到我的注意力。”
在 Netflix,同一部影片,不同的用户可能会看到两个不同的封面。更甚的情况是,同一部影片,同一个用户会在两个不同的模块中看到这部电影不同的封面。
理论上,这种做法可能会提高用户“点赞”和观看该影片的机会——因为应用内不同的推荐模块能强调这部影片的不同的亮点,任何一个亮点都有可能会引起用户的注意。遗憾的是,这种做法可能会令这部影片丧失记忆点,因此会浪费用户的时间:用户有可能会在这个过程中多次点入同一影片的详情页去浏览影片的内容介绍,最终却发现自己对这部影片仍然是不感兴趣的或者是其实已经曾将这部影片添加到播放列表了。
2. 不同模块的不同布局
Netflix 同样会针对不同的用户,不同的场景,甚至是不同的设备去定制化页面布局。因此,“继续浏览”可能在某些模块中会在列表的靠前位置,而在下一个模块中会处于靠后的位置。这种做法是页面自适应的一个例子,并减少了用户对适应页面布局的学习成本。因此,那些喜欢在开始浏览页面的时候就查看最新内容的用户,会优先主动访问“最近新增内容”列表。
这种情况下,当该用户打开应用时,如果页面定位在上次浏览的地方,页面上的信息对于该用户来说基本没有意义。因为 Netflix 对于用户来说是一个更侧重于浏览性质的页面,改变不同模块中的推荐列表的顺序并不会对整体用户造成较大的影响,然而,这种方法其实已被证明会明显地降低用户体验。
一些总结
日常中,我们所使用到的极大依赖于机器学习算法进行内容推荐的应用/系统寥寥无几。以下是几点小建议:
1. 努力地去创建一个准确的基于算法的心智模型。想做到这一点,需要让用户清楚地知道他们的何种交互行为,会对算法产出的推荐内容有直接影响。
2. 让用户能够简易地控制机器学习算法所产生的结果。允许用户通过已知的,熟悉的,易于明白的逻辑(例如:时间线逻辑)去对这些结果进行分类整理。若用户对关闭一个不合适的推荐的成本越高,app 越应该提供一个越便捷的反馈入口给用户。
3. 如果推荐的内容均适合在不同的模块被推荐(译者注:既是“今日热门”也是“曾经看过”),尽量不要重复推荐此内容。
4. 对用户进行个性化定制的同时,在改变同一页面上不同模块的布局时需要多加注意,避免用户在浏览时出现较大的视觉跳跃。
5. 内容元素应该尽量包括与用户强相关的信息内容(译者注:如网易云x—音乐给用户推荐歌单的时候会标注推荐原因——”因为你曾收藏过某些歌曲”),这些信息在用户筛选大量内容的时候将会非常有用。
6. 提前预加载内容描述或标题,以便于用户在快速浏览时更便捷地筛选判断。
遵循以上 6 条用户体验原则,将能提人工智能算法的效益,让人工智能不仅仅再是”花哨的技术”,为用户的使用过程提供更好的帮助,提升用户体验。
作者: Raluca Budiu
翻译:陨石旁
原文地址:https://www.nngroup.com/articles/machine-learning-ux/
本文由 @陨石旁 翻译发布于人人都是产品经理。未经许可,禁止转载
题图来自Unsplash,基于CC0协议
- 目前还没评论,等你发挥!