UE设计中用户可以控制和理解由机器学习驱动的UI吗？

2019-11-23 10:00:38

在对人们与基于机器学习算法构建的系统进行交互的研究中，用户的思维模型较弱，并且难以使UI做到他们想要的事情。

我们生活在一个充满信息的世界中。对我们来说，跟踪它或为他人手动管理它变得越来越难。幸运的是，现代数据科学可以对大量信息进行分类，并列出与我们相关的那些项目。

机器学习算法依赖于数据中观察到的用户知识和模式来推断和建议我们可能喜欢或感兴趣的内容。随着机器学习技术对开发人员的越来越多的访问，推动公司充分利用这些优势这些算法来改善其产品和用户体验。

此类人工智能（AI）技术用于UX的典型用途包括：

建议（例如，要观看的电影或要购买的产品的列表）
选择要显示的广告或内容（例如新闻标题）
个性化的交易和特别优惠以吸引当前用户
一键式访问用户可能下一步想要做什么的个性化快捷方式

不幸的是，这些算法通常对最终用户而言并不透明。人们不确定这些算法会考虑到他们的哪些行为，并且他们的输出并不总是那么容易理解。建议和建议可能是当场正确的，或者显然是随机的和荒谬的。通常，这些算法会根据不可见的标准对输出进行排序，或者将其分为不互斥的临时类别。尽管从算法的角度来看这些决定是有意义的，但对于外行用户而言，它们通常太晦涩难懂，并且违背了传统的内容结构方式。

在本文中，我们研究了用户与Facebook，Instagram，Google News，Netflix和Uber Driver上的机器学习算法进行交互时遇到的一些挑战。我们的讨论基于为期一周的日记研究，其中14个这些系统的现有用户视频记录了他们与他们的互动。

黑匣子模型

为了与任何系统成功交互，用户必须创建系统的思维模型。大多数人都不是计算机科学家，也不知道如何实现软件，但是他们可以基于有关软件工件，接口乃至整个世界的先验知识来形成体面的思维模型。在许多情况下，他们将系统视为黑匣子，并确定如何通过播放可能的输入来更改系统的输出。

对于用户来说，机器学习算法就是这样一种黑匣子系统。他们知道该算法将某些操作用作输入，并且可以看到输出是什么。为了与算法成功交互，用户必须形成一个如何工作的思维模型，并弄清楚如何更改输出以适应他们的需求。创建此模型有两个大障碍：

输入不清楚：不清楚产生输出时会考虑哪些用户的操作。
缺乏对输出的控制：即使人们知道算法将哪些动作视为输入，也不清楚这些输入是否在产生所需输出方面有效。

黑盒是机器学习算法，具有多个潜在输入和一个输出。输入包括点击，观看，保存。用户想知道“我的哪些动作很重要”和“如何更改输出”？

黑匣子模型

我们将分别讨论每个原因。

输入不清楚

输入中缺乏清晰度使得创建黑匣子的准确心智模型的问题变得非常困难。输入状态不清楚的原因有很多：

该算法不透明 -不会明确告诉人们他们的哪些行为很重要。
用户不知道可能的输入的范围，例如，因为它们不仅限于系统或平台内部的操作，还来自其他行为数据（例如，访问第三方站点）。
输入和输出之间存在延迟：某些动作可能不会立即影响用户在同一会话中看到的输出。

在我们研究过的机器学习系统中，Netflix在帮助用户了解推荐器系统考虑了他们的哪些操作方面做得最好。Netflix的首页（以及主要类别的目标网页）通常是一长串的列表；这些列表中的许多都有说明其创建方式的标签- 因为您观看了Christine McConnell的《好奇的创作》，因为您在列表中添加了7月22日，依此类推。

Netflix的两个列表：“因为您看过克里斯汀·麦康奈尔的好奇作品”和“因为您将7月22日添加到列表中”

Netflix解释了其推荐系统使用的一些输入。

人们非常喜欢这些建议，这不仅是因为他们可以控制自己，还因为他们向他们提供了有关所显示内容的有价值的信息。

但是，即使是Netflix也未能完全成功地理解如何考虑用户的行为以创建推荐，这也是因为这些行为并未立即反映在算法的输出中。例如，一位参与者感到困惑，因为她上次使用Netflix观看的脱口秀喜剧节目并未影响她的热门精选。她说：“ 热门推荐发生了变化-我猜是根据我看过的内容，但这与我看过的内容无关，没有太多喜剧。”一个Facebook用户花时间在她的新闻提要上隐藏广告，只是为了在页面上重复看到同一广告。另一个人想知道为什么首选与她Netflix的监视列表重叠这么多：“ 前选择 -我不知道他们如何得到它们，我确定有一些算法或某些东西，但我希望它会好一点，因为其中很多是我几年前看过的东西，或者是我曾经拥有的东西在我绝对不感兴趣的清单或东西上，所以我想，嗯，我想知道为什么他们推荐这些东西。”

Facebook和Instagram用户很难理解他们的哪些行为与他们的新闻源上显示的内容真正相关。他们假定算法将考虑了他们通过（喜欢按钮及其亲戚）参与的新闻提要中的帖子，以便确定向他们显示什么内容。但是关于可能的输入的一些理论显然是牵强的（有时是技术神话）），并反映出该算法缺乏透明度。例如，一个用户指出：“这很有趣而且令人毛骨悚然-昨天我在谈论渴望喝pho，而我通常不吃它，现在我看到了这则广告（墨西哥卷饼）；我想知道他们是否只是记录您的谈话。”一位参加者在看到夏威夷航空的广告时说，半开玩笑，半认真，“也许他们知道我需要放假。还有一个：“自从我怀孕以来，我都会收到有关怀孕，婴儿用品和人寿保险的广告。”因此，输入内容缺乏透明度会使用户产生怀疑-他们认为几乎所有的操作（无论是否在线）或在现实世界中）被算法考虑在内，他们最终认为系统比实际系统更“令人毛骨悚然”且更具侵入性。

Google新闻用户通常对应用程序为他们完成的成功个性化设置感到满意，但他们也不确定该应用程序基于的数据类型。一位参与者说：“ [Google新闻应用]似乎很适合我和我的兴趣[…] –事实上，有三篇与汽车有关的文章，这是我感兴趣的主题。它了解“如何为您”页面的生成方式会很有趣。[…]那里有我的本地故事，所以它显然知道我的位置，非常方便。”

虽然Uber本身并未提出建议，但据说它使用机器学习来预测需求并以价格上涨，促销和游戏化的形式激励驾驶员（例如，Uber驾驶员可以利用“任务”为他们提供当他们在指定的时间段内驾驶一定数量的游乐设施时获得额外的收益）。Uber算法本身并不是基于驾驶员的动作；相反，其输入可能主要是外部数据，例如历史流量模式。但是，即使在这种情况下，对于输入内容的清晰理解也可以决定是否让驾驶员说服某些促销活动。例如，一位驾驶员被告知，他需要开车15分钟才能接起2.3英里外的一位乘客，而且可能需要支付额外费用。他说：“这是一个令人讨厌的新功能。我认为过去您过去只需要乘坐5分钟的路程（来接送乘客），但是有人说15分钟的路程和超值费用是可能的。我以前有过，但没有发生。我想这只是一种诱使驾驶员长途跋涉而无须缴纳车费的方法。[…]我不喜欢这种可能的保费。”不理解为什么提供了保费以及其依据使驾驶员产生了怀疑。关于Uber的意图。

缺乏对输出的控制

在我们研究的所有系统中，输出不仅取决于用户的操作，还取决于外部事件，例如其他人的帖子，新闻故事，新电影发行或流量。如此众多的数据使人们更加难以理解如何控制算法，以及将用户自己的行为与第三方行为的影响区分开。

当根据某个自动预测确定了一组相关项目时，通常显示这些项目的顺序以及它们是否显示完全取决于相关性度量标准：首先显示相关性高的项目，然后显示较少的相关性相关项目。如果相关性低于某个阈值，则可能根本不显示该项目。（Netflix以匹配分数的形式明确显示了此相关性度量标准。该度量标准本身对用户没有直接兴趣-我们研究的人们完全忽略了该分数）。

虽然可以说一个好的相关性指标不应将重要的项目放在清单的低位，但事实是，这些系统仅收集有关用户的零碎信息，这些用户是复杂的个人，其需求不仅取决于过去的习惯，还取决于上下文和甚至心情（例如，一位参与者说：“我希望有一种方法可以将所有可悲的帖子隐藏在Facebook上。”而且有些海报可能引起人们的极大兴趣，但很少出现，因此该系统可能无法积累有关其相关性的足够数据。）因此，即使良好的关联性指标也很可能无法正确预测关联性-至少偶尔有可能。

相关性指标不完善会引起一些问题：

一些感兴趣的项目被省略。（从信息检索的角度来看，这意味着较低的检索率。对于用户而言，遗漏高相关性项可能会造成高昂的成本。在Facebook和Instagram这样的网站上，如果您最亲密的朋友之一错过了一条帖子，可能会造成烦恼并恶化体验。这些站点上的新闻源仅包含新帖子的一部分，这一事实对我们的参与者而言是一个很大的麻烦。一位参与者说：“我需要与该算法进行斗争才能获得我想看到的帐户。”人们试图根据他们关于系统工作方式的（通常是不正确的或零散的）思维模型来操纵算法。一些用户（通过“ 赞”按钮）与他们感兴趣的页面中的所有帖子互动，希望说服算法不再错过这些帖子。赞的意思因此，它超出了其最初的文字和社会含义（喜欢用来表示对内容或海报的赞赏），并开始被解释为对算法进行某种控制的方式。

即使是那些认为自己可以操纵算法的人也常常对其有效性表示怀疑。他们一直直接访问他们感兴趣的那些人或组织的新闻提要，以确保他们不会错过内容。

忽略高关联性项目并不总是那么昂贵。例如，在Netflix或Spotify上，有成千上万个潜在用户感兴趣的项目；遗漏一个人不太可能引起人们抱怨。

项目的顺序不可预测或不容易理解。

丢失对用户来说很重要的项目，不仅可能因为算法没有将其包括在结果列表中，而且还因为它没有在列表中包含足够高的项目。最终，这种关注与注意力经济有关：如果人们可以将有限的注意力分配给新闻或社交媒体，那么对他们而言重要的项目可能会因为其在产出清单中的位置太低而被忽略。

在我们看到的一些推荐系统中，推荐的顺序对用户没有意义：人们不理解为什么在其Facebook feed上显示某个帖子之前先显示一个帖子，也不知道为什么在之前显示电影Netflix轮播中的另一个。

Facebook，Instagram和Google News的共同抱怨是故事的顺序不是按时间顺序排列的。因此，要预测您是否已经看过某个人的所有内容，或者您可能错过了一些帖子，并不容易。同样，在新闻方面，与会人员担心，不太重要的有趣故事（例如与汽车相关的文章）可能会排在第一位，并且可能使他们错过近期的普遍关注新闻。

就Netflix而言，构成建议的临时类别（例如，因为您观看了……，热门推荐）掩盖了人们已经形成的自然类别。例如，对于视频内容，通常的关注点是时间（例如，用户可能知道他们只有1个小时的观看时间）或节目类型。但是，在Netflix创建的类别中，电视节目与全长电影混合在一起，并且在不区分标记的情况下无法以可识别的顺序进行呈现，而且人们没有简便的方法可以将其过滤掉。

向用户提供了一些低兴趣的建议。（从信息检索的角度来看，这意味着较低的精度。）

错误的建议会引起用户注意，代价高昂-他们必须检查它们，将其识别为无关紧要，然后跳过它们。但是，错误建议的成本在不同类型的系统上并不总是相同的。借助Netflix的轮播列表布局，相对较容易忽略一个错误的建议-一部没意思的电影不会占用页面太多的空间，人们可以轻松地四处浏览

Netflix主页

Netflix：不正确的建议只会在列表布局中占用较少的空间；人们可以轻松地忽略它。

在诸如Spotify或StichFix（服装运送服务）之类的系统上，用户不能忽略一个错误的建议-他们不能简单地坐下来听一首自己不喜欢的歌曲，或者穿一条不合风格的裤子。Facebook介于两者之间：不相关的帖子或广告占用页面空间，并要求人们滚动浏览。

Facebook上的Patagonia广告

与Netflix上的不良电影建议相比，Facebook上不相关的广告可能会占据整个视口，并且需要付出更多的努力来忽略。

忽略错误建议的成本将决定人们直接提供有关该项目的反馈的可能性。例如，在Spotify上，他们将与系统互动并对不良品进行评分，这不仅是为了调整算法，而且是为了避免自己坐在自己不喜欢的歌曲中。在Facebook上，我们确实注意到用户参与其中偶尔使用“ 隐藏广告”按钮，但由于该按钮隐藏在菜单下，因此有人认为这样做不值得。人们没有降低差劲的建议，而是专注于喜欢好的建议。

Facebook与广告相关的更多按钮

Facebook：很少有用户利用“更多” 按钮下隐藏的“ 隐藏广告”选项。

一条推荐内容占用的房地产（或处理时间）越多，反馈按钮应越突出。如果可以轻松地忽略推荐的内容，则提供反馈的方法可以是次要的。

个性化不应增加用户的工作量

我们在上面看到，在用户体验中，最成功的推荐算法是能够向用户传达他们使用的输入的合理思维模型的算法。特别是，我们的研究参与者喜欢Netflix的“ 因为您（已观看/添加到列表/等）...”建议列表。

但是，这种方法的问题是同一项目可能最终被推荐多次。例如，“ 因为您看过 ……”列表中包含的电影也可能会出现在“ 我的列表”或“精选”中。人们在遇到这些重复的物品时必须付出额外的努力，因为至少，他们必须认识到自己之前已经看过它们并移走了。一位用户评论说：“为什么会有各种列表并保留重复项？我讨厌这些重复的清单。我越过它，看到了我以前见过的同样的东西，这让我很烦，因为我觉得这很浪费时间……”

Netflix：同一部电影（“西蒙妮小姐发生了什么？”）出现在“ 为您推荐” 和“ 爵士与轻松听” 列表中。

但是，重复劳动不仅限于重复的项目。Netflix承认，不仅要内容个性化，而且要为视频创建个性化（甚至会话特定）的首页布局和个性化封面。

这两种类型的个性化都可能增加交互成本：

特定于会话的缩略图，描述和标题

个性化如何将内容呈现给特定用户可能会大大吸引注意力。向我们的研究参与者展示了过多的内容，他们快速浏览了内容，浏览了缩略图并在此处和那里阅读了1-2个单词。一位Facebook用户说：“我通常甚至不阅读人们写的东西；我只是略过而已，”一位Netflix用户评论说“我正在寻找与众不同且有趣的东西，而封面艺术引起了我的注意。”

在Netflix上，不仅两个不同的用户会看到同一部电影的不同缩略图（例如，“帝国游戏”），而且同一用户在两个不同的会话中可能会看到同一部电影的不同的缩略图。

Netflix：同一位用户在不同的会话中看到电影Chappaquiddick的缩略图不同。

从理论上讲，这种做法可能会增加人们喜欢电影并观看电影的机会-由于电影的不同方面会在不同的会议中得到强调，因此其中之一可能会引起用户的注意。不幸的是，这种不一致也使电影不那么令人难忘并且浪费了用户时间：人们可能最终访问电影详细信息页面并多次查看描述，结果发现他们仍然不感兴趣或已经将电影添加到了他们的观察清单。

特定于会话的布局

Netflix还根据用户，会话和设备个性化主页的布局。因此，“ 继续观看”对于一个用户在一个会话中可能看起来非常靠近页面顶部，或者在下一个会话中可能在页面下方。这种做法是自适应界面的一个示例，它限制了页面布局的学习。因此，喜欢通过检查新添加内容开始浏览的用户可能需要积极寻找“ 最近添加的内容”列表，并且不会从以前的会话中找到该列表而受益。由于Netflix具有如此繁重的浏览界面，因此更改不同建议列表的顺序不会对我们的用户群产生重大影响；但是，总的来说，这种做法已被证明会严重降低用户体验。

UE设计中用户可以控制和理解由机器学习驱动的UI吗？

黑匣子模型

输入不清楚

缺乏对输出的控制

推荐建议

今日推荐

UE设计之让整个网站网页变灰的方法

UE设计中设计有效的信息图表

UE设计中拨动开关准则

UE设计中网站上的客户服务信息：轮辐模式

UE设计中实践中的定量UX研究