[中文正文内容]

Elsevier logoScienceDirect

Elsevier

International Journal of Human-Computer Studies

International Journal of Human-Computer Studies

认知能力预测日常计算机任务的表现

Author links open overlay panelErik Lintunen a, Viljami Salmela b, Petri Jarre b, Tuukka Heikkinen b, Markku Kilpeläinen b, Markus Jokela b, Antti Oulasvirta a

https://doi.org/10.1016/j.ijhcs.2024.103354 Under a Creative Commons license Open access

亮点

摘要

熟练使用计算机应用程序在工作和其他日常活动中发挥着至关重要的作用。虽然先前的经验已知可以预测涉及计算机的任务的表现,但认知能力等更稳定因素的影响仍不清楚。在此,我们报告了一项涵盖从电子表格到视频会议等各种常见应用程序的对照研究(N=88)的结果。我们的主要结果是,认知能力对计算机用户的表现产生显着、独立和广泛的影响。特别是,具有高工作记忆、执行控制和知觉推理能力的用户可以更快、更成功地完成任务,同时体验到更低的脑力负荷。值得注意的是,这些影响在幅度上与先前使用计算机以及完成与本研究中遇到的任务类似的任务的经验的影响相似甚至更大。但是,这些影响是变化的并且是特定于应用程序的。我们讨论了用户界面设计在减少与能力相关的差异方面所起的作用,以及这可能为社会功能带来的好处。

关键词

认知能力 任务表现 计算机使用

1. 介绍

本文阐明了一个对于信息社会至关重要的问题:认知能力是否能预测一个人使用计算机的成功程度,或者个体之间的差异仅仅反映了先前使用计算机的经验或年龄等社会人口因素的差异?答案具有深远的意义。如今,计算机应用程序已成为工作、休闲甚至社会关系所必需的。其中,熟练使用计算机与收入(Falck et al., 2021)和幸福感(Nguyen et al., 2021)相关。此外,无法使用计算机已被证明会导致挫败感(Hertzum and Hornbæk, 2023Lazar et al., 2006)。在社会层面上,个体差异可能会在能够充分参与技术中介社会的人和不能参与技术中介社会的人之间造成隔阂(Hargittai et al., 2019)。因此,各国政府(例如,英国、欧盟和美国)已将数字技能的发展和公平纳入其议程,这不足为奇。但是,如果认知能力确实发挥作用,那么仅仅培训人们使用计算机或提供访问权限是不够的。计算机界面需要重新设计以更好地匹配认知能力(Wobbrock et al., 2018)。 更高的智力已被证明可以预测广泛的积极生活结果,例如更好的工作表现(Schmidt and Hunter, 1998),更好的身心健康(Deary et al., 2010),甚至更高的创造性成就(Kim, 2008)。然而,虽然已经报告了计算机应用程序中用户性能的巨大个体差异(Boot et al., 2015Ownby et al., 2008Quiroga et al., 2015Sharit and Czaja, 1999Wagner et al., 2010Westerman et al., 1995),但研究仍然没有回答它们是否归因于相对稳定的认知能力。游戏方面的研究(Bediou et al., 2018Quiroga et al., 2015)提供了一些认知能力作用的证据。在诸如 League of Legends 之类的复杂游戏中,认知能力可以预测游戏玩家的排名(Kokkinakis et al., 2017)。但是,此类游戏 设计 为具有挑战性,而标准计算机应用程序的设计以可用性为中心。用户界面设计师旨在降低认知负荷,提高易用性并保证所有人的访问权限(Johnson, 2020)。因此,游戏领域的结果可能无法转移到一般的计算机使用中。 尽管计算机能力在当代生活中扮演着关键的角色,但研究很少关注认知能力与日常计算机使用之间的关系。虽然一项基于问卷调查的研究发现,计算机使用中的自我报告成功与认知能力之间存在联系(Tun and Lachman, 2010),但在其中参与者实际使用计算机执行任务的对照研究是黄金标准。直接测量性能较少依赖于自我感知和情感因素,并且可以更好地预测现实世界的成功。但是,只有少数此类研究存在,所有这些研究范围都狭窄并且侧重于特殊应用程序或特定人口群体。在 1990 年代进行的一项研究中,年龄较小和较高的视觉运动能力与银行业务任务中的更好表现相关(Sharit and Czaja, 1999)。此外,研究已经确定了更高的认知能力与信息搜索任务中的更好表现之间的联系(Pak et al., 2006Sharit et al., 2008Westerman et al., 1995),并且更高的流体智力已被证明与老年人在电子邮件任务中的更快学习相关(Nair et al., 2007)。计算机使用与其他技能一样,取决于 - 并且随着实践和熟悉程度而提高(Nair et al., 2007Choi et al., 2021Mitzner et al., 2019)。为了衡量认知能力与实际成功使用计算机之间的关系,需要付出实质性的努力来收集全面的测量结果。理想的研究应该在受控条件下同时探测这两种测量方法。对于普遍性,理想的研究应涵盖广泛的日常任务,每个任务都可以利用认知能力的特定组成部分(Kovacs and Conway, 2016),正如视频游戏的研究证明的那样(Dobrowolski et al., 2015Quiroga et al., 2019)。此外,应收集诸如经验、疲劳和社会人口因素等协变量的数据。 在这里,我们研究了在各种流行的计算机应用程序中,哪些认知因素可以预测任务成功、任务完成时间和心理负荷。在我们预先注册的研究中,1 我们采用了一组涉及计算机的 18 个常见任务。该集合旨在不仅代表个人计算任务,而且代表数字社会中运行的需求(OECD, 2012Wilson et al., 2015)。它代表了迄今为止调查的最全面的工作和休闲领域横截面,包括用于文字处理、银行、信息搜索、地图、电子邮件和其他操作的应用程序。图 1 中给出了示例。任务的难度级别已在试点研究中预先校准,目标是 25% 到 75% 之间的平均成功率。我们预先指定的、分层的样本 (N=88) 涵盖了广泛的年龄范围和关键的人口统计因素。 我们假设,即使考虑了先前的经验和社会人口变量,一般认知能力也能预测计算机使用任务的表现。在其最基本的层面上,认知能力可以用智力的一般因素来衡量(Spearman, 1904),但至关重要的是要了解更具体的认知领域(Sachdev et al., 2014)的贡献。具体来说,执行功能 可能具有独立于一般智力的影响(Friedman et al., 2006Draheim et al., 2021)。这些对于控制和抑制行动以及以与任务相关的方式转移注意力是必需的。关于执行功能的影响的线索可以从眼动追踪数据中得出,眼动追踪数据可以显示个人如何探索和定位手头的信息(Liversedge and Findlay, 2000)。其次,早期的计算建模表明,具有挑战性的计算机参与需要 工作记忆Card et al., 1980Kieras and Polson, 1985Schraagen et al., 2000)。用户必须牢记中间结果和目标,例如已键入的内容或下一个子目标是什么。第三,知觉推理语言能力 在分别依赖于视觉空间呈现和基于标签的信息的图形用户界面中很重要。由于所有因素都取决于手头的任务,因此我们希望看到这些不同认知领域的任务特定影响(Kovacs and Conway, 2016)。此外,我们还捕获了特定任务的熟悉程度和参与者自我报告的计算机使用效率。这种丰富的数据集使我们能够量化一般认知能力及其组成部分在多种应用程序类型中的贡献,同时控制人口统计因素和先前经验的各个方面,包括对用户界面、应用程序、操作系统和计算机的熟悉程度 一般而言,以及人们对其成功使用计算机的能力的信念。

图 1. 我们的任务涵盖了在计算机上进行的日常活动,这些活动对于社会中的功能至关重要。此图显示了研究中总共 18 个任务中的 6 个任务的示例。

2. 方法

我们的研究设计背后的两个主要目标是 (i) 设计一套在计算机上执行的现实但具有挑战性的日常任务,以及 (ii) 获得一个大型、有代表性且多样性丰富的样本——尤其是在年龄、表达的性别、认知能力和计算机技能方面。

2.1. 伦理

该研究方案遵守《赫尔辛基宣言》(WMA, 2013)的伦理原则和芬兰国家研究诚信委员会 TENK 的指南(Kohonen et al., 2019)。已获得每位参与者的书面知情同意。

2.2. 预注册

在收集数据之前,预注册文档已发布在开放科学基金会 (OSF) 项目存储库中2。只有一项工作偏离了规定的协议:由于招募老年男性存在困难,最终样本量略小于计划的样本量。

2.3. 参与者

通过我们的抽样过程,我们的目标是根据表达的 性别年龄 进行分层:58% 为女性 (N=51),42% 为男性 (N=37),年龄 在三个范围内均匀分布:[20,35)、[35,50) 和 [50,65](参见 附录 D)。招募的标准包括:具有法律资格的 20-65 岁成年人,具有正常或已矫正的正常视力,精通芬兰语,没有被诊断出患有特定的学习障碍,并且在测试时处于雇佣关系中。最终样本包括 88 名参与者,在所有表达的性别和年龄段中分布均匀(N=88,χ2=2.54,p=.281)。数据收集在 2022 年 9 月至 2023 年 2 月之间进行。预注册材料(上面的链接)包含样本量估计和功效分析。

2.4. 任务和材料

我们的目标是创建一个多样化且具有代表性的任务集,考虑任务难度和工作量差异。任务集经过迭代设计,以涵盖在社会中运作所需的日常计算机任务(Wilson et al., 2015)。附录 E 任务说明附录 F 任务屏幕截图 介绍了每个任务的说明以及屏幕截图库。 每个任务包括几个子任务,分为 核心 (对于完成任务至关重要)和 附加 (与成功相关但并非至关重要)类别。这使我们能够捕获高绩效参与者之间的更多差异。每个任务都应在三分钟内完成。之所以设置此限制,是为了能够在保持会话长度合理的同时测试参与者执行各种任务的能力。通过一项试点研究对挑战级别进行了校准,其详细信息在我们的预注册文档 (?) 中报告。校准的目的是避免地板效应和天花板效应,同时保持任务的现实性。附录 G 任务表现中的个体差异附录 H 任务差异 分别显示个体差异和任务差异。从这些数字中,我们看到校准成功地确保了在给定的时间限制下任务是现实的。 实验使用了 Windows 10 操作系统,但使用 Windows Subsystem for Linux 运行 Ubuntu 的命令行处理任务除外。在每次试验之前,操作系统都使用 Windows 的“系统还原”功能恢复到试验前的快照。键盘和鼠标作为输入设备提供。

2.5. 实验设计

该实验遵循受试者内设计,其中参与者每次接受测试,每次进行两个会话。在第一个会话(会话 1)中,参与者完成了计算机化任务并提供了对问卷项目的答复。任务顺序为每位参与者随机分配。在第二个会话(会话 2)中,我们进行了 WAIS-IV 认知能力评估(见下文)。

2.6. 程序

在会话 1 开始时,会向参与者简要口头概述该程序,以确保他们清楚地了解研究、其目标和所涉及的任务。然后请求知情同意,之后向参与者提供 CUSE 问卷以完成(如下所述)。接下来,指导参与者完成书面说明列表,以确保标准化任务管理。指示参与者在屏幕上出现说明后立即开始每个任务,即启动计时器的时间。说明在整个任务过程中保持可见。没有显示计时器;相反,当任务时间还剩 30 秒时,参与者会收到一个简单的声音警报。如果时间在任务中间到期,参与者将被打断并被要求停止。在校准眼动仪并完成练习任务以熟悉条件后,参与者口头确认已准备好开始。此时,将显示前半部分的任务,并在每个任务后通过基于浏览器的界面管理特定于任务的问卷。在休息两分钟后,继续进行后半部分的任务。一旦完成 18 个计算机化任务,要求参与者回答背景问卷。会话 1 以两项计算机化认知测试(Antisaccade 和 Selective Visual Arrays)结束。 会话 2 在不同的场合举行,以最大限度地减少疲劳的潜在影响。WAIS 子测试的计时、顺序和其他管理方面均按照 WAIS-IV 手册(Wechsler, 2008a)中指定的 manner 进行处理。没有安排休息时间,但允许参与者在请求时在任务之间短暂休息。

2.7. 实验设置

两个会话均在隔音且光线可控的测试室内完成。在会话 1 中,有一个计算机显示器用于任务说明(在左侧),一个显示器用于完成计算机化任务(在工作区的中心)。眼动仪位于后一个屏幕下方。指导员不显眼地驻扎在参与者的视野之外,通过远程连接监视测试屏幕。在会话 2 中,参与者和测试管理员面对面坐在桌子旁。

2.7.1. 与性能相关的指标

我们测量了以下特定于任务的变量:任务成功经过的时间心理负荷熟悉度。第一个变量捕获成功完成的工作的比例,而时间变量是指完成每个任务的核心子任务所花费的时间。使用 Python SQLite(版本 3.33.0)收集任务结果和问卷回复。

2.7.2. 认知能力测量

我们通过韦氏成人智力量表(WAIS)第四版(Wechsler, 2008a)估计了一般认知能力(Full-Scale IQ)。作为核心电池的一部分,使用子测试“相似性”、“词汇”、“信息”测试 语言理解;使用“积木设计”、“矩阵推理”、“视觉拼图”测试 知觉推理;使用“数字广度”、“算术”测试 工作记忆;以及使用“符号搜索”、“编码”测试 处理速度。该评估由心理学硕士生在有执照的心理学家的监督下亲自进行。虽然大多数子测试都是口头进行的,但有些涉及使用图片、铅笔标记和手动操作物体。 为了评估执行功能,我们采用了基于准确性的 Antisaccade 工具来捕获 响应抑制 变量,并使用选择性视觉阵列来捕获 注意力控制,基于最佳实践(Draheim et al., 2021)。在前一种测试中,参与者的任务是通过在提示刺激的相反方向(左或右)进行扫视来抑制干扰因素,并在目标刺激被屏蔽之前识别目标刺激;在后一种测试中,参与者必须注意蓝色或红色阵列,并提供指示两个连续阵列配置之间是否发生任何变化的响应(首先简要显示提示)。这些测试是使用 E-Prime(版本 3.0)完成的。

2.7.3. 眼动测量

使用 GP3 HD 眼动仪(150 Hz,精度 0.5–1°)和 Gazepoint Analysis(版本 6.8.0)测量眼动。根据注视点,我们计算了以下统计数据:注视计数注视持续时间屏幕外注视探索行为。这些是针对所有任务和参与者,根据给定任务的前 60 秒内发生的注视计算得出的。“注视计数”表示注视的绝对数量,“注视持续时间”表示它们的平均持续时间,“屏幕外注视”表示它们在屏幕区域之外的百分比,“探索行为”表示屏幕内注视的离散度。在使用二维高斯内核对每个注视点应用卷积(对 1° 的凝视进行建模)之后,离散度计算为注视热图中的非零像素计数除以热图中的像素总数。我们的离散度测量与眼动追踪文献中注视扩散的标准测量一致,例如“空间密度”(参见 Goldberg and Kotval, 1999Moacdieh and Sarter, 2015),其中显示区域被划分为一个网格,并且至少有一个注视的单元格数除以单元格总数。但是,我们在应用卷积后计算比例的方法以及使用像素大小的单元格使我们能够避免离散化的极端影响并在测量中获得更多的“平滑度”。

2.7.4. 调查工具

问卷调查要么重复进行,在每次任务后进行,要么只进行一次。评估的两个特定于任务的变量是 (i) 主观精神工作负荷 (心理负荷),通过 NASA 任务负荷指数(Hart and Staveland, 1988)来衡量,缩小范围以排除身体需求,以及 (ii) 任务熟悉程度 (熟悉度),通过自我评估的界面和任务熟悉程度的线性组合来衡量,每项都以 0 到 100 的等级进行评分。测量任务熟悉程度是为了考虑特定任务的先前知识,并且指示参与者在其主观估计中包括类似的模拟任务(例如,具有不同银行的在线银行系统)。书面问题为:“您多久执行一次类似的任务?”另一方面,测量界面熟悉程度是为了考虑在使用任务期间遇到的那些系统方面的先前经验。书面问题为:“您对芬兰语/英语软件有多熟悉[每种语言一个问题]?”与任务和界面相比,操作系统的熟悉程度是作为背景问卷(接下来介绍)的一部分单独测量的。 我们通过计算机用户自我效能量表测量了自我效能 (CUSE)(Cassidy and Eachus, 2002);收集了诸如 年龄性别教育程度 等人口统计详细信息;并收集了有关先前计算机使用情况 (暴露程度) 的背景信息,例如每周的平均使用小时数以及与移动设备和操作系统使用相关的数据,这些数据用于控制在操作相关任务的操作系统和更普遍地使用计算系统方面的先前经验。我们使用多伦多医院警觉性测试 (THAT) 测量了基线警觉性(Shapiro et al., 2006),但在确认它是相关因变量的非显着预测因子后,从我们的分析中删除了该变量。

2.8. 数据分析

在对认知能力的影响进行统计检验之前,我们还必须确定样本是否表现出足够的方差以进行进一步分析。任务表现和认知能力方面的巨大个体差异确实很明显。“任务成功”的平均值落在 16.5–91.4% 的范围内(平均值:64.5,标准差:16.1),并且平均“经过的时间”的范围是 53–176 秒(平均值:108.9,标准差 24.7)。有关详细信息,请参见附录 G。“Full-Scale IQ”的值从 78 到 140 不等(平均值:109.5,标准差:13.3)。如下所述的统计测试深入研究了后一个变量与“任务成功”的正相关关系以及与“经过的时间”和“心理负荷”的负相关关系。他们揭示了 18 项任务在难度级别上有所不同(参见附录 H)。 进行了几项统计分析。首先,在跨任务平均的连续预测变量和结果变量之间计算了偏相关(控制年龄、性别和教育程度)(图 2)。其次,使用包含四个块/模型的层次线性回归分析来分析平均数据(超过计算机任务)(图 3)。第三,针对每项任务分别重复进行层次线性回归分析。人口统计因素在第一个块中,认知变量或与经验相关的变量在第二个块中(图 4)。第四,通过用四个 WAIS 子量表替换“Full-Scale IQ”,针对每项任务分别重复进行线性回归分析(图 5)。第五,进行了一个以任务为随机因素的线性混合效应分析。使用不同的认知预测变量来找到数据的最佳模型(表 2)。最后,进行了一个将眼动变量添加到模型中的线性混合效应分析。在回归分析中,从 VIF 值检查了无多重共线性假设(所有值都低于 2)。残差在所有分析中均呈正态分布,但在少数特定于任务的回归分析中除外。数据分析是使用 Matlab、Rstudio 和 jamovi 进行的。

2.9. 数据可用性

数据集的完全匿名版本将在项目的 OSF 页面上提供。所有分析脚本将在发布之前发布。

3. 结果

在下文中,我们将报告我们的发现,首先是从认知能力的一般影响开始,然后继续与其他因素进行比较。然后,我们分析认知成分的影响,并查看它们的任务特定程度。最后,我们报告了个体之间在眼动方面的差异。始终使用 斜体字 表示因变量和预测变量,使用小写字母表示分块的因素。

3.1. 认知能力预测一般表现

我们的主要发现是,一般认知能力是计算机任务表现的重要预测指标。图 2 总结了这一点:在调整 年龄、表达的 性别教育程度 后,“Full-Scale IQ”(WAIS 第四版;Wechsler, 2008b) 与所有三个结果都具有显着关联:任务成功(完成任务的比例)、经过的时间心理负荷(NASA-TLX;Hart and Staveland, 1988)。 任务成功 与“Full-Scale IQ”、“知觉推理”、“响应抑制”、“工作记忆”和“计算机用户自我效能 (CUSE)”的相关性最强。反过来,“经过的时间”与“CUSE”、“Full-Scale IQ”、“暴露程度”(使用频率和对计算平台的熟悉程度)、“知觉推理”和“响应抑制”呈负相关。最后,“心理负荷”对于较高的“Full-Scale IQ”和“注意力控制”较低。总而言之,与我们的假设一致,所有三个任务级别的结果都随一般认知能力而变化。

图 2. 预测因素与三个结果变量的相关性,已针对 年龄性别教育程度 进行调整。“Full-Scale IQ”和“注意力控制”与所有三个结果都显着相关。误差线表示标准误差。显着性水平:* p<.05,** p<.01,*** p<.001。

3.2. 认知能力的贡献与经验的贡献相当

为了更好地衡量能力与经验与人口统计因素的独立贡献,我们进行了具有四个预测变量块的层次线性回归分析:

经验(暴露程度熟悉度CUSE),

执行功能(响应抑制注意力控制)。

图 3 概述了回归分析结果。附录 A 中的表中提供了详细的细分。 认知能力比经验更能预测“任务成功”。这一结果令人惊讶,因为计算机使用的能力传统上归因于习得的技能(Iñiguez-Berrozpe and Boeren, 2020Wicht et al., 2021)。认知能力 (7.9%) 和执行功能 (2.8%) 共同解释了“任务成功”中略多于 10% 的方差,而经验占 6.9%(参见表 1)。在完整模型中,我们发现“Full-Scale IQ”(p=.019),“响应抑制”(p=.030) 和“CUSE”(p=.020) 是更高“任务成功”的重要预测指标(参见附录 A)。总而言之,对于个人完成计算机上的日常任务的能力,认知能力至少与先前经验一样是好的预测指标。

图 3. 线性回归建模结果概述。红色向下三角形表示统计上显着的负相关,而绿色向上三角形表示统计上显着的正相关。灰色圆圈表示非显着相关。符号的大小是指标准化 beta 系数,也以数字形式印在三角形旁边。“年龄”是所有三个结果的有力预测指标,“教育程度”是“心理负荷”的有力预测指标。认知