用于多UxV管理的人机协作中智能体的透明度研究

ZZvvh2vjnmrpl4 2020-11-18

展开全文

牛博翻译

目标：在多机器人管理的人机协作环境中，我们研究了智能体透明度水平对操作员绩效、信任和工作负载的影响。

背景：参与者扮演了一个异构无人机（UxV）操作员的角色，并被指示通过计算机界面向UxV发出指令来完成各种任务。一个智能代理、智能体（IA）通过为每个任务推荐两个计划——最高建议和次要建议来协助参与者。

方法：在本实验中，采用了具有三个级别的智能体透明度的受试者内部设计。三个实验区各有八个任务，按透明度级别分组。在每个实验区，由于外部信息（例如指挥官的意图和情报），智能体IA的错误率是八分之三。收集了操作员的绩效、信任、工作负荷和可用性数据。

结果：结果表明，操作人员的绩效、信任和感知可用性随着透明度水平的增加而增加。主观和客观工作量数据表明，参与者的工作负荷并没有随着透明度的增加而增加。此外，作为透明度的函数，响应时间没有增加。

结论：以前的研究表明，增加透明度会以增加工作负荷和更长的响应时间为代价来提高性能和信任度，而我们的研究结果支持透明性在不增加额外成本的情况下提高性能效率的好处。

应用：目前的研究结果将有助于在军事环境下实施智能体（智能代理），并将为设计不同类型的UxV小组提供有用的数据。

关键词：智能体透明度、人机协作、多UxV管理

简介

异构无人机（UxV）团队的任务效率依赖于对不确定性的快速识别和管理，这些不确定性可能破坏团队安全完成复杂操作的能力。为了提高任务的效率，当今的许多操作者利用复杂的人机系统来监控无人系统，尽管这种交互可能会因信息流速率高而使操作者不堪重负（Chen、Barnes和HarperSciarini，2011；Paas和VanMerriënboer，1994）。特别是，未来的场景将需要一个人来监督多个无人系统，根据任务复杂程度，这可能很容易超过操作员的控制范围（Cummings&Mitchell，2008；Lewis，2013）。考虑到操作员工作过载的负面影响，智能体（IAs）已经开发出来，来减轻操作员的负担，同时提高人机协作整体绩效（Bradshaw等人，2008；Hardin&Goodrich，2009；Hwang等人，2008；参见Chen和Barnes，2014年的综述）。虽然IA有多种定义，但我们选择了与我们在本实验中提供给人类的IA最密切相关的定义。IA是指具有以下特征的实体：自主性、对环境的观察、对环境的行动，以及为实现某些目标而进行的活动（Russell&Norvig，2009）。

使用IAs的人类进行多机器人管理并非没有问题（Chen&Barnes，2014）。过去的研究表明，由于操作员难以理解IA的基本原理，操作员有时会对IA产生的输出的准确性和有效性提出质疑，从而导致IA的使用减少，并导致性能损失（Linegang等人，2006年）。研究人员建议，为了支持操作员在其任务环境中对IA的态势感知（SA），智能体需要对其推理过程和预测结果保持透明（Chen等人，2014；Lee&See，2004）。智能体透明性是IA以清晰有效的方式向人类操作员传达信息的能力，这使得操作者能够对系统及其行为建立一个精确的心智模型，从而对系统产生校准的信任（Chen et al.，2014；Lee&See，2004）。

增加智能体透明度对操作员工作量的影响，取决于所提供的信息量以及这些信息是否是操作员任务执行所需的信息（Lyons&Havig，2014）。如果实施得当，这些额外的界面元素可以通过帮助操作员了解智能体试图实现的目标以及操作员预期发生的事情来减少操作员的工作量，因此操作员不必亲自建立这些连接（Chen&Barnes，2014）。然而，更多的信息并不总是等同于相关和良好的信息。如果由向操作员显示的附加信息而引起信息处理的需求增加，增加了工作量，则显示器可能被视为可用性降低，并且受信任度降低。

Lee和See（2004）建议系统显示其目的、过程和性能（3Ps）以及各自的历史记录。为了避免让操作员不知所措，演示应采用简化形式，例如，集成的图形显示和简化的文本（Cook&Smallman，2008；Neyedli、Hollands和Jamieson，2011）。在本研究中，我们试图检查创建有效的“透明界面”所必需的信息水平，该界面不会引起操作员超负荷，特别是要解决三个问题：操作员绩效，操作员对IA的信任以及操作员的工作量。下一节将解释智能体透明性的概念以及我们的实验设计所基于的框架。

智能体透明度和态势感知

与高度自动化系统交互的人类面临着多重挑战：理解当前系统状态，理解其当前行为的原因，以及预测其未来行为（Sarter&Woods，1995）。因此，自动化系统的透明度已成为一个重要的研究领域（Lee&See，2004）。虽然有多种智能体透明度的定义（Chen等人，2014；Helldin，2014；Lyons&Havig，2014），但我们使用了Chen和同事（2014）提出的定义：“智能体透明度是指与界面的质量有关的能力，该界面可以使操作员理解智能体的意图，性能，未来计划和推理过程”（第2页）。透明度的目的不是将系统的所有功能、行为和决策依据传递给操作员。理想情况下，智能体应尽可能简洁地向操作员传递清晰有效的信息，从而使操作员能够在其任务环境中维持系统的适当态势感知而不会超负荷（Chen等人，2014；Lee&See，2004）。

为了确定必须提供给操作员以支持智能体透明度的基本信息，我们利用了基于态势感知的智能体透明度（SAT；Chen et al.，2014）模型。该模型以Endsley（1995）的SA模型为基础，描述了IA应该向人传递的信息，以使人类在其任务环境中具有适当的智能体SA。根据Endsley（1995）的说法，SA是动态环境中“个人的知识状态”（第36页）。在Endsley的模型中，态势感知有三个层次：感知（1级）、理解（2级）和预测（3级）。同样，SAT模型的第一级为操作员提供了有关IA当前状态、目标、意图和行动计划的基本信息；第二级为操作员提供了行动计划背后IA推理过程的信息，包括基本原理、能力、局限性，以及不同方案之间的权衡；第三个层次为操作员提供有关预测结果和计划成功或失败的可能性的信息（Chen等人，2014）。

SAT模型意味着，合并三个级别的透明度应支持操作员在其任务环境中对IA的态势感知，特别是IA的意图、推理、预测结果和不确定性。操作员对IA的意图、推理、预测结果和不确定性的态势感知应提高操作员的主观信任和信任校准，当IA正确时，这是适当的依赖，当IA不正确时这是正确的拒绝（Lee&See，2004）。在高风险的情况下，适当校准IA中的信任尤其重要，例如在军事行动中，过度信任和不信任可能是灾难性的（de Visser等人，2012；Freedy、Deviser、Weltman和Coeyman，2007；Groom&Nass，2007；Lee&See，2004；Parasuraman&Riley，1997）。尽管告知操作员IA不确定性似乎是提高信任校准的一种违反直觉的方法，但据报道，了解系统的局限性可提高决策过程中的信任校准和主观信任度（Dzindolet、Peterson、Pomranky、Pierce和Beck，2003；Lee&See，2004；Wang，Jamieson，&霍兰德，2009年）。

当前研究

我们模拟了一个异构的多UxV规划任务，参与者扮演一个操作员的角色，其工作是与智能规划智能体一起工作。目的是根据指挥官的意图、载具能力和环境限制，决定UxV应采取哪些行动，以确保任务成功。我们利用“绿野仙踪”（Riek，2012）技术，利用自适应协同/控制技术（IMPACT）系统模拟智能多UxV规划器的当前和未来能力，该系统目前是在美国国防部自主研究试点计划下开发的。IMPACT系统将“灵活的、以目标为导向的情景调用和人的自主交互与合作控制算法相结合，这些算法提供了近乎最优的任务分配和路径规划解决方案以及自适应/反应能力”（Draper，2013，第1页）。在这种情况下，“重头戏”是指协调多架UxV的脚本化计划，该计划由为特定任务选择适当资产的IA进行扩充（Douglass，2013；Miller&Parasuraman，2007）。

我们的目标是检查必要的信息水平，以创建一个有效和透明的界面，以支持人机协作管理多个UxV 。虽然存在不同类型的具有不同细节级别的智能体透明性，但我们重点关注的是，在其任务环境（基于SAT模型）中，支持操作员对智能体进行态势感知的透明性。我们假设，界面中更高级别的透明度应该促进有效的信任校准，而信任校准反过来又应该支持人机协作的整体绩效。当向界面添加额外信息时，工作负载是一个值得关注的问题，因为它可能会影响对系统的信任和感知的可用性。我们假设操作者的工作量会随着透明度水平的提高而减少，因为操作者不必对IA推荐计划和预测结果背后的推理进行推测。然而，我们也注意到，当向界面添加额外的信息时，增加的工作负载是一个有效的关注点，并且增加的工作负载可能会降低系统中感知的可用性（Bevan&Macleod，1994）。最后，先前的研究表明，个体差异因素，如操作员空间能力、注意力控制能力、视频游戏体验和工作记忆容量（Ahmed et al.，2014）可能会影响人机协作（见Chen&Barnes，2014，综述）。此外，还评估了这些因素对操作员绩效的影响。

方法

参与者

实验参与者包括UCF（Universityof Central Florida）的本科生和研究生。30名18至29岁的年轻人（18名男性，12名女性）通过在线参与者库被招募（M=21.2，SD（标准差）=2.3）。参与者被要求有正常或矫正的正常视力（包括没有色盲）。他们的参与时间大约为3小时，每小时可获得15美元的报酬。

仪器

模拟器. 基于美国空军研究实验室的FUSION界面（Spriggs，Boyer，&Bearden，2014）的定制计算机模拟器被用于本次研究（图1）。

图1。桌面模拟系统。

FUSION界面本身没有被利用，因为它不是为实验设计的。模拟器屏幕包括几个部分：一个视频窗口，参与者在其中观看UxV的移动并接收情报信息（intel）；一个任务分配窗口，参与者在其中收到任务目标；和一个决策窗口。在决策窗口中，参与者收到了有关载具能力、任务概要、情报和IA的两个计划建议的信息（计划A和计划B；图2）。任务分配窗口后，参与者对两个计划进行评估，并根据他们的判断选择最佳方案。参与者被指示使用三个指标来评估每一个计划（与IA使用的三个指标相同）：速度（每个UxV到达或执行任务的速度）、覆盖范围（UxV根据其传感器找到目标的能力）和能力（载具适合任务的程度）。每一种UxV都有一系列的强项和弱点（例如，可以长途飞行，可以隐身，或者是武器化），这些都可能影响到作战能力。

该系统通过链轮图形、文本框和不确定性信息向操作员提供透明度。链轮图形提供了关于三个重要计划属性的信息：速度、覆盖范围和能力。楔形物的大小表明了这个因素的重要性。楔子的颜色表明了该计划在多大程度上实现了这一因素，其中绿色表示高度适宜，黄色表示次优适合。文本框解释了影响IA决策的环境和UxV相关因素，显示了与三个计划属性中的每一个属性相关的信息。例如，文本框将被用来解释为什么一个特定的UxV或路线被用于另一个上。在UxV适配方面，大的UxV图标代表的是在这个情境下更为合适。例如，如果速度是最重要的因素，那么越快的UxV图标就越大。

眼动跟踪器. SMI（SensoMotoric Instruments）远程眼球跟踪装置（RED）用于收集眼部指标，以测量视觉注意力（H1offman&Subramaniam，1995）和工作负荷（Poole&Ball，2006；图1）。

调查和测试. 一份简短的调查问卷收集了基本的人口统计信息和电子游戏体验。报告每天或每周玩动作电子游戏的参与者被归类为动作电子游戏玩家（AVGPs；n=18；17名男性，1名女性）；所有其他参与者被归类为非AVGPs（n=12；11名女性，1名男性）。

用PowerPoint进行了九板的石原氏色觉测试。为了完全了解用户界面，需要正常的视觉。使用多维数据集比较测试（Ekstrom，French，&Harman，1976）和空间定向测验（Gugerty&Brooks，2004）来评估参与者的空间能力。这两个任务都测量了空间能力的相关但不同的组成部分（Hegarty&Waller，2004）：空间可视化（SpaV；物体的心理旋转）和空间定向（SpaO；环境的重新定向）。使用中位数分割法，我们将15名参与者分别分为高SpaV、低SpaV、高SpaO或低SpaO。我们使用了一个版本的操作员跨度任务（Conway等人，2005）来测量工作记忆容量（WMC）。使用中位数分割法，我们将17名参与者划分为低WMC，13名参与者为高WMC。

在开始实验任务之前，参与者接受了基于计算机的模拟器的培训。使用PowerPoint演示文稿和模拟器进行了大约1小时的培训。介绍了参与研究性实验的程序和协议。然后，参与者完成了与实验任务类似的针对每个透明度级别的培训任务。在每个透明度级别之后都会给出反馈。

图2。模拟器决策窗口。（功能任务目标情报信息决策）

在每个训练任务块完成后，参与者填写一份内部可用性调查问卷，根据该问卷，他们在决策窗口（例如链轮图形、文本框）上对每个方面的利用率进行排名。

在每个任务块完成后，参与者填写了系统可用性量表，一个10项总结性可用性调查（Brooke，1996）。参与者的感知工作负荷是用计算机版的NASA任务负荷指数量表（NASA-TLX；Hart&Staveland，1988）进行评估的。最后，参与者被要求从两个维度评估他们对IA的信任，（a）信息分析（对显示的信息和分析的信任）和（b）决策和行动选择（对IA的建议和决策的信任；Parasuraman、Sheridan和Wickens，2000年），使用由Jian、Bisantz和Drury（2000）开发的改进版的人与自动化之间的信任问卷。

步骤

在简要介绍了研究目的并给出知情同意后，参与者完成了人口统计学问卷和石原氏色盲测验。然后，参与者接受任务培训，持续了约45分钟，包括PowerPoint幻灯片和使用模拟器执行的培训任务。在培训期间，参与者被告知IA并不总是100%准确。培训结束后，参与者接受了18个评估任务，并被要求至少正确执行12个任务才能进入实验阶段。评估持续了大约40分钟。参与者休息5分钟，然后校准了眼动仪。

实验环节由八个任务的三个平衡块组成。在每一次任务中，参与者都控制着一队UxV（地面、空中和海上），执行军事外围防御任务。参与者收到情报和指挥官的意图，并用它们来选择IA推荐的计划之一。IA始终推荐两个计划：计划A（智能体的首选）和计划B（智能体的辅助或备用选择）。IA的首要选择是针对最重要的指标进行优化，该指标由楔块尺寸表示。例如，如果速度楔子是最大的，那么IA将优化播放速度，以尽快完成任务。IA的备用选择是针对另外两个指标之一进行优化。（如果速度是最重要的指标，则为覆盖率或能力）

图3。透明度级别为1的模拟器接口

对于八分之三的任务，B计划实际上是更好的计划，因为IA不知道这些信息（例如情报、指挥官的意图）。例如，指挥官的意图可以指示人类尽快完成任务，但由于IA没有意识到指挥官的意图，因此对能力进行了优化。错误率基于Wickens和Dixon（2007）的研究结果，即在性能方面，可靠性为70%的关键在于不可靠的自动化比缺乏自动化更糟糕。

实验采用了受试者内设计，以智能体透明度的三个层次（每个实验任务块对应一个透明度水平，由顺序和任务平衡）为自变量。透明度级别1包括一个基线条件，它提供了基本的计划信息（使用了哪些UxV及其使用的路径；图3）。透明度级别1+2包括级别1提供的所有信息，以及智能体通过文本框和链轮图形推荐计划背后的推理和基本原理（图4）。透明度级别1+2+3由以前的透明度级别提供的所有信息加上不确定性信息的投影-车辆图标、道路颜色、链轮图形楔块和文本框中的项目符号的不透明度指示了所讨论的因素是否有助于成功行动的不确定性（图5）。参与者没有被展示概率或可能性比较，只是信息不确定。例如，速度楔子可以是绿色的（这意味着这个指标很好地满足了这个计划），但不是完全不透明的颜色（这意味着它也是不确定的）。文本框中列出了不确定性的具体原因。例如，环境限制（例如，可能的风）可能会使某些车辆减速，从而降低速度。

参与者有2分钟的时间完成每个任务。实验过程持续了大约90分钟。在每个模块结束后，参与者完成了NASA-TLX、信任调查和系统可用性量表。总的来说，实验持续了大约4小时。

结果

我们对所有相关指标（包括个体差异数据）完成了一系列的混合方差分析（ANOVAs）和多变量方差分析（MANOVAs）。所有的事后比较都使用了Bonferroniα校正。我们用η²而不是部分η²报告效应大小，因为这些可以更容易地在研究中进行比较（Levine&Hullett，2002）。

操作员绩效

我们通过检查正确的IA使用和正确的IA拒绝来评估操作员的绩效。在每个透明度级别上对两个测量值进行重复测量MANOVA（多变量方差分析），以降低成对错误率，因为两者都是中度相关的（rs=0.26～.73），但相关性不是很强，因此有必要创建一个复合测量。该分析显示，使用Wilks的lambda准则，F（4，21）=7.15，p=.001，η²=.58，λ=.42，对透明度水平有显著的多元影响。

正确的IA使用率

结果正确使用IA的结果显示，透明度水平有显著的主要影响F（2，58）=12.33，p<.001，η²=.30（图6；表1）。事后比较显示，1+2+3级（p<0.001）和1+2级（p=0.003）参与者的正确的IA使用率显著高于1级。

图4。透明度级别1+2界面。包括描述智能体推荐计划基本原理的界面项目

图5。透明度级别1+2+3界面。透明项表示资源、路径或链轮图形的不确定性

正确的IA拒绝率

正确IA拒绝率的结果显示透明度水平的显著主要影响，F（2，58）=15.03，p<.001，η²=.34（图6；表1）。事后比较表明，1+2+3水平的受试者的正确IA拒绝率最高，显著高于1+2级（p=0.04），而1+2级又高于1级（p=0.013）。

工作记忆容量存在轻微显著的交互作用，F（2，56）=3.07，p=.054，η²=.01。高WMC个体在1级水平上的表现优于低WMC个体（d=0.92），但在其他条件下则没有表现（图7）。

图6。所有三个透明度级别的智能体（IA）正确使用率和IA正确拒绝率的正确百分比。数字越大表示性能越好。误差线是标准的平均误差

响应时间

在透明度水平之间，响应时间没有显著差异（表1），除了游戏经验外也没有任何显著的个人差异。结果显示游戏体验有显著的交互作用，F（2，56）=5.74，p=.005，η²=.17（图8）。在1级（d=0.61）和1+2+3级（d=0.26），AVGPs比非AVGPs有更快的响应时间。AVGPs对1+2级的反应时间比非AVGPs快，但交互作用不显著。然而，这一结果可能会被AVGP组中大量的男性和非AVGP组中的大量女性所混淆。

工作量

我们对每个加权的NASA-TLX子量表（图9）进行了6（NASA-TLX子量表）×3（透明度水平）重复测量MANOVA（多方差变量分析）。综合因变量（即全局工作负荷）的影响不显著，采用Wilks的lambda准则，F（12，18）=1.14，p=.39，η²=.43，λ=.57。使用单变量方差分析法在各个子量表中没有发现差异。

眼动

由于技术上的困难，我们只收集了25名参与者的眼球跟踪数据。我们利用眼动数据作为客观工作量的衡量标准。重复测量的结果MANOVA没有显示所有眼动变量（平均注视时间、瞳孔直径、眼跳幅度或眼跳持续时间）在透明度水平上的工作负荷差异。

我们发现SpaV对注视时间有交互作用，SpaO对瞳孔直径有主要影响，F（2，46）=6.19，p=.004，η²=.20（图10）。在1级（d=0.42）和1+2级（d=0.57），低SpaV个体的注视持续时间比高SpaV的个体长，而在1+2+3级（d=0.51）则相反。

在所有透明度水平上，高SpaO组（M=3.89，SD=0.17）的瞳孔直径大于低SpaO组（M=3.50，SD=0.03）。1级（d=1.04）的差异大于1+2+3级（d=0.96）或1+2级（d=0.82），F（1，23）=5.54，p=.027，η²=.19（图11）。

表1：按透明度水平衡量的操作员绩效和响应时间

透明度	M（标准差）	扫描电镜	95%置信区间
正确的IA使用率级别1	0.76（0.15）	0.028	[0.70，0.82]
1+2级	0.87（0.16）	0.023	[0.83，0.92]
1+2+3级	0.89（0.12）	0.022	[0.84，0.94]
正确的IA拒绝率 1级	0.55（0.20）	0.037	[0.47，0.62]
1+2级	0.67（0.18）	0.032	[0.60，0.74]
1+2+3级	0.81（0.20）	0.036	[0.73，0.88]
响应时间（ms） 1级	33.00（16.73）	3.06	[26.76，39.25]
1+2级	31.53（18.63）	3.40	[24.58，38.50]
1+2+3级	32.82（18.51）	3.38	[25.91，39.73]

注意. CI=置信区间。

图7。低工作记忆容量（WMC）和高工作记忆容量（WMC）组之间的个体差异，智能体（IA）在透明级别上的正确拒绝百分比。误差线表示均值的标准误差

图8。动作游戏玩家（AVGPs）和非AVGPs玩家在游戏体验上的个体差异在透明度水平上的反应时间。误差线代表均值的标准差

信任

我们在信息分析和决策以及行动选择子量表上分别进行了两个受试者之间的方差分析。只使用了第一个块的信任评估，因为信任评级可能会基于智能体的先前经验（即先前的区块）而有所偏差。信息分析子量表的透明度水平无显著差异，F（2，27）=2.14，p=.14，η²=.14（表2）。

决策和行动选择子量表的结果对透明度水平有显著影响，F（2，27）=4.01，p=.03，η²=.23（表2）。随着透明度水平的提高，人们对系统提出的建议或决策能力的信任度增加。事后分析显示，1+2+3级组的信任度显著高于1级组（p=0.031）。然而，1+2+3级和1+2级之间以及1+2级和1级之间没有显著差异。

图9。平均加权NASA任务负荷指数子量表表示每个透明度水平的平均值。误差线是平均值的标准误差

图10。低空间可视化和高空间可视化（SpaV）组在透明度水平上注视持续时间的个体差异。误差线表示平均值的标准误差

系统可用性

我们对系统可用性进行了重复测量混合方差分析（ANOVA）。分析显示，透明度水平有显著影响，F（2，48）=5.70，p=.006，η²=.11。事后比较表明，与1级（表2）相比，参与者发现该系统在透明度级别1+2+3（p=0.02）和级别1+2（p=0.07）中更有用。

讨论

我们研究了在多机器人管理人机协同的背景下下，智能体透明度水平对操作员任务绩效、信任和工作量的影响。绩效数据显示，受试者的正确拒绝准确率与透明度水平相关，而正确的IA使用率仅从1级提高到1+2级。在1+2水平上增加推理信息，正确IA使用率提高了11%，正确拒绝率提高了12%。不确定度信息的添加（1+2+3级与1+2级相比）提高了IA的正确使用率（2%），正确拒绝率提高了14%。

图11。低空间定向和高空间定向（SpaO）组在透明度水平上注视持续时间的个体差异。误差线表示均值的标准差

表2：信任子量表和系统可用性量表（SUS）的透明度水平结果

透明度	米（标准差）	扫描电镜	95%置信区间
信息分析信任子量表 1级	5.19（0.70）	0.22	[4.69，5.69]
2+1级	5.51（0.73）	0.23	[5.00，6.03]
1+2+3级	5.83（0.63）	0.20	[5.37，6.28]
决策和行动选择信任子量表 1级	4.63（0.88）	0.28	[4.00，5.25]
1+2级	4.88（0.50）	0.16	[4.52，5.24]
1+2+3级	5.47（0.61）	0.19	[5.03，5.91]
SUS总水平 1级	61.83（20.77）	3.79	[54.08，69.59]
1+2级	66.42（18.61）	3.40	[59.47，73.37]
1+2+3层	66.75（19.40）	3.54	[59.51，74.00]

注意. CI=置信区间。

将这些结果与响应时间和工作负载数据结合使用时，显示屏中的其他透明元素可以在不增加工作负载或响应时间的情况下提高性能。在透明度更高的情况下，绩效改善的另一种解释是，附加信息可能会导致参与者在决策过程中更加小心，而不是使用基本原理或不确定性显示。如果这个解释是正确的，我们预计响应时间会随着透明度的提高而增加，但是这个结果没有被观察到（表1）。此外，参与者报告说，链轮图形和文本表格是他们决策时最有用的显示元素。这些数据（包括绩效和自我报告）表明，将推理和不确定性信息成功地纳入异构战术决策中，可以使我们的参与者能够做出更好的校准决策。这一发现与Helldin（2014）一致，尽管我们研究中的性能改进并不是以延长响应时间为代价的，正如Helldin报告的那样。

先前的研究表明，信任太少或太多会导致自动化系统的废弃或滥用（Parasuraman&Riley，1997年）。相反，我们的参与者接受了IA的正确建议，但（正确地）拒绝了不正确的建议，他们对IA的建议表现出了适当的信任校准。综合起来，正确的IA使用率和正确的IA拒绝率表明，参与者的信任校准随着透明度水平的增加而增加。这一结果与Oduor和Wiebe（2008）的研究结果一致，其中透明度提高了人机联合决策环境下的操作员信任校准和绩效。

操作员的表现因WMC和游戏体验的个体差异而不同。在1级中，WMC较高的个体表现优于WMC较低的个体（正确拒绝）。第1级只向个人提供基本信息，这反过来又要求个人在作出决定之前处理和综合这些信息。据推测，具有较高WMC的个体更准确地识别出错误的建议，这是因为他们能够在工作记忆中保存做出判断所需的信息。我们的发现支持先前的研究，这表明低WMC的个体更可能依赖启发式来减轻他们的记忆负荷（Quayle&Ball，2000），但是智能体界面透明度的提高缩小了低WMC个体和高WMC个体之间的性能差距。

使用操作员绩效作为信任度的客观衡量标准，只揭示了参与者对IA信任的一个方面。参与者可能不信任该系统，并在不考虑IA建议的情况下手动解决每个任务（Parasuraman&Riley，1997）。所以，我们使用主观信任量表来调查参和者对IA可信度的看法。建议或决策子量表的结果提供了证据，表明当系统更透明时，参与者更信任IA的建议。总的来说，由于参与者获得了更多的透明度，他们（正确地）拒绝了智能体的错误建议，但更多的是信任它。信任的增加可能是因为一个更透明的智能体显示推理的解释和传递相关的不确定性，被认为比推理不明显的智能体更人性化、智能化和可信（de Visser等人，2012年；Jian等人，2000年）。另一种解释可能是，在向操作员提供推理和相关的不确定性信息时，IA可以更好地理解系统的局限性，从而增加操作员的信任。

这种关系也揭示了Wickens和Dixon（2007）的研究结果，即可靠性低于70%的自动化可能对性能没有帮助。我们的结果表明，当自动化推理是透明的时，操作者的信任度校准得到了增强，即使在自动化的可靠性低于70%的情况下，也可以提高主观信任度和性能。最后，系统可用性量表的研究结果也显示了透明度的好处，因为结果表明参与者对系统可用性的感知随着透明度水平的增加而增加。

先前的研究表明，由于信息处理需求的增加，向操作员显示更多信息时，工作负荷和响应时间会增加，特别是在精神负荷和精力较高的情况下（Helldin，2014；Zuk&Carpendale，2007）。相比之下，我们的NASA-TLX和眼睛跟踪的工作量数据以及反应时间没有显示出透明度的增加。然而，当研究个体差异时，我们发现SpaV较低的参与者在1级和1+2级有较长的注视持续时间，这可能是因为这些个体在做出决定之前需要较长时间处理屏幕上的信息。这一发现表明，当涉及到智能体透明性（尤其是不确定性信息）时，空间能力可能对操作者的响应时间产生不同的影响，但更重要的是，确定了进一步研究的必要性。此外，与先前的研究（Rayner，2009）相比，我们发现在所有透明度水平上，高SpaO个体的瞳孔直径更大。然而，正如Rayner（2009）所提到的，瞳孔直径和SpaO之间的关系可能会随着实验任务向模拟真实任务靠拢而改变。我们的研究结果与Rayner的研究结果表明，瞳孔直径与SpaO之间的关系可能是任务特定的。

局限性

综上所述，我们的研究结果表明，透明度的好处未必会带来速度和工作量方面的潜在成本。此外，更透明的IA会产生更高级别的信任和可感知的可用性。然而，当前研究中模拟的智能体行为基于当前正在开发的IMPACT系统的实际能力，但是在模拟中IMPACT的一个关键功能被有意地移除：操作员手动“调整”智能体的推荐计划。由于本研究的目的是调查透明度水平对操作员决策的影响，因此有必要对参与者的行为进行更大的控制（即从两个选择中进行选择，而不是提出自己的解决方案），以使参与者响应的可变性保持可控。后续研究应在更现实的任务环境中测试透明度的效果，并允许操作员修改智能体的建议计划。目前的研究代表了我们为证明智能体透明度对人类决策有效性的潜在效用所做的的初步努力。