【原】《确保美国国防系统作战优势的必要国防部射程能力：未来战斗测试（2021 年）》151页

星星啊月亮呀 2022-05-08 发布于北京

展开全文

测试人工智能和自主系统

正如委员会从多个消息来源听到的那样，OT&E-以及整个T&E面临的最大软件挑战可能是在人工智能软件和基于人工智能的自主系统领域。人工智能和自主系统预计将在未来几十年内在国家国防中发挥重要作用(Ray等人，2020年)，但到目前为止，为这类系统的测试做准备的工作相对较少。例如，在研讨会上，美国国防部联合人工智能中心(JAIC)测试、评估和评估负责人简·皮内利斯(Jane Pinelis)表示，军方的测试和评估能力“一直跟不上人工智能技术发展的速度”(Nasem，2021)。在对各个靶场的实地考察中，委员会成员多次听说，靶场完全没有准备好测试运行人工智能的系统，包括自主系统。人工智能和自主系统的测试对靶场来说是具有挑战性的，原因有很多。这是一个正在取得快速进步的技术领域，这意味着很难预测和准备可能采用人工智能的各种系统，也很难预测这些系统的能力可能是什么。但是，在某种程度上，这适用于任何正在取得快速进步的技术。然而，由于人工智能和自主系统的性质，它们构成了不同于其他任何系统的测试挑战。

例如，美国空军测试和评估主任德文·凯特(Devin Cate)在研讨会期间告诉委员会，由于人工智能和自主系统是学习系统，它们在测试过程中不可避免地会发生变化和演变，这使得以可重复的方式表征它们的性能变得困难。他建议，解决这个问题将需要测试企业与系统开发人员密切合作，以便从一开始就考虑到测试来设计支持人工智能的自主系统；特别是，他建议，设计这些系统以收集表征和判断其性能所需的所有数据将是有用的(Nasem，2021年)。另一个测试挑战将是简单地设定这些系统的性能目标，因为很难在系统的具体性能参数和操作或任务测试结果之间建立联系。当测试涉及人类与人工智能或自主系统合作时，事情变得更加复杂。为了评估这些系统在实际任务中的表现，进行这种综合测试将是至关重要的，但目前还没有一种成熟的方法来进行这种组合的测试。测试人工智能和自主系统最具挑战性的方面可能是确定如何检测和评估紧急行为-系统采取的行动并未编程到其中，而是作为系统各种组件之间复杂交互的结果或由于机器学习而出现的。一个非军事的例子是人工智能国际象棋系统选择国际象棋走法-机器通过自己对国际象棋的研究来选择走法，机器的创造者在下棋之前不知道下什么棋。例如，可以通过让一台下棋计算机与人类特级大师(或与其他下棋计算机)下多盘棋来判断它的性能。然而，目前尚不清楚如何判断人工智能军事系统中将出现的紧急行为。正如皮内利斯在研讨会上所说，“我们需要定义、诊断和理解突发行为的方法，以及人员培训，这样操作员才能在突发行为发生时识别它，并在不受欢迎的情况下采取措施。”

一个相关的问题是，在评估人工智能驱动的系统时，如何判断特定的表现-决定什么是“及格”。负责采购、技术和后勤的空军助理部长、首席科学家马克·伯恩斯坦(Marc Bernstein)在研讨会上提到了这一点。他以空军正在开发的先进作战管理系统(ABMS)为例。正确评估ABMS将需要在复杂的环境中对其进行测试，在复杂的环境中，没有单个“正确”的操作，而是一组选项，每个选项都有自己的优缺点，因此“最佳”选择是一个判断决定。他问道，你是如何在这样一个模棱两可的灰色环境中进行作战测试和评估的？此外，考虑到人工智能系统进行自己的“思考”，而不是简单地按照程序设计的方式行事，人工智能系统很有可能会得出一个与其评估者认为最好的解决方案不同的最佳解决方案-甚至可能会提出其评估者从未想过的解决方案-在这些情况下，可能很难(如果不是不可能)准确地判断系统的性能。格兰特在研讨会上还指出了另一个问题。在自动驾驶车辆上测试武器系统时，如果武器可能在人工智能的控制之下，鉴于人工智能的决定通常不可预测，如何确保靶场上其他人的安全？(纳赛姆，2021年)。考虑到所有这些考虑因素，以及被测试的人工智能系统可能会产生一些非常严重的后果，Pinelis在研讨会上表示，至关重要的是，国防部“将人工智能系统的测试和评估推到它在科学、数据、知识、技能、劳动力和基础设施方面所需要的地方”(Nasem，2021年，p.3)。在同一次研讨会上，杜克大学(Duke University)电气与计算机工程系教授米西·卡明斯(Missy Cummings)对自主系统建模的难度提出了发人深省的警告。“模拟也许可以帮助你在自主系统的早期阶段做一些婴儿测试，但它根本不能代表真实世界的不确定性”(Nasem，2021年，p.9)。在对文献和现场访问讨论的审查中，委员会发现，靶场没有为人工智能和自主系统的测试和评估做好充分的准备。

至关重要的是，项目经理、TRMC和DOT&E要认识到，由于不断变化的数据、人工智能集成和类似的技术进步而不断发展的下一代系统将需要新的测试方法。例如，ABMS处理大量数据，为联合领域战场上的决策提供信息。或者，自主系统需要在人机团队集成方面做更多的工作。鉴于数据的变化将导致不同的输出，测试不断发展的ABMS可能需要年复一年的持续操作测试演习，以确保其适用性和生存性。有必要进行进一步的研究，以推进测试技术和策略，以测试人工智能和自主系统的集成。