【RAND】人工智能系统用于作战的局限性——任务规划

taotao_2016 2024-03-21 发布于北京

展开全文

2022年新春大礼包 | 2021年新春大礼包 | 2019学术大礼包丨2018学术大礼包丨2017不可以错过的重磅报告丨加入学术plus

2024年1月，兰德公司发布《人工智能系统用于作战的局限性》系列报告。该系列报告的研究动因是美国空军对人工智能 (AI) 增强作战各个方面的潜力越来越重视，因此兰德公司的研究人员选取了四种特定的作战应用样例开展研究：网络安全、预测性维护、兵棋推演和任务规划。选择这些应用样例是为了代表各种可能的用途，同时强调了AI在各种不同作战样例的局限性。本报告的第五卷，主要面向对任务规划、作战研究和AI应用感兴趣的人，描述了如何使用AI进行任务规划，以及这些方法与传统的运筹学方法之间的差异。

前期回顾

【RAND】人工智能系统用于作战的局限性——网络安全

【RAND】人工智能系统用于作战的局限性——预测性维护

【RAND】人工智能系统用于作战的局限性——兵棋推演

【RAND】人工智能系统用于作战的局限性——任务规划

编译：学术plus高级观察员玺鉴

内容主要整理自外文网站相关资料

仅供学习参考，欢迎交流指正！

文章观点不代表本机构立场

*****

一

概述

空中作战中心（AOC）的规划者基于特定的联合综合优先目标列表来分配武器和平台，并通过空中攻击计划过程实现指挥官的作战目标。根据这些要求，中队的任务规划人员将进行详细的任务路线规划。在任务规划过程中花费的大部分时间都用于收集来自不同机构的数据，翻译数据，将数据输入软件，并持续生成简报。选择特定的打击方案或军事装备不会自动填充相关表格信息，因此需要手动输入并仔细检查以确保没有错误，因为错误的作战范围或有效雷达距离可能会导致灾难。

在与对手竞争激烈的环境中，目前72h的空中任务分配周期不足以开展空中作业。空军生命周期管理中心正在联合任务调度系统努力缩短这一时间。通过创建更快、更有效的规划软件，在现有的时间限制内加快规划过程或制定更好的计划。本报告的重点是确定任务规划过程中可以通过人工智能增强的部分。

为了研究如何有效地利用人工智能进行任务规划，我们研究了类似系统。在过去十年中，AI系统在一度被认为需要人类智能的游戏中实现了高水平性能，且有过几次亮眼的展示。许多展示是在固定棋盘上进行的双方都可以获得完整信息的回合制游戏。而最近开发的AlphaStar人工智能系统，能够在《星际争霸II》游戏中超越人类。

AlphaStar是人工智能初创公司DeepMind创建的，该公司现由Alphabet（前身谷歌）所有。DeepMind在2016年AlphaGo战胜前职业围棋选手李·塞多尔（Lee Sedol）成功征服回合制游戏后，开始致力于掌握《星际争霸II》。《星际争霸II》是人工智能领域中强化学习（RL）能力最复杂、最强大的例子之一，体现了作战和战术指挥与控制的许多特征，包括面对未知事物（战争迷雾）时的关键决策。研究评估了从AlphaStar开发中获得的经验教训，以指导任务规划的哪个方面更适合使用人工智能。简而言之，AlphaStar的优势表明，战术层面的问题可能最适合人工智能，这促使我们探索人工智能用于任务规划。

（一）游戏人工智能：AlphaStar

AlphaStar在玩《星际争霸II》时展现的能力被研究用作评估AlphaStar人工智能优势的基础。《星际争霸II》是一款激烈的实时战略游戏，具有很强的国际竞争力。星际争霸II有三个游戏阶段包括：第一阶段，玩家建造建筑和军队，对方可以派遣部队进行骚扰或者侦察，玩家将选择升级和收购装备对抗敌人；第二阶段，部队将发生冲突，玩家将扩展到其他基地；最后阶段，升级被淡化，有利于部队赢得决定性的战斗。

与之前的游戏相比，《星际争霸II》提出了一个更难的AI问题，即在给定的时长内，平均有10²⁶种选择，相当于下棋过程中，每位棋手走了大约10步棋。《星际争霸II》中的每一个时间步骤都发生在几分之一秒内。在微观层面上，可选择数量是巨大的，使国际象棋或围棋等回合制游戏相形见绌。AlphaStar在战术决策和快速反应方面远远优于人类，它可以利用其多任务、战术层面的优势来弥补对战略理解的不足。

AlphaStar主要使用微观战略获胜，因为机器具有出色的多任务处理能力。它能够利用远程跟踪装置短程传送和充电护盾的优势，使玩家可以在死亡前的精确时刻传送离开，充电护盾，然后返回战斗。AlphaStar在多任务处理和战斗策略方面的优势足以击败职业人类玩家。

尽管有这样的优势，AlphaStar在游戏的其他领域相对较弱，包括缺乏侦察，易受攻击，以及无法在战场上制造障碍。AlphaStar在后期游戏中弥补了这些弱点，但即使在持续改进后，AlphaStar在策略方面仍有很多问题，这表明AlphaStar难以进行战略层面的决策。RL（强化学习）旨在帮助算法确定获得奖励的操作。在《星际争霸II》的微观操作中，战斗节奏很快，并且很容易将奖励归因于给定的动作。然而，将战斗的胜利成果归因于10000个时间步前精确定位一个阻塞点是一个更困难的问题。AlphaStar中，我们发现了两个关键点：

与人类相比，AlphaStar反应更快速，但不确定性下的战略决策较差。战略和作战规划能力将落后于快速反应和作战能力；
操作理解和反馈循环是不可替代的。AlphaStar的设计师包括《星际争霸》的特级大师玩家和纯AI专家，他们也在积极干预训练过程以纠正错误。

AlphaStar证明了AI擅长解决狭义问题。任务规划是AI在民用领域取得成功的一个领域，自动驾驶是最典型的例子。正确的路线规划可以最大限度地降低飞行员和系统的风险，减少敌人获取相关信息，并增加成功执行任务的可能性。尽管只是所有任务规划的一部分，但单独的软件包穿透敌方领空的规划已经包含足够复杂的元素（敌方阵地和多条可行路线），又不会使我们或读者过载（例如动态的敌方位置）。这也是美国空军（DAF）经常遇到的场景，因此可能值得研究，因为与训练人类完成任务相比，AI模型的前期成本相对较高，但AI模型更容易扩展到大规模。使用之前的RAND内部模型，我们探索了将AI用于该应用程序的可行性，将AI性能与优化方法进行比较，并评估其局限性。在本报告中，我们比较了任务规划的纯优化方法和纯强化学习方法，发现将这两种方法结合或在过程中包含有经验的人提出的混合解决方案结果更好。

二

RAND目标可达性模型研究

我们采用RAND目标可达性模型（RTAM）来检查一个经过训练的穿透敌方防空系统并到达目标点的机器学习（ML）模型，并与旨在实现相同目标的运筹学（OR）优化函数进行比较。考虑到现代ML提升速度和历史教训，我们不愿意将当前的任何限制定义为不可能。然而，通过检查系统中的相对优势和劣势，可以确定AI在执行哪些任务时相对更好或更差。只要ML中的当前范式（神经网络）继续领先，这就是一种相对安全的推断。

研究发现，OR方法几乎每次都能找到比ML模型更好的路径，而且ML模型的训练时间更长。一个模型的训练时间越长，意味着定义不明确的效用函数需要更长的时间。不过ML在适应性方面也有优势，它可以在给定新信息的情况下更快地做出决定。这在高度不确定的情况下尤为有价值：遭遇敌方资产的可能性更大，因为无法避免，但也更具信息量，因为遭遇敌方资产会提供更多关于其位置的信息。

（一）建模方法

RTAM是兰德公司在过去20年中开发的，旨在对替代方案进行同类分析，并广泛探索不同选项如何成功渗透不同的防空威胁区域。它提供了一个模拟环境，除其他任务之外，还适用于指挥飞行代理通过一个充满威胁的区域。该代理可以用控制器手动控制，也可以通过任何编程定义的输入来控制。可以手动调整目标代理的区域大小，并且系统支持预先填充的已知威胁和可以动态添加到模拟中的弹出威胁。我们使用了一架现有的RTAM无人机模型，试图在现已废弃的半自动地面环境（SAGE）预警雷达网络中穿越美国大陆（CONUS），尽可能避免被发现，并导航到内陆的特定任务目标。为了简单、清晰和训练速度，我们检查了从单个起点到单个终点的遍历：当添加额外的目标并确定这些目标的顺序时，我们不希望我们的定性结果发生变化。

如图2.1所示，OR方法将连续的宇宙划分成有边的离散空间以跨越目标区域。给定一个指定的效用函数（主要是为了最小化敌方雷达探测），OR的目标是在可能的边缘内找到数学上最优的路径，计算每个边缘的风险，并通过类似Dijkstra的算法确定风险最低的路径。当地理精确模型使用更离散的空间时，需要更多的时间来计算路径时，就会存在权衡。

图2.1显示节点边缘离散化的RAND目标可达性模型图

这种机器学习方法（ML）采用强化学习方式（RL）。我们使用Stable Baselines3 RL PyTorch神经网络库，并使用近似策略优化（PPO）算法训练模型，成功地训练RL算法是相当具有挑战性的。利用课程学习的概念，我们首先进行了简单的达到目标行为的训练，忽略了早期预警雷达的检测（课程学习是一种训练策略，模仿人类的学习过程，主张让模型先从容易的样本开始学习，并逐渐进阶到复杂的样本和知识）。在算法生成了可靠的目标搜索强化学习代理（可以从任何起始位置找到任何目标）之后，我们进行了早期预警雷达避让行为的训练，采用连续的训练会话，从基本的达到目标模型开始。奖励函数将进行调整以激励所需的行为，在每个后续训练探索序列之后都进行了模型测试和评估。虽然逻辑回归的损失函数和强化学习的奖励函数由于算法差异而无法直接进行比较，但两个函数都旨在找到通往目标的最短路径，同时尽可能的减少雷达探测总时间。强化学习的奖励函数需要更多条款，例如接近目标奖励、转向惩罚以及燃料消耗惩罚。

图2.2 RAND目标可达性模型中部分训练的机器学习模型路径

图2.2是在训练ML模型过程中从RTAM截取的图像。飞行路线的红色部分表明该飞行器正在被雷达站点监测并处于危险之中。黑色部分距离雷达站足够远，不会受到威胁。隐约跟踪的线条是最近十个场景中的路径，代理在这些场景中接受训练，其起始位置和结束目标位置不同。

目前图中所示的路径看起来就很低效：要使模型与OR方法相比具有竞争力，需要做大量的工作来指定效用函数和环境，然后经过数千次训练循环。这个过程从来都不是完美的，需要多次重复修改效用函数或训练风格。与OR公式的几秒钟相比，每次迭代将花费数小时，从而导致更慢的“观察-定位-决策-行动”循环。这降低了最终模型的质量，并大幅增加了成本。这一缺点可以通过强大的服务器和经验丰富的工程师得到改善，但无法消除。培训只需离线进行一次，经过培训的代理便可多次投入运营。但是，在RTAM，训练对飞机特征、威胁沉积、密度和类型很敏感，这使得真正的通用路线规划RL具有挑战性，但更具针对性。

RTAM OR以探测时间和发射机会期望值的形式提供单一的分析解决方案，每次运行的期望值没有变化。另一方面，ML方法会有很大的不同，经过训练的RL在本质上是随机的，因此在我们的分析中，我们在每个目标上尝试了10次，并选择了最好的一次。当RL计算路径所需的时间为毫秒时，根据现实世界的时间轴，存在大量寻找最优解的机会。

（二）量化运筹学与机器学习性能：经验风险

我们采用了几种方法来描述这两者之间的差异。图2.3显示了进近过程中敌方探测半径的总时间，图2.4显示了当飞机从大西洋中部的起始位置（经纬度分别为34.86度和-61.85度）飞行时，由ML模型计算的敌方探测半径的总时间。这些起始位置在图2.3和2.4中用黑色菱形表示。其他点代表遍布美国本土的目标位置，当代理穿越或绕过预警雷达威胁时，这些目标位置通过具有不同风险级别的路径到达。在大多数情况下，OR方法为每个目标产生一个较低的风险选项（从这个特定的起始位置开始），范围在0到2.76之间（注意图2.3右侧的风险等级）。相比之下，对于美国最西边的目标，ML模型的风险水平高达8.18。

图2.3 OR路径目标期间的风险水平

图2.4 ML路径进入目标期间的风险等级

图2.5有效地结合了图2.3和图2.4。蓝色目标位置表示ML模型优于OR模型的地方，橙色显示的是风险等级。ML仅在16%的测试地点表现较好，风险水平平均比OR水平低0.5。ML模型往往在接近更接近起点且更直接的目标时表现更好。

图2.5 RAND目标可达性模型图像、运筹学和机器学习优势图

相同的数据以另外两种方式呈现，以进一步说明ML模型在该领域的局限性。图2.6显示了所有目标风险等级的直方图。ML模型的风险等级用蓝色表示，OR模型的风险等级用橙色表示。

图2.6 所有目标风险等级的直方图

图2.6中两种模型的1376个目标位置的风险水平重叠直方图显示了明显的差异。不出所料，大多数OR模型风险水平低于ML水平。ML表现更好的16%的目标位于两个直方图的重叠部分内。ML模型的分布也更加平坦，具有相对更高的异常风险和异常安全的路径。OR模型的高峰值则是代表其更稳定。

图2.7 运筹学与机器学习结果图

最后，图2.7以散点图的形式展示了给定目标的两种风险水平之间的比较。在45度线以下，OR模型相对于ML表现更好。图2.7中分布的平坦度现在是沿轴的垂直分布，比水平分布大得多。但是两个模型的风险水平之间没有特别强的关系，OR方法是否能找到一条好的路径似乎与ML模型的能力关系不大。

（三）路径长度

效用函数的另一个关键变量是代理到达目标的路径长度。路径越短，花费时间越少，消耗燃料越少，磨损越小。我们训练的ML模型倾向于选择更直的路径，通过适度的调整直接到达目标以避免被敌人发现。在我们使用的模拟环境和代理中，速度是恒定的，因此路径长度和总飞行时间是相等的。图2.8显示了三种ML情况（标记为AI-1至AI-3）和三种or情况（标记为OR-1至OR-3）的样本路径。情况（标记为OR-1至OR-3）的样本路径。

图2.8 ML模型路径与相似目标位置的相应OR模型路径的比较

用ML模型（实线）和OR模型（虚线）给出了三个目标位置，它们都源自同一起始位置。OR路径最初将绕过不存在威胁的美国本土，到达更接近预定目标的位置。ML模型将（至少在目前训练中）以尽可能好的方式在一般的直线上穿越威胁。ML模型在东海岸可能会表现得更好，因为它的路径并不像前面所述的那样局限于地图离散化的边缘。这表明在某些情况下，ML模型可以比OR模型更好地编织和穿针。最终，由于起始位置和东海岸之间不存在任何威胁，因此对于正好位于东海岸的位置而言，这些模型之间有望实现均等。

观察两种不同模型通向目标位置的所有路径可以了解这些模型在策略上有何不同。图2.9显示了所有可能的路径。OR模型采用不同的轨迹指向目标。因此，在距离方面彼此接近的两个目标可能导致进入的路径长度显著不同。另一方面，ML模型具有更直接的指向目标的轨迹，导致总体路径更短，但风险更高。

图2.9 OR模型和ML模型目标的所有1376条路径

在实验中，我们发现

平均而言，ML模型在敌方资产半径内花费的时间是OR方法的2.5倍。
ML模型能够在OR算法五分之四的时间内达到目标。
威胁密度和整体环境复杂性的增加使得 ML方法更有吸引力。

OR算法以探测时间和发射机会的期望值的形式提供单一解析，每次运行的期望值没有差异，结果正常。另一方面，ML模型会有很大的不同，经过训练的RL在本质上可能是随机的，因此对于我们的分析，我们生成了十条路径并选择了最佳路径。当RL计算路径所需的时间为毫秒时，根据现实世界的时间线，找到最优解的机会很大。表2.1比较了OR和ML方法的路径属性。

表2.1 运筹学和机器学习成果

在RTAM的研究中，我们获得了以下要点:

与OR方法相比，ML模型通常表现不佳。
ML模型在六分之一的情况下表现出色，并具有显著的速度优势。
在任务规划中灵活采用多种方法和方式是有益的。
长时间的培训成本是不必要的。
无论花费多少计算能力、时间或金钱都不足以取代专业知识。

三

利用先进的仿真、集成和建模框架构建强化学习环境

本章讨论了支持DAF所使用的模拟工具的ML方法。DAF使用AFSIM（一种基于C++的多领域建模和仿真框架）进行分析，以实现兵棋推演、实验和任务规划。空军研究实验室（AFRL）根据信息转让协议与合作伙伴共享AFSIM，并授权给超过275个政府、工业和学术组织使用。图3.1提供了一个可公开发布的AFSIM截图。

图3.1 AFSIM截图

我们从这项工作中吸取了四个教训。首先，建模和仿真社区对采用ML工具感兴趣。其次，目前将开源工具连接到国防部系统以生产有用产品的支持选项有限。尽管开放获取是一个关键步骤，没有它这项工作就无法完成，但它不是最后一步。第三，利用现有资源节省了大量时间和精力，使我们能够有效地接触到一个已经有AFSIM经验的更大的社区。最后，更新库、框架甚至语言以满足现代从业者社区的需求有很多好处。

四

研究结果和建议

对于一个相对简单的任务（寻路），需要大量的代码开发（支持AI的工具）、研发和计算资源。在对任务规划和RL进行AI投资之前，应该进行成本效益分析。与OR方法相比，AI的性能通常更差。然而，AI可以对不断变化的环境做出更快的响应，OR解决方案仅用于解决静态问题。尽管存在这些问题，AI还是能够帮助一些任务规划角色，并利用这种方式建立未来人工智能使用的能力、经验和用户信任。任务路线规划是狭义AI应用程序的一个例子，该应用程序对动态威胁环境特别有用，其中任务包进入具有弹出威胁的复杂防空环境。

在任务规划和更广泛的战争中实现AI应用不仅是创建一个独立程序，关键是要支持与其他工具的连接，并随着新工具的发明不断更新这些连接。如果没有这种持续的支持和努力，AI的实际使用将不可避免地落后于同类对手。DAF将通过有意识地思考未来的应用程序和软件，更好地满足作战人员的需求。

我们建议DAF将RL任务规划应用于操作员审查和判断的未折叠系统的动态路线规划。目前，RL在任务规划中的最佳用途是作为一个快速反应的管理系统，对威胁做出动态响应。虽然现有的人力规划流程能够有效利用信息，因此实施AI任务规划的效率提升相对较小。然而，为每天数百架次的飞机飞行扩大高端冲突的规划规模，对AOC内部的人类规划人员提出了难以满足的需求，DAF可以采取措施为AI的应用奠定基础，正如兰德研究人员此前所建议的那样。

DAF应该培养对军事任务规划有深刻理解的AI专家。RL是一个困难的研究领域，它依赖于经验和启发，对特定应用知识的需求使研究变得更加复杂。那些对该领域不熟悉的人可能无法识别不良的状态和行为，从而限制他们制定合适的报酬函数。

DAF必须优先考虑工具和软件，不仅是创建它们，还要使这些资源能够扩展并连接到现有系统。现有的模拟工具应该扩展到与AI框架兼容。训练RL需要将算法应用于各种各样的情况。自动输入数据、目标和其他信息将大大加快训练和作战部署的工作流程。我们对代码的强烈需求表明，不仅需要与AI兼容的工具，还需要积极集成AI的工具。

DAF应持续监控AI领域，以前曾发生过范式转变，很可能会再次出现。尽管AI的进步在商业和研究领域迅速发展，但DAF仍需要保持警惕，寻找新的机会。

（全文完）

缩略语：

AFRL 空军研究实验室

AFSIM 仿真、集成和建模的高级框架

AI 人工智能

AOC 空中作战中心

CONUS 美国大陆

DAF 空军部

ML 机器学习

OR 运筹学

RL 强化学习