文献编号:No.310(EU-104) 文献来源: C. Li and Y. Li, 'Scaling Up Energy-Aware Multiagent Reinforcement Learning for Mission-Oriented Drone Networks With Individual Reward,' in IEEE Internet of Things Journal, vol. 12, no. 8, pp. 10640-10654, 15 April15, 2025, doi: 10.1109/JIOT.2024.3511253. 机构名称: 瑞士联邦理工学院。 文摘内容: 多智能体强化学习(MARL)因其通过交互进行学习的能力,在自动驾驶和智慧城市等协作系统中显示出广泛的适用性。随着无人机网络的最新发展,研究人员也应用了MARL来解决轨迹规划问题。然而,动态环境和有限的电池容量仍然是使用MARL实现高效协作任务执行的挑战。在这篇文章中,提出了一种能量感知的MARL模型,试图解决这些挑战,利用深度Q网络(DQN),该网络具有由任务执行进度和剩余无人机电池驱动的个体奖励功能。对所提出的模式进行了一系列模拟研究,并将其与共享奖励MARL(Li等人,2022)进行了比较,以探索MARL中信用分配的影响。结果表明,无论任务位置和长度如何,提出的模型都能达到至少80%的成功率。与共享奖励模式类似,当任务密度较高时,个人奖励模式可以实现更好的成功率,当任务浓度接近40%时,可以达到近100%的成功率。当扩大环境规模时,提出的具有个人奖励的模型的真正优势就显现出来了。与共享奖励MARL的比较表明,提出的模型对环境大小和代理数量的变化更具鲁棒性。由于目标明确,它可以用更少的步骤实现更高的成功率,从而更好地提高能源效率。 文献图表: ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() ![]() 文献结论: 本文提出了一种面向任务的无人机网络的能量感知任务执行MARL模型,通过使用个人奖励函数来应对无人机电池容量有限的挑战。每架无人机都有自己的DQN,它经过训练,可以指导无人机的轨迹规划、任务分配和任务执行。任务执行进度和剩余电池电量驱动个人奖励功能。 为了评估提出的模型,创建了一个模拟环境,允许灵活更改任务长度和位置。重点评估了个人奖励模式,并对个人奖励模式和共享奖励模式进行了比较。对个体奖励模式进行了三组实验,以研究超参数(包括ψ、f和截止Δ)、动态环境和任务密度的影响。评估结果表明,在训练后的动态和不可预测的环境中,提出的模型在大多数情况下可以完成任务,成功率为80%。该模型甚至能够在任务密度相对较高的场景中实现近100%的成功率。不同任务密度和网格大小下两种模式的性能比较表明,个体奖励模式对环境大小和任务密度的变化更具鲁棒性,因为它始终如一地实现了更好的性能,这可以用MARL更明确的奖励分配来解释。 然而,对提出的模型的评估也揭示了一些需要未来研究的局限性。首先,在某些情况下,性能是不稳定的,例如任务长度固定的随机任务位置的情况。当训练接近尾声时,性能也会波动,这可能表明探索减量需要降低,以允许代理进行更多的探索。此外,经验分布中的异常值也会在很大程度上影响性能,这是强化学习的一个常见问题,需要进一步研究如何排除这些不良经验并确保更稳定的性能。最近的一些工作提出了不同的新算法来稳定MARL的性能。注意到有些研究与该方法根本不同,其专注于改进MARL算法本身,但该方法为应用场景创建了一个实用的框架,同时保持了MARL结构的简单性,以供嵌入考虑。然而,未来的工作可以探索这些提出的算法是否适用于无人机网络,并考虑在嵌入式系统中加载神经网络,从而进一步提高性能。 另外,目前的模拟涉及二维环境。将在未来的研究中将环境扩展到三维,并评估模型在三维环境中的性能,这将确保提出的模型具有更好的适用性。更重要的是,可以探索对提出的应用于面向真实任务的无人机网络的方法进行额外评估,以协同执行现实世界的任务,从而展示其优势。 |
|