自适应动态规划制导技术

生清净心不 2018-05-08

展开全文

典型制导技术

随着航天技术的飞速发展，精确制导武器在现代战争中起着至关重要的作用，而制导技术是制导武器实现精确制导的必要手段和最终保证。制导律是指根据导弹和目标的运动信息，导引飞行器按一定的飞行弹道截击目标。设计多约束条件下的制导律从而解决导弹打击或拦截目标的飞行弹道问题是制导武器实现精确制导的关键。

比例导引法是经典制导方式之一，是指在导弹攻击目标的制导过程中，导弹速度矢量的旋转角速度和目标视线的旋转角速度成一定比例的导引方法。比例导引方法由于所需信息少、结构简单、易于实现等优点，在工程上得到广泛应用。但在命中目标时，法向过载与命中点的导弹速度和攻击角有关，这导致经典制导方式不适用于高性能的大机动目标。随着计算机技术的发展，现代制导方法受到学者们的关注，例如基于现代控制理论的滑模制导律由于具有良好的自适应性和鲁棒性，在飞行器制导控制中得到广泛应用。但这类现代制导方法结构复杂，参数较多，不如经典制导方法容易实现。

近年来，具有较快速度和较强机动能力的飞行器的发展已经引起各大军事强国的高度重视，这类研究对象也对制导技术提出了新的挑战，有必要研究满足约束条件、强突防能力和高命中率的制导策略。基于自适应动态规划（Adaptive Dynamic Programming，ADP）的制导技术能够根据外界变化和自身特性，实时在线调整制导策略来应对突发情况，将有望达到自适应智能作战的目标，为未来智能制导系统提供理论依据。

自适应动态规划理论基础

1957年，Bellman提出了一种求解最优控制问题的有效工具：动态规划（Dynamic Programming, DP）方法。由于动态规划在求解过程中采用时间上的逆向求解，产生大量计算，会造成“维数灾”问题。为了克服“维数灾”，Werbos提出了自适应动态规划，通过神经网络对被控对象进行建模，执行网络用来近似最优控制策略，评价网络用来近似最优性能指标函数。执行网络和评价网络作用于被控对象，通过环境在不同阶段产生的奖励/惩罚来影响代价函数，用近似的方法迭代求解问题，ADP基本框图如图1所示。

undefined

图 1 ADP基本框图

在之后的研究中，Werbos提出了一系列基于ADP的开创性研究成果。其中启发式动态规划（Heuristic Dynamic Programming，HDP）是ADP最基础并且应用最广泛的结构，一般采用三个神经网络：模型网络、执行网络和评价网络。模型网用来估计下一时刻的系统状态量，执行网络用来映射状态变量和控制输入之间的关系，评价网络用来近似代价函数，通过神经网络的迭代训练调整权值，从而提高近似效果，求得最优解，结构图如图2所示，其中x为系统状态量，u为系统控制量，J为代价函数。

undefined 图 2 HDP结构图

自适应动态规划制导技术

鉴于ADP独特的算法和结构，ADP适用于解决复杂非线性最优控制问题，因此人们不断尝试将ADP技术引入航空航天飞行器的制导律设计中。

（参考文献[1]: Jingliang Sun, Chunsheng Liu, Qing Ye, He H B. Robust differential game guidance laws design for uncertain interceptor-target engagement via adaptive dynamic programming[J]. International Journal of Control, 2016:1-41.）

在机动目标不确定的拦截问题中，基于自适应动态规划思想，引入一个适当地能反映不确定性的代价函数，来保证实现机动目标不确定的补偿，并且通过ADP的评价网络求解相应的哈密顿–雅可比–伊萨克（HJI）方程，从而提出了基于ADP的鲁棒制导律。并且，利用Lyapunov方法，从理论上证明了闭环系统和评价网络权值估计误差是一致最终有界性的。

（参考文献[2]:Mu C X, Ni Z, Sun C Y, He H B. Air-breathing hypersonic vehicle tracking control based on adaptive dynamic programming. presented at the 2016 IEEE Transactions on Neural Networks and Learning Systems. 2016, DOI:10.1109/TNNLS.2016.2516948.）

由于ADP技术基于数据驱动，不依赖于精确的模型，能够在不同干扰下在线调整参数，因此，该技术非常适用于具有参数不确定性和多干扰的高超声速飞行器。在高超声速飞行器制导问题中，自适应动态规划制导技术可以结合传统的滑模控制，来产生一个补充的控制信号，从而来引导飞行器到达所需的速度和高度。传统的滑模控制能够提供一个控制信号，使系统在正常飞行状态。当飞行器遇到参数不确定和环境干扰的情况时，ADP基于神经网络和强化学习的原理，能根据干扰和不确定参数自动调节，观察实际的速度、高度与所需要的速度、高度之间的差异，通过评价网络和执行网络的权值调整，提供一个补充的控制信号，从而减少跟踪误差，提高控制性能。

未来发展方向

目前，ADP方法还不完善，处于发展阶段，受到各个科研领域人员的关注，其中在制导技术研究中，有以下可能的发展趋势：

（1）在线ADP算法

为了实现飞行器的快速制导，完善在线自适应方法来求解最优制导策略将是ADP发展的必然趋势。研究思路是：可以通过选取合理的神经网络形式、结构以及网络的学习算法来提高学习的速度，从而实现飞行器的快速跟踪。在ADP的评价/执行网络中，采用神经网络来近似性能指标函数/控制量，通过学习算法来进行网络的权值调整。目前应用最广泛的基于梯度下降法的BP神经网络因为需要多次迭代训练速度慢，可以研究改进的BP神经网络和其他形式具有快收敛速度的网络。另外，学习算法中，梯度法速度一般，可以选择其他学习算法，例如共轭梯度法、麦夸特法训练速度都比梯度法快。因此对比不同神经网络的形式、结构和学习算法，设计最合适的评价网络和执行网络，研究基于ADP的快速制导技术将是未来研究的重点方向。

（2）多约束ADP制导

飞行器飞行过程中具有多约束，在制导问题中应该要考虑以下可能存在的约束，一是控制饱和约束，二是状态量终端约束和过程约束。ADP制导技术是解决多种约束条件下制导问题的有效手段，可以考虑引入合适的关于控制量饱和上限值的非二次泛函，构造关于状态约束和抗饱和函数的总性能指标，再通过ADP的评价网络和执行网络进行求解。考虑多种约束下的ADP制导具有重要的意义，利用ADP对复杂性能指标进行近似，并在性能指标下对控制量进行求解将是一个研究难点。

基于ADP展现的无限潜力和前人的研究基础，ADP将在制导问题中发挥巨大的作用，期待自适应动态规划制导技术的后期发展，能在众多学者的研究中得到更深入更成功的研究成果。

注：本期前沿技术为特邀稿件，文章作者为华中科技大学控制系王永骥教授。