基于通用策略-在线系统辨识器的飞行器多约束末制导律
收藏资源简介
针对飞行器末制导过程面临的环境不确定性大及任务类型多样的特点,提出一种基于通用策略-在线系统辨识器的元强化学习算法。该算法包含针对通用策略的强化学习训练阶段和针对在线系统辨识器的监督学习阶段,并通过分阶段迁移学习设计和基于伪蒙特卡洛的小方差策略梯度估计保证了在多任务场景下的训练可靠收敛,使所得制导策略能够适应多种末制导任务场景。仿真结果表明,所得制导策略能够同时适应“标称”“初始相对状态散布”和“模型扰动”等多种末制导任务场景,且在各任务场景下相比传统偏置比例导引方法均实现了制导性能的提升。
资料为PDF文档格式.
本文档关键词:辨识,制导,飞行器,在线,约束