当前位置: 首页 论文文档 航空航天论文 基于深度强化学习的状态分解避障

基于深度强化学习的状态分解避障

收藏
关键词:分解   深度   强化   状态   学习

资源简介

  无人机近些年来发展迅速,但无人机自主导航由于难以同时观测、定位、决策和行动而面临重大挑战。针对无人机三维环境下的自主导航决策,提出了一种高效的状态分解深度确定性策略梯度算法。基于深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法,根据自身状态提出了一种新的状态分解方法,即对感知相关状态和自身相关状态分别使用两个子网络,以建立更合适的行动者网络,并分化经验池的PM(Prioritized Memory)DDPG方法。通过虚拟引擎中的airsim平台下进行三维环境搭建并训练。实验证明,提出的PM DDPG算法能有效提高无人机在三维复杂环境中的导航性能,较传统DDPG,TD3算法在收敛速度,训练无人机到达目标点的效率方面均有更好表现。

  • 资料为PDF文档格式.
  • 本文档关键词:分解,深度,强化,状态,学习
  • 下载地址