元强化学习综述
收藏资源简介
元强化学习是指自动从一组相关任务中学习强化学习所需归纳偏置的相关理论和方法,对于提高强化学习算法在困难场景下的样本效率和泛化能力具有重要用途。本文提出一种新的元强化学习框架,指出设计和分析一个元强化学习算法需要同时考虑学习经验(相关任务)、归纳偏置及学习目标3个独立因素及这3个因素之间的依赖关系。在此基础上对该领域的研究现状进行了分析和总结,特别对近年来元强化学习若干文献进行了分析和归类,并详细阐述了几种代表性算法的原理及各自特点。本文还对元强化学习常用的实验环境和性能评价方法进行了介绍,对该领域的不足和未来的发展方向进行了讨论和分析。