目录 一、说明二、无模型算法三、基于模型的 RL四、价值学习五、策略梯度5.1 强度:5.2 局限性5.3 蒙特卡洛政策梯度 六、TRPO公司七、行动者兼评论家八、基于模型的 RL 一、说明 我们在本系列中研究了许多强化学习 (RL) 算法,例如,用于 MoJoCo 任务的策略梯度方法、用于 Atari 游戏的 DQN 和用于机器人控制的基于模型的 RL。虽然许多算法都是在特定领域引入的,但这种联系只能是遗留的。在本文中,我们将概述这些算法,并讨论它们在选择使用方法时的一般权衡。 二、无模型算法