代码链接见文末
1. 任务描述
任务目标: 在 MountainCar-v0 环境中,智能体的目标是尽可能快地将一辆小车从山谷的一端(起始位置)驾驶到山谷的另一端(目标位置),通过学习如何利用环境中的动力学来实现目标。智能体只能施加力量(加速)来推动小车,且受到物理规律的限制:小车无法直接达到目标,需要先通过加速反复地上下山谷来获得足够的动能。
环境描述:
- 状态空间:环境的状态由小车的位置和速度组成。位置范围为 [-1.2, 0.6],速度范围为 [-0.07, 0.07]。
- 动作空间:智能体可以采取的动作是三个:加速(+1)、减速(-1)和保持当前速度(0)。
- 奖励:
- 每个时间步的奖励为 -1(鼓励智能体尽量减少时间消耗)。
- 如果智能体成功到达目标(位置 ≥ 0.5),将获得一个奖励+100。
- 结束条件:智能体在完成任务或者经过一定的时间步骤