参考视频
零基础学习强化学习算法:ppo
基础概念
- environment环境
- agent:智能体,玩游戏的你
- state:当前状态,observation看到的部分,有的游戏只能看见state的一部分
- action:agent做出的动作
- reward:环境给的奖励或惩罚
其他重要概念
注:
- 训练和推理时不常总是使用最高的策略函数,因为要随机性多样性,不然没办法训练,输出也单一
- 状态转移是否确定:比如开宝箱时是随机的
复习期望的概念
期望是每个可能结果的概率与其结果的乘积之和
训练目的:训练一个policy网络使得在各种state下,给出action,得到return的期望最大。
数学推理
接下来就是反向传播的数学推理。。。讲的很精彩
实际训练
玩n场游戏,每个action按概率取样而不是选择最大的。
on policy更新策略:
优化
之前给的公式表明:如果某个trajectory给出的action得到的reward大于零,那么就增加这个trajectory里所有状态下的采取这个action的概率。反之就减小。就很直观
需要优化的点:
- reward应该看整个游戏结束之后而不是只是当前trajectory结束。就像说,以退为进,其实是进的。
- 对上一点的修正,影响是随着步数衰减的。
因此修正公式:
-
对reward的求和:改为从当前步t到整个游戏结束的求和
-
引入衰减因子:距离当前步数越远影响越小,指数衰减。
-
对于reward增加一个baseline以增快训练速度
不是这个方向的后面不学了。。