【强化学习公式推导】状态价值函数与动作价值函数贝尔曼期望方程,贝尔曼最优方程推导过程
1.回报
2.当前时刻的回报与下一时刻回报的关系
3.状态价值函数
4.动作价值函数
5.状态价值函数与动作状态价值函数的关系
6.贝尔曼期望方程
7.状态价值函数的贝尔曼期望方程
8.动作价值函数的贝尔曼期望方程
9.贝尔曼期望方程的另一种理解方式,结合下图理解
10.一点疑惑
上图中的1式和2式右边部分形式相同,那么可得q(s,a)与v(s)相等,这么理解肯定是错误的;1式是在动手学强化学习的3.3.2 价值函数这一节中,1式是马尔科夫奖励过程,未涉及动作,如果考虑动作也就成了马尔科夫决策过程,应该推导成下面这种形式
11.最优策略、最优状态价值函数、最优动作价值函数
12.贝尔曼最优方程