Action-Value Functions
Discounted Return(未来的reward,由于未来存在不确定性,所以未来的reward 要乘以进行打折)
这里的依赖actions ,和states
这里
Policy Function : ,表达了action的随机性
State Transition : ,表达了转移状态的随机性
由于存在action,和state随机性,现在想消除随机性,可以求的数学期望:
Action-Value Function: ,在当前策略下,状态和的回报
Optimal Action-Value Function :
可以给任意的动作打分,agent可以根据的打分,做最有利的动作
Deep Q-Network (DQN)
如果我们知道了,那么每一步最好的动作
DQN的目的就是近似,即神经网络近似
流程如下: -> (DQN给出) -> (State Transition) -> (DQN给出)
->(监督回报,用来训练DQN)
以此类推