AAAI 2023
paper
Intro
分布偏移导致离线RL对于OOD数据存在过估计问题。因此一些方法限制策略靠近行为策略。但是着很大程度受限于数据集的质量。若是数据集存在非专家,一个自然的问题是是否有可能构建一个更合理的策略约束方法,该方法通过识别数据集中状态-动作对的优越性,将学习到的策略限制为理想的行为,而不是较差的行为?
为了识别理想的动作,文章考虑加权克隆的离线方法。通过学习优势函数值判断。然而该方法无法超越离线数据集的最优策略。并且对于数据集外的未知状态可能预测错误动作。
本文方法weighted policy constraints (wPC)则是将策略约束方法与加权克隆方法结合。
Method
基于TD3+BC的方法,对BC惩罚项加入动态更新的加权参数项:
π θ : = arg max π θ E s , a ∼ B [ λ Q ( s , π θ ( s ) ) − w ( s , a ) ( π θ ( s ) − a ) 2 ] , w ( s , a ) = I [ A ^ ( s , a ) > 0 ] = I [ Q ^ ϕ ( s , a ) − V ^ ψ ( s ) > 0 ] , \begin{aligned}\pi_\theta:&=\arg\max_{\pi_\theta}\mathbb{E}_{s,a\sim B}[\lambda Q(s,\pi_\theta(s))-w(s,a)(\pi_\theta(s)-a)^2],\\w(s,a)&=\mathbb{I}[\hat{A}(s,a)>0]=\mathbb{I}[\hat{Q}_\phi(s,a)-\hat{V}_\psi(s)>0],\end{aligned} πθ:w(s,a)=argπθmaxEs,a∼B[λQ(s,πθ(s))−w(s,a)(πθ(s)−a)2],=I[A^(s,a)>0]=I[Q^ϕ(s,a)−V^ψ(s)>0],
算法伪代码: