O2O：Uni-O4

ICLR 2024
paper

Intro

以往O2O方式普遍将离线与在线过程分开看待，为了避免过渡时容易出现performance drop，引入了各式正则化或者保守价值估计。本文启发于BPPO，提出on-policy的算法Uni-O4将离线与在线阶段的策略优化目标统一，实现了无需额外的正则，算法在纯离线、O2O以及online-offline-online均表现出很好的实验效果。

Method

在解决O2O时的Uni-O4包含三个部分。离线监督学习、多步策略提升以及在线策略微调
在这里插入图片描述

Ensemble BC and IQL

通过BC训练一个策略集合 $\prod_{n}=\{\hat{\pi}_{\beta}^{1},\ldots,\hat{\pi}_{\beta}^{n}\}$ , 同时保证集合中策略的多样性添加正则化
在这里插入图片描述
结合上面定理将问题转化为优化其下界：
$\text{Maximize:}J(\hat{\pi}_{\beta}^{i})=\mathbb{E}_{(s,a)\sim\mathcal{D}}\mathrm{log}\hat{\pi}_{\beta}^{i}(a|s)+\alpha\mathbb{E}_{(s,a)\sim\mathcal{D}}\log\left(\frac{\hat{\pi}_{\beta}^{i}(a|s)}{\mathrm{max}_{1\leqslant j\leqslant n}\hat{\pi}_{\beta}^{j}(a|s)}\right)$

对于价值函数 $\hat{Q}$ 与 $\hat{V}$ 采用IQL的方法：
$L(V)=\mathbb{E}_{(s,a)\sim\mathcal{D}}\left\lfloor L_{2}^{\tau}\left(\hat{Q}(s,a)-V(s)\right)\right\rfloor,\\L(Q)=\mathbb{E}_{(s,a,s^{\prime})\sim\mathcal{D}}[\left(r(s,a)+\gamma V(s^{\prime})-Q(s,a)\right)^{2}],$

多步策略优化

利用IQL得到的价值函数并固定参数，对于集合中的每一个策略采用类似BPPO的优化目标：
$J_k\left(\pi^i\right)=\mathbb{E}_{s\sim\rho_{\mathcal{D}}(\cdot),a\sim\pi_k^i(\cdot|s)}\left[\min\left(r(\pi^i)A_{\pi_k^i}(s,a),\text{clip}\left(r(\pi^i),1-\epsilon,1+\epsilon\right)A_{\pi_k^i}(s,a)\right)\right]$

其中 $r(\pi^{i})=\frac{\pi^{i}(a|s)}{\pi_{k}^{i}(a|s)}$ ，k表示迭代次数。若k=0表示单步优化，容易导致次优策略产生。为了保证多步优化的安全性，算法首先利用离线数据构造动态转移模型，
$\min_{\hat{T}}\mathbb{E}_{(s,a,s)\sim\mathcal{D}}[-\mathrm{log}\hat{T}(s'|s,a)].$

然后按照一定频率基于该模型进行H-steps的rollout得到轨迹数据，并利用BC中fixed Q与V计算轨迹累计Q期望
$\widehat{J_{\tau}}(\pi)=\mathbb{E}_{(s,a)\sim(\hat{T},\pi)}\left[\sum_{t=0}^{H-1}\widehat{Q_{\tau}}(s_{t},a_{t})\right]$
当 $\widehat J_{\tau}(\pi^{i})>\widehat J_{\tau}(\pi_{k}^{i})$ ，则更新 $\pi_k^i\leftarrow\pi^i$ 。