CoRR 2023
paper
视觉或向量输入下的RLFD方法,利用模仿学习得到的策略,以自举方式引导在强化学习的策略优化以及价值函数优化。同时,为了更好的表征,IBRL选取VIT-based的网络以及添加Dropout 到policy。
Method
- 首先利用模仿学习,通过监督学习的形式得到一个专家策略 a I L ∼ μ ψ ( s ) a^{\mathrm{IL}}\sim\mu_{\psi}(s) aIL∼μψ(s)。然后,在线策略优化的目标为一般形式最大化Q价值函数。此时将专家策略也纳入考虑范围。
a ∗ = arg max a ∈ { a Π , a R L } Q ϕ ( s , a ) . a^{*}=\underset{a\in\{a^{\Pi},a^{\mathrm{RL}}\}}{\operatorname*{\arg\max}}Q_{\phi}(s,a). a∗=a∈{aΠ,aRL}argmaxQϕ(s,a). - 在线优化Q函数时,求取target Q同样将专家策略加入:
Q ϕ ( s t , a t ) ← r t + γ max a ′ ∈ { a t + 1 I I . , a t + 1 R L . } Q ϕ ′ ( s t + 1 , a ′ ) Q_\phi(s_t,a_t)\leftarrow r_t+\gamma\max_{a^{\prime}\in\{a_{t+1}^{\mathrm{II.}},a_{t+1}^{\mathrm{RL.}}\}}Q_{\phi^{\prime}}(s_{t+1},a^{\prime}) Qϕ(st,at)←rt+γa′∈{at+1II.,at+1RL.}maxQϕ′(st+1,a′)
其中 a t + 1 R L . a_{t+1}^{\mathrm{RL.}} at+1RL.cai来自target的策略 π θ ′ \pi_{\theta'} πθ′。
上述强化学习采用TD3算法作为backbone。除此外,额外采用两个trick增加算法在稀疏奖励连续控制任务的表现:1)在policy中加入dropout; 2)VIT-based的Q网络,
Q 采用集成模型表示,随机sample出2个网络预测值用于TD3中的Double Clip-Q。
伪代码
Results
1.比较不同数量的演示数据下,算法性能依旧强于对比的model-free的RLfD方法RLPD
对比baseline,算法性能显著。而消融实验说明两个trick的重要性
网络结构表征能力的消融,证明VIT-based Q在面对pixel-based的状态输入时更好
将模仿学习得到的策略用于在线的优化过程,提升了算法sample-efficiency