- 这篇文章是对dreamer系列的改进,是一篇world model 的论文
- 改进点在于,dreamer用的是循环神经网络,本文想把它改成transformer,并且希望能利用transformer实现并行训练。
- 改成transformer的话有个地方要改掉,dreamer用ht和xt来预测zt,但transformer要实现并行训练的话,最好是不要有ht,因为ht依赖transformer来预测,而transformer又需要zt作为输入,形成循环依赖就只能一步一步地生成。为此,把zt的预测改成只依赖于xt。如下所示:
- policy model的输入是ht和zt的concatenate