基于Transformer的强化学习(TRL)是一种利用Transformer模型架构来改进和增强强化学习算法性能的方法。
这种方法通过结合Transformer模型强大的表示能力和强化学习的决策优化框架,显著提升了智能体的学习能力和适应能力,为我们解决复杂环境下的决策问题提供了新的思路,因此也被广泛应用于各大领域。
目前,TRL主要有两大发展方向:架构增强、轨迹优化。
-
架构增强:通过改进Transformer的架构来提高强化学习模型的性能。
-
轨迹优化:使用Transformer来优化强化学习中的轨迹数据,以更好地建模人类偏好和非Markovian奖励。
今天我从这两大方向入手,分享29篇TRL的代表性成果,为方便同学们理解,这其中还包含了TRL在自动驾驶等主要领域的热门应用,希望对大家找idea有所帮助。
论文原文以及开源代码需要的同学看文末
1.架构增强
将Transformer结构融入强化学习框架,以提升对状态、动作和历史信息的建模能力,从而精确地表示智能体与环境间的复杂关系。
代表性论文:
Coberl: Contrastive bert for reinforcement learning
方法:COBERL是一种结合了对比学习与架构改进的新型强化学习代理,通过自监督学习目标和LSTM与transformer的组合,提高了数据效率并在各种环境中取得了改进的性能。
创新点:
-
引入了一种新颖的对比表示学习目标,该目标将 BERT 的掩码预测与 RELIC 在时间域上的泛化相结合,提高了数据效率,并消除了对手动设计数据增强的需求。
-
将门控 Transformer-XL(GTrXL)架构与 LSTM 相结合,使用通过强化学习损失训练的门控,有效地整合了Transformer和 LSTM 的优势,以改善强化学习任务中的性能。
2.轨迹优化
利用Transformer的优势从静态数据集中提取策略,将强化学习的目标转向对整个轨迹的优化,以实现更高效的样本利用率和策略学习。
代表性论文:
StARformer: Transformer with State-Action-Reward Representations for Visual Reinforcement Learning
方法:本文介绍了StARformer,这是一种在视觉强化学习中显式建模强局部关系,以改善长期序列建模的模型。通过广泛的实证结果,作者展示了学习到的StAR表示如何帮助我们的模型超越基准,并成功地对轨迹进行建模,特别是对长序列的强调。
创新点:
-
StARformer通过Step Transformer明确地对强大的局部关系进行建模,以帮助改进Visual RL中的长期序列建模。这种明确建模局部关系的方法使得StARformer能够超越基线模型,并成功地对长序列进行建模。
-
StARformer通过在每个对应层中将StAR-representations g和纯状态表示h进行层间连接的方式,对整个轨迹进行建模。在Sequence Transformer中,StAR-representations和纯状态表示的融合有助于更好地捕捉短期和长期的上下文信息,从而提高序列建模的效果。
应用
LATTE: LAnguage Trajectory TransformEr
方法:本文提出了一个灵活的基于语言的人机交互界面,允许用户修改现有的机器人轨迹。该方法利用预训练的大型语言和图像模型(BERT和CLIP)从自由格式的文本输入和场景图像中直接编码用户的意图和目标对象,融合由Transformer编码器网络生成的几何特征,并使用Transformer解码器输出轨迹。
创新点:
-
本文使用语言和几何特征的特征嵌入作为多模态Transformer解码器块Tdec的输入。该块按顺序生成重新塑造的轨迹ξmod,将上一个令牌预测作为下一个航点预测的输入。
-
本文使用纯过程生成轨迹-语言对的方法。本文假设使用大规模语言模型(如BERT、CLIP)进行特征编码(qBERT,qCLIP)可以减少词汇多样性方面的数据要求。
-
本文将实验评估扩展到了除机械手外的多个机器人形式因素。作者展示了模型的输出适用于空中和腿部运动领域的不同机器人动力学和运动控制器。
Safety-Enhanced Autonomous Driving Using Interpretable Sensor Fusion Transformer
方法:本文提出了一种名为可解释传感器融合Transformer(InterFuser)的安全增强自动驾驶框架,通过全面处理和融合多模态多视角传感器的信息,实现了对场景的全面理解和对对抗事件的检测,并从该框架中生成中间可解释特征,以更好地将行动限制在安全范围内。
创新点:
-
提出了一种新颖的可解释传感器融合Transformer(InterFuser),通过融合多模态多视角传感器的信息,并提供中间可解释特征作为安全约束启发来增强驾驶安全性。
-
提出了一种安全控制器 -期望速度优化的方法,通过线性规划优化问题来最大化期望速度,并通过约束条件来确保碰撞避免和考虑动态约束和执行限制。
关注下方《学姐带你玩AI》🚀🚀🚀
回复“强化29”获取全部论文+代码
码字不易,欢迎大家点赞评论收藏