发论文idea来了!强化学习+Transformer,29个创新点汇总

基于Transformer的强化学习(TRL)是一种利用Transformer模型架构来改进和增强强化学习算法性能的方法。

这种方法通过结合Transformer模型强大的表示能力和强化学习的决策优化框架,显著提升了智能体的学习能力和适应能力,为我们解决复杂环境下的决策问题提供了新的思路,因此也被广泛应用于各大领域。

目前,TRL主要有两大发展方向:架构增强、轨迹优化。

  • 架构增强:通过改进Transformer的架构来提高强化学习模型的性能。

  • 轨迹优化:使用Transformer来优化强化学习中的轨迹数据,以更好地建模人类偏好和非Markovian奖励。

今天我从这两大方向入手,分享29篇TRL的代表性成果,为方便同学们理解,这其中还包含了TRL在自动驾驶等主要领域的热门应用,希望对大家找idea有所帮助。

论文原文以及开源代码需要的同学看文末

1.架构增强

将Transformer结构融入强化学习框架,以提升对状态、动作和历史信息的建模能力,从而精确地表示智能体与环境间的复杂关系。

代表性论文:

Coberl: Contrastive bert for reinforcement learning

方法:COBERL是一种结合了对比学习与架构改进的新型强化学习代理,通过自监督学习目标和LSTM与transformer的组合,提高了数据效率并在各种环境中取得了改进的性能。

创新点:

  • 引入了一种新颖的对比表示学习目标,该目标将 BERT 的掩码预测与 RELIC 在时间域上的泛化相结合,提高了数据效率,并消除了对手动设计数据增强的需求。

  • 将门控 Transformer-XL(GTrXL)架构与 LSTM 相结合,使用通过强化学习损失训练的门控,有效地整合了Transformer和 LSTM 的优势,以改善强化学习任务中的性能。

2.轨迹优化

利用Transformer的优势从静态数据集中提取策略,将强化学习的目标转向对整个轨迹的优化,以实现更高效的样本利用率和策略学习。

代表性论文:

StARformer: Transformer with State-Action-Reward Representations for Visual Reinforcement Learning

方法:本文介绍了StARformer,这是一种在视觉强化学习中显式建模强局部关系,以改善长期序列建模的模型。通过广泛的实证结果,作者展示了学习到的StAR表示如何帮助我们的模型超越基准,并成功地对轨迹进行建模,特别是对长序列的强调。

创新点:

  • StARformer通过Step Transformer明确地对强大的局部关系进行建模,以帮助改进Visual RL中的长期序列建模。这种明确建模局部关系的方法使得StARformer能够超越基线模型,并成功地对长序列进行建模。

  • StARformer通过在每个对应层中将StAR-representations g和纯状态表示h进行层间连接的方式,对整个轨迹进行建模。在Sequence Transformer中,StAR-representations和纯状态表示的融合有助于更好地捕捉短期和长期的上下文信息,从而提高序列建模的效果。

应用

LATTE: LAnguage Trajectory TransformEr

方法:本文提出了一个灵活的基于语言的人机交互界面,允许用户修改现有的机器人轨迹。该方法利用预训练的大型语言和图像模型(BERT和CLIP)从自由格式的文本输入和场景图像中直接编码用户的意图和目标对象,融合由Transformer编码器网络生成的几何特征,并使用Transformer解码器输出轨迹。

创新点:

  • 本文使用语言和几何特征的特征嵌入作为多模态Transformer解码器块Tdec的输入。该块按顺序生成重新塑造的轨迹ξmod,将上一个令牌预测作为下一个航点预测的输入。

  • 本文使用纯过程生成轨迹-语言对的方法。本文假设使用大规模语言模型(如BERT、CLIP)进行特征编码(qBERT,qCLIP)可以减少词汇多样性方面的数据要求。

  • 本文将实验评估扩展到了除机械手外的多个机器人形式因素。作者展示了模型的输出适用于空中和腿部运动领域的不同机器人动力学和运动控制器。

Safety-Enhanced Autonomous Driving Using Interpretable Sensor Fusion Transformer

方法:本文提出了一种名为可解释传感器融合Transformer(InterFuser)的安全增强自动驾驶框架,通过全面处理和融合多模态多视角传感器的信息,实现了对场景的全面理解和对对抗事件的检测,并从该框架中生成中间可解释特征,以更好地将行动限制在安全范围内。

创新点:

  • 提出了一种新颖的可解释传感器融合Transformer(InterFuser),通过融合多模态多视角传感器的信息,并提供中间可解释特征作为安全约束启发来增强驾驶安全性。

  • 提出了一种安全控制器 -期望速度优化的方法,通过线性规划优化问题来最大化期望速度,并通过约束条件来确保碰撞避免和考虑动态约束和执行限制。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“强化29”获取全部论文+代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/30184.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

dockerfile文件的中的命令

# 基础镜像 FROM registry.cn-beijing.aliyuncs.com/205erp/myopenjdk:8.6 # 设置工作目录 WORKDIR /opt # 拷贝jar包到工作目录 COPY target/*.jar app.jar RUN ls # 设置暴漏的端口 EXPOSE 8080 # 启动jar包 CMD java ${JAVA_TOOL_OPTIONS} -jar app.jar

N7745A Keysight 是德 多端口光功率计 简述

N7745A光功率计专为表征多端口光器件而设计,适用于多路复用器、PON分路器、波长选择开关(WSS)和ROADM等多端口器件的测试。它可以节省通道空间,通过LAN或USB连接进行并行编程,集成多种设备到单一设置,提高了…

企业设备管理现状与解决方案

在当今企业运营中,设备管理作为保障生产稳定、提升效率的重要环节,其复杂性和挑战性日益凸显。无论是生产车间、石油化工、物业小区,还是消防器材、建筑施工等领域,都面临着设备故障频发、维修流程繁琐等共性问题。 为了帮助企业…

VUE3实现个人网站模板源码

文章目录 1.设计来源1.1 网站首页页面1.2 个人工具页面1.3 个人日志页面1.4 个人相册页面1.5 给我留言页面 2.效果和源码2.1 动态效果2.2 目录结构 源码下载万套模板,程序开发,在线开发,在线沟通 作者:xcLeigh 文章地址&#xff1…

对比4090及4090D:国区“特供”与原版相比有何区别?

2023年12月28日 英伟达宣布正式发布GeForce RTX 4090D,对比于一年前上市的4090芯片,两者的区别与差异在哪?而在当前比较火热的大模型推理、AI绘画场景方面 两者各自的表现又如何呢? 规格与参数信息对比现在先来看看GeForce RT…

SCI绘图【1】-不同颜色表示密度和差异--密度图

参考资料:密度图(Density Plot) - 数据可视化图表 - 数字孪生百科 密度图是快速观察变量数值分布的有效方法之一。通常情况下,会根据两个变量将平面绘图区域分为非常多的子区域,之后以不同颜色表示落在该区域上样本的…

揭秘!家用空气净化器针对“毛絮、灰尘”的制胜秘诀是什么?

亲爱的朋友们!作为一个家庭主妇,我想和大家聊聊我日常生活中那些让人头疼的飞尘和毛絮问题。 每天忙得团团转,累得腰酸背痛,但家里仍然飘着那些烦人的飞尘和毛絮。它们就像一群顽皮的小精灵,四处飞舞,怎么…

《2024攻防演练必修高危漏洞集合》

1 漏洞汇总数据 以下数据针对自2024年3月以来截止到目前在攻防演练过程红队利用率比较高的漏洞进行总结汇总,具体的数据如下所示: ●远程代码执行漏洞 漏洞数量:6个 涉及厂商:YzmCMS、畅捷通、pgAdmin、泛微、锐捷、奇安信、 ●…

如何通过自己编写Jmeter函数

在Jmeter的函数助手里,有很多内置的函数,比如Random、UUID、time等等。使用这些函数可以快速帮我们生成某些数据,进行一些逻辑处理。用起来非常的方便。 但是在实际接口测试过程中,有很多的需求,Jmeter内置的函数可能…

苹果不会等到明年才对 Siri 进行改进|TodayAI

据彭博社报道,今年苹果(APPLE)将推出一个更令人满意的 Siri。 当 iOS 18 今年秋季推出时,Siri 的功能不仅仅是让你的 iPhone 边缘显示彩虹光环。虽然苹果智能功能要到 2025 年才会向非测试版用户推出,但据报道&#x…

每天写java到期末考试(6.19)--1.百元买百鸡

好久没有写了,现在赶快先复习复习,哈哈,加油! 收获:写了好久,才写好这一个问题,提示自己不要好高骛远,前期先踏踏实实写好每一个代码; 被困住原因 取余%与整除/区别 pa…

Linux 图形化编程GTK3.0 快速入门之布局

GTK3.0 布局之水平布局 核心语法: 水平布局容器: 水平布局容器的创建: GtkWidget *gtk_hbox_new( gboolean homogeneous, gint spacing ); homogeneous:容器内控件是否大小一致( gboolean 取值为TRUE 或 FALSE ) spacing&#…

Qemu 模拟 Mini2440 扩展SDRAM 64M 到 128M,256M(三)

1. Mini2440 最大支持的SDRAM 是128M+128M MINI2440 板子的内存是由两片64M大小的SDRAM组成,所以实际内存有128M。分别连接到芯片的BANK6和BANK7。从这个图可以看出 Mini2440 最大支持的SDRAM 是128M+128M,我们能不能利用 QEMU 直接给你模拟干满到 256M呢?各位看官看我的操作…

Postman 请求参数传递指南:Query、Path和Body

Postman 作为一个功能强大的工具,极大地简化了 API 测试和调试的过程,提供了发送请求和检查响应的直接方法。本文将着重介绍如何在 Postman 中高效地处理请求参数,以提高 API 测试和开发的便利性。 1、解析请求参数 首先,我们需要…

Linux下调试代码——gdb的使用

1. 文件准备: 测试代码: Makefile文件: 执行结果: 此时,我们的结果是存在问题的,即最终结果少了100。现在我们用gdb来调试它。 我们发现我们还没有安装gdb,这里安装一下。 2. 环境准备&#…

棱镜七彩荣获CNNVD两项大奖,专业能力与贡献再获认可!

6月18日,国家信息安全漏洞库(CNNVD)2023年度工作总结暨优秀表彰大会在中国信息安全测评中心成功举办。棱镜七彩凭借在漏洞方面的突出贡献和出色表现,被授予“2023年度优秀技术支撑单位”与“2023年度最佳新秀奖”。 优秀技术支撑单…

人工智能无法修复自动化已经破坏的东西

人工智能无法修复自动化已经破坏的东西 没错,如今不断涌现出“我们日益恶化的反乌托邦的快照”之类的故事,但这篇来自行业杂志《美国银行家》(American Banker)的文章却脱颖而出。这篇文章揭示了企业人工智能的一个新的前沿用例:在呼叫中心的工作人员被…

2024请收好这一份全面--详细的AI产品经理从业指南

前言 入行人工智能领域这段时间以来,从零到一把AI推荐系统产品化搭建了起来,也与很多同行AI产品经理小伙伴建立了联系。AI产品经理工作内容各异,不同AI产品化生命周期中更是大为不同,但对想入行AI产品经理的小伙伴来讲&#xff0…

▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch4 值迭代 与 策略迭代 【动态规划 算法】

PPT 截取必要信息。 课程网站做习题。总体 MOOC 过一遍 1、视频 学堂在线 习题 2、过 电子书 补充 【下载: 本章 PDF 电子书 GitHub】 [又看了一遍视频。原来第一次跳过了好多内容。。。] 3、总体 MOOC 过一遍 习题 学堂在线 课程页面链接 中国大学MOOC 课程页面链…

上市公司-社会责任报告、ESG报告文本(2006-2023年)

上市公司社会责任报告是企业对外公布的一份关于其社会责任实践和成果的详细文件,涵盖环境保护、社会贡献和公司治理等方面的表现。通常包含公司在减少环境影响、提升社会福祉、维护员工权益、促进社区发展以及确保透明和道德的管理实践等方面的信息和数据。有助于了…