爽!强化学习+注意力机制,吞吐量提升了10多倍!

通过引入注意力机制,强化学习模型不仅能够更加高效地处理复杂的环境和任务,还能在学习和决策过程中实现更高的精度和适应性。

因此这种结合迅速成为了各大领域的研究热点,而且已经在实际应用中有了显著的性能提升。比如分散式强化学习框架SACD-A,算法训练样本吞吐量直接提高了10倍!

目前,强化学习+注意力机制主要有三大研究方向:状态表示、动作选择、奖励预测。今天我就从这三大方向入手,分享10篇强化学习+注意力机制的代表性成果,文档里还附上了每个方向的代码示例,帮助同学们理解。

论文原文+开源代码需要的同学看文末

状态表示中的注意力机制

在强化学习中,状态表示指的是描述当前环境的关键信息。通过在这一阶段引入注意力机制,算法可以更有效地关注状态表示中的关键信息,从而提高学习效率和性能。

具体步骤

  • 通过注意力机制确定状态向量中各元素的权重。

  • 依据权重,对状态向量加权求和,形成新的状态表示。

  • 将优化后的状态表示用于动作选择。

算法原理

论文示例

Improving Autonomous Separation Assurance through Distributed Reinforcement Learning with Attention Networks

方法:论文将分布式强化学习与注意力网络结合,开发了一种异步训练架构,将代理-环境交互与算法训练解耦,从而在训练过程中提高了约10倍的转换数量。

创新点:

  • 提出了一种基于SACD和注意力网络的可扩展、分布式和样本高效的飞机分离保障框架,能够同时提高安全性和运行适应性。

  • 引入了垂直机动的扩展动作集,相比以前的方法,提供了更多的选择。

  • 开发了一个具有代表性的AAM环境(AAM-Gym),为评估所提出框架的有效性提供了一个全面的环境。

Framu: Attention-based machine unlearning using federated reinforcement learning

方法:论文介绍了一个名为FRAMU的框架,它结合了强化学习和注意力机制,通过自适应学习机制、隐私保护技术和优化策略,有效解决了在处理过时、隐私和无关数据时所面临的隐私和模型效率的挑战。

创新点:

  • FRAMU引入了一种自适应的"反学习"算法,该算法结合了注意力机制,以适应单模态和多模态设置中的学习与"反学习"过程。

  • 该框架利用FedAvg机制个性化"反学习"过程,确保模型可以从隐私角度丢弃已经变得无关紧要、过时或可能侵犯隐私的数据。

动作选择中的注意力机制

在动作选择阶段,注意力机制可以用来加权不同动作的优先级,让算法可以更有效地关注动作选择中的关键信息,从而选择更合适的动作。

具体步骤

  • 利用注意力机制计算每个动作的权重值,突出对决策最重要的动作。

  • 根据权重值选择最优动作或将其作为输入到后续神经网络中进行进一步处理。

算法原理

论文示例

ARiADNE: A Reinforcement learning approach using Attention-based Deep Networks for Exploration

方法:论文介绍了ARiADNE系统,它是一个基于强化学习和注意力机制的深度神经网络方法,用于自主机器人探索任务。

创新点:

  • ARiADNE是一种基于深度强化学习的自主探索方法,通过两个基于注意力的神经网络实现。

  • 首先将自主探索问题建模为在已知可行区域上进行顺序决策的问题,其中一个节点是机器人的当前位置。然后,作者使用基于注意力的神经网络来选择当前机器人位置的一个相邻节点作为下一个视点。

奖励预测中的注意力机制

在强化学习中,将注意力机制引入奖励预测阶段,可以让算法更有效地关注奖励预测中的关键信息,从而提高预测准确性。

PS:在实际应用中,直接在奖励预测阶段引入注意力机制的案例很少。

具体步骤

  • 使用注意力机制为历史奖励数据计算权重。

  • 根据权重对奖励进行加权求和或平均,得到更加准确的奖励预测。

算法原理

关注下方《学姐带你玩AI》🚀🚀🚀

回复“强化注意”获取全部论文+开源代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/39352.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在嵌入式商用里面哪款RTOS(实时操作系统)比较多人用?

在开始前刚好我有一些资料,是我根据网友给的问题精心整理了一份「嵌入式的资料从专业入门到高级教程」, 点个关注在评论区回复“888”之后私信回复“888”,全部无偿共享给大家!!! 传统的RTOS和嵌入式Linu…

Qt中使用MySQL数据库详解,好用的模块类封装

本文将详细介绍如何在Qt应用程序中集成MySQL数据库,并封装实现好用的mysql数据库操作类。包括环境准备、连接数据库、执行查询及异常处理等关键步骤,同时包含mysql驱动的编译。分享给有需要的小伙伴,喜欢的可以点击收藏。 目录 环境准备 项…

javaSE期末练习题

文章目录 前言一、程序控制1.顺序结构问题描述解题思路题解 2.选择结构2.1 题1问题描述解题思路题解 2.1 题2问题描述解题思路题解 3.循环结构3.1 阶乘的求取问题描述解题思路题解 3.2 水仙花数问题描述解题思路题解 二、数组三、类与对象1.类与对象1.1圆类问题描述解题思路题解…

从云原生视角看 AI 原生应用架构的实践

本文核心观点: 基于大模型的 AI 原生应用将越来越多,容器和微服务为代表的云原生技术将加速渗透传统业务。API 是 AI 原生应用的一等公民,并引入了更多流量,催生企业新的生命力和想象空间。AI 原生应用对网关的需求超越了传统的路…

使用myCobot和OAK-D OpenCV DepthAI摄像头制作一个可以在眼前始终享受视频的手机支架!

引言 由于YouTube和Netflix的出现,我们开始躺着看手机。然而,长时间用手拿着手机会让人感到疲劳。这次我们制作了一个可以在你眼前保持适当距离并调整位置的自动移动手机支架,让你无需用手拿着手机。请务必试试! 准备工作 这次我们…

电脑文件自动备份:构建坚不可摧的数据防护网

在数字化浪潮的推动下,电脑已成为我们日常生活和工作中不可或缺的一部分,它承载着海量的个人信息、工作文档、学习资料等重要数据。然而,随着数据量的不断膨胀,数据安全问题也日益严峻。硬盘故障、系统崩溃、病毒攻击、人为误操作…

【中项第三版】系统集成项目管理工程师 | 第 2 章 信息技术发展

前言 第2章对应的内容大概率仅考察选择题,通读教程,速战速决。选择题分值预计在2-5分,属于必考的知识点。 2.1 信息技术及其发展 信息技术是在信息科学的基本原理和方法下的关于一切信息的产生、信息的传输、信息的发送、信息的接收等应用技…

2Python的Pandas:读取数据

1.读取Excel文件 1.1.读取数据 import pandas as pd# Excel 文件的 URL 或本地路径 url "https://www.gairuo.com/file/data/dataset/team.xlsx"# 使用 Pandas 的 read_excel 函数读取数据 try:df pd.read_excel(url)print(df.head()) # 打印 DataFrame 的前几行…

k8s公网集群安装(1.23.0)

网上搜到的公网搭建k8s都不太一致, 要么说的太复杂, 要么镜像无法下载, 所以写了一个简洁版,小白也能一次搭建成功 使用的都是centos7,k8s版本为1.23.0 使用二台机器搭建的, 三台也是一样的思路1.所有节点分别设置对应主机名 hostnamectl set-hostname master hostnamectl set…

简述设计模式-代理模式

概述 代理模式:一个类代表另一个类的功能。代理模式通过引入一个代理对象来控制对员对象的访问。 举个例子,就像明星都有经纪公司,商业合作都是直接和经济公司沟通,不会直接和明星沟通。 律师和委托人就是代理关系,…

如何找BMS算法、BMS软件的实习

之前一直忙,好久没有更新了,今天就来写一篇文章来介绍如何找BMS方向的实习,以及需要具备哪些条件,我的实习经历都是在读研阶段找的,读研期间两段的实习经历再加上最高影响因子9.4分的论文,我的秋招可以说是…

C - Popcorn(abs358)

题意&#xff1a;有n个摊子&#xff0c;m个爆米花&#xff0c;想花费最少去的店铺买到所有的口味的爆米花&#xff0c;找到每一列都为‘o’的最少行数。 分析&#xff1a;用dfs寻找最少路径 #include<bits/stdc.h> using namespace std; typedef long long ll; char x;…

后台运行大师:HarmonyOS 3.0中如何轻松设置APP常驻后台

有不少人想要让某些常用的APP直接挂在后台&#xff0c;减少应用程序自动关闭的情况。这种需求&#xff0c;其实就是希望APP能够“保持在后台运行”。 本篇文章用14张图片、7大步骤&#xff0c;讲解手机如何将某个APP保持在后台运行。图片直接使用的是华为手机HarmonyOS 3.0的手…

ComfyUI教程,如何在 ComfyUI 中如何制作高质量白底图,一篇文章教会你!

前言 做电商的朋友都知道&#xff0c;一般平台都会有白底图的要求&#xff0c;在上传白底图后&#xff0c;商品在首页分类页、搜索分类页、品牌馆、电器城等场景中会有更多的露出机会&#xff0c;可能会获得更多的用户流量。 制作白底图本质就是要先抠图&#xff0c;一些抠图…

stm32学习笔记---USART串口协议(理论部分)

目录 通信 通信的目的 通信协议 STM32的通信协议 各种协议的通信引脚介绍 通信空间和时间 时钟特性 电平特性 设备特性 串口通信 硬件电路 电平标准 串口参数及时序 时序 串口的参数 串口通信的实际波形 声明&#xff1a;本专栏是本人跟着B站江科大的视频的学习…

Vision Transformer论文阅读笔记

目录 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale -- Vision Transformer摘要Introduction—简介RELATED WORK—相关工作METHOD—方法VISION TRANSFORMER (VIT)—视觉Transformer(ViT) 分析与评估PRE-TRAINING DATA REQUIREMENTS—预训练数据…

VS2022+Qt+OpenCV Debug模式下,循环中格式转换引起的内存异常问题 debug_heap.cpp

文章目录 前言一、问题二、报错1.提示图片2.提示堆栈3.反汇编位置 三、解决办法总结 前言 最近在使用VS2022&#xff0c;C&#xff0c;OpenCV&#xff0c;Qt开发时&#xff0c;遇到了一个疑难杂症-在循环中执行字符串格式转换会触发内存异常&#xff0c;经过痛苦的排查过程&am…

编译libvlccpp

首先下载vlc sdk https://get.videolan.org/vlc/3.0.9.2/win64/vlc-3.0.9.2-win64.7z Cmake 生成libvlccpp vs2022工程文件 编译libvlccpp 编译出错需修改代码 错误信息&#xff1a; \VLC\sdk\include\vlc/libvlc_media.h(368): error C2065: “libvlc_media_read_cb”: 未…

老师家访的主要内容

在教育的广阔天地中&#xff0c;家访无疑是一座连接学校与家庭的桥梁。为何要进行家访&#xff1f;这不仅仅是一个简单的问题&#xff0c;它背后蕴含着教育者对孩子们成长环境的深切关怀。作为一位教师&#xff0c;我深知家访的重要性&#xff0c;它不仅能够让我更全面地了解学…

【回溯算法经典题目解析】

1. 什么是回溯算法 回溯算法是⼀种经典的递归算法&#xff0c;通常用于解决组合问题、排列问题和搜索问题等。 回溯算法的基本思想&#xff1a;从一个初始状态开始&#xff0c;按照⼀定的规则向前搜索&#xff0c;当搜索到某个状态⽆法前进时&#xff0c;回退到前⼀个状态&am…