论文学习 --- RL Regret-based Defense in Adversarial Reinforcement Learning

前言

个人拙见,如果我的理解有问题欢迎讨论 (●′ω`●)
原文链接:https://www.ifaamas.org/Proceedings/aamas2024/pdfs/p2633.pdf

研究背景

深度强化学习(Deep Reinforcement Learning, DRL)在复杂和安全关键任务中取得了显著成果,例如自动驾驶。然而,DRL策略容易受到观测噪声的干扰,这在安全关键环境中可能导致灾难性后果。例如,自动驾驶汽车在接收到对交通标志的对抗性扰动时(如一个被物理改变的停车标志被感知为限速标志)可能会导致严重的交通事故。

研究意义

目前已有的方法主要集中在通过正则化方法和“maximin”方法来提高DRL算法对观测扰动的鲁棒性。然而,正则化方法虽然可以减少攻击成功的概率,但一旦攻击成功,性能下降显著。而“maximin”方法虽然鲁棒性强,但过于保守。因此,本文研究了一种新的鲁棒性目标——遗憾(Regret),通过优化遗憾来在保证鲁棒性的同时不过于保守。

保守指的是在面临可能需要探索的场合时,智能体可能会偏向去执行奖励更大而不是结果更优的动作


摘要

本文提出了一种基于遗憾优化的方法来增强对抗性强化学习中的鲁棒性。我们定义并近似优化了一种新的遗憾度量,命名为累积矛盾期望遗憾(Cumulative Contradictory Expected Regret, CCER),并提出了三种优化方法:

RAD-DRN(基于深度遗憾网络的对抗防御)
RAD-PPO(基于近端策略优化的对抗防御)
RAD-CHT(基于认知层级理论的对抗防御)

实验结果表明,这些方法在多个标准基准测试中均优于现有的最佳方法。


具体细节

对抗策略的训练

文章中提出了一个假设,带有了干扰的观测状态Z和真实状态S之间一定存在一个双射的函数,即一个Z一定只会对应一个S,通过这种方式,当干扰出现时,智能体能够利用这种映射关系,将当前的Z映射到S空间,这样的话就不会出现下面的情况:

在机械臂的抓取过程中,如果目标是红色方块,干扰是粉色方块,当遇到粉色干扰时,机械臂能够自行根据相应的算法,做出不同的动作来规避误抓取,这在下面会展开讨论

遗憾的定义

在对抗性强化学习中,遗憾被定义为在没有对抗干扰和存在对抗干扰的情况下,代理获得的期望值之差。具体来说,给定一个对抗性策略

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/36304.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【杂记-浅谈IPv6过渡技术之6to4网络技术】

IPv6过渡技术之 6to4网络技术 一、6to4网络概述二、6to4网络配置 一、6to4网络概述 6to4是一种IPv6转换技术,它允许IPv6流量通过IPv4网络传输。6to4网络的地址可以表示为2002:IPv4地址::/48,其中前48位(2002:a.b.c.d)由分配给路由…

python调用c++ ctype list传数组与for if 列表推导式

python调用c ctype list传数组 关于ctype与python list的转换很简单,大家记住下面两条就够用了,后面是练习 list传进C数组 import numpy as np from ctypes import * mylist [101, -101, ..., 101, -101]##your list mycbytearray (c_byte * len(my…

优刻得首个「国产千卡智算集群」落地,支持智源千亿大模型训练

在人工智能引领的时代浪潮中,算力已成为技术进步与创新的核心驱动力。面对当下AI算力需求的飙升、高端AI芯片供应受限的挑战,加之OpenAI带来的技术封锁,唯有坚定不移的发展自主可控的国产技术方案,持续壮大国产智算集群规模&#…

在postgrel中使用hints

在 PostgreSQL 中,可以使用查询提示(Query Hints)来影响查询优化器的行为,但需要注意的是,PostgreSQL 并不像一些商业数据库那样有丰富的提示语法,而是提供了一些基本的方式来引导优化器。 使用查询提示的基本方式 使用 /*+ … / 注释提示: PostgreSQL 支持在 SQL 查询…

参数调优论文

基于Java EE的性能调优方法研究 - 中国知网 (cnki.net) 基于机器学习的Hadoop参数调优方法 - 中国知网 (cnki.net) 基于机器学习的数据库系统自动调参研究 - 中国知网 (cnki.net) 基于强化学习的文件系统性能自动调优及参数安全评估技术 - 中国知网 (cnki.net) 基于贝叶斯优…

如何在ArcGIS Pro中提取行政区划

我们在《2024版有审图号的SHP行政区划》一文中,为你分享过全国省市县级的行政区划。 现在再为你分享一下,如何在ArcGIS Pro中提取目标范围行政区划的方法,你还可在以文末查看领取该行政区划数据的方法。 直接选择 在菜单栏上点击一下选择下…

这谁顶得住啊!AI绘画模型竟然可以画出质量逼真的黑丝!

今天看到一个有趣的AI绘画玩法,用SD画黑丝!话不多说,开始今天的实战演练。 首先做好准备工作:部署好本地Stable Diffuison 然后就轮到今天的主角上场了 黑丝Lora模型:perfectpantyhose 这是一款叫perfectpantyhose…

【最佳实践】前端如何搭建自己的cli命令行工具,让自己编码的时候如虎添翼

作为前端开发人员,搭建自己的前端CLI工具是一个有趣且有意义的事情。以下是一篇详细的教程,包括使用场景和案例。 使用场景 假设你是一个前端团队的一员,需要频繁地在不同的项目中执行一些标准化的任务,比如: 根据模…

重建大师引擎数0,本地引擎设置改不了,空三在跑,这样是正常的吗?

答:任务目录和引擎监控目录并没有按照网络集群设置,需要调整为网络路径。 重建大师是一款专为超大规模实景三维数据生产而设计的集群并行处理软件,输入倾斜照片,激光点云,POS信息及像控点,输出高精度彩色网…

TikTok API接口——获取视频评论信息

一、引言 TikTok,作为全球最受欢迎的短视频社交平台之一,不仅为用户提供了展示才华和分享生活的舞台,也为品牌和企业提供了与年轻用户互动的新渠道。在这个信息爆炸的时代,了解用户的声音、掌握舆论动向显得尤为重要。通过TikTok…

alibaba easyexcel 导出excel使用

需求 传统导出&#xff0c;一般都是通过Workbook > Sheet > Row > Cell 获取详细Cell 设置值&#xff0c;比较麻烦&#xff0c;偶然遇到alibaba easyexcel 直接通过注解设置哪些需要导出 哪些忽略&#xff0c;发现特别好用。 pom依赖 <dependency><groupId…

千年织锦:中国古代包文化的辉煌历程与现代传承

追溯至远古&#xff0c;我们的祖先就开始利用自然界的恩赐——皮革、植物纤维等&#xff0c;制作出最原始的包袋。随着时间的推移&#xff0c;技艺的提升&#xff0c;包的材质逐渐丰富起来&#xff0c;从粗糙到精致&#xff0c;从简单到复杂&#xff0c;每一次材质的革新都是人…

CentOS 7.9 CDH6.3.2集群生产环境实战部署指南

一、环境准备 1、系统环境&#xff1a; # cat /etc/os-release 2、准备工作&#xff1a; 部署资源分配 节点centos 7.9&#xff08;生产&#xff09;节点规划Postgresql部署组件备注pgsql32c、128G、2TB国产数据库Postgresql&#xff08;翰高&#xff09;可根据实际情况调整…

Wordpress图像编辑插件-palleon v3.8.1中文版语言包

Palleon是一个强大的WordPress图像编辑器&#xff0c;可以与您的WordPress网站无缝集成&#xff0c;让您快速高效地工作。它拥有为你的WordPress网站创建令人惊叹的图像所需的一切。 Palleon让您完全控制图像&#xff0c;允许您逐个像素进行更改。您可以轻松地裁剪、调整图像大…

漏洞利用开发基础学习记录

文章目录 简介Win32缓冲区溢出内容难点 SEH 溢出内容难点 Egg Hunters内容难点 Unicode 溢出内容难点 x86-64 缓冲区溢出内容难点 参考资料 简介 本文基于ERC.Xdbg漏洞分析文章进行初步归纳整理&#xff0c;主要有Win32 缓冲区溢出、SEH 溢出、Egg Hunters、Unicode 溢出、x86…

基于盲信号处理的人声分离

1.问题描述 在实际生活中&#xff0c;存在一种基本现象称为“鸡尾酒效应”&#xff0c;该效应指即使在非常嘈杂的环境中&#xff0c;人依然可以从噪声中提取出自己所感兴趣的声音。 在实际应用中&#xff0c;我们可能需要对混合的声音进行分离&#xff0c;此时已知的只有混合…

规上!西安市支持培育商贸企业达限纳统应统尽统申报奖励补助要求政策

西安市支持培育商贸企业达限纳统应统尽统工作方案 为加快培育消费市场主体&#xff0c;支持商贸企业扩大经营、做大做强&#xff0c;指导企业达限纳统、应统尽统&#xff0c;不断扩大我市限额以上商贸企业数量规模&#xff0c;促进全市经济社会高质量发展&#xff0c;结合我市…

springboot 集成阿里云 OSS

引入依赖 <!-- 阿里云oss依赖 --> <dependency><groupId>com.aliyun.oss</groupId><artifactId>aliyun-sdk-oss</artifactId><version>3.9.1</version> </dependency><?xml version"1.0" encoding"…

技术前瞻:华为鸿蒙HarmonyOS NEXT仓颉语言Beta招募亮点提前曝光

在科技迅猛发展的今天&#xff0c;华为的每一步创新都备受瞩目。6月21日&#xff0c;华为再次引领风潮&#xff0c;正式发布了自研的仓颉编程语言&#xff0c;并宣布开启HarmonyOS NEXT 仓颉语言开发者预览版Beta招募活动。这不仅是华为技术实力的展示&#xff0c;更是对开发者…

C语言基础笔记(全)

一、数据类型 数据的输入输出 1.数据类型 常量变量 1.1 数据类型 1.2 常量 程序运行中值不发生变化的量&#xff0c;常量又可分为整型、实型(也称浮点型)、字符型和字符串型 1.3 变量 变量代表内存中具有特定属性的存储单元&#xff0c;用来存放数据&#xff0c;即变量的值&a…