【新论文】【模型攻击】DiffAttack 针对基于扩散的对抗性净化的逃避攻击

DiffAttack: Evasion Attacks Against Diffusion-Based Adversarial Purification

作者: Mintong Kang; Dawn Song; Bo Li
链接: http://arxiv.org/pdf/2311.16124v1
备注: Accepted to NeurIPS 2023
摘要:
基于扩散的净化防御利用扩散模型去除对抗样本的精心设计的扰动,从而实现最先进的鲁棒性。最近的研究显示,即使是高级的攻击也无法有效地破坏这种防御,因为净化过程会导致计算图极其深层,这带来了梯度混淆、高内存成本和不受限的随机性的潜在问题。在本文中,我们提出了一个统一的框架DiffAttack,用于对基于扩散的净化防御进行有效和高效的攻击,包括DDPM和基于分数的方法。特别地,我们在中间扩散步骤提出了一种偏差重建损失,以引发不准确的密度梯度估计,以解决梯度消失/爆炸的问题。我们还提供了一种分段正向反向传播算法,可以实现高效的梯度反向传播。我们在CIFAR-10和ImageNet上验证了DiffAttack相对于现有的自适应攻击的攻击有效性。我们发现,相比于SOTA攻击,DiffAttack在CIFAR-10上降低了模型的鲁棒准确率超过20%( ℓ ∞ \ell_\infty 攻击, ϵ = 8 / 255 \epsilon=8/255 ϵ=8/255),在ImageNet上降低了超过10%( ℓ ∞ \ell_\infty 攻击, ϵ = 4 / 255 \epsilon=4/255 ϵ=4/255)。我们进行了一系列的剔除研究,发现:1)在均匀采样的时间步骤上添加偏差重建损失的DiffAttack比仅在初始/结束步骤上添加更有效;2)使用适度的扩散长度的基于扩散的净化在DiffAttack下更加鲁棒。

Identifying and Mitigating Vulnerabilities in LLM-Integrated Applications

作者: Fengqing Jiang; Zhangchen Xu; Luyao Niu; Boxin Wang; Jinyuan Jia; Bo Li; Radha Poovendran
链接: http://arxiv.org/pdf/2311.16153v1
备注: None
摘要:
大型语言模型(LLMs)越来越多地作为LLM集成应用程序的服务后端部署,例如代码完成和AI驱动的搜索。LLM集成应用程序作为中间件,利用领域特定知识对用户的查询进行细化,以更好地通知LLMs并增强响应。尽管存在众多机会和益处,但LLM集成应用程序也引入了新的攻击面。理解、减少和消除这些新兴攻击面是一个新的研究领域。在这项工作中,我们考虑了用户和LLM通过LLM集成应用程序进行交互的设置。我们着重关注从用户查询开始到LLM集成应用程序返回查询结果的通信轮次,由服务后端的LLMs提供支持。对于这种查询-响应协议,我们识别出潜在的漏洞可能来自恶意应用程序开发者或能够控制数据库访问、操纵和毒害对用户具有高风险的数据的外部威胁发起者。成功利用这些已识别的漏洞将导致用户接收到与威胁发起者意图相符的响应。我们评估了针对由OpenAI GPT-3.5和GPT-4支持的LLM集成应用程序的这种威胁。我们的实证结果显示,这些威胁可以有效地绕过OpenAI的限制和审查政策,导致用户收到包含偏见、有害内容、隐私风险和虚假信息的响应。为了缓解这些威胁,我们确定并定义了四个关键属性,即完整性、来源识别、攻击可检测性和实用性保留,这些属性需要一个安全的LLM集成应用程序满足。基于这些属性,我们开发了一种轻量级、威胁无关的防御方法,可以缓解内部和外部威胁。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/190801.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

酷开科技 | 酷开系统,让家庭娱乐方式焕然一新!

在这个快节奏的社会,家庭娱乐已成为我们日常生活中不可或缺的一部分,为了给家庭带来更多欢笑与感动,酷开科技发力研发出拥有丰富内容和技术的智能电视操作系统——酷开系统,它集合了电影、电视剧、综艺、游戏、音乐等海量内容&…

我的2023年12月02日对文章发送的一个测试

1 Markdown.com.cn 简介 支持自定义样式的 Markdown 编辑器支持微信公众号、知乎和稀土掘金点击右上方对应图标,一键复制到各平台 2 Markdown语法教程 2.1 标题 不同数量的#可以完成不同的标题,如下: 一级标题 二级标题 三级标题 2.2…

C语言-指针_01

指针基础 1. 概述 地址编号:计算机为了存储数据,每一个程序在 32位 机中 占4G,最小操作单位 是 一个字节,每一个字节都有其对应的地址,该地址就是 地址编号。 指针:地址编号这个数据 的 数据类型。 指针变…

Java数组与List互换

asList():将数组转成list //将数组转换为listint[][] nums {{7,0},{4,4},{7,1},{5,0},{6,1},{5,2}};List<int[]> list new LinkedList<>(Arrays.asList(nums));for (int[] ints :list) {System.out.println(ints[0] " " ints[1]); //遍历list}toAr…

TPC通信-BS架构

BS架构-基本原理 BS框架基本原理 使用线程池对BS架构进行优化

docker部署typecho博客

文章目录 1.安装git2.安装compose3.拉取仓库4.创建目录5.配置文件修改6.启动容器7.修改MYSQL数据库8.安装成功9.参考GitHub文档 1.安装git 安装git yum -y install git2.安装compose &#xff08;docker安装参考&#xff1a;docker基本知识&#xff09; 确保已经安装了 Doc…

爬虫学习-基础(HTTP原理)

目录 一、URL和URI 二、HTTP和HTTPS &#xff08;1&#xff09;HTTP &#xff08;2&#xff09;HTTPS &#xff08;3&#xff09;HTTP与HTTPS区别 &#xff08;4&#xff09;HTTPS对HTTP的改进&#xff1a;双问的身份认证 三、TCP协议 &#xff08;1&#xff09;TCP三次握手…

⭐ Unity 里让 Shader 动画在 Scene 面板被持续刷新

写 Unity Shader的时候&#xff0c;只有播放状态下的 Game 面板能看到Shader 顺畅的动态效果&#xff0c;不方便。 想要带有动态效果的 Shader 在 Scene 面板持续更新动画&#xff0c;只需要打开一个开关就能让 Scene 持续刷新动画了。 感谢大家的观看&#xff0c;您的点赞和关…

android 13.0 launcher3中workspace app列表页不显示某个app图标

1.概述 在13.0的系统ROM定制化开发中,Launcher3 workspace的app列表页 会负责加载系统中app的所有图标 但针对某个不需要显示在桌面的app图标需要过滤掉 所以需要在加载和更新的时候过滤 需要更改两处地方, 一处是 加在列表时 一处是安装卸载app 更新app列表时,接下来具体分…

learn2learn环境配置(2023年12月)

learn2learn是元学习方向的一个非常实用的库&#xff0c;但其发布时间较早&#xff0c;与最新版本的pytorch可能存在一些兼容性问题&#xff0c;在2023年12月这个时间进行安装时会遇到一些问题&#xff0c;以下是我遇到的问题及解决的方法。 1. 在我第一次直接配置“pip instal…

Cpp之旅(学习笔记)第9章 标准库

C之旅&#xff08;学习笔记&#xff09;第9章 标准库 当无知稍纵即逝时&#xff0c;又何必浪费时间学习呢&#xff1f; ——霍布斯 9.1 引言 第9~18章将对重要的标准库工具和方法给出一个概要性的介绍。如&#xff1a;string、ostream、variant、vector、map、path、unique_p…

在oracle中的scn技术

SCN可以说是Oracle中一个很基础的部分&#xff0c;但同时它也是一个很重要的。它是系统中维持数据的一致性和顺序恢复的重要标志&#xff0c;是数据库非常重要的一种数据结构。 转载&#xff1a;深入剖析 - Oracle SCN机制详细解读 - 知乎 (zhihu.com)https://zhuanlan.zhihu.…

跟我学c++高级篇——动态反射之一遍历

一、动态反射 前面讲一篇静态反射&#xff0c;今天在这个基础上对动态反射进行一下入门。动态反射前面提到过&#xff0c;一般是指在运行时动态获取类型或者生成实例。那么如何才能动态获得类型呢&#xff1f;方法有很多种&#xff0c;下面从最简单的开始。 二、入门程序 动…

基于运算放大器的电压采集电路

一、运算放大器 运放推导的两个重要概念&#xff1a;虚短、虚断。 1、差分放大器 以差分放大器为例进行推导分析。 虚断–运放的"-“端、”“端的引脚电流接近为0&#xff1b; 根据基尔霍夫电流定律可知&#xff1a;iR1iRF&#xff0c;iR2iR3&#xff1b; iR1(Ui1-(V-…

C语言结构体详解(一)(能看懂文字就能明白系列)

&#x1f31f;&#x1f31f;&#x1f31f;&#x1f31f;&#x1f31f;&#x1f31f;&#x1f31f;&#x1f31f;&#x1f31f;&#x1f31f;&#x1f31f;个人主页&#xff1a; 古德猫宁- &#x1f31f;&#x1f31f;&#x1f31f;&#x1f31f;&#x1f31f;&#x1f31f;…

简单聊聊更快、更稳、更高效的 QUIC 协议

目录 QUIC的起源和发展 QUIC 与 TCP 和 UDP 的比较 QUIC 的主要特性 QUIC 的工作原理 QUIC 的应用场景 小结 QUIC&#xff08;Quick UDP Internet Connections&#xff0c;快速 UDP 互联网连接&#xff09;是一种基于 UDP 协议的传输层协议&#xff0c;由 Google 首次提出…

上个班而已

习惯性刷CSDN&#xff0c;发现了这么个主题&#xff0c;有意思。在我的字典里&#xff0c;“养生”这个条目已经被我删了。看过了太多的伪科学、贩卖焦虑、带货、自以为是&#xff0c;干脆眼不见为净。但程序员人均亚健康这句话真未必是个玩笑&#xff0c;所以还是凑个热闹聊上…

XML Schema中的elementFormDefault

XML Schema中的elementFormDefault&#xff0c;用以指明xml的元素是否必须有命名空间的前缀。 它的取值可以为qualified、或者unqualified。默认值为unqualified。 当取值为qualified时&#xff0c;xml元素前必须有命名空间作为前缀&#xff1b; 当取值为unqualified时&#x…

04.PostgreSQL是如何实现隔离级别的?

PostgreSQL是如何实现隔离级别的&#xff1f; 事务有哪些特性&#xff1f; 事务看起来感觉简单&#xff0c;但是要实现事务必须要遵守 4 个特性&#xff0c;分别如下&#xff1a; 原子性&#xff08;Atomicity&#xff09;&#xff1a;一个事务中的所有操作&#xff0c;要么…

Istio新架构揭秘:环境化Mesh

自问世以来&#xff0c;Istio因其使用Sidecar&#xff08;可编程代理与应用容器一同部署&#xff09;而备受认可。这种架构选择使Istio用户能够享受其好处&#xff0c;而无需对其应用进行 drast 改变。这些可编程代理&#xff0c;与应用容器紧密部署在一起&#xff0c;因其能够…