(2024,提示优化,监督微调,强化学习,近端策略优化)用于安全生成文本到图像的通用提示优化器

Universal Prompt Optimizer for Safe Text-to-Image Generation

公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)

目录

0. 摘要

2. 相关工作

3. 提议的框架

4. 实验


0. 摘要

文本-图像(Text-to-Image,T2I)模型在基于文本提示生成图像方面表现出色。然而,这些模型对于不安全的输入以生成不安全的内容,如性、骚扰和非法活动图像,存在脆弱性。现有的基于图像检查器、模型微调和嵌入阻止的研究在实际应用中是不切实际的。因此,我们提出了第一个在黑盒情景中用于安全 T2I 生成的通用提示优化器。我们首先通过 GPT-3.5 Turbo 构建了一个包含有毒-清洁(toxic-clean)提示对的数据集。为了引导优化器具有将有毒提示转换为清洁提示的能力,同时保留语义信息我们设计了一个新颖的奖励函数,用于衡量生成图像的毒性和文本对齐度,并通过近端策略优化(Proximal Policy Optimization,PPO)进行训练。实验证明,我们的方法能够有效降低各种 T2I 模型生成不适当图像的可能性,对文本对齐没有显著影响。它还可以灵活与其他方法结合,以实现更好的性能。

2. 相关工作

带有安全机制的扩散(DM) T2I。然而,文本条件的图像生成能力的增强也带来了生成不当/不安全图像的风险,例如包含色情或暴力内容的图像。这些不当图像可能会对社会产生负面影响,从而影响人们对人工智能技术的信任。因此,一些初步措施已经被采取以防止从 DM 中生成不当图像。

一般而言,它们大致可分为两类:基于检测的方法和基于移除的方法。

  • 基于检测的方法(Rando等,2022)通过使用安全检查器检测生成的图像,并在检测到问题图像时拒绝输出图像。
  • 基于移除的方法可以进一步分为两类:基于引导的方法和基于微调的方法。
  • 基于引导的方法通过在推理阶段阻止某些词语或概念的文本嵌入来防止生成特定概念,如 SD with Negative Prompts(SD-NP)(Rombach等,2022)和 Safe Late Diffusion(SLD)(Schramowski等,2023)。
  • 基于微调的方法,如 Erased Stable Diffusion(ESD)(Gandikota等,2023),通过微调 DM 来抑制生成某些概念。这些方法在检测到不适当内容时要么返回一张黑色图像,可能会让用户感到不安,要么需要了解 T2I 的内部结构,缺乏实际可行性。

我们的工作与现有工作有本质的不同:(i)我们提出的框架通过直接和自动地优化提示来防止生成不当图像;和(ii)它可以应用于各种T2I模型,无需了解其内部结构。

提示工程。提示工程可以分为三个应用于基础模型的方面:对抗性攻击(Xu 等,2022),提示调整和提示优化。

  • 通过对提示进行字符级(Ebrahimi等,2018),词级(Garg和Ramakrishnan,2020)和句级(Zhao等,2017)扰动,攻击者可以对基础模型发起对抗性攻击以误导模型。
  • 提示调整(Jia等,2022)用于通过构建模板将下游任务转化为预训练任务,并通过微调模型实现少样本学习。
  • 提示优化旨在优化提示以提高基于提示的模型的性能(Hao等,2022;Betker等,2023)。提示优化已经在增强基础模型的能力方面显示出其效率和有效性。

在这项工作中,我们研究了 T2I 模型的提示优化问题,以生成安全图像。

3. 提议的框架

我们的提示适应框架旨在通过自动执行提示工程为 T2I 生成产生安全提示。在用户输入 T2I 生成的有毒提示后,我们的模型会自动输出修改后的提示,以避免生成不当图像,同时保留用户提示的适当部分(即保持文本对齐)。提议框架的示意图如图 2 所示。

  • 由于缺乏公开可用的有毒-清洁提示对数据集,我们首先在第3.1节生成一组有毒-清洁提示对。
  • 然后我们在第 3.2 节使用它们进行监督微调(SFT),以赋予模型将有毒提示转化为清洁提示的基本能力。SFT 可以被视为一个热身阶段,因此监督微调模型的有效性通常是中等的。
  • 为了提高模型的性能,我们进一步在第 3.4 节执行近端策略优化,以最大化我们在第 3.3 节设计的目标奖励,该奖励降低生成图像的不适当性同时保持文本对齐。 

4. 实验

我们为每个提示生成 10 张图像,然后考虑三个评估指标:

  • 不适当概率(Inappropriate Probability,IP)。我们按照(Schramowski等,2023)的方法评估不适当图像的概率。如果一个或两个分类器输出了相应的标签,则将图像分类为不适当。
  • 由于我们的 PPO 阶段的奖励参考了 Q16 的输出,为了进行更公平的比较,我们还采用了Multi-Headed Safety Classifier(MHSC)(Qu等,2023)作为额外的分类器。我们分别使用这两种方法来评估生成图像中的不适当概率(IP)。
  • 置信度分数(Confidence Score,CS):然后我们进一步评估由 Q16 分类器将生成的图像分类为不适当的置信度分数;
  • BLIP 相似性。BLIP(Li等,2022)是一个图像标题模型,具有图像编码器和文本编码器,BLIP 相似性是基于图像嵌入和文本嵌入计算的。我们使用生成的图像与原始提示之间的 BLIP相似性来评估文本对齐。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/690074.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

软件实例分享,酒店酒水寄存管理系统软件教程

软件实例分享,酒店酒水寄存管理系统软件教程 一、前言 以下软件教程以 佳易王酒水寄存管理系统软件V16.0为例说明 软件文件下载可以点击最下方官网卡片——软件下载——试用版软件下载 1、寄存的商品名称可以预先设置 2、寄存人可以使用手.机号识别 3、会员充值…

详解4大C语言内存函数【超详细建议点赞收藏】

目录 1. memcpy----内存拷贝1.1 函数介绍1.2 函数使用1.3 模拟实现 2. memmove----重叠内存的数据拷贝2.1 函数介绍2.2 函数使用2.3 模拟实现 3. memcmp----内存比较3.1 函数介绍3.2 函数使用 4.memset----内存设置4.1 函数介绍4.2 函数使用 注意:以下4个内存函数在…

Springboot医院信息管理系统源码 带电子病历和LIS Saas应用+前后端分离+B/S架构

目录 系统特点 技术架构 系统功能 1、 标准数据维护 2、 收费(门诊/住院)系统 3、 药剂管理系统 4、 医生工作站系统 5、 护士工作站系统 6、电子病历系统 系统优点 云HIS系统简介 云HIS系统功能模块 门急诊挂号管理 门诊收费管理 门诊医…

ansible剧本中的角色

1 roles角色 1.1 roles角色的作用? 可以把playbook剧本里的各个play看作为一个角色,将各个角色打的tasks任务、vars变量、template模版和copy、script模块使用的相关文件等内容放置在指定角色的目录里统一管理,在需要的时候可在playbook中使…

直接选择排序算法

​​​​​​目录 选择排序 SelectSort直接选择排序 整体思路 图解分析 ​ 代码实现 时间复杂度 选择排序 基本思想: 每一次从待排序的数据元素中选出最小(或最大)的一个元素,存放在序列的起始位置,直到全部待排…

【SV的面向对象 SV的类_2024.01.02】

OOP术语 OOP:object oriented programming Class类:包含变量和子程序的基本构建块 Object对象:类的一个实例 Handle句柄:指向对象的指针 Property属性:存储数据的变量;在V中,可以是wire或reg类…

NOTA-马来酰亚胺,1295584-83-6,可作为过渡金属离子的配体

您好,欢迎来到新研之家 文章关键词:NOTA-马来酰亚胺,NOTA Maleimide ,NOTA-Mal,1295584-83-6 一、基本信息 产品简介:NOTA Maleimide, also known as NOTA maleimide, is a novel bifunctional integrat…

Sora不懂物理世界,翻车神图全网爆笑!LeCun马斯克DeepMind大佬激辩世界模型

大火的Sora,让许多动画、影视行业的人大为恐慌。 不过,今天网上广为流传的这张图,让大家倒是放心了不少。 可以看到,在这个视频中,玻璃杯碎裂的方式十分诡异—— 它被抬到半空中时,桌子上就忽然出现了一滩…

PWM功能介绍 和配置

泰山派默认提供了3组PWM的GPIO , 为了检测PWM的输出,我们可以配合逻辑分析仪来查看效果,或者搭配STC8的LED灯 PWM 测试 列举所有的PWM设备: # 查找所有有pwm名称的文件 find / -name "pwm" # pwm4: pwmfe6e0000 edp屏幕…

【图像分割 2023 WACV】HiFormer

【图像分割 2023 WACV】HiFormer 论文题目:HiFormer: Hierarchical Multi-scale Representations Using Transformers for Medical Image Segmentation 中文题目:HiFormer:基于Transformer的分层多尺度表示医学图像分割 论文链接: 论文代码&a…

解决updatexml和extractvalue查询显示不全

报错注入是一种常见的SQL 注入方式,通过注入代码,触发数据库的错误响应,并从错误信息中获取有用的信息。 updatexml和extractvalue updatexml和extractvalue 是常用的两个报错注入函数 http://localhost/sqli/Less-5/?id1%27and%20updat…

Maxwell - 增量数据

前言 今天来学习一个新的大数据小工具 Maxwell ,它和 Sqoop 很像。Sqoop主要用于在 Hadoop (比如 HDFS、Hive、HBase 等)和关系型数据库之间进行数据的批量导入和导出,而 Maxwell 则主要用于监控数据库的变化(通过监控…

如何使用Docker部署Drupal并结合cpolar实现固定公网地址访问

文章目录 前言1. Docker安装Drupal2. 本地局域网访问3 . Linux 安装cpolar4. 配置Drupal公网访问地址5. 公网远程访问Drupal6. 固定Drupal 公网地址 前言 Dupal是一个强大的CMS,适用于各种不同的网站项目,从小型个人博客到大型企业级门户网站。它的学习…

2024年及以后在您的项目中使用的最佳CSS框架

在过去几年中,CSS已经取得了长足的进步。在过去,您可能会使用CSS来创建依赖于HTML表格和CSS浮动作为其布局系统的简单外观的Web应用程序。而现在,您可以设计复杂的交互式用户界面,具有优雅的设计。 尽管CSS变得越来越先进&#x…

虚拟机centos7 网络IP冲突

修改其中一个虚拟机IP 1: 设置虚拟机网络配置器的模式为NAT模式,操作方式如下图所示 2:点击虚拟网络编辑器 3:点击NAT设置 4:点击DHCP配置 5: 修改配置文件来指定IP并可以连接到外网,在roo…

【通讯录案例-数据存储总结 Objective-C语言】

一、我们简单的把“数据存储”总结一下, 1.上午,我们说的三种存储方式, 1)plist 2)Preference(偏好设置) 3)NSKeyedArchiver(归档、解档) 三种存储方式, 2.什么能做plist存储, 1)writeToFile:方法, 实际上,这个东西,才是关键, 有一个对象,可以去写w…

ETL数据集成工具DataX、Kettle、ETLCloud特点对比

ETL数据集成工具 对于数据仓库,大数据集成类应用,通常会采用ETL工具辅助完成。ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract) 、交互转换(transform) 、加载(load)至的端的过程当前的很多应…

spring @Transactional注解参数详解

事物注解方式: Transactional 当标于类前时, 标示类中所有方法都进行事物处理 , 例子: 1 Transactional public class TestServiceBean implements TestService {}当类中某些方法不需要事物时: Transactional public class TestServiceBean implements TestService {private…

Vue24 收集表单数据 实例

实例 <!DOCTYPE html> <html><head><meta charset"UTF-8" /><title>收集表单数据</title><script type"text/javascript" src"../js/vue.js"></script></head><body><!-- 收集…

SpringCloud-Feign:负载均衡(基于服务端)

7.Feign&#xff1a;负载均衡(基于服务端) 7.1 Feign简介 Feign是一个开源的声明式HTTP客户端&#xff0c;它可以简化HTTP API的调用过程。Feign的设计目标是使得使用者可以像调用本地方法一样调用远程服务&#xff0c;使得编写和维护HTTP客户端变得更加简单。类似controller…