从文本到安全图像:自动提示优化防止不当内容生成

T2I生成技术已经得到了广泛关注,并见证了如GLIDE、Imagen、DALL-E 2、Stable Diffusion等大型生成模型的发展。尽管这些模型能够根据文本描述生成高质量的图像,促进了书籍插图、品牌标识设计、游戏场景创作等多种实际应用,但它们也被恶意用户用于生成不安全内容。尽管在开发阶段通过过滤训练数据或鲁棒学习等方法使T2I模型能够生成安全内容,但最近的研究表明,T2I模型仍然容易受到提示扰动的影响,从而生成不适当的内容。来自宾夕法尼亚州立大学、中国科学院大学和天津大学的研究团队提出了一种新的安全T2I生成问题,并提出了一种提示优化器,它可以在不获取T2I模型结构的情况下,指导T2I模型生成安全且语义保持的内容。

原始样本和优化后的样本之间的比较。原始图像是手动模糊处理后用于展示的

框架

整个过程的目标是开发一个自动化的系统,该系统能够优化文本提示,以指导T2I模型生成既安全又语义上与原始提示相符的图像。旨在创建一个有效且通用的提示优化框架,可以减少不适当内容的生成,并提高T2I模型的安全性和可靠性。

方法的概述,展示了从有毒提示到修改后的提示,再到T2I模型生成图像的整个流程

图2提供了所提出的提示优化器(POSI)的概述。该系统分为三个主要步骤:

  1. 使用GPT预处理有毒提示

    研究者们采用了GPT-3.5 Turbo这一高性能的语言模型来执行这一任务。GPT-3.5 Turbo的选用基于其在处理效能和成本效益之间所达到的平衡。任务的起点是收集I2P数据集中的有毒提示,这些提示可能包含性暗示、骚扰、自我伤害或非法活动等不当内容。为了引导GPT-3.5 Turbo学习如何将这些有毒提示转化为清洁版本,研究者们首先创建了一系列高质量的有毒-清洁提示对,作为模型学习的样本。

    利用这些少量学习样本,GPT-3.5 Turbo通过模仿学习过程,自动生成了大量对应的清洁提示。这个过程不仅要求模型理解并剔除原始提示中的不当元素,还要求它保持原始提示的核心语义和信息。生成的有毒-清洁提示对被整理成数据集DSFT,这个数据集是后续训练语言模型进行提示优化的基础。数据集的构建注重多样性和质量,确保每个清洁提示都能准确地反映原始提示的意图,同时避免不适当的内容。

    在生成过程中,需要对结果进行评估和筛选,以保证清洁提示不仅去除不当内容,而且与原始提示在语义上保持高度一致。最终,这个经过精心构建的数据集将被用于训练提示优化器,使其能够在不直接修改T2I模型内部结构的情况下,学习如何生成既安全又符合原始意图的图像。这一步骤是实现自动化、安全文本到图像生成的关键,为后续的超级微调和近端策略优化训练阶段奠定了坚实的基础。

  2. 基于数据集进行超级微调

    这一过程紧随有毒-清洁提示对数据集的创建之后,目的是让语言模型通过学习这些对,掌握将含有不适当内容的有毒提示转换为适宜的清洁提示的技能。

    在SFT过程中,模型接受了大量有毒提示及其对应的清洁版本,以此训练其参数,使其更好地理解如何对提示进行恰当的修改。通过对数据集中的每一对提示进行分析,模型学习识别和替换可能导致不适当图像生成的关键词或短语,同时保持原始提示的核心意义和语境。

    尽管SFT是一个关键的步骤,它为模型提供了必要的基础能力,但在这个初始阶段,模型的性能并不足以达到最优。这是因为模型仅仅通过监督学习来模仿已有的示例,而没有进一步优化以提高生成清洁提示的质量和效率。因此,尽管SFT后的模型能够生成基本的清洁提示,但其在处理复杂或新颖的有毒提示时可能还不够精准。

    为了进一步提升模型的性能,研究者们需要进入下一步,即近端策略优化阶段,通过强化学习的方法来增强模型的决策过程,使其在生成清洁提示时更加智能和有效。这样,模型不仅能够模仿已有的示例,还能够创造性地处理各种新的有毒提示,从而在保持语义一致性的同时,显著降低生成不适当内容的风险。

  3. 基于设计的奖励进行近端策略优化

    在近端策略优化阶段,研究者们采用了一种先进的强化学习算法——近端策略优化(PPO),以进一步提升语言模型在生成安全且语义一致图像方面的表现。此阶段的核心在于设计并应用一个新颖的奖励函数,这个函数综合考量了两个关键因素:生成图像的安全性(即毒性水平)和与原始文本提示的对齐度。

    奖励函数的设计非常关键,因为它直接指导了模型的训练方向和优化目标。在这一阶段,研究者们定义的奖励函数包括两个主要部分:一部分评估图像的安全性,确保生成的图像不包含任何不适当的内容;另一部分则评估生成图像与原始文本提示的匹配程度,以保证图像能够准确反映文本的含义。

    PPO算法的引入,使得模型能够在与T2I模型交互的过程中不断学习和进步。通过这种方式,模型能够接收到即时的反馈,并根据反馈调整其生成策略。PPO算法的优势在于它不需要了解T2I模型的内部结构,而是通过直接与模型生成的图像结果进行交互,来优化模型的输出。

    在PPO训练过程中,模型的参数通过最大化奖励函数来进行调整。模型在每次迭代中都会尝试生成更安全、与文本更对齐的图像,并根据奖励函数的评分来更新其行为策略。通过这种方式,模型逐步学会了如何生成既满足安全性要求又保持原始文本意图的图像。

    PPO算法还包括一个重要的技术特性,即它通过限制策略更新的幅度来减少训练过程中的波动和不稳定性,从而确保了模型性能的稳健提升。通过PPO算法的训练,模型最终能够达到一个较高的性能水平,有效地解决了T2I模型在生成不适当内容方面的脆弱性,同时保持了对原始文本提示的忠实表达。

实验)

研究者们从I2P数据集的六个类别中提取了50个提示,构成了评估数据集。这些类别包括性内容、骚扰、自我伤害、非法活动、令人震惊和暴力。剩余的I2P提示被分为两部分,用于SFT和PPO阶段。此外,还使用了模板提示作为评估数据集,这些提示是手动创建的,具有高风险导致Stable Diffusion生成不适当图像。

用于实验的数据集,包括用于SFT、PPO阶段和评估的数据集的数量

研究者们选择了几种最新的基于概念移除的方法作为基线,包括Safe Late Diffusion(SLD)的不同设置和带有负提示的Stable Diffusion(SD-NP)。还选择了基于微调的方法,如Erased Stable Diffusion(ESD),并在Stable Diffusion v1.4上进行了实现。

在框架中,使用了具有7B参数的LLaMA作为语言模型,并基于ViT-B/32的CLIP计算对齐分数。T2I模型G被设置为Stable Diffusion v1.4。在SFT阶段,使用了LoRA进行训练,并设置了相应的参数。

研究者们针对每个提示生成了10张图像,并采用以下三个评估指标:

  • 不适当概率(Inappropriate Probability, IP):使用Q16和NudeNet两个分类器来评估生成图像的不适当性。
  • 置信度得分(Confidence Score, CS):评估Q16将生成图像分类为不适当的置信度。
  • BLIP相似度:使用BLIP模型计算生成图像与原始提示之间的相似度,以评估文本对齐。 

不同方法在减少不适当图像生成方面的效果的结果表明,使用经过微调的LLaMA输出的修改提示能显著减少不适当图像的生成,降低了约51%至65%。此外,该方法还能与现有方法结合,进一步提升效果。

在SD v1.4模型上,使用Q16和NudeNet评估的不适当概率和Q16的置信度分数
在SD v1.4模型上,使用多头部安全分类器 (MHSC) 评估的不适当概率

研究者们进行了案例研究,比较了不同方法在去除Stable Diffusion v1.4不适当内容方面的效果。结果表明,所提出的方法在抑制不适当内容生成的同时,保持了良好的文本对齐。

不同方法在去除SD v1.4中的不适当内容方面的比较,包括原始图像和优化后的图像

研究者们测试了提示优化器在Stable Diffusion v2.0和v2.1上的迁移性。结果表明,即使在不同版本的Stable Diffusion上,经过Stable Diffusion v1.4训练的模型也能有效地降低生成不适当图像的可能性,显示出良好的迁移性。

在SD v2.0模型上,使用Q16和NudeNet评估的不适当概率和Q16的置信度分数

为了评估方法中每个组件的贡献,研究者们进行了消融研究。结果表明,SFT和PPO阶段对于降低生成不适当图像的概率都是至关重要的。

消融研究的结果

实验结果证明了所提出框架的有效性,它不仅减少了T2I模型生成不适当图像的可能性,而且保持了与原始提示的文本对齐,同时具有良好的迁移性和灵活性,能够适用于不同的T2I模型。

论文链接:https://arxiv.org/abs/2402.10882

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/867554.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vs2022 远程启动调试

vs2015如何远程启动程序来进行调试_vs2015远程调试-CSDN博客

05.06 - 05.18_111期_Linux_信号

signal 可以自定义进程在接收到指定信号后&#xff0c;会执行的函数 sigaction 除了可以做signal 可以做的功能&#xff0c;还可以通过sigaction这个结构体了解信号的更多具体信息 void sigcb(int sig) {std::cout << " get a sig: " << sig << …

实现浏览器语音呼起及语音录入及下载

主要分布三部分: 第一部分:开始录音 ;第二部分:停止录音;第三部分:静默监听。 一、开始录音 代码如下: document.getElementById(startRecording).onclick = async function() {if (navigator.mediaDevices && navigator.mediaDevices.getUserMedia) {try {au…

使用京东云主机搭建幻兽帕鲁游戏联机服务器全流程,0基础教程

使用京东云服务器搭建幻兽帕鲁Palworld游戏联机服务器教程&#xff0c;非常简单&#xff0c;京东云推出幻兽帕鲁镜像系统&#xff0c;镜像直接选择幻兽帕鲁镜像即可一键自动部署&#xff0c;不需要手动操作&#xff0c;真正的新手0基础部署幻兽帕鲁&#xff0c;阿腾云整理基于京…

Python学习笔记30:进阶篇(十九)pygame的使用之显示与窗口管理

前言 基础模块的知识通过这么长时间的学习已经有所了解&#xff0c;更加深入的话需要通过完成各种项目&#xff0c;在这个过程中逐渐学习&#xff0c;成长。 我们的下一步目标是完成python crash course中的外星人入侵项目&#xff0c;这是一个2D游戏项目。在这之前&#xff…

YOLOv8改进 | 注意力机制 | 结合静态和动态上下文信息的注意力机制

秋招面试专栏推荐 &#xff1a;深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转 &#x1f4a1;&#x1f4a1;&#x1f4a1;本专栏所有程序均经过测试&#xff0c;可成功执行&#x1f4a1;&#x1f4a1;&#x1f4a1; 专栏目录 &#xff1a;《YOLOv8改进有效…

力扣双指针算法题目:双数之和,三数之和,四数之和

目录 一&#xff1a;双数之和 1.题目&#xff1a; 2.思路解析 3.代码 二&#xff1a;三数之和 1.题目 2.思路解析 3&#xff0c;代码 三&#xff1a;四数字之和 1.题目 2.思路解析 3.代码 一&#xff1a;双数之和 1.题目&#xff1a; 输入一个递增排序的数组和一…

EtherCAT主站IGH-- 9 -- IGH之eoe_request.h/c文件解析

EtherCAT主站IGH-- 9 -- IGH之eoe_request.h/c文件解析 0 预览一 该文件功能`eoe_request.c` 文件功能函数预览二 函数功能介绍1. `ec_eoe_request_init`示例用法示例详细说明三 h文件翻译四 c文件翻译该文档修改记录:总结0 预览 一 该文件功能 该文件定义了用于 EtherCAT 的…

【DOM】实现一个课程表的拖拽功能

历史小剧场 一个皇帝从不需要用个人的良好品格来证明自己的英明&#xff0c;恰恰相反&#xff0c;在历史上&#xff0c;干皇帝这行的人基本都不是什么好人&#xff0c;因为好人干不了皇帝&#xff0c;朱匀炆就是铁证。----《明朝那些事儿》 1. 前置知识 1.1 DataTransfer接口 …

怎么有逻辑的说话?

怎么有逻辑的说话&#xff0c;一节黄执中的课。 平时我们常会被说说话没有逻辑&#xff0c;那么什么叫做有逻辑呢&#xff1f; 黄执中说有明确的主张就是有逻辑。这里的主张&#xff0c;包括了有议题&#xff0c;有结论&#xff0c;有理由。 举一个正面的例子&#xff0c;比…

贵州建筑三类人员安全员2024年考试最新题库练习题

一、单选题 1.建设工程安全管理的方针是&#xff08;&#xff09;。 A.安全第一&#xff0c;预防为主&#xff0c;综合治理 B.质量第一&#xff0c;兼顾安全 C.安全至上 D.安全责任重于泰山 答案&#xff1a;A 2.安全生产管理的根本目的是&#xff08;&#xff09;。 A.…

Lunaproxy与711Proxy的对比与优劣分析

今天我们来深入对比两款在市场上备受关注的代理IP服务&#xff1a;Lunaproxy和711Proxy。接下来&#xff0c;我们将从多个角度对这两款服务进行详细分析&#xff0c;帮助大家做出明智的选择。 优势分析 711Proxy的优势 1. 性价比高&#xff1a;711Proxy提供多种灵活的套餐选…

伪元素content追加文字使用小技巧

E::before和E::after本身的作用是追加字&#xff0c;直接在文字后面追加链接 <!DOCTYPE html> <html lang"zh-cn"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-sca…

AI文本转语音,再也不用担心视频配音了.

文章目录 简介代码实现调用开通百度付费包 简介 背景 我想要将文本,转为语音,然后配上图片,这样就可以很快生成一个视频. 可以说是配音吧,我还是比较喜欢通过代码来自动化.所以今天就来实现一下,同时做一下分享和记录.目标 通过python代码,自动将文本转为配音.平台 我选择了百…

中位值平均滤波法(又称防脉冲干扰平均滤波法)

中位值平均滤波法(又称防脉冲干扰平均滤波法) 中位值平均滤波法:采一组队列去掉最大值和最小值后取平均值,相当于“中位值滤波法”+“算术平均滤波法”。连续采样N个数据,去掉一个最大值和一个最小值,然后计算N-2个数据的算术平均值。 优点:融合了“中位值滤波法”+“算…

万界星空科技MES系统中的排版排产功能

在当今高度竞争的市场环境中&#xff0c;企业对于生产管理的效率和质量要求日益提高。作为智能制造的重要组成部分&#xff0c;制造执行系统&#xff08;MES&#xff09;以其强大的功能&#xff0c;在提升企业生产能力方面发挥着不可替代的作用。万界星空科技作为行业领先的智能…

MongoDB集群搭建-最简单

目录 前言 一、分片概念 二、搭建集群的步骤 总结 前言 MongoDB分片&#xff08;Sharding&#xff09;是一种水平扩展数据库的方法&#xff0c;它允许将数据分散存储在多个服务器上&#xff0c;从而提高数据库的存储容量和处理能力。分片是MongoDB为了应对大数据量和高吞吐量需…

Git温习

基本流程 工作区–>暂存区–>本地仓库–>远程仓库 基本配置 git config user.name [用户名] 设置用户名添加–project&#xff0c;针对当前项目生效&#xff08;默认&#xff09;添加–global&#xff0c;针对当前用户生效&#xff08;示例&#xff1a;git config -…

vivado CONFIG_MODE、CONFIG_VOLTAGE

配置模式 CONFIG_MODE属性定义要用于的设备配置模式 引脚分配、DRC报告和比特流生成。 重要提示&#xff1a;COMPATIBLE_CONFIG_MODES属性在2013.3版本中已被弃用&#xff0c;并且 被CONFIG_MODE属性替换。 Xilinx FPGA可以通过加载特定于应用程序的配置数据或 比特流通过特殊的…

ChatGPT-4 对比 ChatGPT-3.5:有哪些优势

引言 ChatGPT4相比于ChatGPT3.5,有着诸多不可比拟的优势&#xff0c;比如图片生成、图片内容解析、GPTS开发、更智能的语言理解能力等&#xff0c;但是在国内使用GPT4存在网络及充值障碍等问题&#xff0c;如果您对ChatGPT4.0感兴趣&#xff0c;可以私信博主为您解决账号和环境…