从文本到安全图像:自动提示优化防止不当内容生成

T2I生成技术已经得到了广泛关注,并见证了如GLIDE、Imagen、DALL-E 2、Stable Diffusion等大型生成模型的发展。尽管这些模型能够根据文本描述生成高质量的图像,促进了书籍插图、品牌标识设计、游戏场景创作等多种实际应用,但它们也被恶意用户用于生成不安全内容。尽管在开发阶段通过过滤训练数据或鲁棒学习等方法使T2I模型能够生成安全内容,但最近的研究表明,T2I模型仍然容易受到提示扰动的影响,从而生成不适当的内容。来自宾夕法尼亚州立大学、中国科学院大学和天津大学的研究团队提出了一种新的安全T2I生成问题,并提出了一种提示优化器,它可以在不获取T2I模型结构的情况下,指导T2I模型生成安全且语义保持的内容。

原始样本和优化后的样本之间的比较。原始图像是手动模糊处理后用于展示的

框架

整个过程的目标是开发一个自动化的系统,该系统能够优化文本提示,以指导T2I模型生成既安全又语义上与原始提示相符的图像。旨在创建一个有效且通用的提示优化框架,可以减少不适当内容的生成,并提高T2I模型的安全性和可靠性。

方法的概述,展示了从有毒提示到修改后的提示,再到T2I模型生成图像的整个流程

图2提供了所提出的提示优化器(POSI)的概述。该系统分为三个主要步骤:

  1. 使用GPT预处理有毒提示

    研究者们采用了GPT-3.5 Turbo这一高性能的语言模型来执行这一任务。GPT-3.5 Turbo的选用基于其在处理效能和成本效益之间所达到的平衡。任务的起点是收集I2P数据集中的有毒提示,这些提示可能包含性暗示、骚扰、自我伤害或非法活动等不当内容。为了引导GPT-3.5 Turbo学习如何将这些有毒提示转化为清洁版本,研究者们首先创建了一系列高质量的有毒-清洁提示对,作为模型学习的样本。

    利用这些少量学习样本,GPT-3.5 Turbo通过模仿学习过程,自动生成了大量对应的清洁提示。这个过程不仅要求模型理解并剔除原始提示中的不当元素,还要求它保持原始提示的核心语义和信息。生成的有毒-清洁提示对被整理成数据集DSFT,这个数据集是后续训练语言模型进行提示优化的基础。数据集的构建注重多样性和质量,确保每个清洁提示都能准确地反映原始提示的意图,同时避免不适当的内容。

    在生成过程中,需要对结果进行评估和筛选,以保证清洁提示不仅去除不当内容,而且与原始提示在语义上保持高度一致。最终,这个经过精心构建的数据集将被用于训练提示优化器,使其能够在不直接修改T2I模型内部结构的情况下,学习如何生成既安全又符合原始意图的图像。这一步骤是实现自动化、安全文本到图像生成的关键,为后续的超级微调和近端策略优化训练阶段奠定了坚实的基础。

  2. 基于数据集进行超级微调

    这一过程紧随有毒-清洁提示对数据集的创建之后,目的是让语言模型通过学习这些对,掌握将含有不适当内容的有毒提示转换为适宜的清洁提示的技能。

    在SFT过程中,模型接受了大量有毒提示及其对应的清洁版本,以此训练其参数,使其更好地理解如何对提示进行恰当的修改。通过对数据集中的每一对提示进行分析,模型学习识别和替换可能导致不适当图像生成的关键词或短语,同时保持原始提示的核心意义和语境。

    尽管SFT是一个关键的步骤,它为模型提供了必要的基础能力,但在这个初始阶段,模型的性能并不足以达到最优。这是因为模型仅仅通过监督学习来模仿已有的示例,而没有进一步优化以提高生成清洁提示的质量和效率。因此,尽管SFT后的模型能够生成基本的清洁提示,但其在处理复杂或新颖的有毒提示时可能还不够精准。

    为了进一步提升模型的性能,研究者们需要进入下一步,即近端策略优化阶段,通过强化学习的方法来增强模型的决策过程,使其在生成清洁提示时更加智能和有效。这样,模型不仅能够模仿已有的示例,还能够创造性地处理各种新的有毒提示,从而在保持语义一致性的同时,显著降低生成不适当内容的风险。

  3. 基于设计的奖励进行近端策略优化

    在近端策略优化阶段,研究者们采用了一种先进的强化学习算法——近端策略优化(PPO),以进一步提升语言模型在生成安全且语义一致图像方面的表现。此阶段的核心在于设计并应用一个新颖的奖励函数,这个函数综合考量了两个关键因素:生成图像的安全性(即毒性水平)和与原始文本提示的对齐度。

    奖励函数的设计非常关键,因为它直接指导了模型的训练方向和优化目标。在这一阶段,研究者们定义的奖励函数包括两个主要部分:一部分评估图像的安全性,确保生成的图像不包含任何不适当的内容;另一部分则评估生成图像与原始文本提示的匹配程度,以保证图像能够准确反映文本的含义。

    PPO算法的引入,使得模型能够在与T2I模型交互的过程中不断学习和进步。通过这种方式,模型能够接收到即时的反馈,并根据反馈调整其生成策略。PPO算法的优势在于它不需要了解T2I模型的内部结构,而是通过直接与模型生成的图像结果进行交互,来优化模型的输出。

    在PPO训练过程中,模型的参数通过最大化奖励函数来进行调整。模型在每次迭代中都会尝试生成更安全、与文本更对齐的图像,并根据奖励函数的评分来更新其行为策略。通过这种方式,模型逐步学会了如何生成既满足安全性要求又保持原始文本意图的图像。

    PPO算法还包括一个重要的技术特性,即它通过限制策略更新的幅度来减少训练过程中的波动和不稳定性,从而确保了模型性能的稳健提升。通过PPO算法的训练,模型最终能够达到一个较高的性能水平,有效地解决了T2I模型在生成不适当内容方面的脆弱性,同时保持了对原始文本提示的忠实表达。

实验)

研究者们从I2P数据集的六个类别中提取了50个提示,构成了评估数据集。这些类别包括性内容、骚扰、自我伤害、非法活动、令人震惊和暴力。剩余的I2P提示被分为两部分,用于SFT和PPO阶段。此外,还使用了模板提示作为评估数据集,这些提示是手动创建的,具有高风险导致Stable Diffusion生成不适当图像。

用于实验的数据集,包括用于SFT、PPO阶段和评估的数据集的数量

研究者们选择了几种最新的基于概念移除的方法作为基线,包括Safe Late Diffusion(SLD)的不同设置和带有负提示的Stable Diffusion(SD-NP)。还选择了基于微调的方法,如Erased Stable Diffusion(ESD),并在Stable Diffusion v1.4上进行了实现。

在框架中,使用了具有7B参数的LLaMA作为语言模型,并基于ViT-B/32的CLIP计算对齐分数。T2I模型G被设置为Stable Diffusion v1.4。在SFT阶段,使用了LoRA进行训练,并设置了相应的参数。

研究者们针对每个提示生成了10张图像,并采用以下三个评估指标:

  • 不适当概率(Inappropriate Probability, IP):使用Q16和NudeNet两个分类器来评估生成图像的不适当性。
  • 置信度得分(Confidence Score, CS):评估Q16将生成图像分类为不适当的置信度。
  • BLIP相似度:使用BLIP模型计算生成图像与原始提示之间的相似度,以评估文本对齐。 

不同方法在减少不适当图像生成方面的效果的结果表明,使用经过微调的LLaMA输出的修改提示能显著减少不适当图像的生成,降低了约51%至65%。此外,该方法还能与现有方法结合,进一步提升效果。

在SD v1.4模型上,使用Q16和NudeNet评估的不适当概率和Q16的置信度分数
在SD v1.4模型上,使用多头部安全分类器 (MHSC) 评估的不适当概率

研究者们进行了案例研究,比较了不同方法在去除Stable Diffusion v1.4不适当内容方面的效果。结果表明,所提出的方法在抑制不适当内容生成的同时,保持了良好的文本对齐。

不同方法在去除SD v1.4中的不适当内容方面的比较,包括原始图像和优化后的图像

研究者们测试了提示优化器在Stable Diffusion v2.0和v2.1上的迁移性。结果表明,即使在不同版本的Stable Diffusion上,经过Stable Diffusion v1.4训练的模型也能有效地降低生成不适当图像的可能性,显示出良好的迁移性。

在SD v2.0模型上,使用Q16和NudeNet评估的不适当概率和Q16的置信度分数

为了评估方法中每个组件的贡献,研究者们进行了消融研究。结果表明,SFT和PPO阶段对于降低生成不适当图像的概率都是至关重要的。

消融研究的结果

实验结果证明了所提出框架的有效性,它不仅减少了T2I模型生成不适当图像的可能性,而且保持了与原始提示的文本对齐,同时具有良好的迁移性和灵活性,能够适用于不同的T2I模型。

论文链接:https://arxiv.org/abs/2402.10882

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/867554.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用京东云主机搭建幻兽帕鲁游戏联机服务器全流程,0基础教程

使用京东云服务器搭建幻兽帕鲁Palworld游戏联机服务器教程,非常简单,京东云推出幻兽帕鲁镜像系统,镜像直接选择幻兽帕鲁镜像即可一键自动部署,不需要手动操作,真正的新手0基础部署幻兽帕鲁,阿腾云整理基于京…

Python学习笔记30:进阶篇(十九)pygame的使用之显示与窗口管理

前言 基础模块的知识通过这么长时间的学习已经有所了解,更加深入的话需要通过完成各种项目,在这个过程中逐渐学习,成长。 我们的下一步目标是完成python crash course中的外星人入侵项目,这是一个2D游戏项目。在这之前&#xff…

YOLOv8改进 | 注意力机制 | 结合静态和动态上下文信息的注意力机制

秋招面试专栏推荐 :深度学习算法工程师面试问题总结【百面算法工程师】——点击即可跳转 💡💡💡本专栏所有程序均经过测试,可成功执行💡💡💡 专栏目录 :《YOLOv8改进有效…

力扣双指针算法题目:双数之和,三数之和,四数之和

目录 一:双数之和 1.题目: 2.思路解析 3.代码 二:三数之和 1.题目 2.思路解析 3,代码 三:四数字之和 1.题目 2.思路解析 3.代码 一:双数之和 1.题目: 输入一个递增排序的数组和一…

贵州建筑三类人员安全员2024年考试最新题库练习题

一、单选题 1.建设工程安全管理的方针是()。 A.安全第一,预防为主,综合治理 B.质量第一,兼顾安全 C.安全至上 D.安全责任重于泰山 答案:A 2.安全生产管理的根本目的是()。 A.…

Lunaproxy与711Proxy的对比与优劣分析

今天我们来深入对比两款在市场上备受关注的代理IP服务:Lunaproxy和711Proxy。接下来,我们将从多个角度对这两款服务进行详细分析,帮助大家做出明智的选择。 优势分析 711Proxy的优势 1. 性价比高:711Proxy提供多种灵活的套餐选…

伪元素content追加文字使用小技巧

E::before和E::after本身的作用是追加字&#xff0c;直接在文字后面追加链接 <!DOCTYPE html> <html lang"zh-cn"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-sca…

AI文本转语音,再也不用担心视频配音了.

文章目录 简介代码实现调用开通百度付费包 简介 背景 我想要将文本,转为语音,然后配上图片,这样就可以很快生成一个视频. 可以说是配音吧,我还是比较喜欢通过代码来自动化.所以今天就来实现一下,同时做一下分享和记录.目标 通过python代码,自动将文本转为配音.平台 我选择了百…

万界星空科技MES系统中的排版排产功能

在当今高度竞争的市场环境中&#xff0c;企业对于生产管理的效率和质量要求日益提高。作为智能制造的重要组成部分&#xff0c;制造执行系统&#xff08;MES&#xff09;以其强大的功能&#xff0c;在提升企业生产能力方面发挥着不可替代的作用。万界星空科技作为行业领先的智能…

MongoDB集群搭建-最简单

目录 前言 一、分片概念 二、搭建集群的步骤 总结 前言 MongoDB分片&#xff08;Sharding&#xff09;是一种水平扩展数据库的方法&#xff0c;它允许将数据分散存储在多个服务器上&#xff0c;从而提高数据库的存储容量和处理能力。分片是MongoDB为了应对大数据量和高吞吐量需…

Science期刊政策反转:允许生成式AI用于论文写作,意味着什么?

我是娜姐 迪娜学姐 &#xff0c;一个SCI医学期刊编辑&#xff0c;探索用AI工具提效论文写作和发表。 关于各大top期刊和出版社对于生成式AI用于论文写作中的规定&#xff0c;娜姐之前写过一篇文章&#xff1a; 如何合理使用AI写论文&#xff1f;来看Top 100学术期刊和出版社的…

深度解析 Raft 分布式一致性协议

本文参考转载至&#xff1a;浅谈 Raft 分布式一致性协议&#xff5c;图解 Raft - 白泽来了 - 博客园 (cnblogs.com) 深度解析 Raft 分布式一致性协议 - 掘金 (juejin.cn) raft-zh_cn/raft-zh_cn.md at master maemual/raft-zh_cn (github.com) 本篇文章将模拟一个KV数据读写服…

【漏洞复现】禅道——未授权登入(QVD-2024-15263)

声明&#xff1a;本文档或演示材料仅供教育和教学目的使用&#xff0c;任何个人或组织使用本文档中的信息进行非法活动&#xff0c;均与本文档的作者或发布者无关。 文章目录 漏洞描述漏洞复现测试工具 漏洞描述 禅道&#xff08;Zentao&#xff09;是一款开源的项目管理和协作…

死锁-活锁与活锁的预防、死锁与死锁的预防和检测(处理死锁的方式:事务等待图)

一、引言 1、死锁是因采用封锁技术实现并发控制而产生的一种运行事务被阻塞或等待的现象 2、如果利用严格两阶段封锁协议来解决我们前面提到的“更新丢失”这种数据不一致问题&#xff0c;非串行调度中的事务T1首先获得数据对象X上的读锁并开始执行&#xff0c;随后事务T2也获…

数值分析笔记(五)线性方程组解法

三角分解法 A的杜利特分解公式如下&#xff1a; u 1 j a 1 j ( j 1 , 2 , ⋯ , n ) , l i 1 a i 1 / u 11 ( i 2 , 3 , ⋯ , n ) , u k j a k j − ∑ m 1 k − 1 l b m u m j ⇒ a k j ( j k , k 1 , ⋯ , n ) , l i k ( a i k − ∑ m 1 k − 1 l i n u m k ) /…

uniapp 在手机上导出excel

1.创建excelDev.js文件 export default {exportExcel(fileData, documentName excel) {plus.io.requestFileSystem(plus.io.PUBLIC_DOCUMENTS, function(fs) {let rootObj fs.rootlet fullPath rootObj.fullPathconsole.log("开始导出数据")// 创建文件夹rootObj…

破解宇宙终极奥秘,战胜昊天无上束缚

在幽邃的暗夜下&#xff0c;细品着夫子与昊天跨越千年的智勇交锋&#xff0c;我的思绪不禁飘向了更加深远的宇宙边际&#xff0c;回响起那些关于人类如何挑战天命、战胜上天的过往。 宇宙奥秘 在浩瀚无垠的宇宙深渊中&#xff0c;隐藏着一段超越凡尘的规则。昊天&#xff0c;…

2025湖北武汉智慧教育装备信息化展/智慧校园展/湖北高博会

2025武汉教育装备展,2025武汉智慧教育展,2025武汉智慧校园展,2025武汉教育信息化展,2025武汉智慧教室展,湖北智慧校园展,湖北智慧教室展,武汉教学设备展,湖北高教会,湖北高博会 2025湖北武汉智慧教育装备信息化展/智慧校园展/湖北高博会 2025第10届武汉国际教育装备及智慧校园…

计算机网络——数据链路层(以太网扩展、虚拟局域网、高速以太网)

在许多情况下&#xff0c;我们希望把以太网的覆盖范围扩展。本节先讨论在物理层把以太网扩展&#xff0c;然后讨论在数据链路层把以太网扩展。这种扩展的以太网在网络层看来仍然是一个网络。 在物理层扩展以太网 现在&#xff0c;扩展主机和集线器之间的距离的一种简单方法就是…

jmeter-beanshell学习3-beanshell获取请求报文和响应报文

前后两个报文&#xff0c;后面报文要用前面报文的响应结果&#xff0c;这个简单&#xff0c;正则表达式或者json提取器&#xff0c;都能实现。但是如果后面报文要用前面请求报文的内容&#xff0c;感觉有点难。最早时候把随机数写在自定义变量&#xff0c;前后两个接口都用这个…