(2024,强化学习,扩散,奖励函数)扩散模型的大规模强化学习

Large-scale Reinforcement Learning for Diffusion Models

公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群)

目录

0. 摘要

3. 方法

3.1. 使用多步骤 MDP 的策略梯度

3.2. 基于分布的奖励函数

3.3. 多任务联合训练

4. 奖励函数和实验 


0. 摘要

文本到图像扩散模型是一类深度生成模型,展示了令人印象深刻的高质量图像生成能力。然而,这些模型容易受到源自网络规模文本-图像训练对的隐含偏见的影响,可能不准确地建模我们关心的图像方面。这可能导致次优的样本、模型偏见以及与人类伦理和偏好不符的图像。在本文中,我们提出了一种有效的可扩展算法,使用强化学习(RL)改进扩散模型,涵盖人类偏好、组成性和公平性等多种奖励函数,涉及数百万张图像。我们说明了我们的方法如何显著优于现有方法,使扩散模型与人类偏好保持一致。我们进一步说明了如何显著改进预训练的稳定扩散(SD)模型,生成被人类喜爱的样本,比基础 SD 模型的样本被人类喜爱的时间多 80.3%,同时提高了生成样本的组成和多样性。

项目网站:https://pinterest.github.io/atg-research/rl-diffusion/

3. 方法

在这一部分,我们描述了我们应用大规模强化学习(RL)训练到扩散模型的方法。我们的目标是微调现有扩散模型的参数 θ,以最大化从采样过程中生成的图像的奖励信号 r:

其中,p(c) 是上下文分布,pθ(x0|c) 是样本分布,而 r(x0, c) 是应用于最终样本图像的奖励函数。 

3.1. 使用多步骤 MDP 的策略梯度

在遵循 Black 等人的方法 [5] 的基础上,我们重新构思了扩散模型的迭代去噪过程,将其视为多步骤马尔可夫决策过程(Markov decision process,MDP),其中在每个时间步 t,策略、动作、状态和奖励定义如下:

我们将扩散模型的反向采样过程 p_θ(x_(t−1) | x_t, c) 视为策略。从采样的初始状态 x_T 开始,策略在任何时间步t的动作是产生下一个时间步x_(t−1) 的更新。奖励在最终时间步被定义为 r(x0, c),在其他情况下为 0。

策略梯度的估计可以使用似然比方法(也称为 REINFORCE)[33, 48] 进行:

我们还应用重要性采样以便从旧策略收集样本来提高训练效率,并结合剪切的信任区域,以确保新策略不会偏离旧策略太远 [41] 。最终剪切的替代目标函数可以写成: 

这里 ϵ 是确定剪切区间的超参数,而 ^A(x0, c) 是样本的估计优势(estimated advantage)。为了进一步防止对奖励函数的过度优化,我们还将原始扩散模型目标作为损失函数的一部分纳入考虑。因此,我们的完整训练目标是: 

一个额外的细节是,在梯度更新过程中,通常将奖励值归一化为零均值和单位方差,以提高训练稳定性。在基于策略的强化学习中,一种通用的方法是从奖励中减去基线状态值函数,以得到优势函数 [45]:

在 DDPO 的原始实现中,Black 等人通过独立跟踪每个提示的运行均值和标准差,在每个上下文的基础上对奖励进行归一化 [5]。然而,如果训练集大小是无界的或不固定的,这种方法仍然不切实际。

与他们有限的训练提示大小(最多只有 398 个)形成对比,我们的大规模微调实验涉及数百万个训练提示。我们改为使用每个 batch 的均值和方差,在批次的基础上对奖励进行归一化。

3.2. 基于分布的奖励函数

在先前概述的扩散 MDP 公式中,每一次生成被视为独立的,因此由生成样本产生的奖励彼此独立。这种公式对于只关心单个图像的内容的奖励函数是自然的选择,比如图像质量或文本图像对齐。然而,有时我们关心的不是任何特定图像的内容,而是扩散模型整体的输出分布。例如,如果我们的目标是确保模型生成多样化的输出,仅考虑单个生成是不够的——我们必须考虑所有输出,以了解我们模型的这些分布属性。

为此,我们还研究了在扩散模型强化学习中使用基于分布的奖励函数。然而,构建真实生成分布是不可行的。因此,我们通过在强化学习过程中跨小批次计算的经验样本来近似奖励。在训练期间,获得的奖励在每个小批次上计算,然后小批次奖励通过样本进行反向传播,以执行模型更新。在第4.2 节中,我们通过学习基于分布的奖励函数,优化生成样本中的公平性和多样性,验证了这种方法。

3.3. 多任务联合训练

我们还进行多任务联合训练,同时优化单一模型以实现多样的目标。如下一节详细说明,我们将来自人类偏好、肤色多样性、目标组合的奖励函数全部纳入联合优化。由于每个任务涉及不同分布的训练提示,在每次训练迭代中,我们从所有任务中随机抽取多个提示,并独立运行采样过程。每个奖励模型都应用于相应提示的样本图像。然后,对每个任务依次执行方程 7 中的梯度步骤。我们在附录 A 中提供了可用的超参数,并在算法 1 中概述了训练框架。

4. 奖励函数和实验 

为了在各种设置中验证我们的方法,我们进行了三个独立的奖励函数的实验:人类偏好、图像组合以及多样性和公平性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/644435.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2023 中国互联网公司 Top 100 排行榜

中国互联网协会发布了《中国互联网企业综合实力指数(2023)》报告,来源:https://www.isc.org.cn/article/18458024914186240.html 预览如下: 这份报告总结了互联网公司的排名,毫不意外,腾讯、阿里…

设计模式⑧ :管理状态

文章目录 一、前言二、Observer 模式1. 介绍2. 应用3. 总结 三、Memento 模式1. 介绍2. 应用3. 总结 四、State 模式1. 介绍2. 应用3. 总结 参考文章 一、前言 有时候不想动脑子,就懒得看源码又不像浪费时间所以会看看书,但是又记不住,所以决…

MySQL常用函数解读:从基础到进阶的全方位指南

MySQL提供了丰富的函数库来满足各种数据处理需求。这些函数不仅简化了复杂的数据操作,还提高了数据处理的效率和准确性。 在本文中,我们来看一下MySQL中的一些常用函数。这些函数涵盖了字符串处理、数值计算、日期和时间操作等多个方面,是数据…

大势浏览器DasViewer的底图能否改为卫星底图?

支持的。官网3.2.4版本tif格式的影像图可以加进来。 DasViewer是由大势智慧自主研发的免费的实景三维模型浏览器,采用多细节层次模型逐步自适应加载技术,让用户在极低的电脑配置下,也能流畅的加载较大规模实景三维模型,提供方便快捷的数据浏览操作。 #DasViewer##实景三维##三…

写了7年代码,第一次见这么狗血的小Bug!

大家好,我是程序员鱼皮。 孽起 Bug 年年有,今年特别多。前段时间给大家分享过一个 特别坑的小 Bug,结果这两天我个倒霉蛋又遇到一个特别离谱的 Bug,有多离谱?大家可以看看视频:https://www.bilibili.com/vi…

23111 C++ day1

思维导图 提示并输入一个字符串&#xff0c;统计该字符中大写、小写字母个数、数字个数、空格个数以及其他字符个数 要求使用C风格字符串完成 #include <iostream> #include<array>using namespace std;int main() {int a0,A0,num0,space0,other0;array<char…

前端实现转盘抽奖 - 使用 lucky-canvas 插件

目录 需求背景需求实现实现过程图片示意实现代码 页面效果lucky-canvas 插件官方文档 需求背景 要求实现转盘转动抽奖的功能&#xff1a; 只有正确率大于等于 80% 才可以进行抽奖&#xff1b;“谢谢参与”概率为 90%&#xff0c;“恭喜中奖”概率为 10%&#xff1b; 需求实现 实…

综合CRM客户管理系统

技术框架&#xff1a; JAVA MYSQL SSH 功能介绍&#xff1a; 个人工作、信息中心、客户管理、合同订单、财务管理、产品管理、人事管理以及数据回收站等8个模块。另包括权限管理模块用于系统的用户、角色和相关权限&#xff0c;收发邮件功能用于获得客户的详细需求&#xf…

GBASE南大通用的接口程序GBase ADO.NET

GBase ADO.NET 是一个提供.NET 应用程序与 GBase 数据库之间方便、高效、 安全交互的接口程序&#xff0c;使用 100%纯 C#编写&#xff0c;并继承了 Microsoft ADO.NET 类。 开发人员可以使用任何一种.NET 开发语言&#xff08;C#、VB.NET、F#&#xff09;通过 GBase ADO.NET 操…

docker 基础手册

文章目录 docker 基础手册docker 容器技术镜像与容器容器与虚拟机docker 引擎docker 架构docker 底层技术docker 二进制安装docker 镜像加速docker 相关链接docker 生态 docker 基础手册 docker 容器技术 开源的容器项目&#xff0c;使用 Go 语言开发原意“码头工人”&#x…

Java基础进阶02-xml

一、XML&#xff08;可拓展标记语言&#xff09; 1.学习网站&#xff1a; https://www.w3schoo1.com.cn 标记语言:通过标签来描述数据的一门语言(标签有时我们也将其称之为元素) 可扩展:标签的名字是可以自定义的 2.作用 用于进行存储数据和传输数据 作为软件的配置文件 …

MySQL 8.3 发布, 它带来哪些新变化?

1月16号 MySQL 官方发布 8.3 创新版 和 8.0.36 长期支持版本 (该版本 没有新增功能&#xff0c;更多是修复bug )&#xff0c;本文基于 官方文档 说一下 8.3 版本带来的变化。 一 增加的特性 1.1 GTID_NEXT 支持增加 TAG 选项。 之前的版本中 GTID_NEXTUUID:number &#xff…

文件上传至Linux系统

文件上传 使用jsch库来建立一个SSH连接&#xff0c;然后通过该连接执行Linux命令来上传文件。 <dependency><groupId>com.jcraft</groupId><artifactId>jsch</artifactId><version>0.1.55</version> <!--或者你项目中的最新版本…

使用IntelliJ IDEA快速搭建springboot 基础模板项目

使用IntelliJ IDEA快速搭建springboot 基础模板项目&#xff01;今天和大家分享一下&#xff0c;如何使用IntelliJ IDEA里面的maven插件&#xff0c;来快速搭建一个简单的Springboot基础项目。 第一步&#xff0c;菜单里面找到&#xff0c;文件-》新建-项目。如图。我们勾选了是…

ChatGPT用来润色论文\生成完整长篇论文\进行AI绘图,到底有多强大!!

​课程安排 学习内容 第一章 2024年AI领域最新技术 1.OpenAI新模型-GPT-5 2.谷歌新模型-Gemini Ultra 3.Meta新模型-LLama3 4.科大讯飞-星火认知 5.百度-文心一言 6.MoonshotAI-Kimi 7.智谱AI-GLM-4 第二章 OpenAI开发者大会后GPT最新技术 1.最新大模型GPT-4 Turbo详细介…

Spring Boot 整合 Camunda 实现工作流

工作流是我们开发企业应用几乎必备的一项功能&#xff0c;工作流引擎发展至今已经有非常多的产品。最近正好在接触Camunda&#xff0c;所以来做个简单的入门整合介绍。如果您也刚好在调研或者刚开始计划接入&#xff0c;希望本文对您有所帮助。如果您是一名Java开发或Spring框架…

【博客搭建记录贴】问题记录:hexo : 无法加载文件 C:\Program Files\nodejs\hexo.ps1,因为在此系统上禁止运行脚本。

1&#xff0c;背景 hexo&#xff08;博客框架&#xff09;安装完毕之后&#xff0c;正准备看看其版本&#xff0c;发现出现下面脚本禁止运行的错误。 PS C:\Users\PC> hexo -v hexo : 无法加载文件 C:\Program Files\nodejs\hexo.ps1&#xff0c;因为在此系统上禁止运行脚…

第8章-网络设备文件管理

1. 网络设备的文件系统 1.1. 概述 1.2. 文件类型 1.3. 存储方式 1.4. 文件管理 2. 文件的管理 3. 网络设备软件维护基础 4. 常见问题 1. 网络设备的文件系统 1.1. 概述 ① 设备以文件的方式对运行所需的数据进行存储&#xff1b; ② Linux&#xff1b; 文件&#xff1a…

【Flink-1.17-教程】-【四】Flink DataStream API(5)转换算子(Transformation)【分流】

【Flink-1.17-教程】-【四】Flink DataStream API&#xff08;5&#xff09;转换算子&#xff08;Transformation&#xff09;【分流】 1&#xff09;使用 filter 简单实现2&#xff09;使用侧输出流实现 所谓“分流”&#xff0c;就是将一条数据流拆分成完全独立的两条、甚至多…

Nginx 代理服务路径带/和不带/的问题

nginx初始配置如下 server {listen 6087;location / {#网站主页路径。此路径仅供参考&#xff0c;具体请您按照实际目录操作。#例如&#xff0c;您的网站运行目录在/etc/www下&#xff0c;则填写/etc/www。#允许跨域请求的域&#xff0c;* 代表所有add_header Access-Control-…