NLP论文速读(CVPR 2024)|使用DPO进行diffusion模型对齐

论文速读|Diffusion Model Alignment Using Direct Preference Optimization

论文信息:

图片

简介:

      本文探讨的背景是大型语言模型(LLMs)通过人类比较数据和从人类反馈中学习(RLHF)的方法进行微调,以更好地符合用户的偏好。然而,对于文本到图像的扩散模型,人类偏好学习并没有得到广泛探索。现有的方法主要是通过精心策划的高质量图像和标题来微调预训练模型,以提高视觉吸引力和文本对齐。本文提出了一种新的方法,即直接优化人类比较数据来对齐扩散模型和人类偏好。本文动机在于提高文本到图像扩散模型的性能,使其更符合人类的偏好。LLMs的成功表明,通过人类反馈进行微调可以显著提升模型的表现。本文旨在将这一概念扩展到扩散模型中,通过直接优化人类比较数据来实现更好的模型对齐。

论文方法:

图片

      本文提出了一种名为DiffusionDPO的方法,它是基于最近开发出的直接偏好优化(DPO)的变体。

      DPO是一种相对于RLHF的简化方法,它直接优化一个策略来最好地满足人类偏好,而不是通过训练一个奖励函数来表示人类偏好。DiffusionDPO通过以下几个步骤实现:        

      重新制定DPO:作者将DPO重新制定为考虑扩散模型似然性的形式,使用证据下界(ELBO)来推导出一个可微分的目标函数。     

      利用人群源数据集:使用Picka-Pic数据集中的851K个人群源成对偏好,对最先进的Stable Diffusion XL(SDXL)-1.0模型的基础模型进行微调。   

      直接优化:通过直接在人类比较数据上优化,而不是通过传统的监督微调或强化学习方法。     

      变分和AI反馈:开发了一个使用AI反馈的变体,其性能与基于人类偏好的训练相当,为扩散模型对齐方法的扩展打开了大门。         

      DiffusionDPO通过这些方法,显著提高了视觉吸引力和提示对齐,超越了基础SDXL-1.0模型和包含额外细化模型的更大SDXL-1.0模型。此外,该方法还展示了从AI反馈中学习的有效性,这是以前工作未能成功的领域。总的来说,本文引入了一种从人类偏好中学习的新范式,并展示了由此产生的最新模型。

论文实验:

图片

      根据Figure 3的内容,本文的实验部分主要关注了Diffusion-DPO(DPO-SDXL)模型与基线模型(SDXL)在人类评估中的性能比较。在PartiPrompts评估中,DPO-SDXL在General Preference(Q1)、Visual Appeal(Q2)和Prompt Alignment(Q3)中被偏好的比例分别为70.0%、相似比例和相似比例。在HPSv2基准测试中,DPO-SDXL在General Preference(Q1)中的获胜率为64.7%。

论文链接:

    https://arxiv.org/abs/2311.12908

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/60460.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Git 提交的相对引用

Git 提交的相对引用 在 Git 中,使用 ~ 和 ^ 符号可以帮助你更灵活地引用提交历史中的特定提交。以下是这些符号的具体用法和示例: 1. ~(波浪号) ~ 符号用于指向上一个或多个父提交。它总是沿着第一个父提交的链向上追溯。 HEA…

<OS 有关> ubuntu 24 不同版本介绍 安装 Vmware tools

原因 想用 apt-get download 存到本地 / NAS上,减少网络流浪。 看到 VMware 上的确实有 ubuntu,只是版本是16。 ubuntu 版本比较:LTS vs RR LTS: Long-Term Support 长周期支持, 一般每 2 年更新,会更可靠与更稳定…

泛微E9与金蝶云星空的集成方案:实现审批流程与财务管理的无缝对接

泛微E9与金蝶云星空的集成方案:实现审批流程与财务管理的无缝对接 背景介绍: 在企业日常运营中,泛微OA-E9和金蝶云星空是两个关键的系统。泛微OA-E9是一款广受企业青睐的办公自动化软件,它通过流程管理、文档管理、协同办公等模…

一、Docker 安装集

一、Docker CentOS https://docs.docker.com/engine/install/centos/ 在 CentOS 上安装 Docker Engine # Docker要求CentOS系统的内核版本高于3.10:# Docker从1.13版本之后,采用时间线的方式作为版本号: 1. 分为社区版CE和企业版EE。 2. 社…

Python Selenium:Web自动化测试与爬虫开发

Python Selenium:Web自动化测试与爬虫开发 Python Selenium:Web自动化测试与爬虫开发安装Selenium设置WebDriver基础示例页面元素交互处理JavaScript和Cookies浏览器控制屏幕截图Headless Mode结束会话错误处理与调试 ***本文由AI辅助生成*** Python Se…

Redis最终篇分布式锁以及数据一致性

在前三篇我们几乎说完了Redis的所有的基础知识以及Redis怎么实现高可用性,那么在这一篇文章中的话我们主要就是说明如果我们使用Redis出现什么问题以及解决方案是什么,这个如果在未来的工作中也有可能会遇到,希望对看这篇博客的人有帮助,话不多说直接开干 一.Hotkey以及BigKey…

「Mac玩转仓颉内测版28」基础篇8 - 元组类型详解

本篇将介绍 Cangjie 中的元组类型,包括元组的定义、创建、访问、数据解构以及应用场景,帮助开发者掌握元组类型的使用。 关键词 元组类型定义元组创建元组访问数据解构应用场景 一、元组类型概述 在 Cangjie 中,元组是一种用于存储多种数据…

Golang语言系列-Channel

Golang语言系列-Channel 源码分析结构体定义和构造函数发送操作接受操作关闭操作select 操作 实验参考 golang里的channel信道是golang里一个独特的概念,基于消息通信的方式来实现并发控制。信道有两种类型,缓存型和非缓存型,其中缓冲型底层基…

面试题---深入源码理解MQ长轮询优化机制

引言 在分布式系统中,消息队列(MQ)作为一种重要的中间件,广泛应用于解耦、异步处理、流量削峰等场景。其中,延时消息和定时消息作为MQ的高级功能,能够进一步满足复杂的业务需求。为了实现这些功能&#xf…

GPT中转站技术架构

本文介绍阿波罗AI中转站(https://api.ablai.top/)的技术架构,该中转API的技术架构采用了分布式架构、智能调度和API中转等技术,确保了全球范围内的高效访问和稳定运行。以下是对该技术架构的详细分析: 分布式架构 分…

【强化学习的数学原理】第02课-贝尔曼公式-笔记

学习资料:bilibili 西湖大学赵世钰老师的【强化学习的数学原理】课程。链接:强化学习的数学原理 西湖大学 赵世钰 文章目录 一、为什么return重要?如何计算return?二、state value的定义三、Bellman公式的详细推导四、公式向量形式…

[less] Operation on an invalid type

我这个是升级项目的时候遇到的,要从 scss 升级到 less,然后代码中就报了这个错误 我说一下代码的错误过程,但是这里没有复现,因为我原本报错的代码要复杂很多,而且是公司代码,不方便透露,这是我…

ssm面向品牌会员的在线商城小程序

摘要 随着Internet的发展,人们的日常生活已经离不开网络。未来人们的生活与工作将变得越来越数字化,网络化和电子化。它将是直接管理面向品牌会员的在线商城小程序的最新形式。本小程序是以面向品牌会员的在线商城管理为目标,使用 java技术制…

spring-logback引用外部文件

背景 在spring微服务开发和云部署中,都涉及到日志的收集,很多时候为例方便管理和开发,很多公司都会开发一些基础配置代码。其中日志就是很重要的部分, 为了方便部署、收集、查看,所以日志文件需要存储在同一个…

.NET周刊【11月第3期 2024-11-17】

国内文章 .NET 9使用Scalar替代Swagger https://www.cnblogs.com/netry/p/18543378/scalar-an-alternative-to-swagger-in-dotnet-9 .NET 9 移除了 Swashbuckle.AspNetCore,因为其维护不力,并转向 Microsoft.AspNetCore.OpenApi。除了 Swashbuckle&am…

国土变更调查拓扑错误自动化修复工具的研究

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 目录 一、拓扑错误的形成原因 1.边界不一致 2.不规则图形 3.尖锐角 4.局部狭长 5.细小碎面 6.更新层相互重叠 二、修复成果展示 1.边界不一致 2.不规则图形 3.尖锐角 4.局部狭…

react 使用中注意事项提要

1、尽可能的减少数组index作为key,数组中插入元素的等操作时,会使得效率底下; 2、如果在 JSX 中给元素添加类, 需要使用 className 代替 class;类似:label 的 for属性,使用htmlFor代替; 3、在…

异常和中断

在计算机系统中,异常和中断是两种常见的用于处理异步事件的机制。以下是常见的异常和中断及其特点的详细解释: 异常(内中断) 异常,也称为内中断,是由CPU内部事件引起的中断。异常通常与程序执行的当前指令…

WPS 加载项开发说明wpsjs

wpsjs几个常用的CMD命令: 1.打开cmd输入命令测试版本号 npm -v 2.首次安装nodejs,npm默认国外镜像,包下载较慢时,可切换到国内镜像 //下载速度较慢时可切换国内镜像 npm config set registry https://registry.npmmirror.com …

Javaweb梳理18——JavaScript

今日目标 掌握 JavaScript 的基础语法掌握 JavaScript 的常用对象(Array、String)能根据需求灵活运用定时器及通过 js 代码进行页面跳转能通过DOM 对象对标签进行常规操作掌握常用的事件能独立完成表单校验案例 18.1 JavaScript简介 JavaScript 是一门跨…