微软联手清华,AI注释让文本到图像生成更符合人类偏好

获取本文论文原文PDF,请在公众号【AI论文解读】留言:论文解读

0abd86602228620d33547df536ca2325.jpeg

摘要

本研究展示了利用人类偏好数据集来精细调整文本到图像生成模型的潜力,增强了生成图像与文本提示之间的一致性。尽管取得了进展,现有的人类偏好数据集要么构建成本过高,要么在偏好维度上缺乏多样性,限制了其在开源文本到图像生成模型指导调整中的应用,并阻碍了进一步的探索。为了应对这些挑战并通过指导调整促进生成模型的一致性,我们利用多模态大型语言模型创建了一个高质量、细粒度的偏好数据集 VisionPrefer,该数据集捕获了多个偏好方面。我们从AI注释者那里聚合了关于四个方面的反馈:遵循提示、美学、保真度和无害性,以构建 VisionPrefer。为了验证 VisionPrefer 的有效性,我们训练了一个奖励模型 VP-Score,通过 VisionPrefer 来指导文本到图像生成模型的训练,VP-Score 的偏好预测准确性与人类注释者相当。此外,我们使用了两种强化学习方法对生成模型进行了监督微调,以评估 VisionPrefer 的性能,广泛的实验结果表明,VisionPrefer 在多样化方面显著提高了文本图像一致性,例如美学,并且比以前的人类偏好度量在各种图像分布上具有更好的泛化性。此外,VisionPrefer 表明,将 AI 生成的合成数据作为监督信号的整合是实现视觉生成模型与人类偏好更好一致性的有前景的途径。

论文概览

1. 标题:Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation

2. 作者:Xun Wu, Shaohan Huang, Furu Wei

3. 机构:

  • Microsoft Research Asia, Beijing, China
  • Tsinghua University, Beijing, China

4. 论文链接:https://arxiv.org/pdf/2404.15100

引言:多模态大型语言模型在文本到图像生成中的新角色

随着人工智能技术的飞速发展,多模态大型语言模型(MLLMs)在文本到图像的生成领域扮演着越来越重要的角色。这些模型不仅能够理解和生成文本,还能够理解和生成与文本对应的图像,极大地推动了生成模型的发展。尤其是在与人类偏好对齐的文本到图像生成任务中,MLLMs展示出了其独特的优势。

传统的文本到图像生成模型,如Imagen和DALLE2,虽然能够生成高质量和具有创造性的图像,但它们在生成过程中往往忽略了与人类偏好的对齐。这些模型生成的图像可能与文本提示不够匹配,或者在某些情况下生成不当或不安全的内容。为了解决这些问题,研究者们开始探索使用人类偏好数据来微调这些生成模型,以提高它们的生成质量和安全性。

然而,收集和构建高质量的人类偏好数据集是一个既昂贵又耗时的过程,且容易受到偏见的影响。在这种背景下,MLLMs的出现为这一挑战提供了新的解决方案。通过利用MLLMs,研究者们可以自动生成大规模、高质量且细粒度的偏好数据集,这些数据集能够覆盖多个偏好维度,如图像的真实性、美观性和无害性等。

一个典型的例子是VisionPrefer数据集,它是一个公开可用的、由AI生成的偏好数据集,包含了120万个人类偏好选择,涵盖了179K对图像。这个数据集不仅规模庞大,而且在偏好的细粒度和反馈格式上都进行了精心设计。与现有的人类偏好数据集相比,VisionPrefer在可扩展性、细粒度注释和综合反馈格式方面具有明显优势。

基于VisionPrefer数据集,研究者们开发了VP-Score奖励模型,该模型在指导文本到图像生成模型的训练过程中,展现了与人类注释者相媲美的偏好预测准确性。此外,通过使用两种强化学习方法对生成模型进行微调,实验结果表明,VisionPrefer显著提高了文本图像对齐的质量,尤其是在图像的美观性方面。

总之,多模态大型语言模型作为人类对齐的注释者,在文本到图像生成领域展现出巨大的潜力和价值。它们不仅能够提高生成图像的质量和安全性,还能够通过生成高质量的偏好数据来推动相关研究的进展。这标志着AI在艺术和创意表达领域中,向着更加智能和人性化的方向迈进了一大步。

8389a3ba1f1a3e545a3bad245e357c90.jpeg

VisionPrefer数据集的创新介绍

1. 数据集构建的动机与目标

VisionPrefer数据集的构建动机源于现有文本到图像生成模型在生成过程中常常无法精确地反映人类的偏好,例如生成的图像可能会出现不符合文本描述的内容或者生成不安全的内容。此外,现有的人类偏好数据集构建成本高昂,且在偏好维度上缺乏多样性,这限制了其在开源文本到图像生成模型中的应用,并阻碍了进一步的探索。为了解决这些问题,VisionPrefer利用多模态大型语言模型(MLLMs),如GPT-4 Vision,来作为人类对齐的注释者,创建了一个高质量、细粒度的偏好数据集,该数据集能够捕捉模型生成图像的多个偏好方面。

2. VisionPrefer的详细构建过程

VisionPrefer的构建过程包括三个主要步骤:提示生成、图像生成和偏好生成。

  • 提示生成:首先利用大规模文本到图像提示基准(如DiffusionDB)生成文本提示。为了确保提示的无偏性和安全性,使用GPT-4 Vision对这些提示进行了润色和NSFW过滤。
  • 图像生成:根据生成的提示,使用不同的文本到图像生成模型生成图像。为了增加多样性,对每个提示生成多个图像,以便进行全面评估。
  • 偏好生成:最后,使用GPT-4 Vision对生成的图像进行评分,生成标量分数、偏好排名和文本批评。这些反馈覆盖了四个不同的方面:遵循提示、美学、保真度和无害性。
  • aeccf72f2482063276733536547835ea.jpeg

b9caf20d3807020137547e2f4e254553.jpeg

3. 数据集的规模与细粒度特征

VisionPrefer是迄今为止最大的文本到图像生成偏好数据集,包含1.2M个人类偏好选择,涵盖179K对图像。与现有的人类偏好基准相比,VisionPrefer不仅提供排名,还要求AI注释者分配数值偏好分数并为每个注释方面提供文本解释,这些方面包括遵循提示、美学、保真度和无害性。这种细粒度的反馈格式为文本到图像生成模型的训练提供了更丰富的信息,使得模型能够更好地与人类偏好对齐。

VP-Score奖励模型的开发与应用

1. 奖励模型的设计与训练

VP-Score奖励模型的开发基于VisionPrefer数据集,这是一个由多模态大型语言模型(MLLMs)生成的高质量、细粒度的人类偏好数据集。该数据集涵盖了1.2M的人类偏好选择,涉及179K对图像,覆盖了四个主要方面:遵循提示、美学、真实性和无害性。

在设计VP-Score时,我们采用了与ImageReward模型相同的结构,后者是一个开源的人类偏好奖励模型,使用BLIP作为骨干网络。我们将VisionPrefer中的偏好注释视为排名,采用平均分数作为最终偏好得分,并根据这些得分对图像进行排名。VP-Score的训练采用了对数损失函数,以优化模型对偏好的预测准确性。

2. 在现有人类偏好数据集上的表现分析

为了验证VP-Score的有效性,我们在几个现有的人类偏好数据集上进行了测试,包括ImageRewardDB、HPD v2和Pick-a-Pic。VP-Score在这些测试集上的表现与人类注释者相媲美,显示出与人类偏好的高度相关性。

具体来说,VP-Score在ImageRewardDB数据集上的表现优于HPS v2,这表明利用AI注释者提供的细粒度反馈可以有效地学习人类偏好奖励模型。此外,VP-Score在所有测试数据集上的平均表现位居第二,仅次于HPS v2,显示出其在多个偏好维度上的广泛适用性和强大的竞争力。

这些结果不仅证明了VP-Score模型的有效性,也展示了使用由MLLMs生成的偏好数据进行奖励模型训练的潜力,为未来的图像生成模型提供了新的调整方向和优化手段。

15515a5f5aa4d015cae5834d7291dd8b.jpeg

使用VisionPre

细粒度反馈的重要性与实际效果

1. 提升模型对提示的遵循性

细粒度反馈通过精确评估模型生成的图像与文本提示的一致性,显著提升了模型对提示的遵循性。例如,在使用VisionPrefer数据集进行训练的模型中,生成的图像更加准确地反映了文本提示的具体要求,如场景描述、对象属性等。这种对细节的关注使得生成的图像不仅在视觉上更加吸引人,而且在内容上也更加贴合用户的预期。

2. 提高生成图像的美观度与减少图像失真

通过对美观度和图像保真度的细粒度评估,AI模型能够在生成图像时更好地掌握色彩搭配、光影效果以及细节表现,从而显著提高图像的整体视觉效果。在实验中,使用VisionPrefer进行训练的模型在多个测试集上展示了优于传统模型的图像美观度,同时在图像的真实性方面也表现出较少的失真现象,这表明细粒度反馈在提升图像质量方面发挥了关键作用。

3. 增强图像的安全性

安全性是图像生成模型中一个不容忽视的方面,尤其是在生成可能直接面向公众的内容时。细粒度反馈通过对生成图像进行严格的安全性评估,有效地减少了生成内容中不适宜的元素,如暴力、色情或歧视性内容。在使用VisionPrefer数据集训练的模型中,生成的图像在安全性评估中的得分显著提高,NSFW(不适合在工作场合显示的内容)的比例大幅降低,这一点在公共媒体发布和品牌营销等领域尤为重要。

通过这些实际效果的展示,我们可以看到细粒度反馈在提升文本到图像生成模型的性能方面起到了至关重要的作用。这不仅提升了模型的实用性和用户体验,也为未来AI在艺术创作和多媒体内容生成领域的应用开辟了新的可能。

结论与未来方向:VisionPrefer的影响与潜在的研究扩展

VisionPrefer作为一个由多模态大型语言模型(MLLMs)生成的高质量偏好数据集,已经在文本到图像生成模型的校准中显示出显著的潜力。通过详细的实验和分析,我们可以看到VisionPrefer在提高生成模型与人类偏好对齐方面的有效性。以下是对VisionPrefer未来发展方向的一些思考和建议。

1. 扩展和深化数据集:尽管VisionPrefer已经是一个大规模的数据集,但在未来的工作中,我们可以进一步扩展数据集的规模和多样性。这包括增加更多的图像对,以及覆盖更广泛的文本提示和图像风格。此外,增加数据集中的细粒度标注,如情感倾向、文化背景等,也将使模型能更好地理解和生成符合特定需求的图像。

2. 提高模型的泛化能力:当前的VP-Score已经显示出与人类标注者相媲美的表现,但仍有进一步优化的空间。例如,可以通过集成更多种类的反馈和评价机制来提高模型的泛化能力。此外,探索不同模型架构和训练策略,如对抗性训练或元学习等,可能会进一步提高模型在未见过的文本提示或图像风格上的表现。

3. 利用文本解释数据:VisionPrefer不仅提供了图像的偏好评分,还包括了AI生成的文本解释。这些文本解释为理解模型偏好提供了额外的语境信息,但目前还未被充分利用。未来的研究可以探索如何结合这些文本解释来提升模型的解释能力和透明度,例如通过自然语言处理技术分析解释中的关键因素,或将其用于模型的决策过程中。

4. 探索新的应用场景:除了文本到图像的生成,VisionPrefer的方法和技术也可以应用到其他多模态任务中,如视频生成、音频合成等。此外,这些技术也可以用于提高AI系统的安全性和可靠性,例如通过更好的理解和预测潜在的有害内容。

5. 加强与人类反馈的结合:尽管VisionPrefer利用了MLLMs来生成偏好数据,人类的直观反馈仍然非常宝贵。未来的研究可以探索如何更有效地结合机器学习模型和人类标注者的优势,例如通过交互式学习或半监督学习等方式,使模型在学习过程中能够不断调整并优化其生成的内容。

通过上述方向的探索和实施,VisionPrefer及其相关技术有望在未来继续推动文本到图像生成领域,以及更广泛的AI领域的发展,实现更精准、更个性化、更符合人类期望的生成结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/17405.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

掌控安全CTF-2024年5月擂台赛-WP(部分)

MISC ez_Misc 题目给了一个加密的压缩包和一个文本文档,首先我们先来看文本的内容,如下: 很容易看出,0宽隐写,用PuzzleSolver梭哈一下,发现了:Thi3 is n0t 2 hint 又在文本中发现一个特征&…

【2024】高校网络安全管理运维赛

比赛时间:2024-05-06 Re-easyre 基本的base64换表,用CyberChef解密 Re-babyre 进入主函数,发现输入四次 看一下就知道是大数求解 (当初写的时候差不多 不知道为什么第四个总是算错…) from z3 import *s Solver() # 设置一个解方程的类…

中心渗透Ⅱ

cs与msf权限传递以及mimikatz抓取win2012明文密码 使用Cobalt Strike抓取win2012明文密码,将会话传递到Metasploit Framework上 1.cs生成木马并使目标服务器中马 建立监听生成木马 2.抓取目标主机的明文密码 通过修改注册表来让Wdigest Auth保存明文口令 shell …

技术就绪度

技术就绪度(Technology Readiness Level,简称TRL)这个术语中的每个字符可以这样理解: 技术(Technology):指的是正在研发或评估的具体的技术、工具、材料或方法。这可以是一套软件程序、一个物理…

一分钟揭秘面试官真实意图,稳拿offer的面试秘诀!

想要在面试中脱颖而出,顺利获得心仪的offer吗?那么,你需要了解面试官背后的潜台词。通过解析这些潜台词,你将能更准确地把握面试官的期望,并给出他们最喜欢的回答。下面,就让我们一起揭开这层神秘的面纱&am…

深入pandas:数据分析

目录 前言 第一点:导入模块 第二点:准备数据 第三点:简单的分析数据 第四点:【重点】数据透支 总结 前言 在数据分析与挖掘的领域,了解如何使用工具和方法来探索数据是至关重要的。本文将探讨如何利用Python中的…

C语言常用字符串处理函数

C语言中包含了很多对字符串处理的函数,要使用这些函数&#xff0c; 首先需要导入头文件#include <string.h> 1. strlen() -- 计算字符串长度 原型: size_t strlen(char const *string); 例: char *str "abcde"; size_t len strlen(str); // 结果为…

【DevOps】Elasticsearch在Ubuntu 20.04上的安装与配置:详细指南

目录 一、ES 简介 1、核心概念 2、工作原理 3、 优势 二、ES 在 Ubuntu 20.04 上的安装 1、安装 Java 2、下载 ES 安装包 3、创建 ES 用户 4 、解压安装包 5、 配置 ES 6、 启动 ES 7、验证安装 三、ES 常用命令 1、创建索引 2、 插入文档 3、查询文档 四、ES…

1.6 分组延时,丢失和吞吐量

分组丢失和延时是怎样发生的&#xff1f; 在路由器缓冲区的分组队列  分组到达链路的速率超过了链路输出的能力  分组等待排到队头、被传输 分组排队&#xff0c;传输分组&#xff08;延时&#xff09; 分组到达路由器&#xff0c;没有可用的队列&#xff0c;则该分组被丢…

利用audacity和ffmpeg制作测试音频文件

最近要用SIPP测试一个场景&#xff0c;需要发送双声道/16K采样率/16bit量化的PCM流&#xff0c;但是下载的素材往往不能满足参数要求。那么就自己制作。 首先下载mp3文件&#xff0c;并用audacity打开。 接下来&#xff0c;点击菜单栏中轨道-重采样&#xff0c;将采样频率设为1…

Java:String、StringBuffer和StringBuilder的区别

参考&#xff1a; https://blog.csdn.net/kingzone_2008/article/details/9220691 https://blog.csdn.net/itchuxuezhe_yang/article/details/89966303 String 常量字符串&#xff0c;每次修改都是会新创建一个字符串&#xff0c;当要频繁修改字符串的时候不建议使用 String S…

C++实现日期类(类和对象总结与实践)

头文件&#xff1a; 首先&#xff0c;在头文件Date.h中声明日期类 先上代码&#xff0c;然后一步一步解析每个函数 #include<iostream> #include<assert.h> using namespace std;class Date {public:void Print() const;// 获取某年某月的天数// 这个函数会被频…

做好随时离开的准备:前一天还在为618加班到凌晨,第二天就被裁了

今日感悟 最近&#xff0c;一则令人唏嘘的新闻在网络上引起了广泛关注&#xff1a;一名员工前一天还在为618大促活动加班到凌晨&#xff0c;身心疲惫&#xff0c;然而第二天却收到了裁员通知&#xff0c;顿时陷入了失业的困境。 这则新闻不仅揭示了职场竞争的残酷现实&#xff…

有关服务器安全的反思

文章目录 前言MySQL数据库的安全物理服务器总结 前言 人都说学的越多&#xff0c;不懂的东西也就越多&#xff0c;很多人都会有这个感受&#xff0c;面对信息爆炸的互联网时代&#xff0c;有种“学不完&#xff0c;根本学不完”沧桑无力感&#xff0c;最近有关服务器安全的了解…

Flutter 中的 ConstrainedBox 小部件:全面指南

Flutter 中的 ConstrainedBox 小部件&#xff1a;全面指南 在 Flutter 的世界中&#xff0c;布局小部件扮演着至关重要的角色&#xff0c;它们帮助开发者以声明式的方式构建用户界面。ConstrainedBox 是其中一种强大的布局小部件&#xff0c;它允许开发者对子组件的尺寸施加额…

Vistual Studio Release模式 调试方法

在开发过程中&#xff0c;有时会遇到这样的问题&#xff1a;代码在Debug模式下运行良好&#xff0c;但在Release模式下运行却出现错误。通常&#xff0c;这类问题往往与缓冲区越界等内存管理相关的错误有关。在Release模式下&#xff0c;由于编译器的优化&#xff0c;错误更容易…

js全国省市区JSON数据(全)

AreaJson 就是全国省市区的具体数据信息&#xff0c;下面我自定义了一些方法&#xff0c;获取数据用的&#xff0c;不需要的可以删掉&#xff0c;只拿JSON内的数据即可 const AreaJson [{"name": "北京市","city": [{"name": "…

数据结构算法题day02

数据结构算法题day02 【day02】思想代码 【day02】 将两个有序顺序表合并为一个新的有序顺序表&#xff0c;并由函数返回结果顺序表。思想 两个有序顺序表&#xff0c;AB本身就是由大到小或者由小到大排序的顺序表。 思路比较经典&#xff0c;希望大家记忆 将AB中较小的依次存…

Git钩子(Hooks)之commit之前自动执行脚本

介绍 官方文档&#xff1a; 英文&#xff1a;https://git-scm.com/book/en/v2/Customizing-Git-Git-Hooks中文&#xff1a;https://git-scm.com/book/zh/v2/自定义-Git-Git-钩子 下面只复制了pre-commit部分文档&#xff0c;其他详见官方文档。 Git Hooks Like many other…

【绝地求生game】

编写一个完整的《绝地求生》这样的游戏程序代码是一个庞大的工程&#xff0c;涉及到成千上万行的代码和复杂的多模块协作。在这里&#xff0c;我可以提供一个非常简化的示例&#xff0c;用于演示游戏编程中可能用到的基本概念&#xff0c;比如玩家移动、基本物理和简单的游戏逻…