Rich Human Feedback for Text-to-Image Generation 读论文笔记

Rich Human Feedback for Text-to-Image Generation 读论文笔记

  • 摘要
  • 方法细节
    • 收集数据的过程
    • 人类反馈确认
  • 数据集
    • VQA
    • 使用方法
    • 数据分析
    • 分数统计
    • 评价一致性(pair alignment)
  • 实验
    • 模型
      • 模型架构
      • 模型变体
      • 模型其他优化
    • 实验
      • Metrics
        • Score
        • Heatmap
        • Misalignment
      • 量化结果
        • Score
        • Heatmap
        • Misalignment
      • 定性分析
  • 从反馈中学习

摘要

Motivation:探索如何优化如Stable Diffusion T2I生成模型的优化问题,因为这些模型都会有诸如伪影,与文字描述不匹配和美学质量低等问题。本文参考大语言模型强化学习的方式,训练奖励模型来改进生成模型。

Contribusion:在收集的数据集(RichHF18K)收集feedback,通过选择高质量的训练数据和改进来生成模型,或者使用预测的heatmap来创建掩码,修复有问题的区域。

  • Rich Human Feedback dataset
  • 一个多模态Transformer模型对生成的图像进行丰富的反馈预测
  • improve method:方式:1. 标记有问题的图像区域 2.标记文本描述不匹配的prompt(被误报或漏报)3. 使用预测的分数来帮助微调图像生成模型

方法细节

收集数据的过程

RichHF-18K数据集
每个图片包含的标注和分数:

  • 图像高度的1 / 20为半径标记伪影和错位标注(两个heatmap,implausibility and misalignment heatmap)。
  • 没有对齐的关键词的标注
  • 四个细粒度的分数(合理性、一致性、美观性、总体评分)
    在这里插入图片描述

人类反馈确认

每个图像-文本对由三个标注员进行注释,所以对于分数直接做平均,文字对齐标注采取多数原则,点标注使用每个点区域的平均值(每个点被转换为热图上的一个磁盘区域,然后计算三个热图之间的平均热图)

数据集

在Pick-a-Pic dataset数据集选取的子集。选取的部分是照片等级的图像。为了平衡类别,使用PaLI visual question answering (VQA) model从Pick - a - Pic数据样本中提取一些基本特征。

VQA

是一种用于能够结合大语言模型和图像理解技术的多模态模型。

使用方法

输入问题:

  1. 图像有真实感吗
  2. 那个类别最能描述图像?在"人"、“动物”、“物”、“室内场景”、"室外场景"中任选其一

18K的数据集,16K作为训练集,1K作为验证,1K作为测试。

数据分析

分数统计

s − s min s max − s min = s − 1 5 − 1 \frac{s - s_{\text{min}}}{s_{\text{max}} - s_{\text{min}}} = \frac{s - 1}{5 - 1} smaxsminssmin=51s1
得到的分布如下:
在这里插入图片描述
基本符合高斯分布

评价一致性(pair alignment)

maxdiff = max ⁡ ( scores ) − min ⁡ ( scores ) \text{maxdiff} = \max(\text{scores}) - \min(\text{scores}) maxdiff=max(scores)min(scores)

在这里插入图片描述

实验

模型

模型架构

在这里插入图片描述
这个架构中有两个计算流,分别关注视觉和文本的部分,使用的架构分别是VIT和T5X。

文本信息通过对齐程度和heatmap传递给图像token,视觉信息传递给文本token用于视觉感知。使用WebLi预训练模型。

  1. 生成的图像输入ViT,然后在输出的地方成为高级表征,text则是嵌入成dense向量。
  2. 将两种token经过T5X的自注意力级联编码
  3. 编码后使用三种预测器来预测不同的输出。
typeoperate
heatmap输入:图像token 经过卷积反卷积和sigmoid 输出:不可信和heatmap
score输入:feature map 经过卷积,线性和sigmoid 输出:细粒度scores
misalignment输入:原始caption,target:修改的caption 使用T5X的解码器,不对齐的用后缀0表示,e.g.:如果生成的图像中包含黑猫,且黄色单词与图像不对齐,则为黄色0猫。

模型变体

  1. Multi-head 每个评分,heat map和misalignment有一个头对应,共七个
  2. 对每个预测类型使用单个头,即总共3个头,分别用于热图、得分和misalignment。
    在实验中,第二种方法具体操作是:增加能够让模型判断输出类型的prompt,比如如 “implausibility heatmap”,这样能够明确任务类型。通过将这种prompt与相应的任务进行结合,单个热图(得分)头就可以预测不同的热图(得分)。能够在有些任务中得到比第一种更好的结果。

模型其他优化

损失函数是热图MSE损失、评分MSE和序列CE的加权组合。

实验

针对三种标注和打分的方法:

Metrics

Score

使用的系数:Pearson线性相关系数(PLCC)和斯皮尔曼等级相关系数(SRCC)。PLCC测量预测和真实分数之间的线性相关性,表明预测以线性方式近似实际分数的程度。SRCC测量预测和实际分数之间的关系可以使用单调函数来描述,重点是排名顺序而不是确切值。

Heatmap

标准的显着性热图评估指标,如归一化扫描路径显着性(NSS),Kullback-Leibler发散(KLD)

Misalignment

Token-level precision, recall, 和 F1-score.精度测量预测的未对齐关键字的准确性(即,正确的预测关键字的比例),查全率测量完整性(即,被正确预测的实际未对齐关键字的比例),而F1-score通过计算它们的调和平均值来提供精确度和召回率之间的平衡。

量化结果

Score

在这里插入图片描述

Heatmap

在这里插入图片描述
在这里插入图片描述

Misalignment

在这里插入图片描述

表1和表3中变体都超过了ResNet50,表2中多头版本不如resnet50,但是三头版本优于resnet50。
作者在这里预测的原因是:可能在多头版本中,所有7个预测任务都使用相同的prompt(相对于3头版本),因此所有任务的特征图和文本标记都是相同的。在这些任务之间找到一个好的折衷可能并不容易,因此一些任务如伪影/不可信热图的性能会变得更差。
注意到misalignment heat map预测通常比伪影heatmap预测的结果更差,这可能是因为错配区域的定义较少,因此注释可能更嘈杂。

定性分析

在这里插入图片描述
在这里插入图片描述

从反馈中学习

研究从这些反馈中能不能学到知识用于改善图像生成。
使用基于遮蔽变换器架构的Muse模型作为改进的目标。

首先,我们使用预训练的Muse模型为12,564个prompt(通过PaLM 2生成的提示集)生成了八张图像。我们为每张图像预测RAHF分数,如果每个提示生成的图像中最高分超过一个固定阈值,它将被选为我们微调数据集的一部分。然后,Muse模型与这个数据集一起进行微调。前后对比:在这里插入图片描述
量化Muse微调的收益:作者使用100个新提示生成图像,并请6名注释者进行两张图像的并排比较,这两张图像分别来自原始的Muse和微调后的Muse。注释者在不知道哪个模型用于生成图像A/B的情况下,从五种可能的反应中选择(图像A明显/稍微好于图像B,大致相同,图像B稍微/明显好于图像A)。表5的结果显示,与原始Muse相比,经过RAHF可信度分数微调的Muse具有显著更少的人工痕迹/不可信之处。
在这里插入图片描述
展示了一个使用RAHF审美分数作为分类器指导对潜在扩散模型的示例
在这里插入图片描述
对于每张图像,首先预测不可信度heatmap,然后通过处理heatmap(使用阈值和扩张)创建一个掩码。在掩码区域内应用Muse修复,生成与文本提示相匹配的新图像。生成多张图像,最终图像由我们的RAHF预测的最高可信度分数选择。

在这里插入图片描述
总结来说就是使用训练的模型来判断生成模型中不合理的地方,并使用掩码模型做遮蔽处理,好让模型重新生成有问题的部位,类似图像编辑的内容。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/857007.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

什么是NLP-自然语言处理

什么是NLP-自然语言处理 什么是NLP开通NLP新建项目创建模型 什么是NLP NPL是面向算法小白用户的行业自适应标注、训练和服务平台。该产品支持文本实体抽取、文本分类、关键短语抽取、情感分析、关系抽取、短文本匹配、商品评价解析等 NLP 定制化算法能力,用户无需拥…

【变量与常量】

1.基本程序 容器用来存放物品 声明变量 num 是个用来装整数的变量 ! 一 个整数变量需要 4 个 byte 存储, 计算机 在内存里为你分配了 4 个 byte 。int num;在代码中,声明一个变量。 常用变量类型 存储不同类型的数据需要声明不同类型的变…

Steam怎么购买黄金树之影 购买了黄金树之影怎么下载DLC教程

《艾尔登法环》大型DLC“黄金树幽影”将于6月21日正式上线,为广大玩家带来全新的冒险与挑战。在“黄金树幽影”中,玩家将拥有专属的强化系统。通过收集探索幽影之地获得的“幽影树的碎片”和“灵灰的加护”,不仅可以大幅度提升玩家的攻击力与…

【从零到一】电子元器件网站建设/开发方案、流程及搭建要点全解

电子元器件行业在数字化转型的大潮下也迎来了前所未有的发展机遇。一个高效、专业、用户友好的电子元器件网站,不仅能够提升品牌形象,还能显著提高销售转化率,增强客户粘性。道合顺芯站点将详细阐述电子元器件开发方案、实施流程,…

从混乱到有序:SRM系统如何优化工厂采购流程

一、工厂采购管理的重要性 工厂采购管理是企业运营中的关键环节,它直接影响到生产成本、产品质量和市场响应速度。有效的采购管理能够降低成本、提升供应链的灵活性和响应市场变化的能力。在竞争激烈的市场环境中,采购管理的优劣直接关系到企业的竞争力…

HarmonyOS角落里的知识—Stage模型应用程序

开发态包结构 在DevEco Studio上创建一个项目工程,并尝试创建多个不同类型的Module。根据实际工程中的目录对照本章节进行学习,可以有助于理解开发态的应用程序结构。 图1 项目工程结构示意图(以实际为准) 工程结构主要包含的文…

解释React中的“端口(Portals)”是什么,以及如何使用它来渲染子节点到DOM树以外的部分。

React中的“端口(Portals)”是一种将子节点渲染到DOM****树以外的部分的技术。在React应用中,通常情况下组件的渲染是遵循DOM的层次结构,即子组件会渲染在父组件的DOM节点内部。然而,有些情况下,开发者可能…

4K高质量视频素材库,剪辑必备

找免费4K 高质量视频素材,就上这8个网站,剪辑必备,赶紧收藏吧! 1、baotu 【实拍视频】免费下载_实拍视频素材​ibaotu.com/shipin/7-5026-0-0-0-1.html?spmzhkolws​编辑 国内高质量素材网站,涵盖设计、新媒体、视频…

有效提升智能会议系统语音识别准确性案例分享

语音识别技术是在智能会议系统中至关重要,准确的智能会议语音识别能力,意味着会议参与者可以通过语音命令来控制会议设备,如开启投影仪、调整音量、切换幻灯片或者记录会议纪要,节省时间并提高会议效率。多语言支持的语音识别技术…

【C++LeetCode】【热题100】字母异位词分组【中等】-不同效率的题解【3】

题目&#xff1a; 暴力方法&#xff1a; class Solution { public:vector<vector<string>> groupAnagrams(vector<string>& strs) {std::unordered_set<std::string> uniqueWord;//单词字符唯一化集合vector<vector<std::string>>…

深入Android S (12.0) 探索Framework之输入子系统InputDispatcher的流程

Framework层之输入系统 第一篇 深入Android S (12.0) 探索Framework之输入系统IMS的构成与启动 第二篇 深入Android S (12.0) 探索Framework之输入子系统InputReader的流程 第三篇 深入Android S (12.0) 探索Framework之输入子系统InputDispatcher的流程 文章目录 Framework层…

微信小程序-界面提示框和消息

一.Loading加载框 小程序提供了wx.showLoading用来在加载界面的时候使用&#xff0c;比如加载图片和数据的时候可以使用。 常常和wx.hideLoading()配合使用&#xff0c;否则加载框一直存在。 其效果如下&#xff1a; 代码如下&#xff1a; //显示加载消息wx.showLoading({//提…

【机器学习】Lasso回归:稀疏建模与特征选择的艺术

&#x1f308;个人主页: 鑫宝Code &#x1f525;热门专栏: 闲话杂谈&#xff5c; 炫酷HTML | JavaScript基础 ​&#x1f4ab;个人格言: "如无必要&#xff0c;勿增实体" 文章目录 Lasso回归&#xff1a;稀疏建模与特征选择的艺术引言一、Lasso回归简介1.1 基本…

丰臣秀吉-读书笔记五

如今直面自己一生中的最高点&#xff0c;加之平日里的觉悟与希冀&#xff0c;此时此地他“一定要死得其所”。 “武士之道&#xff0c;便是在死的瞬间决定一生或华或实。一生谨慎、千锤百炼&#xff0c;如果在死亡这条路上一步走错&#xff0c;那么一生的言行便全部失去真意&am…

帕金森的锻炼方式

帕金森病&#xff0c;这个看似陌生的名词&#xff0c;其实离我们并不遥远。它是一种常见的神经系统疾病&#xff0c;影响着许多中老年人的生活质量。虽然帕金森病目前尚无根治之法&#xff0c;但通过科学合理的日常锻炼&#xff0c;可以有效缓解病情&#xff0c;提高生活质量。…

录的视频太大怎么压缩?这几款软件真的很不错!

在数字化时代&#xff0c;视频已成为我们日常生活和工作中不可或缺的一部分。无论是记录生活点滴&#xff0c;还是制作工作汇报&#xff0c;视频都以其直观、生动的特点赢得了我们的青睐。然而&#xff0c;随着视频质量的提升&#xff0c;视频文件的大小也在不断增加&#xff0…

内容安全复习 2 - 网络信息内容的获取与表示

文章目录 信息内容的获取网络信息内容的类型网络媒体信息获取方法 信息内容的表示视觉信息视觉特征表达文本特征表达音频特征表达 信息内容的获取 网络信息内容的类型 网络媒体信息 传统意义上的互联网网站公开发布信息&#xff0c;网络用户通常可以基于网络浏览器获得。网络…

API低代码平台介绍5-数据库记录修改功能

数据库记录修改功能 在上篇文章中我们介绍了如何插入数据库记录&#xff0c;本篇文章会沿用上篇文章的测试数据&#xff0c;介绍如何使用ADI平台定义一个修改目标数据库记录的接口&#xff0c;包括 单主键单表修改、复合主键单表修改、多表修改&#xff08;整合前两者&#xff…

每日练题(py,c,cpp).6_19,6_20

检验素数 from math import sqrt a int(input("请输入一个数&#xff1a;")) for i in range(2,int(sqrt(a))):if a%i 0:print("该数不是素数")breakelse: print("该数是素数")# # 1既不是素数也不是合数 # #可以用flag做标志位 # b int(…

视频智能分析平台智能边缘分析一体机安防监控平台打手机检测算法工作原理介绍

智能边缘分析一体机的打手机检测算法是一种集成了计算机视觉和人工智能技术的先进算法&#xff0c;专门用于实时监测和识别监控画面中的打手机行为。以下是关于该算法的详细介绍&#xff1a; 工作原理 1、视频流获取&#xff1a; 智能边缘分析一体机首先通过连接的视频监控设…