【论文阅读】(DALLE-3)Improving Image Generation with Better Captions

(DALLE-3)Improving Image Generation with Better Captions

文章目录

  • (DALLE-3)Improving Image Generation with Better Captions
    • 简介
    • Method
    • 实验

引用: Betker J, Goh G, Jing L, et al. Improving image generation with better captions[J]. Computer Science. https://cdn. openai. com/papers/dall-e-3. pdf, 2023, 2(3): 8.

论文链接: https://arxiv.org/abs/2212.09748

简介

论文展示了通过在高度描述性的生成图像captions上训练,可以显著提高文本到图像模型的提示跟随能力。现有的文本到图像模型在遵循详细图像描述方面存在困难,经常忽略提示中的单词或混淆提示的含义。作者假设这个问题源于训练数据集中图像标题的噪声和不准确性。通过训练一个定制的图像captions生成器并用它来重新标注训练数据集来解决这个问题。然后,训练了几个文本到图像模型,并发现在这些合成captions上训练可靠地提高了提示跟随能力。最后,使用这些发现构建了DALLE 3:一个新的文本到图像生成系统,并在设计用来衡量提示跟随、连贯性和美学的评估中测试了其性能,发现它与竞争对手相比具有优势。

Method

论文提出的文本到图像模型是在由大量配对(t,i)组成的数据集上训练的,其中i是图像,t是描述该图像的文本。在大规模数据集中,t通常来源于人类作者,他们专注于对图像主题的简单描述,而忽略了图像中描绘的背景细节或常识关系。t中通常省略的重要细节可能包括:

  1. 厨房水槽或人行道上的停车标志等物体的存在以及对这些物体的描述。
  2. 场景中对象的位置和这些对象的数量。
  3. 常识性细节,如场景中对象的颜色和大小。
  4. 显示在图像中的文本。

糟糕的是,在互联网上发现的captions往往根本不正确;描述图像的切向相关细节。例如,在通常用于为图像制作captions的文本中,通常会发现广告或表情包。作者假设所有这些缺点都可以通过综合生成的 captions来解决。

图像字幕与预测文本的传统语言模型非常相似。语言模型首先使用标记器将文本字符串分解为离散的标记。一旦以这种方式分解,语料库的文本部分就可以表示为一个序列,t=[t1,t2,…,tn]。然后,可以通过最大化以下可能性函数,在文本上建立一个语言模型:

其中,θ是要优化的captioner的参数。要将此语言模型转换为captioner,只需要对图像进行调整即可。这里的挑战是图像是由成千上万的像素值组成的。对目前的神经网络来说,对所有这些信息进行调节是非常低效的,所以需要一个压缩的表示空间。方便的是,CLIP提供了这一点。因此,给定预先训练的CLIP图像嵌入函数F(i),扩展语言模型的优化目标如下:

为了改进图像生成数据集中的captions,希望使caption生成器产生有利于学习文本到图像模型的图像描述。在第一次尝试中,构建了一个小的caption数据集,只描述图像的主要主题。然后继续在这个数据集上训练captioner。该过程引起的θ更新可以导致模型偏向于描述图像的主要主题。将此微调生成的captions称为"short synthetic captions"。

然后,第二次重复这个过程,创建一个由长的、高度描述性的captions组成的数据集,描述微调数据集中每个图像的内容。这些captions不仅描述了图像的主要主题,还描述了图像周围的环境、背景、图像中的文本、风格、颜色等。再次在此数据集上captioner。将此captioner生成的captions称为“描descriptive synthetic captions”。图3显示了基本事实、简短合成和描述性合成captions的示例。

构建完成后,将图像captioner微调应用于文本到图像数据集中的每个图像,从而生成一组合成字幕,用于后续实验。

实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/721891.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【数据存储】大端存储||小端存储(超详细解析,小白一看就懂!!!)

目录 一、前言 二、什么是低地址、高地址 ? 三、什么是数据的高位和低位 ? 四、什么是大小端存储? 🍉 小端存储详解 🍒 大端存储详解 五、为什么会有大小端存储? 🍍大端存储的优点 &#…

React | 低代码平台开发实践

⭐简单说两句⭐ 作者:后端小知识,CSDN后端领域新星创作者|阿里云专家博主 CSDN个人主页:后端小知识 🔎GZH:后端小知识 🎉欢迎关注🔎点赞👍收藏⭐️留言📝 前言 随着数字…

构造函数:初始化列表 篇

前言:为什么会出现初始化列表这个功能? 在学习初始化列表之前,我们通常在构造函数中为函数赋初值,但这行为并不能称为初始化。因为初始化具有唯一性,只能初始化一次,而构造函数体内可以多次赋值。因此我们…

[蓝桥杯 2020 省 B1] 整除序列

[蓝桥杯 2020 省 B1] 整除序列 题目描述 有一个序列,序列的第一个数是 n n n,后面的每个数是前一个数整除 2 2 2,请输出这个序列中值为正数的项。 输入格式 输入一行包含一个整数 n n n。 输出格式 输出一行,包含多个整数…

AI绘画丨超酷海盗女孩生成攻略

海盗在许多艺术作品中颠覆了历史上的负面模样,以正面的形象登场,这让许多较为年轻的人们对“海盗”这一职位充满憧憬。那么一个兼具野性与美丽的女性海盗该怎么生成呢?小编就带来了本次的生成关键词! 关键词:pirate g…

在pytorch中利用GPU训练神经网络时代码的执行顺序并提高训练效率

在pytorch中利用GPU训练神经网络时代码的执行顺序并提高训练效率 在 PyTorch 中,大多数操作在 GPU 上默认是异步执行的,但这并不意味着它们是并行执行的。要理解代码是同步还是异步执行,以及是串行还是并行执行,我们需要考虑几个…

文件操作与IO(3) 文件内容的读写——数据流

目录 一、流的概念 二、字节流代码演示 1、InputStream read方法 第一个没有参数的版本: 第二个带有byte数组的版本: 第三个版本 搭配Scanner的使用 2、OutputStream write方法 第一个版本: 第二个写入整个数组版本: …

【Web】Java反序列化之CC7链——Hashtable

目录 链子原理分析(借尸还魂) 如何构造相等hash 又谈为何lazyMap2.remove("yy") 不过真的需要两个LazyMap吗 EXP 双LazyMap exp HashMap&LazyMap exp 链子原理分析(借尸还魂) 先看Hashtable#readObject origlength和elements分别是原始数组的长度和元素…

信号灯——进程通信——day16

今天主要讲一下信号灯,也是有名信号量,一共分为四个步骤:创建、销毁、申请以及释放 首先是创建: semget int semget(key_t key, int nsems, int semflg); 功能:创建一组信号量 参数:key:IPC对象名nsems:信号量的个数semflg:IPC_…

软件测试 - 测试用例基本理论

1. 概念 为了特定的目的(该目的是检验代码是否满足用户需求)而设计的文档,文档包含测试输入、执行条件、预期结果等。文档的形式一般是excel表格。 比如说我们买了一台电脑,新买的笔记本检查完外观之后第一步需要查看电脑是否能够正常开机,…

机器学习 | 超参数:交叉验证

机器学习算法中,超参数是一个非常重要的问题;     超参数,即:模型开始训练之前,设置好的参数 根据模型评估值,对超参数进行优化,选择最佳超参数值,以提高学习的性能和效果 对于…

爬虫案例二

想拿到电影天堂 其中一个下载地址如何实现呢 第一步电影天堂_免费在线观看_迅雷电影下载_电影天堂网 (dytt28.com)电影天堂_电影下载_高清首发 (dytt89.com)电影天堂_免费在线观看_迅雷电影下载_电影天堂网 (dytt28.com) 第一步 我直接打开 requests.exceptions.SSLError: H…

Kubernetes Service

一、Service:Kubernetes 中的服务返现与负载均衡 1、为什么需要服务发现 Pod 生命周期短暂,IP 地址随时变化。 Deployment 等的 Pod 组需要统一访问入口和做负载均衡。 应用间在不同环境部署时保持同样的部署拓扑和访问方式。 2、应用服务如何暴露到…

免费!宝藏网站合集,每一个都不容错过

在科技日新月异的时代,PPT已经成为各行各业必不可少的展示工具。为了帮助大家提升PPT制作技巧,本文将为您介绍几款堪称神秘的PPT制作利器。它们分别是PPT宝库、PPT超级市场、魔法幻灯片以及优品PPT。 优品PPT 简介 优品PPT是一个专注于提供高质量PPT模…

JSP实现数据传递与保存

1.HTML页面转换JSP页面 直接再HTML页面最顶端添加page指令,修改文件后缀名;反之; 2.JSP内置对象 对象 描述 request 每当客户端请求JSP页面时,JSP引擎会制造一个新的request对象来代表这个请求。 response 当服务器创建req…

Linux-信号2

文章目录 前言一、信号是如何保存的?int sigemptyset(sigset_t *set);int sigfillset(sigset_t *set);int sigaddset (sigset_t *set, int signo);int sigdelset(sigset_t *set, int signo);int sigismember(const sigset_t *set, int signo);int sigpen…

VS统计代码行数

1.使用查找和替换方式 按CTRLSHIFTF (Find in files),勾上支持正则表达式, 然后输入搜索内容:^:b*[^:b#/].*$ 如图所示: 2.查看查询结果 需要注意:#开头和/开头或者空行都不计入代码量。

实名认证实现很难?Java实名认证三要素+人像接口代码

大数据时代,是否还在为用户信息的真实性头疼不已?是否还在担心业务中出现冒名顶替的风险?是否还在为实现线上平台实名制而发愁?今天小编为您带来了实时联网、便于集成、快速核验的翔云身份证三要素人像实名认证接口集成方式与代码…

【研发日记】Matlab/Simulink技能解锁(二)——在Function编辑窗口Debug

目录 前言 行断点 条件断点 前言 见《【研发日记】Matlab/Simulink技能解锁(一)——在Simulink编辑窗口Debug》 行断点 当Matlab Function出现异常时,如果能确定大致的代码段,就可以在相应的行上设置一个断点(Breakpoint)&…

算法D34 | 贪心算法4 | 860.柠檬水找零 406.根据身高重建队列 452. 用最少数量的箭引爆气球

860.柠檬水找零 本题看上好像挺难,其实挺简单的,大家先尝试自己做一做。代码随想录 分5/10/20讨论找零方案即可。 Python: class Solution:def lemonadeChange(self, bills: List[int]) -> bool:ch5 0ch10 0for b in bills:if b 20:ch5 - 1if ch1…