详细解读DALLE 3技术报告：Improving Image Generation with Better Captions

详细解读DALLE 3技术报告：Improving Image Generation with Better Captions

news/2025/4/27 0:12:48/文章来源:https://blog.csdn.net/qq_41895747/article/details/133959825

Diffusion models代码解读：入门与实战

前言：OpenAI是推动大模型创新的领头羊，最近发布的DALLE 3凭借着远超市面上其他图片生成模型的表现，再次火出圈。最近OpenAI官方发布了DALLE 3的技术报告《Improving Image Generation with Better Captions》。这篇博客详细解读这篇技术报告，揭示DALLE 3背后的秘密。

目录

贡献概述

方法详解

原有图像标题存在的问题

微调图像标题生成器

论文和代码地址

个人感悟

贡献概述

现有的文本到图像模型在跟随详细的图像描述方面存在问题，常常忽略单词或混淆提示的含义，例如DALL-E 2没有强制要求每个单词只有一个含义的约束。作者假设这个问题源于训练数据集中不准确的图像标题。为了解决这个问题，作者训练了一个定制的图像标题生成器，并使用它对训练数据集进行了重新标注。作者利用这些发现构建了DALL-E 3，取得了非常好的效果。

方法详解

原有图像标题存在的问题

在互联网上找到的标题往往是错误的，描述了与图像边缘相关的细节。所以作者决定要用给图像打标题的方法来合成这样的数据集。

下面这样图展示了合成的图片标题会比直接从收集到的描述详细很多。

微调图像标题生成器

作者采用了先合成短标题再合成长标题的方法。

先构建了一个小的数据集，其中的标题只描述图像的主要主题。然后继续在该数据集上训练图像标题生成器。这个过程中θ的更新使得模型更倾向于描述图像的主要主题，将这种微调后生成的标题称为“短标题合成器”。

重复这个过程，创建一个包含每个图像内容的长、高度描述性标题的数据集。这些标题不仅描述图像的主要主题，还描述了其周围环境、背景、图像中的文字、风格、着色等。再次在这个数据集上对基础的图像标题生成器进行微调，将这个图像标题生成器生成的标题称为“描述性标题合成”。

论文和代码地址

https://cdn.openai.com/papers/dall-e-3.pdf

代码地址暂无

个人感悟

1、openai太强了，先跪为敬。

2、这篇技术报告不包含DALL-E 3模型的训练或实验细节，只介绍了前期洗数据时候如何标注图片，其他关键部分讳莫如深。

3、这篇技术报告对自己做预训练的研究者来说特别有借鉴意义。

4、在技术介绍上也太抠了，方法才讲了1页，讳莫如深啊！很小气！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/113483.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

后缀表达式求值

后缀表达式求值

题目要求: 后缀表达式求值：建立一个操作数栈S。然后从左到右读表达式，如果读到操作数就将它压入栈S中，如果读到n元运算符(即需要参数个数为n的运算符)则取出由栈顶向下的n项操作数进行运算，再将运算的结果代替原栈顶的n项压入栈中…

阅读更多...

Catalan 数和 Stirling 数

Catalan 数和 Stirling 数

这个也可以理解为栈，用 ( 表示入栈 ， ) 表示出栈 , 任何情况下表示入栈的 ( 都必须大于等于 ) 的个数这个思路和入栈出栈的思路是等价的

阅读更多...

ms-sql server sql 把逗号分隔的字符串分开

ms-sql server sql 把逗号分隔的字符串分开

案例： sql 查询-字段里是逗号,分隔开的数组，查询匹配数据 sql 查询-字段里是逗号,分隔开的数组，查询匹配数据_sql server 数组匹配-CSDN博客 SQL SERVER 把逗号隔开的字符串拆分成行 SQL SERVER 把逗号隔开的字符串拆分成行_sqlserver拆分…

阅读更多...

【暴力剪枝】CF1708D

【暴力剪枝】CF1708D

https://codeforces.com/contest/1708/problem/D 题意思路这样的操作下，数列减的速度是非常快的，也就是说，易出现很多的0，0的操作没啥意义，所以我们要找到第一个 >0 的数对其后的序列进行排序，就能大…

阅读更多...

【Edabit 算法 ★☆☆☆☆☆】Power Calculator

【Edabit 算法 ★☆☆☆☆☆】Power Calculator

【Edabit 算法 ★☆☆☆☆☆】Power Calculator math numbers Instructions Create a function that takes voltage and current and returns the calculated power. Examples circuitPower(230, 10) // 2300 circuitPower(110, 3) // 330 circuitPower(480, 20) // 9600Not…

阅读更多...

大数据平台开发经验

大数据平台开发经验

如果我是一个有着10年大数据平台开发经验的开发者，面试时可能需要准备以下知识大数据生态系统：** 熟悉大数据技术栈，如Hadoop、Spark、Flink等，了解它们的原理、用途和优劣势。分布式系统设计： 深入了解分布式系统的…

阅读更多...

java项目运行时信息获取

java项目运行时信息获取

大体思路如下，想要获取启动时处理器数量、jvm 相关信息，操作系统信息、运行机器信息运行机器信息 import org.slf4j.Logger; import org.slf4j.LoggerFactory;import java.lang.invoke.MethodHandles;/*** 机器工具类*/ public abstract class ServerU…

阅读更多...

051校园短期闲置资源置换平台

051校园短期闲置资源置换平台

大家好✌！我是CZ淡陌。一名专注以理论为基础实战为主的技术博主，将再这里为大家分享优质的实战项目，本人在Java毕业设计领域有多年的经验，陆续会更新更多优质的Java实战项目，希望你能有所收获，少走一些弯路…

阅读更多...

git第一次推送出现推送被拒绝

git第一次推送出现推送被拒绝

前言 git 第一次推送出现以下错误 ! [rejected] master -> master (fetch first) error: failed to push some refs to ‘https://gitee.com/fengshangyunwang/iot-front-end.git’ hint: Updates were rejected because the remote contains work that you do hint: not …

阅读更多...

Mac硬盘检测工具

Mac硬盘检测工具

Mac硬盘检测软件是一款用于检测和诊断Mac硬盘健康状态的工具，帮助用户及时发现潜在的硬盘问题，避免数据丢失和系统故障。通过全面的检测和报告功能，用户可以更好地了解自己的硬盘状况，确保数据的安全和可靠。给大家介绍几款好用的…

阅读更多...

数字秒表VHDL启动暂停清零，源码和视频

数字秒表VHDL启动暂停清零，源码和视频

名称：数字秒表VHDL启动暂停清零（代码在文末付费下载） 软件：Quartus 语言：VHDL 代码功能： 数字秒表使用VHDL语言设置数字秒表。要求具有百分秒、秒和分钟显示,百分秒范围00-99,秒范围00-59,分钟范围0…

阅读更多...

CMakeList 编写示例

CMakeList 编写示例

cmake_minimum_required(VERSION 3.8) #指定cmake的最小版本 set(PROJECT_NAME Untitled_1) #初始化变量 project(${PROJECT_NAME} VERSION 1.0) #创建一个project set(CMAKE_AUTOMOC ON) #初始化内置变量, 该变量为Qt工程专属变量 set(CMAKE_AUTORCC ON) set(CMAKE_A…

阅读更多...

【Python 千题 —— 基础篇】分割有效信息

【Python 千题 —— 基础篇】分割有效信息

题目描述题目描述有时候我们需要截取字符串以获取有用的信息，比如对于字符串 “日期：2010-10-29”，我们需要截取后面的 10 个字符来获取日期，以便进行进一步分析。编写一个程序，输入一个字符串，然后输出…

阅读更多...

git仓删除当前仓且保留嵌套子仓--类似保留特定文件目录

git仓删除当前仓且保留嵌套子仓--类似保留特定文件目录

当前git若有损坏需删除重新下载，但其还含有子仓，不能直接删除整体目录。清理方法如下： 分如下两种场景 1、若是子仓当前没有进行任何操作，即子仓可以临时移动这种比较简单，分如下几步： step1:找到全部子…

阅读更多...

视频播放音画同步处理

视频播放音画同步处理

一、视频播放流程播放一个视频，一般分一下几步完成解复用（Demux）：在媒体文件中将音频数据、视频数据、字母数据分离出来。二、播放参数说明视频帧率：一秒钟需要显示的画面，比如25FPS，意思就…

阅读更多...

el-upload实现上传文件夹

el-upload实现上传文件夹

背景：如图一所示，最下面有一个黄色上传文件按钮，为手动上传而且上传区域有上传文件和上传文件夹的区分所以需要在点击了上传文件夹做特殊处理使得el-upload可以上传文件夹一、template区域 <el-uploadclass"upload-file"dra…

阅读更多...

【COMP305 LEC 3 LEC 4】

【COMP305 LEC 3 LEC 4】

LEC 3 A basic abstract model for a biological neuron 1. Weights of connections Neuron gets fired if it has received from the presynaptic neurons 突触前神经元 a summary impulse 脉冲, which is above a certain threshold. Signal from a single synapse突触 ma…

阅读更多...

docker 构建jar包/vue镜像以及发布

docker 构建jar包/vue镜像以及发布

1、maven 对项目进行jar/war打包： 如：my-notepad-service-1.006.jar 2、构建镜像： 新建Dockerfile内容有： FROM openjdk:8-jdk-alpine # 作者 MAINTAINER Yang douya # jar包添加到镜像中第一个是maven打包jar 第二个为在镜像中得…

阅读更多...

面试八股文：C++ 多态继承重载虚函数

面试八股文：C++ 多态继承重载虚函数

C 支持多态、继承和函数重载，这些是面向对象编程（OOP）的基本概念。以下是这些概念的简要介绍： 多态（Polymorphism）： 多态是面向对象编程的核心概念之一，它允许不同的子类对象对相同的…

阅读更多...

项目通用pom.xml文件模版

项目通用pom.xml文件模版

pom.xml模版文件 <?xml version"1.0" encoding"UTF-8"?><project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.apache.org/POM/…

阅读更多...

最新文章