DALLE 3技术分析 - 训练方式/模型结构

DALLE 3技术分析 - 训练方式/模型结构

1. 引言:

从 DALLE 3 开发者技术轨迹中,以及模型的演示视频,我们可以推导 DALLE 3 模型的某些架构信息。

2. DALLE 2 的评价:

DALLE 2 的性能不佳,主要归因于 CLIP 模型的限制。

CLIP 在为后续的 diffusion model 提供充足内容和详细特征上遇到了困难。

在生成详细图像方面,该模型遇到了显著的挑战。

3. GPT 模型的作用:

之前的实验使用 GPT 2 作为音频/视觉媒体的核心处理系统,任务是解释人类的文本输入并将其转化为 diffusion model 的视觉表示。

该基于 GPT 2 模型的性能超越了其众多同时代的模型,使得这种策略看起来是可行的。

对于 DALLE 3,作为自回归核心的 GPT 模型的确切版本,是 GPT 3 还是 GPT 4,尚未确定。但为了此次分析,我们假设使用了 GPT 4。

4. GPT 4 的图像解读:

几个月前,GPT 4 的图像解读能力已经显著提高,但 OpenAI 并未公之于众。

从商业角度来看,OpenAI 可能没有足够的计算资源进行图像解释。这引起了一个问题:计算能力被引导到哪里?

随着 DALLE 3 的发布,我们猜测 GPT 4 的图像能力被用于生成适合 DALLE 3 的训练数据。

GPT 4 的图像模型的架构可能采用与 BLIP2/mini GPT 4 相似的方法。这可能包括一个额外的视觉编码器(VIT)和几个转换层(例如 Qformer)来将图像转换为模型可以理解的格式。

预计 OpenAI 的 visual encoder/decoder 是自行训练的,可能导致更好的结果。

5. GPT 4 图像发布延迟的可能原因:

GPT 4 图像版本发布之久的可能原因:服务器被用于生产 image-text pair 数据集。

有了充足的数据,自然就为 DALLE 3 的创造铺平了道路。

6. DALLE 3 的假设结构和训练:

OpenAI 首先训练了一个高效的 visual encoder/decoder。

之后,他们可能采用与 miniGPT 4 类似的方法来训练 GPT 4 进行图像处理。

拥有了图像能力的 GPT 4 之后,可以生成一个全面的 image-text pair 数据集。这也可能是图像(image tokens)到文本(text tokens)的格式。

text tokens 到 image tokens 的配对可能被用于培养 DALLE 的主要部分,我们暂时称之为“GPT 4 image creator”。

接下来的步骤可能涉及将 image tokens 转换回图像。目前,diffusion model 在此任务上表现出色,甚至超过了原生 decoder。

我们猜测使用了一个 diffusion decoder 进行图像生成。

7. 最后的话:

此分析避免深入到模型的复杂细节,例如模型之间是否有潜在的 residual 结构,或 text tokens 是否与 image tokens 同时输入到 diffusion model 中。确定这些细节需要实际的实验操作。另外由于已经写的太长了,其中部分基于视频内容的推理暂时没有解释。

参考文献:
AI绘画软件DALL-E3上线,功能强大且免费使用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/130378.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网络安全(网络安全)小白自学

想自学网络安全(黑客技术)首先你得了解什么是网络安全!什么是黑客! 网络安全可以基于攻击和防御视角来分类,我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术,而“蓝队”、“安全运营”、“安全…

【Midjourney入门教程2】Midjourney的基础操作和设置

文章目录 Midjourney的常用命令和基础设置1、 /imagine2、 /blend3、 /info4、 /subscribe5、 /settings(Midjourney的基础设置)6、 /shorten 有部分同学说我不想要英文界面的,不要慌: 点击左下角个人信息的设置按钮,找…

网际控制报文协议ICMP

网际控制报文协议ICMP 一.网际控制报文协议ICMP概述 为了更有效地转发IP数据报以及提高IP数据报交付成功的机会,TCPIP体系结构的网际层使用了网际控制报文协议(Internet Control Message Protocol,ICMP)[RFC 792].主机或路由器使用ICMP来发送差错报告报…

图解系列--路由器和它庞大的功能

03.01 何为路由器 路由器是指主要负责 OSI参考模型中网络层的处理工作,并根据路由表信息在不同的网络 之间转发IP 分组的网络硬件(图3-1)。这里的网络一般是指IP 子网,也可以称为广播域。此外,现在的路由器还会搭载其他各种各样的功能。 0…

【ES专题】ElasticSearch搜索进阶

目录 前言阅读导航前置知识特别提醒笔记正文一、分词器详解1.1 基本概念1.2 分词发生的时期1.3 分词器的组成1.3.1 切词器&#xff1a;Tokenizer1.3.2 词项过滤器&#xff1a;Token Filter1.3.3 字符过滤器&#xff1a;Character Filter 1.4 倒排索引的数据结构 <font color…

IDEA中如何移除未使用的import

&#x1f468;&#x1f3fb;‍&#x1f4bb; 热爱摄影的程序员 &#x1f468;&#x1f3fb;‍&#x1f3a8; 喜欢编码的设计师 &#x1f9d5;&#x1f3fb; 擅长设计的剪辑师 &#x1f9d1;&#x1f3fb;‍&#x1f3eb; 一位高冷无情的编码爱好者 大家好&#xff0c;我是全栈工…

可达矩阵-邻接矩阵-以及有向图的python绘制

参考1 自定义输入矩阵来绘制 根据参考代码&#xff0c; 自定义 代码如下&#xff1a; # 编程实现有向图连通性的判断 from pylab import mplmpl.rcParams[font.sans-serif] [SimHei] mpl.rcParams[axes.unicode_minus] False import numpy as np import networkx as nx imp…

2023大联盟8 比赛总结

比赛经历 有点忘了&#xff0c;稍微写一些 本来早上有 n f l s nfls nfls 的&#xff0c;但因为今天大联盟 T 1 T1 T1 是我们学校的题&#xff0c;于是写大联盟 第一题因为下午要我们讲&#xff0c;所以讨论了一下做法&#xff0c;个人感觉第一步把 a b a aba aba 拆成 …

批量新增报错PSQLException: PreparedStatement can have at most 65,535 parameters.

报错信息&#xff1a; org.postgresql.util.PSQLException: PreparedStatement can have at most 65,535 parameters. Please consider using arrays, or splitting the query in several ones, or using COPY. Given query has 661,068 parameters ; SQL []; PreparedStatemen…

Oracle(10)Managing Undo Data

目录 一、基础知识 1、AUM :Init Parameters AUM:初始化参数 2、AUM:Other Parameters AUM:其他参数 3、AUM:Sizing an UNDO TS AUM:调整UNDOTS的大小 4、AUM :Undo Quota AUM:撤消配额 5、Get Undo Segment Info 获取撤消段信息 二、基础操作 1、AUM:UNDO Tablespace …

MySQL:至少参与xxx参与的全部事件(二)

MySQL&#xff1a;至少参与xxx参与的全部事件&#xff08;二&#xff09; – WhiteNights Site 标签&#xff1a;MySQL 本来不难的&#xff0c;结果实验课上又没能当场做出来。还是回到宿舍复盘才看到问题所在&#xff0c;令人感慨。 头歌例题 仔细审题 任务描述 创建一个名…

SpringBoot框架使用AOP + 自定义注解实现请求日志记录

一、SpringBoot记录日志 文章目录 一、SpringBoot记录日志1.1、环境搭建1.2、配置FastJson1.3、自定义LogRecord注解1.4、定义日志实体类1.5、创建HttpRequestUtil工具类1.6、定义AOP切面1.7、编写测试类1.8、运行测试 1.1、环境搭建 搭建SpringBoot工程。引入【spring-boot-st…

2023年软件系统架构师论文【回忆版】

2023年11月5日&#xff0c;全国计算机等级下半年考试&#xff0c;北京市软件架构师考试其中有个考点在首都经济贸易大学丰台校区&#xff09;&#xff0c;地址&#xff1a;北京市丰台区花乡张家路口121号&#xff08;北门入校&#xff09; 注意&#xff1a;机考的考试时间有所变…

BIOS开发笔记 - HDA Audio

在PC中,音频输出是一个重要的功能之一,目前大多数采用的是英特尔高清晰音效(英语:Intel High Definition Audio,简称为HD Audio或IHD)方案,它是由Intel于2004年所提出的音效技术,能够展现高清晰度的音质效果,且能进行多声道的播放,在音质(音效质量)上超越过去的其他…

FFmpeg 硬件加速视频转码指南

基于 Windows 下演示&#xff0c;Linux 下也可以适用。 所使用 ffmpeg 版本为 BtbN 编译的 win64-gpl 版&#xff08;非 gpl-share&#xff09;&#xff0c;项目地址&#xff1a;BtbN / FFmpeg-Builds 也可以使用 gyan.dev 编译的 git-full 版&#xff0c;地址&#xff1a;gyan…

通过pam_cap配置特权失效的原因

缘由 阅读官网上对于pam_cap介绍的用户特权配置&#xff0c;如果不特别注意官网介绍中的几个关键词&#xff0c;通常配置后并不起效。 而这段对于非root的运行的特权设定与传递、传播的研究&#xff0c;均来自于这个疑问&#xff0c;所以&#xff0c;想再深入谈谈这个问题&am…

Sqoop导入到Hive,Hive使用 HA

Sqoop写入Hive卡在连接Hive的JDBC上不执行 Sqoop访问 启用 HA模式的Hive 找到Hive的安装根目录&#xff1a;$HIVE_HOME/conf 创建一个新的配置文件&#xff1a;beeline-hs2-connection.xml <?xml version"1.0"?> <?xml-stylesheet type"text/xsl…

【自动控制原理】时域分析法:一阶、二阶、高阶系统的时间响应及动态性能

文章目录 第3章 时域分析法3.1 基本概念3.1.1 典型输入信号3.1.2 系统动态性能指标 3.2 一阶系统的时间响应及动态性能一阶系统的标准形式&#xff08;尾1标准型&#xff09;3.2.1一阶惯性环节的单位阶跃响应3.2.2一阶惯性环节的单位速度响应3.2.3一阶惯性环节的单位脉冲响应3.…

【gpt redis】原理篇

用的黑马程序员redis课程的目录&#xff0c;但是不想听讲了。后续都是用gpt文档获取的。 1.课程介绍(Av766995956,P145) 2.Redis数据结构-动态字符串(Av766995956,P146) sds 1M是个界限 其实他是个由c语言实现的结构体 有这么几个参数 len alloc flag char[] len是实际长度 …