字节豆包全新图像Tokenizer:生成图像最低只需32个token,最高提速410倍

  ChatGPT狂飙160天,世界已经不是之前的样子。

更多资源欢迎关注


在生成式模型的迅速发展中,Image Tokenization 扮演着一个很重要的角色,例如Diffusion依赖的VAE或者是Transformer依赖的VQGAN。这些Tokenizers会将图像编码至一个更为紧凑的隐空间(latent space),使得生成高分辨率图像更有效率。

然而,现有的Tokenizer通常会将输入图像映射为隐空间的一个降采样后的2D矩阵,这一设计隐式的限制了token与图像之间的映射关系,导致其很难有效的利用图像中的冗余信息(比如相邻的区域经常会有类似的特征)来获得一个更加有效的图像编码。

为了解决这一问题,字节跳动豆包大模型团队和慕尼黑工业大学提出了全新的1D图像Tokenizer:TiTok,这一Tokenizer打破了2D Tokenizer的设计局限,可以将整个图片压缩至更为紧凑的Token序列。

图片

  • 论文链接:https://arxiv.org/abs/2406.07550 

  • 项目链接:https://yucornetto.github.io/projects/titok.html

  • 代码链接:https://github.com/bytedance/1d-tokenizer

对于256 x 256分辨率的图片,TiTok最少仅需32个Token就可以表达,比通常2D Tokenizer的256或1024个Token显著减少。对于512 x 512分辨率的图片,TiTok最少仅需64个Token,64倍小于Stable Diffusion的VAE Tokenizer。此外,在ImageNet图像生成这一任务上,使用TiTok作为Tokenizer的生成器在生成质量和生成速度上都有显著提高。

在256分辨率,TiTok获得了1.97的FID,显著超过使用同样生成器的MaskGIT 4.21。在512分辨率TiTok可以获得2.74的FID,不仅超过了DiT(3.04),并且相比DiT在图像生成上加速了惊人的410倍!TiTok的最好变种取得了2.13的FID,显著超过DiT的同时仍旧有着74倍的加速。

图片

TiTok仅用32个Token就可以完成高质量的图像重建与生成

图片

图像所需Token的显著减少带来了明显更快的生成速度,但是同时维持了高质量的图像生成。

模型结构

TiTok的结构非常简单,编码器和解码器部分各自是一个ViT,在编码过程中,一组latent tokens会拼接在image patches后,在过完编码器后,仅保留latent tokens并进行quantization的过程。获得的quantized latent tokens将会与一组mask tokens拼接在一起,一并送入解码器,从mask token序列中重建出图像。

图片

1D Tokenization 性质研究

研究者进行了一系列实验研究关于不同数量的用于表示图像的token,不同的tokenizer大小,重建表现,生成表现,linear probing准确率,以及训练和推理速度的比较。在这一过程中,研究者发现(1)仅需32个Token便能取得很好的重建与生成效果(2)通过增大Tokenizer的模型大小,研究者可以使用更少的Token来表示图片(3)当图片使用较少的Token来表示时,Tokenizer会学到更强的语义信息(4)使用更少的Token来表示图片时,训练和推理速度都有了显著的提升。

图片

此外,视频中展示了使用不同的Tokenizer大小以及Token数目时所重建出的图片,可以看到更大的Tokenizer可以在有限的Token下重建出质量更好的图像。此外,当仅有有限Token时,模型更倾向于保留显著区域有更好的重建效果。

图片

实验验证

研究者主要在ImageNet-1k的256 x 256分辨率以及512 x 512分辨率上进行了与其他方法的比较。可以看到,尽管TiTok使用有限的Token数目,但是可以和其他使用更多Token的方法取得相当的重建效果(rFID),使用较少的Token数目让TiTok在维持较高的生成图片质量(gFID)的同时有着显著快于其他方法的生成速度。

例如TiTok-L-32获得了2.77的gFID score,同时可以以每秒101.6张图片的速度进行图片生成,这一速度显著快于其他Diffusion Models (169倍快于DiT)或者Transformer Models (339倍快于ViT-VQGAN).

图片

TiTok使用较少Token的优势在更高分辨率的图像生成上更加明显,其中TiTok-L-64仅使用64个Token就能完成高质量的512分辨率图像的重建与生成,生成图像的质量不仅高于DiT (2.74 v.s. 3.04),同时生成速度提高了近410倍。

图片

结论

在本文中,研究者专注于一个全新的1D Image Tokenizer,并提出了一种全新的Tokenizer来打破现有2D Tokenizer中的局限,进而更好的利用图像中的冗余信息。TiTok仅需少量的Token(比如32个)来表示图像,同时仍旧能进行高质量的图像重建与生成。在ImageNet的256分辨率和512分辨率生成实验中,TiTok不仅取得了超过Diffusion Models的生成质量,同时有着百倍更快的生成速度。

关于豆包大模型团队

字节跳动豆包大模型团队成立于 2023 年,致力于开发业界最先进的 AI 大模型技术,成为世界一流的研究团队,为科技和社会发展作出贡献。

豆包大模型团队在AI领域拥有长期愿景与决心,研究方向涵盖NLP、CV、语音等,在中国、新加坡、美国等地设有实验室和研究岗位。团队依托平台充足的数据、计算等资源,在相关领域持续投入,已推出自研通用大模型,提供多模态能力,下游支持豆包、扣子、即梦等50+业务,并通过火山引擎开放给企业客户。目前,豆包APP已成为中国市场用户量最大的AIGC应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/32570.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis 学习笔记(2)

目录 1 Redis的持久化1.1 RDB持久化方案1.2 AOF持久化方案 2 Redis架构2.1 主从复制架构2.2 哨兵集群设计2.3 哨兵集群设计 3 Redis事务机制4 Redis过期策略与内存淘汰机制4.1 过期策略4.2 内存淘汰机制 5 Redis高频面试题4.1 缓存穿透4.2 缓存击穿4.3 缓存雪崩 1 Redis的持久化…

C++中的文件操作

1、文件操作 文章目录 1、文件操作1.读写TXT文件1.写文件2.读文件3.读文件的方式4.注意事项 2.读写二进制文件1.写入二进制文件2.读取二进制文件3.注意事项 1.读写TXT文件 在C中&#xff0c;读取和写入文件通常涉及到使用<fstream>库中的类&#xff0c;主要是ifstream&a…

C++STL 初阶(5)vector的简易实现(上)

不同于string只实现一个最简单的版本&#xff0c;vector在此处我们要实现的是模版类&#xff0c;类模版的声明和定义分离非常不方便&#xff08;会在链接时报错&#xff09;&#xff0c;所以我们都只在一个vector.h下去实现声明和定义。后续我们提及到的库里面实现的vector也是…

Spring框架中Bean的生命周期

Bean的生命周期通常指的是从创建到初始化&#xff0c;经过一系列的流程&#xff0c;最终销毁的过程。只不过&#xff0c;在Spring框架中&#xff0c;Bean的生命周期是由Spring IOC容器来管理的。在Spring中&#xff0c;我们定义Bean时&#xff0c;也可以自己指定初始化和销毁的…

HCIP--OSPF(笔记3)

OSPF扩展配置 手工认证 【1】接口认证 -- 直连的邻居间&#xff0c;设定认证口令&#xff0c;进行身份核实&#xff0c;同时对双方交互的数据进行加密保护 [r9-GigabitEthernet0/0/1]ospf authentication-mode md5 1 cipher 123456 邻居间认证模式、编号、密码必须完全一致 【…

python实训day2

1、 from ming import * # 有点像C语言中的头文件 """在Python开发环境中&#xff0c;封装一个函数&#xff0c;功能目标为&#xff1a;通过两个整数参数一次性获取和、差、积、商四个值 """ def calc(a, b):return a b, a - b, a * b, a / b…

apollo规划架构

算法的基本架构 我们在最开始直接给出规划决策算法架构框图&#xff0c;然后一一介绍每个框图结构的细节&#xff1a; 模块的入口是 PlanningComponent&#xff0c;在 Cyber 中注册模块&#xff0c;订阅和发布消息&#xff0c;并且注册对应的 Planning 类。Planning 的过程之前…

【SQL】DATETIME 和 TIMESTAMP 的区别

在 SQL 中&#xff0c;DATETIME 和 TIMESTAMP 是用于存储日期和时间数据的两种数据类型&#xff0c;但它们在存储范围、时区处理和使用场景上有显著区别。以下是详细的解释&#xff1a; 1. DATETIME 定义: DATETIME 类型用于存储日期和时间&#xff0c;精度为秒。格式: YYYY-…

三生随记——时间的诅咒

深夜&#xff0c;月光透过薄雾洒落在小镇的古老街道上。风轻轻吹过&#xff0c;带起一阵阵阴凉的气息。小镇的居民早已沉睡&#xff0c;只有偶尔传来的狗吠声打破了夜的寂静。 在这个小镇上&#xff0c;有一个叫做李明的年轻人。他有一块非常特别的手表&#xff0c;这块手表是他…

Python协程探秘:async/await的魔法

Python协程探秘&#xff1a;async/await的魔法 在Python的并发编程世界中&#xff0c;协程&#xff08;Coroutines&#xff09;和async/await关键字正逐渐崭露头角&#xff0c;它们提供了一种高效、轻量级的并发解决方案。本文将深入解释协程的概念&#xff0c;探讨async/awai…

网络技术原理需要解决的5个问题

解决世界上任意两台设备时如何通讯的&#xff1f;&#xff1f; 第一个问题&#xff0c;pc1和pc3是怎么通讯的&#xff1f; 这俩属于同一个网段&#xff0c;那么同网段的是怎么通讯的&#xff1f; pc1和pc2属于不同的网段&#xff0c;第二个问题&#xff0c;不同网段的设备是…

敏捷开发笔记(第7章节)--什么是敏捷设计

目录 1&#xff1a;PDF上传链接 7.1: 软件出了什么错 7.2: 设计的臭味--腐化软件的气味 7.2.1: 什么激化了软件的腐化 7.2.2: 敏捷团体不允许软件腐化 7.3: “copy”程序 1: 初始设计 2: 需求在变化 3: 得寸进尺 4: 期望变化 7.3.1: “copy”程序的敏捷设计 7.3.2:…

leetcode 二分查找·系统掌握 有效的完全平方数

题目&#xff1a; 题解&#xff1a; 就是一个非常普通的二分查找&#xff0c;但是需要注意的是查找的上下界&#xff0c;因为是完全平方&#xff0c;所以可以把上界设为这个数的一半&#xff0c;但是要特殊处理num等于1的时候。 bool isPerfectSquare(int num) {if(num1)retur…

element-plus form表单组件之el-date-picker日期选择器组件

el-date-picker日期选择器组件可根据年&#xff0c;月&#xff0c;日期&#xff0c;时间范围来进行选择&#xff0c;可以自定义日期格式&#xff0c;和样式&#xff0c;还提供多种内置事件。 主要属性如下 属性名说明类型可选值默认值model-value / v-model绑定值&#xff0c…

qt开发-11_Dialog 仿苹果支付界面

QDialog 是 Qt 框架中用于创建对话框的一个基类。对话框是一种特殊类型的窗口&#xff0c;通常用于短暂的交互和信息交换&#xff0c;如接收用户输入、显示消息、询问用户决定等。QDialog 提供了一种方便的方式来实现这些功能&#xff0c;并能够控制用户与其他窗口的交互性&…

Intent、Intent Filter和BroadcastReceiver:Android中的核心通信机制

在Android开发中&#xff0c;Intent、Intent Filter和BroadcastReceiver构成了应用间通信&#xff08;IPC&#xff09;和内部通信的基石。它们不仅为开发者提供了强大的通信能力&#xff0c;还确保了应用的灵活性和扩展性。下面&#xff0c;我们将从技术难点、面试官关注点、回…

自动更新阿里云CDN SSL证书

deploy-certificate-to-aliyun 随着各大CA机构开始收割用户&#xff0c;云厂商们提供的免费SSL证书也由之前的12个月变成现在的3个月。笔者一直使用阿里云的OSS作为图床&#xff0c;说实话在如果继续在阿里云上三个月免费一换也太频繁了 笔者在这里使用github action来每隔两个…

C++ (week9):Git

文章目录 1.git介绍2.git安装3.git配置4.获取自己的SSH公钥5.新建仓库6.邀请开发者7.克隆远程仓库到本地8.在本地进行开发9.本地项目推送到远程仓库10.git的工作原理11.分支管理(1)合作开发的方式(2)分支管理(3)分支合并的原理、冲突管理 12.git 与 svn 的区别13.设置alias别名…

内容安全复习 8 - 视觉内容伪造与检测

文章目录 研究背景内容伪造方法虚假人脸生成人脸替换属性编辑表情重演跨模态人脸编辑 伪造检测方法眨眼检测交互式人脸活体检测一些了解方法挑战 研究背景 图像内容篡改造成新闻报道的偏颇易导致社会和公共秩序的不安&#xff0c;对公共安全产生不良影响。 造成的影响&#x…

达梦8 通过日志解释数据守护系统的关闭顺序

关闭守护系统时&#xff0c;必须按照一定的顺序来关闭守护进程和数据库实例。特别是自动切换 模式&#xff0c;如果退出守护进程或主备库的顺序不正确&#xff0c;可能会引起主备切换&#xff0c;甚至造成守护进程 DM 数据守护与读写分离集群组分裂。 官方推荐通过在监视器执行…