北大字节提出VAR新范式,GPT超越扩散、视觉生成Scaling Law

前言

来自北京大学和字节跳动的研究团队,提出了一种名为"Visual AutoRegressive (VAR) Modeling"的全新视觉生成范式。VAR 重新定义了图像的自回归学习过程,从而使得GPT风格的自回归模型首次超越扩散模型,在图像生成质量、速度和可扩展性等多方面都取得了突破性进展。

  • Huggingface模型下载:https://huggingface.co/FoundationVision/var

  • AI快站模型免费加速下载:https://aifasthub.com/models/FoundationVision

VAR核心思想:模仿人类视觉认知

VAR的核心思想源于人类感知和创造图像的逻辑顺序。相比计算机常用的自上而下、逐行扫描的方式,人类更倾向于先把握全局结构,然后逐步深入细节。

VAR正是借鉴了这种由粗到细的多尺度思路,定义图像的自回归顺序为"下一个更高分辨率的token图谱预测",而非传统的"下一个token预测"。具体来说,VAR首先使用多尺度量化自编码器(VQVAE)将图像编码为不同分辨率的离散token图谱,然后训练一个自回归Transformer,从最低分辨率的1x1图谱开始,逐步预测出更高分辨率的token图谱。

这种设计不仅更符合人类直觉,而且在计算效率上也有很大优势:在每个尺度内,token是并行生成的,而非传统自回归模型的逐个顺序生成,从而大幅提升了推理速度。

VAR性能超越Diffusion

通过在ImageNet 256x256和512x512数据集上的实验,VAR在多个维度都展现出了卓越的表现:

  • 在图像质量指标上,VAR取得了FID 1.80、IS 356.4的SOTA水平,大幅超越了之前自回归模型的表现。

  • 在推理速度上,VAR仅需10步采样就能生成图像,是传统自回归模型快20倍,接近GAN模型的效率。

  • 在可扩展性方面,VAR通过增大模型规模到2B/3B参数,性能持续提升,与大语言模型(LLM)的Scaling Law相似,而Diffusion Transformer等模型在更大规模下却出现饱和。

这些结果充分证明,VAR不仅在性能上超越了Diffusion模型,在计算效率和可扩展性上也更加优秀,开启了自回归视觉生成模型的新纪元。

发现视觉Scaling Law

与大语言模型(LLM)类似,VAR在训练过程中也呈现出清晰的幂律Scaling Law特征:

  • 模型参数量N增大,测试集损失L和错误率Err呈现幂律下降,相关系数接近-0.998,证明了强大的可预测性。

  • 在计算开销Cmin增大时,测试集损失L和错误率Err也遵循幂律降低,相关系数达-0.99,表明VAR拥有出色的计算效率。

这些Scaling Law的发现,不仅验证了VAR的可扩展性,也为未来基于自回归范式的视觉生成模型提供了有力支撑,可借助小模型预测大模型性能,大幅降低开发成本。

零样本泛化能力

VAR还展现出了在一些下游任务上的零样本泛化能力,包括图像补全、外插和类条件编辑等。这表明VAR具有从自身任务迁移到新任务的潜力,与LLM的零样本学习能力相似。

展望未来

总的来说,VAR为视觉自回归建模提供了一种全新的、更符合人类认知的范式,不仅在性能、速度和可扩展性上超越Diffusion,还首次在视觉领域观察到了与LLM相似的Scaling Law和零样本泛化能力。

研究团队开放了VAR的代码、模型和训练数据,希望能够推动自回归在视觉生成领域的进一步发展,为统一的多模态AI算法奠定基础。后续的研究方向包括将VAR应用于视频生成,以及与LLM的进一步融合等。

模型下载

Huggingface模型下载

https://huggingface.co/FoundationVision/var

AI快站模型免费加速下载

https://aifasthub.com/models/FoundationVision

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/4738.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

node环境创建Vue项目

node环境创建Vue项目 目录 node环境创建Vue项目安装node.js安装Vue创建Vue项目 安装node.js 【1】.官网下载 【2】.选择路径 【3】配置环境变量 后面就是一路next完成安装 【4】测试 cmd输入node指令,显示版本号证明安装成功 安装Vue 【1】安装cnpm 这是由淘宝…

最新官方破解版会声会影2024永久序列号和激活码

会声会影2024是一款功能强大的视频编辑软件,它集合了视频剪辑、音频调整、特效添加等多项功能于一身,为用户提供了一个全面且易用的视频制作平台。无论是初学者还是专业视频编辑人员,都能在这款软件中找到满足自己创作需求的工具。 会声会影最…

数字签名学习

1 基本概念 数字签名是一种加密技术,用于验证信息来源的身份和数据的完整性。 就是对一个东西签上自己的名;收到的人可以验证这东西是你发的;这里是用数字的方式; 对字符串也可以签名,签名以后,还是一个…

嘉楠堪智 CanMV K230 的 CanMV-IDE 环境与 MicroPython 编程

嘉楠推出了 CanMV IDE 开发环境,可以使用 MicroPython 开发针对 CanMV K230 的各种程序,同时也提供了大量的例子程序,方便使用者学习。 嘉楠开发者社区,给出了详细的 CanMV K230 教程,可以借以快速上手。 目录 固件…

TikTok引流中海外云手机的实用功能分享

在当下,TikTok已成为全球范围内最受欢迎的社交媒体平台之一,拥有着庞大的用户群体和潜在的商业机会。为了在TikTok上实现更好的引流效果,利用海外云手机成为了一个明智的选择。接下来,我们将深入探讨海外云手机的功能以及它如何助…

卫瓴科技杨炯纬:帮助一线销售做营销 | 躬行者说

我并不假装理解营销技术。我所有关于营销技术的知识,都来自这个行业的躬行者们。他们筚路蓝缕,见证营销技术在中国的成长。Marteker邀请他们谈谈心路历程,以「身在此山中」的视角解读营销技术在中国的光荣与梦想。 「纸上得来终觉浅&#xf…

Swift - 枚举

文章目录 Swift - 枚举1. 枚举的基本用法2. 关联值(Associated Values)3. 关联值举例4. 原始值5. 隐式原始值(Implicitly Assigned Raw Values)6. 递归枚举(Recursive Enumeration)7. MemoryLayout Swift -…

ROS1快速入门学习笔记 - 07话题消息的定义与使用

目录 一、话题模型 二、自定义话题消息 1. 在功能包下创建msg目录用于存储话题文件 2. 在package.xml文件中添加功能包依赖; 3. 在CMakeLists.txt增加编译选项; 4. 完成编译 5. 配置CMakeLists.txt中的编译规则(增加发布者和订阅者&am…

Linux 第十三章

🐶博主主页:ᰔᩚ. 一怀明月ꦿ ❤️‍🔥专栏系列:线性代数,C初学者入门训练,题解C,C的使用文章,「初学」C,linux 🔥座右铭:“不要等到什么都没有了…

【办公类-22-13】周计划系列(5-5)“周计划-05 周计划表格内教案部分“节日”清空改成“节日“” (2024年调整版本)Win32

背景需求: 本学期19周,用了近10周的时间,终于把周计划教案部分的内容补全了(把所有教案、反思的文字都撑满一个单元格), 一、原始教案 二、新模板内的教案 三、手动添加文字后的样式(修改教案…

STM32之HAL开发——电容按键

电容按键原理 电容器 (简称为电容) 就是可以容纳电荷的器件,两个金属块中间隔一层绝缘体就可以构成一个最简单的电容。如图 32_1 (俯视图),有两个金属片,之间有一个绝缘介质,这样就构成了一个电容。这样一个电容在电路板上非常容…

Detla lake with Java--入门

最近在研究数据湖,虽然不知道研究成果是否可以用于工作,但我相信机会总是留给有准备的人。 数据湖尤其是最近提出的湖仓一体化概念,很少有相关的资料,目前开源的项目就三个,分别是hudi, detla lake, iceberg。最终选择…

常用算法代码模板 (3) :搜索与图论

AcWing算法基础课笔记与常用算法模板 (3) ——搜索与图论 常用算法代码模板 (1) :基础算法 常用算法代码模板 (2) :数据结构 常用算法代码模板 (3) :搜索与图论 常用算法代码模板 (4) :数学知识 文章目录 0 搜索技巧1 树与图的存…

机器学习:基于Sklearn、XGBoost框架,使用XGBClassifier、支持向量分类器和决策树分类器预测乳腺癌是良性还是恶性

前言 系列专栏:机器学习:高级应用与实践【项目实战100】【2024】✨︎ 在本专栏中不仅包含一些适合初学者的最新机器学习项目,每个项目都处理一组不同的问题,包括监督和无监督学习、分类、回归和聚类,而且涉及创建深度学…

MySQL:飞腾2000+Centos7.6 aarch64 部署MySQL8.0.36

目录 1.硬件环境 2.MySQL选择 Bundle版本【全部文件】​编辑 3.下载并安装 4.安装完成后检查mysql 5.初始化MySQL 6.那就问了,都初始化了啥? 7.尝试启动MySQL 8.给mysql文件授权 9.再次尝试启动正常 10.mysql初始化目录出现了mysql.sock 11.找…

为什么我的Mac运行速度变慢 mac运行速度慢怎么办 如何使用CleanMyMac X修复它

近些年伴随着苹果生态的蓬勃发展,越来越多的用户开始尝试接触Mac电脑。然而很多人上手Mac后会发现,它的使用逻辑与Windows存在很多不同,而且随着使用时间的增加,一些奇奇怪怪的文件也会占据有限的磁盘空间,进而影响使用…

android 分区存储(沙盒存储)适配总结

目录 一、分区存储概念 1.外部存储分类 2.分区存储如何影响文件访问 二、分区适配方案 1. 应用分区存储的文件访问规定 (1).应用专属目录--私有目录 (2).共享目录文件--公有目录 2.MediaStore API介绍 3.Storage Access Framework介绍 三、所有文件访问权限 四、总结…

【项目学习01_2024.04.27_Day02】

学习笔记 3 课程查询3.4 生成接口文档ApiOperation("课程查询接口") 和Api注解的区别Api(value "课程信息编辑接口",tags "课程信息编辑接口")其中的value和tags有什么用呢Swaager的常用注解如下:3.5 开发持久层3.5.1 生成mapper3.…

从NoSQL到NewSQL——10年代大数据浪潮下的技术革新

引言 在数字化浪潮的推动下,数据库技术已成为支撑数字经济的坚实基石。腾讯云 TVP《技术指针》联合《明说三人行》特别策划的直播系列——【中国数据库前世今生】,我们将通过五期直播,带您穿越五个十年,深入探讨每个时代的数据库演…