Scaling Laws 又失灵了?谷歌新研究:扩散模型不是越大越好

近年来,模型规模呈现出愈来愈大的趋势,越来越多的人相信“力大砖飞”。

OpenAI 虽然没有公布Sora的训练细节,但在Sora的技术报告中提到了:

Our largest model, Sora, is capable of generating a minute of high fidelity video. Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world. 我们最大的模型 Sora 能够生成一分钟的高保真视频。我们的结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。

OpenAI是Scaling Laws的坚定拥护者。可是模型训练是否真的大力出奇迹呢?

GPT-3.5研究测试: https://hujiaoai.cn

GPT-4研究测试: https://higpt4.cn

Claude-3研究测试(全面吊打GPT-4): https://hiclaude3.com

谷歌最新的研究结论:

不是!

谷歌研究院和约翰霍普金斯大学在最新的论文中指出:对于潜在扩散模型,模型不一定是越大越好。

论文链接:
https://arxiv.org/abs/2404.01367

Scaling laws 争议一直有

关于Scaling laws(中文译文:缩放定律),来自Open AI 2020年的论文《Scaling Laws for Neural Language Models》,简单说就是:模型的效果和规模大小、数据集大小、计算量大小强相关,而与模型的具体结构(层数/深度/宽度)弱相关。

论文链接
https://arxiv.org/pdf/2001.08361.pdf

Scaling Law不仅适用于语言模型,还适用于其他模态以及跨模态的场景。缩放定律提出的意义是重大的,根据它研究人员和开发者可以更有效地设计模型架构,选择合适的模型大小和数据集规模,以在有限的计算资源下实现最佳性能。

关于缩放定律的研究,先前的研究主要集中在大语言模型(LLM)上,关于它的争议一直存在:

OpenAI认为[1],每增加10倍的计算量,应该让数据集大小增加为约1.8倍,模型参数量增加为约5.5倍。换句话说,模型参数量更加的重要。

DeepMind认为[2],每增加10倍的计算量,应该让数据集大小增加为约3.16倍,模型参数量也增加为约3.16倍。换句话说,数据集大小和模型参数量一样重要。

先前,关于LLM的缩放定律已经被充分研究,而Google的最新研究则关注图像生成模型:潜在扩散模型(Latent Diffusion Models, LDMs),从DALL·E到最近大火的Sora,我们都能看到它的影子。但是谷歌的研究结论是:

对于LDMs,在计算资源较少时,如果增加10倍的计算量,应该让数据集大小增加为10倍,而不增加模型参数量。换句话说,数据集大小更加的重要。

Scaling Laws 又失灵了吗?

小模型的生成质量更好

作者设计了11个文本生成图像的LDM,其参数量从3900万到50亿不等,如下图所示,第一行是模型参数量,第二行是其中Unet模型的第一层宽度,第三和四行分别是模型的GFLOPS(运行一次前向传播和反向传播所需的计算量)和花费(相对于原始866M模型的花费,即假设866M模型的花费为1.00)

众所周知,模型的总计算量等于训练步骤和GFLOPS的乘积,所以在总计算量恒定的约束下,越大的模型能得到的训练步骤就越少,所以是模型大比较重要还是训练步骤多比较重要呢?

训练步骤多比较重要!在计算资源有限时,较小的模型(训练步骤多)可以胜过较大的模型(训练步骤少);模型大小以及训练步骤的选择要和计算资源适配。下面给出了一个定性的示例,可以看出小模型的效果更好一些。

但当训练步骤恒定时,依然是模型越大越好,下面给出了一个例子:训练步骤恒为500k,不同体积模型的生成效果。

但大模型更擅长图像细节

使用前面的text2image任务作为预训练任务,分别在超分辨率任务和DreamBooth任务上做微调,发现在超分辨率任务上,相同的计算量,模型越大,FID越低(生成质量越好),而超分辨率任务最考验模型的细节生成能力。

下面是一个定性的例子

在下面DreamBooth上的表现证明了同样的结论,即大模型更擅长图像细节。

不同体积模型的CFG相关性竟然基本一致

先简单介绍一下CFG:

CFG速率(Classifier-Free Guidance Rate)是一种在扩散模型中使用的技术,在文本到图像的生成任务中,它通过调整模型在随机生成和文本条件生成之间的平衡来实现这一目标。

扩散模型在生成过程中,通常会从一个纯噪声状态开始,逐步降噪直至产生清晰的图像。在这一过程中,CFG技术引入了一个额外的“引导”步骤,通过该步骤可以更加强烈地推动生成的图像朝着给定文本描述相符合的方向发展,CFG速率定义了这种引导的强度。

具体来说,CFG修改了模型在生成过程中使用的文本信息的权重。CFG速率为0意味着完全不使用文本信息,而较高的CFG速率意味着文本信息对生成过程的影响更大。通过调整CFG速率,可以在图文相关性与图像质量之间找到最佳平衡。

下图是不同模型和采样步骤下,最优的CFG热力图

你会发现,同一行的颜色基本是一致的,这说明不同体积的模型受CFG的影响是基本一致的,下面给出了一个定性的示例,从左到右的CFG逐渐提高。

虽然下面一行的整体质量比上面好,但是两行从左到右的整体变化趋势基本一样。甚至作者在蒸馏模型中进行同样的实验,依然能得到同样的结论。

效率与品质的探索

这项研究无疑将对开发更高效的图像生成AI系统产生深远影响,因为它提出了实现模型效率与质量之间最佳平衡的指导性建议。通过深入探索潜在扩散模型(LDM)的扩展特性及模型大小与性能的关系,研究人员得以精准调整,以达到效率和质量的和谐统一。

这些成果也与AI领域的最新动态相契合,比如LLaMa、Falcon等小型语言模型在多项任务中超越大型对手。这股推动开源、更小巧、更高效模型的发展势头,旨在推动AI技术的民主化,使开发者得以在不依赖庞大计算资源的情况下,于边缘设备上构建个性化的AI系统。

参考资料

[1]Kaplan J, McCandlish S, Henighan T, et al. Scaling laws for neural language models[J] arXiv preprint arXiv:2001.08361, 2020.
[2]Hoffmann J, Borgeaud S, Mensch A, et al. Training compute-optimal large language models [J] arXiv preprint arXiv:2203.15556, 2022.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/800761.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[RK-Linux] RK3399启动流程详解

一、SoC启动流程 1.1 BootROM介绍 在嵌入式系统中,SoC(System on Chip)制造商通常会在芯片内部集成一段固化的启动代码,这段代码被称为BootROM,它负责系统的最初级启动程序。 1.1.1 初始化硬件 当SoC上电时,首先由BootROM接管系统,其首要任务是初始化硬件环境。这包…

AI技术创业机会之金融科技

金融科技服务(FinTech)领域正经历着一场由人工智能(AI)技术引领的深刻变革,为创业者提供了无数创新与颠覆传统金融服务模式的机会。以下详述了金融科技服务中AI技术的具体创业机会及其细节与内容,以期为有志于涉足此领域的创业者提供全面的洞察与参考。 一、智能投顾与财…

Dify开源大语言模型(LLM) 应用开发平台如何使用Docker部署与远程访问

文章目录 1. Docker部署Dify2. 本地访问Dify3. Ubuntu安装Cpolar4. 配置公网地址5. 远程访问6. 固定Cpolar公网地址7. 固定地址访问 本文主要介绍如何在Linux Ubuntu系统以Docker的方式快速部署Dify,并结合cpolar内网穿透工具实现公网远程访问本地Dify! Dify 是一款…

spring01:IOC(控制反转)

spring01:IOC(控制反转) 文章目录 spring01:IOC(控制反转)前言:一、IOC:inversion of control(控制反转)控制:控制对象的创建!&#x…

西安交通大学《数据库理论与技术》课程实验+期末考试资料全通关

课程概况 首先请确认一下课程情况:数据库理论与技术是西安交通大学开设的秋季研究生选修课程,授课教师为侯迪老师。 本文涉及的所有资料下载链接:链接: https://pan.baidu.com/s/1oB9I6SSaWejZwmM6NfTFpg 提取码: hrww 本课程有五次当堂小…

如何在Linux中找到正在运行的Java应用的JAR文件

当你在Linux服务器上工作时,可能需要找到某个正在运行的Java应用的JAR文件位置。这对于诊断问题、更新应用或理解部署结构非常有用。以下是一个步骤详细的指南,帮助你找到这些信息。 1. 确定Java进程 首先,你需要确定正在运行的Java应用的进…

IDEA中修改git的作者、邮箱名称

目录 一、查看当前git信息 1、查看git作者名称 如下图: 2、查看git邮箱信息 二、修改git信息 1、修改git作者名称 如下图: 2、修改git邮箱名称 一、查看当前git信息 1、查看git作者名称 在git控制台 或者 Terminal 输入 git config user.name …

day20-二叉树part07

530.二叉搜索树的最小绝对差 思路&#xff1a;中序遍历转换成有序数组&#xff0c;遍历数组计算数组相邻元素的差值保存最小&#xff0c;多开辟一个数组空间 class Solution {private List<Integer> list new ArrayList<>();private void traversal(TreeNode roo…

【Linux】基础IO----系统文件IO 文件描述符fd 重定向

> 作者&#xff1a;დ旧言~ > 座右铭&#xff1a;松树千年终是朽&#xff0c;槿花一日自为荣。 > 目标&#xff1a;了解在Linux下的系统文件IO&#xff0c;知道什么是文件描述符&#xff0c;什么是重定向 > 毒鸡汤&#xff1a;白日莫闲过&#xff0c;青春不再来。 …

Js 的事件循环(Event Loop)机制

Js 的事件循环(Event Loop)机制 1、js是单线程的&#xff0c;会有阻塞问题 2、浏览器解决阻塞问题的方法&#xff1a;如网络请求、settimeout是用异步来做的&#xff0c;但异步任务没有优先级。为了更灵活&#xff0c;增加了事件循环 3、事件有同步任务和异步任务&#xff0c;先…

ardupilot安装python

目录 文章目录 目录摘要1.安装过程摘要 本节主要记录如何安装ardupilot 的python开发环境,主要参考b站视频B站视频ubuntu 安装python-3.10.0 1.安装过程 sudo apt updatesudo apt install wget build-essential checkinstallwget https://www.python.org/ftp/python/3.10.0…

数据结构(初阶):顺序表实战通讯录

前言 数据结构&#xff08;初阶&#xff09;第一节&#xff1a;数据结构概论-CSDN博客 数据结构&#xff08;初阶&#xff09;第二节&#xff1a;顺序表-CSDN博客 本文将以C语言和顺序表实现通讯录基础管理&#xff0c;实现功能包括增、删、改、查等&#xff0c;在实现相关功能…

学习-Java类和对象之this关键字

&#xff1a;学习-Java类和对象之this关键字 100 任务要求参考答案评论22 任务描述相关知识 this 关键字编程要求测试说明 任务描述 本关任务&#xff1a;编写一个商品结算的小程序。 相关知识 为了完成本关任务&#xff0c;你需要掌握&#xff1a;this 关键字的使用。 …

linux:du和df区别

文章目录 1. 概述2. du 命令2. df 命令3. 区别总结 1. 概述 du 和 df 都是 Linux 系统中用于查看磁盘空间使用情况的命令&#xff0c;但它们的功能和用法有所不同。 2. du 命令 du 是 “disk usage” 的缩写&#xff0c;用于显示文件或目录的磁盘使用情况。du 命令用于查看指…

基于Socket简单的UDP网络程序

⭐小白苦学IT的博客主页 ⭐初学者必看&#xff1a;Linux操作系统入门 ⭐代码仓库&#xff1a;Linux代码仓库 ❤关注我一起讨论和学习Linux系统 1.前言 网络编程前言 网络编程是连接数字世界的桥梁&#xff0c;它让计算机之间能够交流信息&#xff0c;为我们的生活和工作带来便利…

机器学习笔记 - 深度学习遇到超大图像怎么办?使用 xT 对极大图像进行建模论文简读

作为计算机视觉研究人员,在处理大图像时,避免不了受到硬件的限制,毕竟大图像已经不再罕见,手机的相机和绕地球运行的卫星上的相机可以拍摄如此超大的照片,遇到超大图像的时候,我们当前最好的模型和硬件都会达到极限。 所以通常我们在处理大图像时会做出两个次优选择之一:…

gbm模型做分类

导入相关的包 from sklearn.model_selection import train_test_split from sklearn.metrics import classification_report from lightgbm import LGBMClassifier from sklearn.preprocessing import PolynomialFeatures获取df中的格式类型 object_columns df.select_dtype…

java给出一个不多于5位的正整数(1)求出它是几位数(2)分别输出每一位数字(3)按逆序输出各位数字

给出一个不多于5位的正整数 &#xff08;1&#xff09;求出它是几位数 &#xff08;2&#xff09;分别输出每一位数字 &#xff08;3&#xff09;按逆序输出各位数字 public static void main(String[] args) {Scanner scan new Scanner(System.in);System.out.println(&qu…

lottery-攻防世界

题目 flag在这里要用钱买&#xff0c;这是个赌博网站。注册个账号&#xff0c;然后输入七位数字&#xff0c;中奖会得到相应奖励。 githacker获取网站源码 &#xff0c;但是找到了flag文件但是没用。 bp 抓包发现api.php&#xff0c;并且出现我们的输入数字。 根据题目给的附…

推荐一款很强大的SCADA工业组态软件

可以广泛应用于化工、石化、制药、冶金、建材、市政、环保、电力等几十个行业。 I官网网站:www.hcy-soft.com |体验地址:http://www.byzt.net:60/sm/ 一、产品简介 BY组态是完全自主研发的集实时数据展示、动态交互等一体的全功能可视化平台。帮助物联网、工业互联网、电力能…