LLM：Scaling Laws for Neural Language Models （中）

LLM：Scaling Laws for Neural Language Models （中）

news/2025/4/27 0:51:41/文章来源:https://blog.csdn.net/lilai619/article/details/135601415

核心结论

1：LLM模型的性能主要与计算量C，模型参数量N和数据大小D三者相关，而与模型的具体结构 (层数/深度/宽度) 基本无关。三者满足: C ≈ 6ND

2. 为了提升模型性能，模型参数量N和数据大小D需要同步放大，但模型和数据分别放大的比例还存在争议。

首先看一下核心结论1是怎么推导得到的。

针对transformer结构：Parameters 参数量（不含embedding层）为N，每个Token前向传播消耗运算量C 约为 2N，反向传播的运算量又是前向传播运算量的两倍，所以每个Token需要花费的运算量C 约为 2N + 2*(2N) = 6N。现在Token的数量为D，所以总的运算量为C = 6N*D。

核心公式：本部分来自参考2.

第一项 $L_{\infty }$ 是指无法通过增加模型规模来减少的损失，可以认为是数据自身的熵（例如数据中的噪音）
第二项 $(\frac{x_{0}}{x})^{a}$ 是指能通过增加计算量来减少的损失，可以认为是模型拟合的分布与实际分布之间的差。

根据公式，增大 $x$ (例如计算量C)，模型整体loss下降，模型性能提升；伴随 $x$ (例如计算量C) 趋向于无穷大，模型能拟合数据的真实分布，让第二项逼近0，整体趋向于 $L_{\infty }$

结论验证

从图上可以看出：

1：当模型的参数量 N 为 $10^{3}$ 时（图中紫色的线），在 Token 数量达到 $10^{9}$ 后（图中红色的圈），模型基本收敛，继续增加训练的 Token 数量，纵轴的Test Loss 并没有明显下降。

2：如果此时，增加模型的参数量N： $10^{3}$ -> $10^{9}$ 。纵轴的Test Loss：从6.x->3.x。可以看出：提升模型参数量带来的收益更大。

思考一个问题：基于上图，当模型的参数量 N 为 $10^{3}$ 时（图中紫色的线）

（1）模型达到收敛状态时需要消耗的算力C是多少？

（2）模型达到收敛状态时的耗时是多久呢？

先看答案：下图红色箭头指向位置，也就是图中紫色线的拐点。

1：算力消耗： $C\approx 6\ast N\ast D\approx 6\ast 10^{3}\ast 10^{9}\approx 6\ast 10^{12}$

2：耗时： $Compute (PF-days) \approx 7\ast 10^{-8}$

如果没做实验，怎么知道上面的答案呢？

根据核心公式1,得到： $C\approx 6\ast N\ast D\approx 6\ast 10^{3}\ast 10^{9}\approx 6\ast 10^{12}$

$Compute(PF-days) = \frac{C}{PF-days}=\frac{6\ast 10^{12}}{8.64\ast 10^{19}}\approx 6.99\ast 10^{-8}=7\ast 10^{-8}$

Tips：

PF-days: 如果每秒钟可进行1015次运算，就是1 peta flops，那么一天的运算就是1015×24×3600=8.64×1019，这个算力消耗被称为1个petaflop/s-day。

再看个例子：

下图是Baichuan-2技术报告中的Scaling Law曲线。基于10M到3B的模型在1T数据上训练的性能，可预测出最后7B模型和13B模型在2.6T数据上的性能。

问题1：在1T的数据上，训练的10M-3B的模型，是怎么推算训练7B/13B需要2.6T数据呢？

$C\approx 6\ast N\ast D$

$D\approx \frac{C}{6\ast N}=\frac{10^{23}}{6\ast 7B}=\frac{10^{23}}{6\ast 7\ast 10^{9}}\approx 2.38T$

2.38T 是理论数值，与 2.6T基本一致了。

问题2：7B/13B模型的理论损失是多少呢？

将10M->3B不同尺寸的模型，训练到收敛状态，即上图，将每个模型的loss拐点记录进行拟合，得到幂函数（上图中蓝色粗线-scaling law），将C = $10^{23}$ 带入拟合函数，就可以得到7B/13B模型的理论预期Loss了。

参考

1：介绍一些Scaling Laws - 知乎

2：解析大模型中的Scaling Law - 知乎

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/626620.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

基于SpringBoot+Redis的前后端分离外卖项目-苍穹外卖微信小程序端(十二)

基于SpringBoot+Redis的前后端分离外卖项目-苍穹外卖微信小程序端(十二)

购物车相关 1.添加购物车1.1 需求分析和设计1.1.1 产品原型1.1.2 接口设计1.1.3 表设计 1.2 代码开发1.2.1 DTO设计1.2.2 Controller层1.2.3 Service层接口1.2.4 Service层实现类1.2.5 Mapper层 2. 查看购物车2.1 需求分析和设计2.1.1 产品原型2.1.2 接口设计 2.2 代码开发2.2.…

阅读更多...

K8S----YAML

K8S----YAML

kubernetes中资源可以使用YAML描述（如果您对YAML格式不了解，可以参考YAML语法），也可以使用JSON。其内容可以分为如下四个部分： typeMeta：对象类型的元信息，声明对象使用哪个API版本&#xff0c…

阅读更多...

L1-027 出租(Java)

L1-027 出租(Java)

下面是新浪微博上曾经很火的一张图： 一时间网上一片求救声，急问这个怎么破。其实这段代码很简单，index数组就是arr数组的下标，index[0]2 对应 arr[2]1，index[1]0 对应 arr[0]8，index[2]3 对应 arr[3]0&…

阅读更多...

Android Studio安卓读取EM4100 TK4100卡卡号源码

Android Studio安卓读取EM4100 TK4100卡卡号源码

本示例使用的读卡器：https://item.taobao.com/item.htm?spma1z10.5-c.w4002-21818769070.35.44005b43nb1q2h&id562957272162 <?xml version"1.0" encoding"utf-8"?> <androidx.constraintlayout.widget.ConstraintLayout xmln…

阅读更多...

2024年【安全生产监管人员】复审考试及安全生产监管人员模拟考试题库

2024年【安全生产监管人员】复审考试及安全生产监管人员模拟考试题库

题库来源：安全生产模拟考试一点通公众号小程序安全生产监管人员复审考试是安全生产模拟考试一点通总题库中生成的一套安全生产监管人员模拟考试题库，安全生产模拟考试一点通上安全生产监管人员作业手机同步练习。2024年【安全生产监管人员】复审考试及…

阅读更多...

Unity 编辑器篇|（六）编辑器拓展EditorGUI类（全面总结 | 建议收藏）

Unity 编辑器篇|（六）编辑器拓展EditorGUI类（全面总结 | 建议收藏）

目录 1. 前言2. 参数3. 功能3.1 折叠菜单： Foldout3.2 检查 GUI 更改： BeginChangeCheck 、EndChangeCheck 监听值改变3.3 可禁用控件：BeginDisabledGroup 、EndDisabledGroup 是否禁用组中的控件3.4 下拉菜单：DropdownButton3.5 …

阅读更多...

CentOS7安装MySQL 错误：软件包：akonadi-mysql-1.9.2-4.el7.x86_64 (@anaconda)

CentOS7安装MySQL 错误：软件包：akonadi-mysql-1.9.2-4.el7.x86_64 (@anaconda)

问题如图所示运行一下命令解决 yum -y remove mariadb-libsyum install mysql-community-server

阅读更多...

PriorityBlockingQueue概念

PriorityBlockingQueue概念

四、PriorityBlockingQueue概念 4.1 PriorityBlockingQueue介绍首先PriorityBlockingQueue是一个优先级队列，他不满足先进先出的概念。会将查询的数据进行排序，排序的方式就是基于插入数据值的本身。如果是自定义对象必须要实现Comparable接口才可…

阅读更多...

mysql查询当天、近一周、近一个月及近一年的数据以及各种报表查询sql

mysql查询当天、近一周、近一个月及近一年的数据以及各种报表查询sql

以下是一些常见的MySQL查询语句，用于查询当天、近一周、近一个月和近一年的数据，以及一些常见的报表查询。查询当天的数据： SELECT * FROM table_name WHERE DATE(date_column) CURDATE();查询近一周的数据： SELECT * FROM t…

阅读更多...

如何学习three.js

如何学习three.js

如何学习three.js 前言1. 基础概念场景（Scene）： three.js中所有物体的容器。你可以把它想象成一个舞台，在这里添加物体、光源等。相机（Camera）： 决定了哪部分场景会被渲染。最常用的是透视相机&…

阅读更多...

MongoDB面试系列-01

MongoDB面试系列-01

1. MongoDB 是什么？ MongoDB是由C语言编写的，是一个基于分布式文件存储的开源数据库系统。再高负载的情况下，添加更多的节点，可以保证服务器性能。MongoDB旨在给Web应用提供可扩展的高性能数据存储解决方案。 MongoDB将数据存储…

阅读更多...

机器学习算法实战案例：CNN-LSTM实现多变量多步光伏预测

机器学习算法实战案例：CNN-LSTM实现多变量多步光伏预测

文章目录 1 数据处理1.1 导入库文件1.2 导入数据集1.3 缺失值分析 2 构造训练数据3 模型训练3.1 CNN-LSTM网络3.2 模型训练 4 模型预测答疑&技术交流机器学习算法实战案例系列 1 数据处理 1.1 导入库文件 from matplotlib import pyplot as pltimport tensorflow as tf…

阅读更多...

PHP+MySQL组合开发：微信小程序万能建站源码系统附带完整的搭建教程

PHP+MySQL组合开发：微信小程序万能建站源码系统附带完整的搭建教程

随着移动互联网的快速发展，微信小程序已成为企业进行移动营销的重要工具。然而，对于许多中小企业和个人开发者来说，开发一个功能完善、用户体验良好的小程序是一项复杂的任务。罗峰给大家分享一款微信小程序万能建站源码系统。该系统采用PHPM…

阅读更多...

SAP PP 常用表整理

SAP PP 常用表整理

表名描述AFFLWork ordersequence加工单顺序AENR工程变更管理AEOI工程变更管理AFFTOrder processinstructions订单－流程指令AFFVOrder processinstruction values订单-流程指令值AFKOOrder header data PPorders订单表头数据 PP 订单AFPOOrderitem订单项AFRUOrder co…

阅读更多...

CMMI3.0认证的卓越方案！

CMMI3.0认证的卓越方案！

CMMI3.0是软件工程和组织发展领域中的一项重要认证，它旨在提升组织的绩效和成熟度，促进卓越的软件开发和管理实践。本文将探讨CMMI3.0认证的意义、要求以及实施过程，并介绍一些卓越方案，帮助组织达到该认证。 CMMI3.0认证的意义 …

阅读更多...

线控底盘新玩家凶猛！这家企业的ONE-BOX产品正式量产下线

线控底盘新玩家凶猛！这家企业的ONE-BOX产品正式量产下线

高工智能汽车获悉，12月27日，威肯西科技宣布旗下ONE-BOX线控制动产品--液压解耦制动系统HDBS实现量产下线。该产品将与多个汽车品牌签署量产及定点协议，预计年产量达到60万套。据了解，作为耀宁科技集团的一级子公司，威…

阅读更多...

JS CRC16/XMODEM

JS CRC16/XMODEM

const byteData HexString2Bytes("1A3B4C5D") let crc crc16(byteData) // CRC转换： A185 console.log("CRC转换：",crc)function crc16(buffer) {var crc 0x0000;var odd;for(var i 0; i < buffer.length; i) {crc ^ (buffer[…

阅读更多...

【正点原子】STM32电机应用控制学习笔记——8.FOC简介

【正点原子】STM32电机应用控制学习笔记——8.FOC简介

FOC是适用于无刷电机的，而像有刷电机，舵机，步进电机是不适用FOC的。FOC是电机应用控制难度最大的部分了。一.FOC简介（了解） 1.介绍 FOC（Filed Oriented Control）即磁场定向控制，…

阅读更多...

ITK imagedata三维体数据与VTK imagedata三维体数据的互相转换

ITK imagedata三维体数据与VTK imagedata三维体数据的互相转换

VTK的三维imagedata转化为ITK的三维imagedata，以及和ITK的三维imagedata转化为VTK的三维imagedata的代码： #include <itkVTKImageToImageFilter.h> #include <vtkImageData.h> #include <itkImageToVTKImageFilter.h> #include <i…

阅读更多...

MySQL 8.0中引入的选项和变量（三）

MySQL 8.0中引入的选项和变量（三）

以下是在MySQL 8.0中新增的系统变量、状态变量和服务选项： • authentication_ldap_sasl_log_status: LDAP服务器日志级别。MySQL 8.0.11版本新增。 • authentication_ldap_sasl_max_pool_size: LDAP服务器最大连接池大小。MySQL 8.0.11版本新增。 • authenticat…

阅读更多...

最新文章