Llama 3 模型系列解析(一)

目录

1. 引言

1.1 Llama 3 的简介

1.2 性能评估

1.3 开源计划

1.4 多模态扩展

ps

1. 缩放法则

2. 超额训练(Over-training)

3. 计算训练预算

4. 如何逐步估算和确定最优模型?

2. 概述

2.1 Llama 3 语言模型开发两个主要阶段

2.2 多功能模型的能力

2.3 多模态扩展实验


1. 引言

基础模型 是面向语言、视觉、语音和其他多模态的大型模型,旨在支持各种 AI 任务。它们是许多现代 AI 系统的核心。 现代基础模型的开发主要包括两个阶段:

  • 预训练阶段在大规模数据集上进行训练,任务通常很简单,比如预测下一个单词或生成字幕。

  • 后训练阶段模型经过调整以能够遵循指令,更好地符合人类偏好,并提升特定能力(例如编码和推理)。

在本文中,我们介绍了一组名为 Llama 3 的全新语言基础模型。Llama 3 系列模型本地支持多语言、编码、推理和工具使用。我们的最大模型是一个拥有 4050 亿参数的稠密 Transformer,能够在最长 128K 个 token 的上下文窗口中处理信息。

1.1 Llama 3 的简介

  • Llama 3 是一组多语言大语言模型,由三个不同规模的模型组成:8B、70B 和 405B 参数

    • 8B:小型模型,适合资源受限的场景。

    • 70B:中型模型,性能与计算需求均衡。

    • 405B:旗舰模型,性能接近 GPT-4。

开发高质量基础模型有三个关键要素:数据、规模和复杂性管理

数据:训练数据量提升到 15T token,是 Llama 2 的 8 倍以上。数据更广泛、更高质量,使模型更强大。

规模:旗舰模型拥有 4050 亿参数,远超 Llama 2。这种大模型具备更强的泛化能力和复杂任务处理能力

复杂性管理:采用更稳定的稠密 Transformer,而非更复杂的混合模型,确保训练稳定性和易于扩展。

表 1 解读

  • Llama 3.1 版本的模型全面支持多语言、长上下文和工具使用,而早期的 Llama 3 版本仅在部分模型中实现这些功能。

  • 405B 模型 是当前最大的模型版本,展现了在大规模训练下的顶级性能。是基于缩放法则的计算最优模型。

  • 小型模型如 8B 和 70B 虽然更小,但通过更长时间的训练(超额训练),在同样的推理预算下,也能达到接近旗舰模型的效果。

  • Instruct 版本 是针对指令优化的模型,能更好地遵循人类输入,实现更精确的响应。

1.2 性能评估

  • 研究团队在广泛的基准数据集上评估了 Llama 3 的表现,这些数据集涵盖了多种语言理解任务。

  • **旗舰模型(405B 参数)**的表现:

    • 在多个任务上接近或达到 GPT-4 的水平,非常接近当前的最先进(state-of-the-art)语言模型。

  • 小型模型(8B 和 70B 参数)

    • 在同样的参数规模下,小型模型优于其他竞争模型(如 Bai et al., 2023;Jiang et al., 2023),证明了它的高效性。

1.3 开源计划

  • 公开发布:所有三个 Llama 3 模型(8B、70B、405B)将通过一个更新的 Llama 3 社区许可协议(Community License)开放 https://llama.meta.com. 包括:

    • 预训练版本(405B):基础大模型。

    • 微调版本(405B):优化过的指令版本。

    • Llama Guard 模型:用于输入和输出的安全性检查。

1.4 多模态扩展

  • 多模态支持:Llama 3 团队正在开发扩展模型,使其能够支持以下任务:

    • 图像识别(image recognition)。

    • 视频分析(video recognition)。

    • 语音理解(speech understanding)。

  • 这些多模态模型仍在积极开发中,目前尚未准备好发布。

ps

1. 缩放法则

基础模型的缩放法则(Scaling Laws for Foundation Models)是指在训练大型模型时,模型的性能如何随以下三大因素扩展而提高的规律:

  • 数据规模(Data Size)

  • 模型参数量(Model Size)

  • 计算量(FLOPs)(Compute Budget)

这些法则揭示了:

  • 更大的模型 在更大的数据集上训练,并使用更多的计算资源时,其性能通常会持续提升。

  • 性能提升是可预测的,即模型的损失函数或下游任务的精度,可以根据模型规模和计算量的增加呈现出幂律关系。

简单理解

  • 小模型+长时间训练大模型+少训练时间

  • 计算最优模型在两者之间找到平衡,确保在有限的预算下获得最高性能

2. 超额训练(Over-training)

超额训练 指的是在模型已经达到计算最优之后,继续进行训练,投入更多的计算量或数据,尽管提升幅度变小,但最终模型表现会略优于计算最优模型。

通常适用于:

  • 关键任务:需要高精度的任务(如医疗、自动驾驶)。

  • 长尾场景:在罕见或复杂数据上需要更强的泛化能力。

3. 计算训练预算

经验值参考

  • GPT-3 (175B 参数) 训练耗费约 3.14 × 10²³ FLOPs

  • LLaMA 2 (65B 参数) 训练耗费约 1.0 × 10²³ FLOPs

  • PaLM 540B 参数 训练预算约 6.4 × 10²⁴ FLOPs

1E24 FLOPs 是一个行业通用的经验值,适合训练 50B~100B 参数规模的模型。

训练预算也可以通过公式推导,结合模型参数量和数据量来计算。

4. 如何逐步估算和确定最优模型?

行业基准:很多公司在训练 50B~100B 参数模型时,通常预算约在 1E24−5E24FLOPs范围内。

计算资源:这个预算量级对应当前行业常用的 TPU/GPU 集群资源,能够在合理时间内完成大规模模型训练。

总结:流程简化版

  1. 用公式估算最优模型参数量(先估模型大小)。

  2. 反算训练预算(FLOPs),确保资源充足。

  3. 训练不同规模模型,观察损失曲线变化。

  4. 在计算最优点停下或决定超额训练

2. 概述

Llama 3 的模型架构如图 1 所示。

2.1 Llama 3 开发两个主要阶段

语言模型的预训练(Language model pre-training)

  • 我们首先将一个大规模的多语言文本语料库转换为离散的 token(标记),并使用这些数据对一个大型语言模型(LLM)进行预训练,以执行下一个 token 的预测任务。

  • 在语言模型的预训练阶段,模型通过“阅读”文本,学习语言的结构并获得关于世界的大量知识。

  • 为了高效实现这一点,预训练在大规模环境下进行:我们对一个拥有 4050 亿参数的模型进行了预训练,使用了 15.6 万亿 token 的语料,支持的上下文窗口为 8K token

  • 在标准预训练阶段完成后,还进行了进一步的预训练阶段,将支持的上下文窗口扩展到 128K token(详见第 3 节)。

语言模型的后训练(Language model post-training)

  • 虽然经过预训练的语言模型对语言有了丰富的理解,但它尚不能遵循指令,或表现出我们期望的助手行为。

  • 我们通过多轮次的对齐优化,使模型与人类反馈保持一致,每一轮都包括:

    • 使用指令微调数据进行的监督微调(SFT

    • 直接偏好优化(DPO;Rafailov 等人,2024)。

  • 在后训练阶段,我们还整合了新的功能,例如工具使用,并在其他领域(如编程和推理)上观察到显著改进(详见第 4 节)。

  • 最后,在后训练阶段中还加入了安全性缓解措施,详细内容详见第 5.4 节。

2.2 多功能模型的能力

训练后的 Llama 3 模型具备丰富的功能:

  • 能够使用至少八种语言回答问题

  • 撰写高质量代码

  • 解决复杂的推理问题

  • 支持零样本使用工具或开箱即用。

2.3 多模态扩展实验

我们还进行了实验,为 Llama 3 添加了图像、视频和语音处理能力。这些能力是通过一个组合方法实现的,分为以下三个阶段

1. 多模态编码器预训练(Multi-modal encoder pre-training)

图像编码器

  • 我们为图像和语言训练了独立的图像编码器,使用了大量图像-文本对。

  • 这让模型能够学习视觉内容与自然语言描述之间的关系。

语音编码器

  • 我们使用一种自监督方法训练语音编码器,方法是在语音输入中掩盖部分信号并让模型尝试重建这些掩盖的部分,输出为离散的 token 表示。

  • 结果是模型学会了语音信号的结构和特征。

2. 视觉适配器训练(Vision adapter training)

我们为图像编码器设计了一个适配器(adapter),将其与预训练的语言模型集成。

  • 适配器包含一系列交叉注意力层(cross-attention layers),用于将图像编码器的表示输入到语言模型中。

  • 训练适配器时使用的是图像-文本对数据,使图像表示和语言表示对齐。

训练过程中:

  • 图像编码器参数会更新。

  • 语言模型参数不会更新。

视频适配器

  • 在图像适配器的基础上,我们使用视频-文本对数据训练了一个视频适配器,使模型能够跨帧聚合信息。

3. 语音适配器训练(Speech adapter training)

最后,我们通过一个适配器将语音编码器集成到模型中,适配器将语音编码转换为可以直接输入到微调语言模型的 token 表示。

适配器和语音编码器的参数在监督微调阶段一起更新,以实现高质量的语音理解。

训练过程中:

  • 语言模型参数不会被改变。

我们还集成了一个文本到语音系统(text-to-speech system),进一步增强了语音交互能力。

实验结果

这些多模态实验结果表明,Llama 3 的扩展模型能够:

  • 识别图像和视频的内容。

  • 支持通过语音接口与用户交互。

当前状态:这些模型仍在开发中,尚未准备好发布。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/890691.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

BenchmarkSQL使用教程

1. TPC-C介绍 Transaction Processing Performance Council (TPC) 事务处理性能委员会,是一家非盈利IT组织,他们的目的是定义数据库基准并且向产业界推广可验证的数据库性能测试。而TPC-C最后一个C代表的是压测模型的版本,在这之前还有TPC-A、…

[react 3种方法] 获取ant组件ref用ts如何定义?

获取ant的轮播图组件, 我用ts如何定义? Strongly Type useRef with ElementRef | Total TypeScript import React, { ElementRef } from react; const lunboRef useRef<ElementRef<typeof Carousel>>(null); <Carousel autoplay ref{lunboRef}> 这样就…

从Condition开始,回顾AQS

Synchronized和Reentrantlock的挂起逻辑 synchronized中有两个核心的结构 EntryList cxq&#xff1a;等待拿锁的线程存储位置Waitset&#xff1a;被执行wait方法的线程存储位置 流转&#xff1a; 线程获取锁资源失败&#xff0c;扔到EntryList cxq线程持有锁资源&#x…

用例图和活动图的区别与联系

在软件开发过程中&#xff0c;需求分析是至关重要的一步。为了更好地理解和描述系统的功能需求&#xff0c;开发人员通常会使用各种图形化工具。其中&#xff0c;用例图和活动图是两种非常常用的工具。虽然它们都用于描述系统的行为&#xff0c;但各自具有不同的特点和适用场景…

PCL-计算点云AABB包围盒

PCL-计算点云AABB包围盒 一、概述二、实验代码三、效果展示四、总结 一、概述 点云包围盒也叫外接最小矩形,是一种求解离散点集最优包围空间的算法&#xff0c;基本思想是用体积稍大且特性简单的几何体&#xff08;称为包围盒&#xff09;来近似地代替复杂的几何对象。常见的包…

Linux复习3——管理文件系统2

修改文件权限命令 chmod 功能&#xff1a; chmod 命令主要用于修改文件或者目录的权限 只有文件所有者和超级用户可以修改文件或目录的权限 (1)使用数字表示法修改权限 所谓数字表示法是指将读取(r)、写入(w)和执行(x)分别以4、2、1来表示&#xff0c;没有授予的部分就表示…

微机接口课设——基于Proteus和8086的打地鼠设计(8255、8253、8259)

原理图设计 汇编代码 ; I/O 端口地址定义 IOY0 EQU 0600H IOY1 EQU 0640H IOY2 EQU 0680HMY8255_A EQU IOY000H*2 ; 8255 A 口端口地址 MY8255_B EQU IOY001H*2 ; 8255 B 口端口地址 MY8255_C EQU IOY002H*2 ; 8255 C 口端口地址 MY8255_MODE EQU IOY003H*2 ; …

代码随想录day25 | leetcode 491.递增子序列 46.全排列 回溯总结

考试周连考不复习就挂科了 一直没更新十分抱歉 今天开始在周日前补回来 491.递增子序列 在90.子集I中我们是通过排序&#xff0c;再加一个标记数组来达到去重的目的。 而本题求自增子序列&#xff0c;是不能对原数组进行排序的&#xff0c;排完序的数组都是自增子序列了。 …

车载U盘制作教程:轻松享受个性化音乐

车载U盘播放音乐相较于蓝牙播放具有一些明显的优势&#xff0c;这些优势主要体现在音质、稳定性、音乐管理以及兼容性等方面。以下是车载U盘播放音乐的一些优势&#xff1a; 音质更佳&#xff1a;车载U盘播放音乐时&#xff0c;音乐文件是直接被解码并播放的&#xff0c;这意味…

C语言从入门到放弃教程

C语言从入门到放弃 1. 介绍1.1 特点1.2 历史与发展1.3 应用领域 2. 安装2.1 编译器安装2.2 编辑器安装 3. 第一个程序1. 包含头文件2. 主函数定义3. 打印语句4. 返回值 4. 基础语法4.1 注释4.1.1 单行注释4.1.2 多行注释 4.2 关键字4.2.1 C语言标准4.2.2 C89/C90关键字&#xf…

重温设计模式--8、命令模式

文章目录 命令模式的详细介绍C 代码示例C代码示例2 命令模式的详细介绍 定义与概念 命令模式属于行为型设计模式&#xff0c;它旨在将一个请求封装成一个对象&#xff0c;从而让你可以用不同的请求对客户端进行参数化&#xff0c;将请求的发送者和接收者解耦&#xff0c;并且能…

oracle怎样使用logmnr恢复误删除的数据

如果有同事误删除数据了&#xff0c;可以用logmnr挖掘归档日志&#xff0c;生成回滚sql&#xff0c;快速恢复数据&#xff0c;比用整个库的备份恢复要快得多。 一 操作步骤 1.1 创建目录 su - oracle mkdir logmnr create directory logmnr_dir as /home/oracle/logmnr; …

读取文件内容、修改文件内容、识别文件夹目录(Web操作系统文件文件夹详解)

前言 因 Unicode IDE 编辑器导入文件、文件夹需要&#xff0c;研究了下导入文件/文件夹的功能实现&#xff0c;发现目前相关文章有点少&#xff0c;故而记录下过程&#xff0c;如果有误&#xff0c;还望指正。(API的兼容性及相关属性、接口定义&#xff0c;请自行查看文件系统…

第6章 图论

2024年12月25日一稿 &#x1f430;6.1 图的基本概念 6.1.1 图的定义和表示 6.1.2 图的同构 6.1.3 完全图与正则图 6.1.4 子图与补图 6.1.5 通路与回路 6.2 图的连通性 6.2.1 无向图的连通性 6.2.2 有向图的连通性 6.3 图的矩阵表示 6.3.1 关联矩阵 6.3.2 有向图的邻接矩阵…

网络管理(Network Management,NM)(一)

1.什么是AUTOSAR的网络管理&#xff1f;为什么要网络管理 ? 2.网络管理的三种模式&#xff1f; 上电时&#xff0c;进入总线睡眠模式&#xff0c;如果有唤醒源唤醒&#xff0c;则进入网络模式。其中。唤醒源唤醒分为主动唤醒和被动唤醒&#xff0c;主动唤醒指的是ecu自己想使…

三维扫描在汽车/航空行业应用

三维扫描技术应用范围广泛&#xff0c;从小型精密零件到大型工业设备&#xff0c;都能实现快速、准确的测量。 通过先进三维扫描技术获取产品和物体的形面三维数据&#xff0c;建立实物的三维图档&#xff0c;满足各种实物3D模型数据获取、三维数字化展示、3D多媒体开发、三维…

机器学习实战32-利用机器学习对电商销售数据进行归因分析的方法,旨在找出销量下降的原因

大家好,我是微学AI,今天给大家介绍一下机器学习实战32-利用机器学习对电商销售数据进行归因分析的方法,旨在找出销量下降的原因。文章详细介绍了代码编写过程、应用场景及其具体操作,通过实际案例分析,帮助读者深入了解如何运用机器学习技术对电商销售数据进行分析,从而为…

录播检测原理是什么?

直播间录播的检测可以通过多种方式进行。以下是一些常见的检测方法&#xff1a; 1、水印识别&#xff1a;直播平台可以在实时直播画面中嵌入特定的水印&#xff0c;通过识别水印来判断是否存在录播行为。 2、特征分析:直播平台可以通过对直播画面进行特征分析&#xff0c;检测…

WebSocket | 背景 概念 原理 使用 优缺点及适用场景

1 背景 在 WebSocket 出现之前&#xff0c;为了实现推送技术&#xff0c;所用的技术都是轮询&#xff0c;轮询是指浏览器每隔一段时间向服务器发出 HTTP 请求&#xff0c;服务器再返回最新的数据给客户端 常见的轮询方式分为轮询与长轮询&#xff0c;它们的区别如下图所示&…

硬件设计-传输线匹配

目录 简介&#xff1a; 主题&#xff1a; 终端匹配 始端匹配 始端匹配的阻值 始端匹配的输出驱动电流 中间匹配 电阻阻值的选择 简介&#xff1a; 系统何时需要匹配电阻&#xff1f;按照第四章的内容来看有两种情况&#xff1a;长线传输造成信号反射的情况和短线传输造成…