LLaMA 3:大模型之战的新序幕

1f90835abc87eaa82c4081f791ed4414.jpeg

作者 | 符尧

OneFlow编译

翻译|杨婷、宛子琳、张雪聃

本文要点概览:

  • 文本数据的扩展可能已经达到了极限,因为易于获取的网络文本资源(如Common Crawl、GitHub、ArXiv等)已基本被充分利用。

  • 尽管如此,通过更深入地挖掘互联网资源、搜寻图书馆藏书及使用合成数据,我们仍有望获得新的文本数据,但要实现数据量级的大幅提升却面临重重挑战——这些新增的数据更可能是当前数量级上的增量。

  • 规模扩展竞赛的新阶段将转向多模态领域,尤其是统一的视频-语言生成模型,因为仅有视频数据可以实现数量级的增长。

  • 然而,坏消息是,视频数据似乎并不能显著提升模型的推理(reasoning)能力,而这一能力是区分模型强弱的首要指标。

  • 但好消息是,视频数据能够带来其他性能的显著提升,尤其是增强了模型与现实世界的联系,展现出成为神经世界模型(neural world model)的巨大潜力(与Zelda等硬编码物理引擎不同),这提供了从模拟物理反馈中学习的可能性。

  • 从X(X表示人类、人工智能和环境反馈)反馈中扩展强化学习可能是持续提升模型推理能力最有前景的路径。

  • 类似于AlphaGo Zero在围棋领域取得的超人类成就,自我对弈和与环境互动可能是超人类生成模型的一个方向。使模型保持在线状态,并从反馈中进行迭代学习(而非一次性的离线优化),有望实现推理能力的持续提升。

  • 规模扩展竞赛的第一阶段聚焦于扩展文本数据,在GPT-4达到顶峰,并由LLaMA 3画上句号。接下来的第二阶段将聚焦于统一的视频-语言生成模型建模,以及基于X反馈的迭代强化学习。

(本文作者为符尧是爱丁堡大学博士生。本文由OneFlow编译发布,转载请联系授权。原文:https://yaofu.notion.site/Apr-2024-Llama-3-Opens-the-Second-Chapter-of-the-Game-of-Scale-efff1c0c185f4008af673b78faf83b61 声明:本文是作者阅读LLaMA 3的发布说明后,对将来工作方向的研究笔记。文中提出的观点可能与现行观点存在差异,欢迎批评指正。)

1

LLaMA 3的性能如何?

LLaMA 3的性能相当不错。

在评估基础模型时,我们会关注MMLU、MATH、GPQA和BBH等关键指标,因为这些指标能够衡量模型的高级知识与推理能力。目前的排行榜如下:

3f67d71e7f189a7842a3b207259c1537.png

LLaMA 3 70B的一个显著特点是,其性能明显优于其他同级别的70B模型(其MMLU通常在70+左右),并进入了80+ MMLU的前沿模型领域。

LLaMA 3 70B模型之所以能在MMLU上取得如此优异的成绩,可能有以下两个原因:

  • 它使用了15T的训练词元,这一数量远远超过了其它同类模型。

    • 特别是混合代码与arxiv数据可能提升了模型的推理能力。

  • 它采用了与基准测试相关的持续预训练数据。(如Llemma/ MetaMath/ Mammoth)来提升或优化基准测试的表现。

    • 然而,当模型得分达到80+之后,尽管并非不可能实现,但要进一步提升MMLU的得分将极具挑战性,因为MMLU数据集本身的难度就相当高。

LLaMA 3 chatbot版本的表现也相当好。

430b5f2565de4f24091c068a7d4de415.jpeg

需要注意的是,虽然在LLaMA 3发布后不久,其评分呈明显的上升趋势,初始排名大约在第三位(通过文本的特定模式,我们可以轻易评断LLaMA 3给出的答案),但现在其ELO分数正逐渐下降。尽管如此,其置信区间仍为(+9/-11),远远高于其他模型的(+5/-5),因此它的排名可能会继续下降。

  • LLaMA 3的初始排名上得到了较少的投票,且排名升降幅度较大。

实际上,完全没有必要对其性能进行夸大或者虚增分数,因为LLaMA 3本身已经是一个非常出色的模型,这样做可能会增加其在公众中的声誉(或许不会),但肯定会损害在专业人士中的声誉。再次强调,LLaMA 3已经是目前最强的开源大模型。

我预计,它最终的ELO分数可能会稳定在GPT-4 0314版本的1180分左右,这与Claude 3 Haiku的性能相当,同样是一个非常好的成绩。

2

文本数据扩展的极限

文本数据扩展的极限可能已经到来。因为我们注意到GPT-4 Turbo、Gemini Ultra、Claude 3 Opus和Llama 3 400B的性能都在大致相同的范围内(MMLU约为85)。要继续扩大文本规模,就需要更多的数据,但问题在于,是否能大幅增加文本数据量,超过LLaMA 3的15T词元。

以下是按照新数据潜在规模排名的几个方向:

  • Common Crawl(CC)仅覆盖了整个互联网数据的一部分。

  • 我们尚未完成从CC中挖掘和抓取数据。

  • 放宽过滤和去重标准。

  • 利用现有模型生成合成数据。

  • 从图书馆中搜寻更多书籍。

接下来,本文将逐一探讨这些方向。

Common Crawl只是互联网数据的一部分

  • Common Crawl是文本规模扩展最大的不确定因素,因为我们不知道实际的互联网数据有多大。

  • 微软、谷歌和Meta等公司可以轻易获取超出CC范围的更多数据。

  • 但问题在于,经过去重和质量过滤之后,还能剩多少词元。

我们仍在从CC中挖掘数据

  • 这种方法的问题在于,我们能够从现有CC中生成的词元数量受到数据处理流程上限的约束,因此在数据的数量级上可能不会发生变化。

  • 新的CC数据随着时间线性增加,但数量级上没有变化。

  • 但规模定律(scaling law)表明,数据呈指数级增长会带来性能的线性增长。因此,最终我们可能会在LLaMA 3 15T的数据基础上增加5T的新词元,但我们真正想要的其实是再增加50T词元。

放宽过滤和去重标准

  • 原始数据量十分庞大,因为数据质量以及重复的问题,我们并未使用全部数据。百川智能的报告展示了过滤对最终词元数量的影响:

b27a1eac7e76f3e986d28def2f56b9fb.png

  • 如何确定数据质量与去重标准,这个问题有待研究(参见Shayne等人,Muennighoff等人和Xue等人)。一般来说,标准可能不宜过于宽松。

使用合成数据

  • 近期,Liu等人针对合成数据进行了很好的总结,重点介绍了推理、工具使用、多模态、多语言和对齐数据的数据来源。

  • 核心挑战依然存在:目前大部分数据研究似乎还未能实现量级突破,因此它们主要被用于持续预训练和微调,而非直接用于预训练。

  • 唯一的例外是Phi模型系列 ,因为他们使用GPT-4生成的数据来训练一个更小的模型。不过这种方法的问题在于能否扩展到更大的模型,并打破GPT-4的上限。

搜寻更多的图书馆藏书

  • 这一方向显然是有希望的,因为图书馆书籍的数据质量绝对是极高的,比网络数据的质量高得多,并且可以显著提高专业知识基准分数,如MMLU。以下是世界上最大的图书馆列表:

48b1ccb22e39d099d71f98037aac3ee8.png

  • 但问题不在于技术方面。从这些图书馆购买版权可能会耗费全部的AI投资成本,且其中很大一部分并不对外出售。此外,如果平均每本书有70K词元,那么2亿本书则只有约14T词元,虽然这一数字是现有数量的两倍,但还不够多。

3

扩展规模肯定没错,但接下来该扩展什么呢?

前文已经讨论得出结论,GPT-4级别的前沿模型很可能已经接近文本规模的上限,而进一步扩展文本数据可能会遇到更加艰巨的挑战(但也仍然可能是一种方法)。我们当然希望继续这场狂欢,因为规模扩展是不变的法则,它始终能够生效,但问题在于下一步该扩展什么数据。

视频数据可能不会改善推理能力,但可以提升其他方面

  • 一个明确的方向是多模态数据,尤其是视频数据。据推测,YouTube和TikTok的规模可能比文本大几个数量级,这就是新的数量级来源。但这种方法存在一个挑战:多模态数据是否能提升基于文本的推理能力?

  • 答案很可能是否定的。接着就是一个现实问题:如果OpenAI下个月发布GPT-5,其MMMU得分从56提高到70,但MMLU仍然保持在86,这意味着什么?公众会作何反应呢?

  • MMMU排行榜截图

    3736f15f5849cc77197849c6c658d5fd.jpeg

  • 然而好消息是,即使视频数据不能提高推理能力,也可以改善其他方面的性能,尤其是接地信息(grounding),从而使模型能够接收来自现实世界的反馈。

要提高推理能力,需要在强化学习中扩大探索和利用的规模

  • 具体来说,可能需要扩展:

    • 模型探索的时间跨度。例如,将模型在线部署一年并每周更新,而不只是进行单步优化。

    • 模型的搜索空间。例如,让模型生成一百万个响应,并从中选择最佳响应,而不是原始InstructGPT的七选一方法。

    • 模型的反馈来源。主要指逐渐从人类反馈转向人工智能和环境反馈(因为人类反馈不具备可扩展性,且模型正在变得比其人类标注者更强大),因此需要世界模型。

  • 很不幸的是,许多现有的研究工作都集中于微小细节的小规模单轮优化,比如在DPO上添加一个损失项。然而,关键在于在线迭代式的大规模探索和利用

4

扩展统一的视频-语言生成模型

那么,只是扩大视频-语言模型的规模?听起来并不是很难?

目前的情况是,在文本扩展领域,我们拥有十分标准的架构(MoE transformer)、标准的目标(下一个单词预测),以及标准的pipeline(预训练后再对齐),而在视觉/多模态生成模型中,情况却不尽相同。其设计空间比语言模型大得多,我们甚至未能在一些基本问题上达成共识,例如:

  • 我们应该像LLaVA目前的做法一样,先在各自的模态上进行训练,然后使用适配器来桥接模态,还是应该直接在所有模态的混合上进行训练?

  • 在图像/视频部分,我们应该使用统一的Transformer核心结构,还是一些计算机视觉技术,如UNet和CNN?我们应该对Transformer架构进行哪些修改(如3D位置编码)?如何充分利用混合专家层?

  • 增加新的模态至少不应该对现有的模态造成负面影响,然而常见的情况是,增加视觉可能会对语言产生负面影响。如何调和不同模态之间的矛盾?

  • 对于视频理解部分,如何进行分词/表示学习?应该考虑使用类似VQ-VAE的离散词元,还是类似Sora的连续时空块?应该使用类似CLIP的对比式目标,还是类似原始VAE的重构式目标?

  • 对于视频生成部分,应该像VideoPoet那样是自回归的,还是像Sora那样基于扩散的?如何训练一个可以同时执行扩散式生成和自回归式生成的Transformer模型?

最终的解决方案也许非常简单,只需要修改现有解决方案的一小部分,但要确定这些细小而关键的修改,社区需要对这些问题进行饱和式研究。

5

通过从X反馈中进行迭代强化学习

生成类似于AlphaZero的智能体

我们已经讨论过用于预训练的新数据可能有限,以及多模态可能不会改进推理能力,为了进一步提高推理能力(毕竟这是语言模型的核心能力),我们将焦点转向了扩展强化学习。

问题又回来了,要扩展什么呢?好消息是,基本上强化学习中的任何维度都可以和应该被扩展。我们首先要讨论一个特定的指标:pass@K,它表示在K次尝试中,模型至少成功一次的概率。DPO的优化基准是pass@2(选择一个好的回答,拒绝一个不好的回答),而InstructGPT的基准是pass@7(从7个候选项中选择最佳的一个回答)。

如果我们将K值扩展到1百万,会发生什么呢?

从AlphaCode论文中,可以看到当扩展K值时,模型的通过率不断提高:

cc0b32f7d689bcf08456954a0a359b21.png

Yuxuan Tong(https://www.notion.so/Scaling-up-k-in-Pass-k-on-MATH500-5c44436a2cd643b381e74427e7f7b14f?pvs=4)在数学上验证了DeepSeek和Mistral在扩展搜索空间K时不断改进的情况:

ce521558db1f87ed976775a32390049d.png

显然,曲线尚未达到饱和状态。

一个直接的问题是,如何从一百万个候选项中选择最佳的一个回答?通过跟踪GPT-4在2023年3月至2024年4月期间的数学性能改进,我们可以来了解其方法:

48c5fb9dfcc21fef6a6bfb0b26095dba.png

这些改进显示:

  • 用基于代码的反馈来验证答案

  • 用基于过程的奖励模型来验证答案

  • 用专家级注释来生成反馈

值得注意的是,这些改进不是一次性优化的结果,而是通过多轮优化逐步完成的,Anthropic将其称为在线迭代RLHF(https://arxiv.org/abs/2204.05862):

64ac9b940995b4e193fd063e90296f00.png

Claude-1的在线迭代RLHF

LLaMA 2的实践也验证了迭代改进的有效性:

d2e12e5a27b74f77ced691271f8adc54.png

LLaMA 2在多个版本上的迭代改进

以及Shangmin(https://arxiv.org/abs/2402.04792)的在线AI反馈:

207b2f5f9e86a5dc65ea2ba33b75e085.png

6

结论:规模扩展竞赛的第二阶段

实际上,人类接近文本数据的极限这一事实,OpenAI在 2022 年中旬就已经意识到了,当时他们已经完成了GPT-4初始版本的训练。现在是2024年4月,随着LLaMA 3的发布,是时候总结规模扩展之战的第一阶段了,在这一阶段中,大多数前沿模型都与GPT-4达到了同等水平。

2023年,多模态生成模型的竞争已经展开,其中以图像能力为起点。目前,只有Gemini和Reka能够理解视频(但不能生成视频),而Sora似乎是唯一能够生成长达一分钟视频的模型(但仅限视频)。此外,只有GPT-4 Turbo、AlphaCode和DeepSeek Math探讨了如何扩展搜索空间和反馈信号,而只有GPT-4和Claude报告了在线迭代RLHF的详尽结果。

大模型规模扩展竞赛的第二篇章现已揭开序幕。

【语言大模型推理最高加速11倍】SiliconLLM是由硅基流动开发的高效、易用、可扩展的LLM推理加速引擎,旨在为用户提供开箱即用的推理加速能力,显著降低大模型部署成本,加速生成式AI产品落地。(技术合作、交流请添加微信:SiliconFlow01)

2e2e73a307606331d493436586eacc64.png

SiliconLLM的吞吐最高提升近4倍,时延最高降低近4

73f5b23c2a46f553e3c57e5fac0a32d7.png

数据中心+PCIe:SiliconLLM的吞吐最高提升近5倍;消费卡场景:SiliconLLM的吞吐最高提升近3

4a9c2fb5e3ade0bc8a25d4abbbf562f3.png

System Prompt场景:SiliconLLM的吞吐最高提升11倍;MoE模型:推理 SiliconLLM的吞吐最高提升近10

其他人都在看

d7857b659ff6f54ebc18c18ce0f0b9f3.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/4610.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构 - C/C++ - 数组

目录 结构特性 内存布局 结构样式 结构拓展 数据初始 元素访问 插入元素 删除元素 查找元素 修改元素 结构设计 成员变量 构造函数 功能函数 示例代码 结构特性 长度固定:数组的长度在创建时已经被确定,如果需要动态改变数组的长度&#…

C++面向对象程序设计 - 多继承,以及基类与派生类转换

单继承是一个类是从另一个基类派生类而来的,多继承则是一个派生类是同两个或多个基类,派生类从两人或多个基类中继承所需的属性。 声明多重继承的方法: class D: public A, private B, protected C { 类D新增加的成员 } 一、多重继承派生类的…

Vue---组件

Vue—组件 目录 Vue---组件定义组件全局组件局部组件 组件通讯***重点***父子通信之父传子(props)父子通信之子传父($emit)ref属性($refs) 动态组件插槽命名插槽 定义组件 全局组件 vue2中template只能传…

浏览器渲染机制:重排(Reflow)与重绘(Repaint)以及Vue优化策略

浏览器渲染机制是一个复杂但有序的过程,其目的是将HTML、CSS和JavaScript代码转化为用户可以看到和交互的视觉界面。重排(Reflow)与重绘(Repaint)是浏览器渲染过程中对页面元素进行更新的两个重要步骤,理解…

ubuntu22.04安装TensorRT(过程记录)

重要说明:此贴经过多次修改。第一次安装的的为trt8.6.1版本。第二次安装的10.0.0.6版本。有些地方可能没改过来,比如链接向导,我懒得改了,但是流程是对的。 cuda和cudnn版本对应关系 tensorRT历史发行版本 CUDA历史发行版本 cudn…

ENVI不同版本个人使用对比

ENVI不同版本个人使用对比 文章目录 ENVI不同版本个人使用对比前言对比5.3学习版5.6学习版6.0试用版 总结 前言 目前来看,流传较广的可供大家免费获取的ENVI版本主要是5.3学习版 5.6学习版 6.0学习版这三个版本,不同的版本有不同特色,在此做…

C#基础|StringBuilder字符串如何高效处理。

哈喽,你好,我是雷工。 字符串处理在C#程序开发中是使用频率比较高的,但常规的字符串处理方式对内存占用比较多,为了优化内存,减少不必要的内存浪费,引入了StringBuilder类。 下面学习下StringBuilder类的使…

PC-3000 Flash:NAND 闪存设备(包括一体式U盘)数据恢复的重量级工具(一)

天津鸿萌科贸发展有限公司从事数据安全业务20余年,在数据恢复、数据取证、数据备份等领域有丰富的案例经验、前沿专业技术及良好的行业口碑。同时,公司面向取证机构及数据恢复公司,提供数据恢复实验室建设方案,包含 PC-3000 系列数…

LeetCode 热题 100 Day05

矩阵相关题型 Leetcode 73. 矩阵置零【中等】 题意理解: 将矩阵中0所在位置,行|列置换为全0 其中可以通过记录0元素所在的行、列号,来标记要置换的行|列 将对应位置置换为0 解题思路: 第一个思路: 可以…

React | classnames

classnames 这个库在我们的项目中有大量的使用到,它不仅很实用,还非常好用,但还有人不知道这个库,我真的是十分心痛。 通过 classnames,我们可以给组件设置多个 className,还可以根据需要动态设置 classNa…

模块四:前缀和——DP35 【模板】二维前缀和

文章目录 题目描述算法原理解法一:暴力模拟(时间复杂度为O(n*m*q))解法二:二维前缀和(时间复杂度为O(m*n)O(q)) 代码实现解法二:前缀和(C)Java 题目描述 题目链接:DP35 【模板】二维…

三星电脑文件夹误删了怎么办?恢复方案在此

在使用三星电脑的过程中,我们可能会不小心删除了某个重要的文件夹,其中可能包含了工作文件、家庭照片、视频或其他珍贵的数据。面对这种突发情况,不必过于焦虑。本文将为您提供几种有效的恢复方案,希望能帮助您找回误删的文件夹及…

openEuler-22.03安装 mysql8.0.32

一、下载解压 下载地址: MySQL :: Download MySQL Community Server (Archived Versions) tar -xvf mysql-8.0.32-1.el7.x86_64.rpm-bundle.tar -C /opt/mysql-8.0.32 二、安装 最开始安装一直报错 缺少 libcrypto.so.10库文件,安装openssl可以解决 wget http://…

Java客户端如何直接调用es的API

Java客户端如何直接调用es的API 一. 问题二. withJson 前言 这是我在这个网站整理的笔记,有错误的地方请指出,关注我,接下来还会持续更新。 作者:神的孩子都在歌唱 一. 问题 今天做项目的时候,想要直接通过java客户端调用es的api…

揭秘工业大模型:从人工智能小白到技术先锋

工业大模型的五个基本问题 信息化时代,数字化转型成为企业提升营运效率、应对经营风险和提升核心竞争力的重要途径。在此过程中,数据作为一种客观存在的资源,所产生的价值日益凸显。党的十九届四中全会从国家治理体系和治理能力现代化的高度将…

【万字长文】看完这篇yolov4详解,那算是真会了

前言 目标检测作为计算机视觉领域的一个核心任务,其目的是识别出图像中所有感兴趣的目标,并给出它们的类别和位置。YOLO(You Only Look Once)系列模型因其检测速度快、性能优异而成为该领域的明星。随着YOLOv4的推出,…

双塔模型在召回和粗排的区别

答案参考:推荐系统中,双塔模型用于粗排和用于召回的区别有哪些? - 知乎 召回和粗排在不同阶段面临样本不一样,对双塔来说样本分布差异会使召回和粗排采取不一样的方式。召回打分空间是全部item空间,曝光只有很少一部分&#xff0…

【机器学习】集成学习---Bagging之随机森林(RF)

【机器学习】集成学习---Bagging之随机森林(RF) 一、引言1. 简要介绍集成学习的概念及其在机器学习领域的重要性。2. 引出随机森林作为Bagging算法的一个典型应用。 二、随机森林原理1. Bagging算法的基本思想2. 随机森林的构造3. 随机森林的工作机制 三…

ClickHouse 如何实现数据一致性

文章目录 ReplacingMegreTree 引擎数据一致性实现方式1.ReplacingMegreTree 引擎2.ReplacingMegreTree 引擎 手动合并3.ReplacingMegreTree 引擎 FINAL 查询4.ReplacingMegreTree 引擎 标记 GroupBy5.允许偏差 前言:在大数据中,基本上所有组件都要求…

Docker创建镜像之--------------基于Dockerfile创建

目录 一、在编写 Dockerfile 时,有严格的格式需要遵循 二、Dockerfile 操作常用的指令 2.1ENTRYPOINT和CMD共存的情形 2.2ENTRYPOINT和CMD的区别 2.3ADD 与COPY的区别 三、Dockerfile案例 3.1构建apache镜像 3.1.1 创建镜像目录方便管理 3.1.2创建编写dock…