Llama 4 家族:原生多模态 AI 创新的新时代开启

0 要点总结

  • Meta发布 Llama 4 系列的首批模型,帮用户打造更个性化多模态体验
  • Llama 4 Scout 是有 170 亿激活参数、16 个专家模块的模型,同类中全球最强多模态模型,性能超越以往所有 Llama 系列模型,能在一张 NVIDIA H100 GPU 上运行。该模型支持业界领先的 1000 万上下文窗口,在多个权威测试中表现优于 Gemma 3、Gemini 2.0 Flash-Lite 和 Mistral 3.1
  • Llama 4 Maverick 也拥有 170 亿激活参数,但配置多达 128 个专家模块,是同类中最强的多模态模型,在多个广泛测试中超越 GPT-4o 和 Gemini 2.0 Flash,推理和编程能力可与 DeepSeek v3 相当,但激活参数数量不到其一半。其聊天版在 LMArena 上取得了 1417 的 ELO 分数,性能与成本比行业领先
  • 这些出色的模型得益于“教师模型” Llama 4 Behemoth 的知识蒸馏。Behemoth 拥有 2880 亿激活参数和 16 个专家模块,是我们最强大的模型,在多项 STEM 基准测试中超越 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。目前该模型仍在训练中,我们将持续分享更多细节。
  • 立即前往 llama.com 或 Hugging Face 下载 Llama 4 Scout 与 Maverick。也可在 WhatsApp、Messenger、Instagram 私信体验基于 Llama 4 构建的 Meta AI。

随 AI 在日常生活中的广泛应用,确保领先的模型与系统开放可用,对推动个性化体验创新至关重要。支持整个 Llama 生态 的最先进模型组合。正式推出的 Llama 4 ScoutLlama 4 Maverick,是首批开放权重、原生多模态、支持超长上下文窗口、采用 MoE架构构建的模型。“巨兽”—— Llama 4 Behemoth,不仅是迄今最强大的模型之一,也是新一代模型的“老师”。

这些 Llama 4 模型的发布标志着 Llama 生态迈入新纪元。Llama 4 系列中的 Scout 和 Maverick 都是高效设计的模型:

  • 前者能以 Int4 量化方式部署在单张 H100 GPU 上
  • 后者则适配于单个 H100 主机

训练了 Behemoth 教师模型,在 STEM 基准(如 MATH-500 和 GPQA Diamond)中表现优于 GPT-4.5、Claude Sonnet 3.7 和 Gemini 2.0 Pro。

开放才能推动创新,对开发者、Meta 和整个世界都是利好。可通过 llama.com 和 Hugging Face 下载 Scout 与 Maverick。同时,Meta AI 也已在 WhatsApp、Messenger、Instagram 私信启用 Llama 4 模型。

这只是 Llama 4 系列的开始。最智能的系统应能泛化行动、自然对话并解决未曾遇到的问题。赋予 Llama 在这些领域的“超能力”,将催生更优质的产品和更多开发者创新机会。

无论你是构建应用的开发者,集成 AI 的企业用户,或是对 AI 潜力充满好奇的普通用户,Llama 4 Scout 和 Maverick 都是将下一代智能融入产品的最佳选择。接下来,介绍它们的四大研发阶段以及设计过程中的一些关键洞察。

1 预训练阶段

这些模型代表 Llama 系列的巅峰之作,具备强大多模态能力,同时在成本上更具优势,甚至性能超越了一些参数规模更大的模型。为打造 Llama 下一代模型,在预训练阶段采用了多项新技术。

MoE

Llama 4是首批采用MoE的模型。MoE架构的一个核心优势:每个 token 只激活模型中一小部分参数,从而大幅提高训练与推理的效率。在给定的 FLOPs(浮点运算)预算下,MoE 模型的效果优于传统的密集模型。

img

Llama 4 Maverick 为例:它拥有 170 亿激活参数,总参数数为 4000 亿。其网络结构在推理过程中交替使用密集层与 MoE 层。每个 token 会被送入一个共享专家和一个 128 个路由专家之一,这种机制确保模型在保持全参数存储的同时,仅激活必要部分,从而提升运行效率、降低成本与延迟。Maverick 可在一台 NVIDIA H100 DGX 主机上运行,也支持分布式部署以实现最大效率。

Llama 4 天生支持多模态输入,采用 早期融合(early fusion)机制,将文本与视觉 token 一体化输入模型主干。使得能用大量未标注的文本、图像和视频数据对模型进行联合预训练。同时,升级视觉编码器,基于 MetaCLIP 的改进版,在预训练阶段与冻结的 Llama 主干协同优化。

新训练方法MetaP

精确控制每层学习率和初始化比例。这些超参数在不同 batch size、模型宽度、深度和 token 数下都具有良好的迁移性。Llama 4 预训练涵盖 200 多种语言,其中 100 多种语言的数据量超过 10 亿 tokens,总体上多语种训练 token 数量是 Llama 3 的 10 倍。

FP8 精度

FP8 精度 进行训练,保持模型质量的同时提高训练效率。如训练 Behemoth 时,用 32000 张 GPU,并实现 390 TFLOPs/GPU 的高效能。整个训练数据超过 30 万亿个 token,是 Llama 3 的两倍,数据类型包含多样的文本、图像和视频内容。

训练中期,采用“mid-training”阶段,通过专门数据集提升模型的核心能力,如支持更长上下文的能力。得益于这些改进,Llama 4 Scout 实现 业界领先的 1000 万 token 输入长度

2 后训练阶段

新模型有大小多种选择,以满足不同应用场景与开发者需求。Llama 4 Maverick 在图像和文本理解方面表现卓越,是多语言 AI 应用和创意写作的理想选择。

后训练阶段最大的挑战是保持不同输入模态、推理能力与对话能力之间的平衡。为此,设计“多模态课程”训练策略,确保模型不因学习多模态而牺牲单一模态性能。更新了后训练流程,采取轻量监督微调(SFT)> 在线强化学习(RL)> 轻量偏好优化(DPO)的方式。发现SFT 与 DPO 若使用不当,会限制模型在 RL 阶段的探索,特别是在推理、编程和数学领域会导致效果下降。

为解决这问题,剔除超过 50% 的“简单样本”,仅对更难数据进行 SFT。之后 RL 阶段用更具挑战性提示,实现性能飞跃。采用 持续在线 RL 策略:训练模型 → 用模型筛选中等难度以上的提示 → 再训练,如此循环,有效平衡计算成本与精度。最终,我们通过轻量 DPO 优化边缘情况,全面提升模型的智能与对话能力。

Llama 4 Maverick 拥有 170 亿激活参数、128 个专家模块与 4000 亿总参数,在性能上超越 Llama 3.3 的 70B 模型。它是目前最顶级的多模态模型,在编程、推理、多语言、长文本与图像等任务中优于 GPT-4o 与 Gemini 2.0,与 DeepSeek v3.1 的表现不相上下。

[外链图片转存中…(img-Y4bYAPfr-1743952046715)]

Llama 4 Scout 是一款通用模型,具备 170 亿激活参数、16 个专家模块、1090 亿总参数,性能在同类模型中首屈一指。它将上下文长度从 Llama 3 的 128K 大幅提升至 1000 万 tokens,支持多文档摘要、个性化任务解析、大型代码库推理等复杂应用。

Scout 在预训练和后训练阶段都使用了 256K 上下文长度,从而拥有出色的长文本泛化能力。在文本检索、代码负对数似然(NLL)评估等任务中均表现优秀。其一大创新是采用了 不使用位置嵌入的交错注意力机制(iRoPE),通过 温度调节推理机制 提升了对超长输入的处理能力。

img

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们对两个模型都进行了广泛的图像和视频帧训练,以增强它们对视觉内容的理解能力,包括时间相关活动和图像之间的关联。这让模型在处理多图输入时能轻松地结合文字提示进行视觉推理与理解。预训练阶段使用最多48张图像的输入,并在后期测试中验证模型在处理最多8张图像时的良好表现。

Llama 4 Scout 在图像定位方面表现尤为出色,能够将用户的提示准确对应到图像中的具体视觉元素,实现更精确的视觉问答。这款模型在编程、推理、长文本理解和图像处理等方面全面超越以往版本的 Llama 模型,性能领先同类模型。

3 推出更大规模的 Llama:2 万亿参数巨兽 Behemoth

Llama 4 Behemoth——拥有高级智能的“教师模型”,在同类模型中表现领先。Behemoth 是一个多模态专家混合(MoE)模型,激活参数达 2880 亿,拥有 16 个专家模块,总参数量接近两万亿。在数学、多语言和图像基准测试中表现一流,因此成为训练更小的 Llama 4 模型的理想“老师”。

从 Behemoth 模型中通过“共蒸馏”(codistillation)技术训练出了 Llama 4 Maverick,有效提升了最终任务表现。我们还研发了一种全新的损失函数,能在训练过程中动态调整软标签和硬标签的权重。此外,我们还通过在 Behemoth 上运行前向传递,生成用于训练学生模型的数据,大幅降低了训练成本。

对这样一个拥有两万亿参数的模型,其后期训练本身就是一项巨大挑战。我们从数据量级就开始彻底改革训练方法。为提升性能,我们将监督微调(SFT)数据削减了95%(相比于小模型只需要削减50%),以更专注于数据质量和效率。

还发现:先进行轻量级的 SFT,再进行大规模强化学习(RL),能够显著提升模型的推理和编程能力。RL策略包括:

  • 使用 pass@k 方法选取具有挑战性的提示构建训练课程;
  • 动态过滤无效提示;
  • 混合多个任务的提示组成训练批次;
  • 使用多种系统指令样本,确保模型能广泛适应不同任务。

为支持 2 万亿参数的 RL 训练,重构了整个强化学习基础设施。对 MoE 并行架构进行了优化,提高训练速度,并开发了完全异步的在线 RL 框架,提升了训练的灵活性和效率。通过将不同模型分配到不同 GPU 并进行资源平衡,实现训练效率的近10倍提升。

4 安全机制与防护措施

致力打造有用且安全的模型,同时规避潜在的重大风险。Llama 4 遵循《AI 使用开发指南》中的最佳实践,从预训练到系统级都融入了防护机制,以保障开发者免受恶意行为干扰,从而开发出更安全、可靠的应用。

4.1 预训练与后训练防护

  • 预训练:使用数据过滤等方法保护模型。
  • 后训练:通过一系列技术确保模型遵循平台政策,保持对用户和开发者的友好性和安全性。

4.2 系统级方法

开源了多种安全工具,方便集成进 Llama 模型或第三方系统:

  • Llama Guard:与 MLCommons 联合开发的风险分类法构建的输入输出安全模型。
  • Prompt Guard:一个可识别恶意提示(如 Jailbreak 和提示注入)的分类模型。
  • CyberSecEval:帮助开发者了解和降低生成式 AI 网络安全风险的评估工具。

这些工具支持高度定制,开发者可根据应用需求进行优化配置。

4.3 安全评估与红队测试

我们在各种使用场景下进行系统化测试,并将测试结果反馈到模型后训练中。我们使用动态对抗性探测技术(包括自动和人工测试)来识别模型的潜在风险点。

一种新测试方式——生成式攻击智能代理测试(GOAT),可模拟中等技能水平的攻击者进行多轮交互,扩大测试覆盖范围。GOAT 的自动化测试能替代人工团队处理已知风险区域,让专家更专注于新型对抗场景,提高测试效率。

4.4 解决语言模型中的偏见问题

大型语言模型容易出现偏见,尤其在社会和政治话题上偏向自由派。这是因为网络训练数据本身就存在倾向性。

目标是消除偏见,让 Llama 能够公正地理解并表达有争议话题的不同观点,而非偏袒某一方。

Llama 4 在这方面取得了重大进展:

  • 拒答比例从 Llama 3 的 7% 降低至 Llama 4 的 2% 以下;
  • 对于具有争议性的问题,拒答不平衡的比例降至 1% 以下;
  • 表现出强烈政治倾向的响应率仅为 Llama 3 的一半,与 Grok 相当。

继续努力,进一步降低偏见水平。

5 探索 Llama 生态系统

除了模型智能,用户还希望模型反应个性化、速度快。Llama 4 是迄今为止最先进的模型,已为此进行优化。模型只是打造完整体验的一部分。

本项目感谢以下 AI 生态伙伴的大力支持(按字母顺序排列):
Accenture、Amazon Web Services、AMD、Arm、CentML、Cerebras、Cloudflare、Databricks、Deepinfra、DeepLearning.AI、Dell、Deloitte、Fireworks AI、Google Cloud、Groq、Hugging Face、IBM Watsonx、Infosys、Intel、Kaggle、Mediatek、Microsoft Azure、Nebius、NVIDIA、ollama、Oracle Cloud、PwC、Qualcomm、Red Hat、SambaNova、Sarvam AI、Scale AI、Scaleway、Snowflake、TensorWave、Together AI、vLLM、Wipro。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/76927.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【硬件开发技巧】如何通过元器件丝印反查型号

目录 一、在线数据库查询 二、官方资料匹配 三、专业软件辅助 四、实物比对与场景推断 五、社区与人工支持 注意事项 一、在线数据库查询 专业元器件平台 Digi-Key、Mouser、ICMaster等平台支持直接输入丝印代码检索,可获取芯片型号、技术文档及替代型号。例如…

【算法/c++】利用中序遍历和后序遍历建二叉树

目录 题目:树的遍历前言题目来源树的数组存储基本思想存储规则示例 建树算法关键思路代码总代码 链表法 题目:树的遍历 前言 如果不是完全二叉树,使用数组模拟树,会很浪费空间。 题目来源 本题来自 PTA 天梯赛。 题目链接: 树…

李臻20242817_安全文件传输系统项目报告_第6周

安全文件传输系统项目报告(第 1 周) 1. 代码链接 Gitee 仓库地址:https://gitee.com/li-zhen1215/homework/tree/master/Secure-file 代码结构说明: project-root/├── src/ # 源代码目录│ ├── main.c # 主程序入口│ ├…

嵌入式rodata段

在嵌入式软件开发中,将数据放入只读数据段(.rodata)具有以下好处及典型应用示例: 好处 数据保护 .rodata段的内容在程序运行时不可修改,防止意外或恶意篡改,提升系统稳定性。 节省RAM资源 只读数据可直接…

InfoSec Prep: OSCP靶场渗透

InfoSec Prep: OSCP InfoSec Prep: OSCP ~ VulnHubInfoSec Prep: OSCP, made by FalconSpy. Download & walkthrough links are available.https://www.vulnhub.com/entry/infosec-prep-oscp,508/ 1,将两台虚拟机网络连接都改为NAT模式 2,攻击机上做…

【JavaWeb-Spring boot】学习笔记

目录 <<回到导览Spring boot1. http协议1.1.请求协议1.2.响应协议 2.Tomcat2.1.请求2.1.1.apifox2.1.2.简单参数2.1.3.实体参数2.1.4.数组集合参数2.1.5.日期参数2.1.6.(重点)JSON参数2.1.7.路径参数 2.2.响应2.3.综合练习 3.三层架构3.1.三层拆分3.2.分层解耦3.3.补充 &…

C++的多态-上

目录 多态的概念 多态的定义及实现 1.虚函数 2. 多态的实现 2.1.多态构成条件 2.2.虚函数重写的两个例外 (1)协变(基类与派生类虚函数返回值类型不同) (2)析构函数的重写(基类与派生类析构函数的名字不同) 2.3.多态的实现 2.4.多态在析构函数中的应用 2.5.多态构成条…

网络安全的重要性与防护措施

随着信息技术的飞速发展&#xff0c;互联网已经成为我们日常生活、工作和学习的必需品。无论是通过社交媒体与朋友互动&#xff0c;还是在网上进行银行交易&#xff0c;网络已经渗透到我们生活的方方面面。然而&#xff0c;随之而来的是各种网络安全问题&#xff0c;包括数据泄…

CMake学习--Window下VSCode 中 CMake C++ 代码调试操作方法

目录 一、背景知识二、使用方法&#xff08;一&#xff09;安装扩展&#xff08;二&#xff09;创建 CMake 项目&#xff08;三&#xff09;编写代码&#xff08;四&#xff09;配置 CMakeLists.txt&#xff08;五&#xff09;生成构建文件&#xff08;六&#xff09;开始调试 …

访问数组元素(四十四)

1. 数组下标与类型 数组的索引从 0 开始。例如&#xff0c;一个包含 10 个元素的数组&#xff0c;其合法下标范围为 0 到 9&#xff0c;而不是 1 到 10。为了表示下标&#xff0c;通常使用 size_t 类型&#xff0c;它是一种与机器相关的无符号整型&#xff0c;足够大以存放内存…

计算机网络 3-1 数据链路层(功能+组帧+差错控制)

【考纲内容】 &#xff08;一&#xff09;数据链路层的功能 &#xff08;二&#xff09;组帧 &#xff08;三&#xff09;差错控制 检错编码&#xff1b;纠错编码 &#xff08;四&#xff09;流量控制与可靠传输机制 流量控制、可靠传输与滑动窗口机制&#xff1b;停止-等…

Django中使用不同种类缓存的完整案例

Django中使用不同种类缓存的完整案例 推荐超级课程: 本地离线DeepSeek AI方案部署实战教程【完全版】Docker快速入门到精通Kubernetes入门到大师通关课AWS云服务快速入门实战目录 Django中使用不同种类缓存的完整案例步骤1:设置Django项目步骤2:设置URL路由步骤3:视图级别…

Spring Boot 集成Redis 的Lua脚本详解

1. 对比Lua脚本方案与Redis自身事务 对比表格 对比维度Redis事务&#xff08;MULTI/EXEC&#xff09;Lua脚本方案原子性事务命令序列化执行&#xff0c;但中间可被其他命令打断&#xff0c;不保证原子性Lua脚本在Redis单线程中原子执行&#xff0c;不可中断计算能力仅支持Red…

【大模型】DeepSeek + 蓝耕MaaS平台 + 海螺AI生成高质量视频操作详解

目录 一、前言 二、蓝耘智能云MaaS平台介绍 2.1 蓝耘智算平台是什么 2.2 平台优势 2.3 平台核心能力 三、海螺AI视频介绍 3.1 海螺AI视频是什么 3.2 海螺AI视频主要功能 3.3 海螺AI视频应用场景 3.4 海螺AI视频核心优势 3.5 项目git地址 四、蓝耘MaaS平台DeepSeek海…

12-产品经理-维护模块

需求模块是帮助产品经理进行需求的分类和维护。 1. 维护模块 在具体产品的“研发需求”页面左侧&#xff0c;点击“维护模块”。也可以在具体产品的“设置”-“模块”下进行维护。 点击保存后&#xff0c;返回模块页面。还可以点击“子模块”对已有模块进行子模块的维护。 点击…

考研单词笔记 2025.04.06

area n领域&#xff0c;范围&#xff0c;方面&#xff0c;地区&#xff0c;地方&#xff0c;场地&#xff0c;面积 aspect n方面&#xff0c;层面&#xff0c;外表&#xff0c;外观 boundary n限度&#xff0c;界限&#xff0c;分界线&#xff0c;边界 cap n最高限额&#x…

护网蓝初面试题

《网安面试指南》https://mp.weixin.qq.com/s/RIVYDmxI9g_TgGrpbdDKtA?token1860256701&langzh_CN 5000篇网安资料库https://mp.weixin.qq.com/s?__bizMzkwNjY1Mzc0Nw&mid2247486065&idx2&snb30ade8200e842743339d428f414475e&chksmc0e4732df793fa3bf39…

玄机-apache日志分析

靶场任务 1、提交当天访问次数最多的IP&#xff0c;即黑客IP&#xff1a; 查看apache日志 apache访问日志的位置是&#xff1a;/var/log/apache2/access.log.1 匹配正则算法 首先先cat看看 发现地址都在第一行&#xff0c;直接匹配计算输出 cat access.log.1 |grep -Eo &…

C++ I/O 流通俗指南

1. std::ostream 是什么&#xff1f; 定义&#xff1a;std::ostream 是 C 标准库中的输出流类&#xff0c;负责将数据输出到各种目标&#xff08;如屏幕、文件、网络等&#xff09;。你可以把 std::ostream 想象成一根“数据水管”&#xff1a; 数据从 C 代码流进 std::ostrea…

Systemd 使用教程(二):Unit 的概念

目录 【二】 Systemd 单元&#xff08;Unit&#xff09;的概念 本教程将由浅入深的介绍 linux 中 Systemd 的知识和相关使用&#xff08;同时也方便自己后续查阅&#xff09; 【二】 Systemd 单元&#xff08;Unit&#xff09;的概念 虽然我想介绍的比较偏实际操作&#xff0…