ChatGPT又多了一个强有力的竞争对手：Meta发布Llama 3开源模型！附体验地址

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“外挂”，所以创建了“AI信息Gap”这个公众号，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效率提升，AI行业洞察。关注我，AI之路不迷路，2024我们一起变强。

北美时间4月18日，就在刚刚，Meta（原Facebook，中文名脸书）在国外社交媒体平台及自己的博客平台官宣了开源LLM模型Llama 3，不出意外的话，这将是目前全世界最强大的开源大模型，没有之一。

本次发布的是Llama 3的8B和70B版本，Meta表示多模态和参数更大的版本将在数月内推出，其中最为强大的Llama 3 400B+版本仍在训练中，根据Meta公布的4月15日（三天前）的基准测试结果，Llama 3 400B+模型的表现已经持平Claude 3 Opus，超过Gemini 1.5 Pro，仅在数学部分落后于最先进的 GPT-4 Turbo 2024-04-09模型。

关于Llama

Llama，全称为Large Language Model Meta AI，是由Meta AI开发的大语言系列模型。Llama发音为la mə，在英语中译为美洲羊驼，所以这个系列的模型也被网友们戏称“羊驼模型”。

Meta于2023年2月发布了Llama 1，这是一个里程碑式的时间点，标志着Meta正式进入大语言模型的竞争。Llama 1展示了在多个任务上的性能，并证明了高质量数据而非仅仅增加模型参数大小的重要性。随后，Meta发布了Llama 2，它在性能上有着显著提高，并且在数据量上增加了40%，上下文长度翻倍，采用了分组查询注意力（Grouped Query Attention）机制。Llama 2还提供了针对对话场景微调的版本，即Llama 2-CHAT。技术方面，Llama 2使用了优化的自回归Transformer框架，支持PyTorch，并进行了数据清理和混合数据更新。

值得一提的是，Meta采取了开源策略，允许研究人员和开发者使用和改进Llama模型，这一策略促进了技术的快速迭代和创新，也为Meta赢得了不少赞誉。同时，Meta宣布Llama 2模型可以免费商用，这使得Llama 2不仅在技术上，也在商业应用上具有竞争力。

Llama 3 8B和70B模型

Meta表示，Llama 3模型的目标是成为能够与当下最强大的私有模型相媲美的最好的开源模型（就差报出GPT-4的名字了）。目前发布的文本模型只是Llama 3系列的开端。Meta的未来目标是使Llama 3能够支持多语言和多模态输入，拥有更长的上下文理解能力，并在核心LLM功能，如推理和编码等方面持续提升整体性能。

Llama 3的最新8B（80亿参数）和70B（700亿参数）模型在性能上相比Llama 2实现了飞跃式提升。得益于预训练和后训练阶段的改进，Meta的预训练和指令微调模型在8B和70B这样的参数规模上成为目前最佳的模型。此外，Meta官方表示Llama 3在推理、代码生成和指令遵循等能力上也有了显著提升，使得Llama 3更易于控制和引导。

Meta不仅关注模型在基准测试上的表现，还针对真实使用场景进行了性能优化。为此，Meta开发了一套人类评估数据集，该数据集包含1800个提示，覆盖了12个关键用例，包括寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、信息提取、扮演角色/人物、开放式问答、推理、重写和总结。为了防止Llama 3模型在这一评估集上过度拟合，即使是Meta自己的建模团队也无法访问这些数据。下图展示了Llama 3 70B模型与Claude Sonnet、Mistral Medium和GPT-3.5的比较结果。

可以看出，在这种真实使用场景的测试下，Llama 3 70B表现强劲，可以说是稳稳地压制住了Claude Sonnet、Mistral Medium和GPT-3.5。当然，这仅仅是一项测试，真实的使用体验还需要验证。

下面是Llama 3预训练模型在基准测试中的表现。

Llama 3 400B+模型

Meta表示，Llama 3的8B和70B参数模型仅是开始，未来计划推出具备更多先进功能的模型，包括超过400B（4000亿）参数的模型。这些模型将引入多模态交互、多语言对话、更长上下文理解以及更全面的增强能力。此外，Meta将在完成Llama 3训练后发布详尽的研究论文，并可能分享一些模型训练过程中的预览数据。

虽然参数不是衡量LLM模型的唯一标准，但却是非常重要的一项指标。Meta展示了目前还在训练中的Llama 3 400B+模型的基准测试结果。