大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普,AI工具测评,AI效率提升,AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。
北美时间4月18日,就在刚刚,Meta(原Facebook,中文名脸书)在国外社交媒体平台及自己的博客平台官宣了开源LLM模型Llama 3,不出意外的话,这将是目前全世界最强大的开源大模型,没有之一。
本次发布的是Llama 3的8B和70B版本,Meta表示多模态和参数更大的版本将在数月内推出,其中最为强大的Llama 3 400B+版本仍在训练中,根据Meta公布的4月15日(三天前)的基准测试结果,Llama 3 400B+
模型的表现已经持平Claude 3 Opus
,超过Gemini 1.5 Pro
,仅在数学部分落后于最先进的 GPT-4 Turbo 2024-04-09
模型。
关于Llama
Llama,全称为Large Language Model Meta AI,是由Meta AI开发的大语言系列模型。Llama发音为la mə
,在英语中译为美洲羊驼
,所以这个系列的模型也被网友们戏称“羊驼模型”。
Meta于2023年2月发布了Llama 1,这是一个里程碑式的时间点,标志着Meta正式进入大语言模型的竞争。Llama 1展示了在多个任务上的性能,并证明了高质量数据而非仅仅增加模型参数大小的重要性。随后,Meta发布了Llama 2,它在性能上有着显著提高,并且在数据量上增加了40%,上下文长度翻倍,采用了分组查询注意力(Grouped Query Attention)机制。Llama 2还提供了针对对话场景微调的版本,即Llama 2-CHAT。技术方面,Llama 2使用了优化的自回归Transformer框架,支持PyTorch,并进行了数据清理和混合数据更新。
值得一提的是,Meta采取了开源策略,允许研究人员和开发者使用和改进Llama模型,这一策略促进了技术的快速迭代和创新,也为Meta赢得了不少赞誉。同时,Meta宣布Llama 2模型可以免费商用,这使得Llama 2不仅在技术上,也在商业应用上具有竞争力。
Llama 3 8B和70B模型
Meta表示,Llama 3模型的目标是成为能够与当下最强大的私有模型相媲美的最好的开源模型(就差报出GPT-4的名字了)。目前发布的文本模型只是Llama 3系列的开端。Meta的未来目标是使Llama 3能够支持多语言和多模态输入,拥有更长的上下文理解能力,并在核心LLM功能,如推理和编码等方面持续提升整体性能。
Llama 3的最新8B(80亿参数)和70B(700亿参数)模型在性能上相比Llama 2实现了飞跃式提升。得益于预训练和后训练阶段的改进,Meta的预训练和指令微调模型在8B和70B这样的参数规模上成为目前最佳的模型。此外,Meta官方表示Llama 3在推理、代码生成和指令遵循等能力上也有了显著提升,使得Llama 3更易于控制和引导。
Meta不仅关注模型在基准测试上的表现,还针对真实使用场景进行了性能优化。为此,Meta开发了一套人类评估数据集,该数据集包含1800个提示,覆盖了12个关键用例,包括寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、信息提取、扮演角色/人物、开放式问答、推理、重写和总结。为了防止Llama 3模型在这一评估集上过度拟合,即使是Meta自己的建模团队也无法访问这些数据。下图展示了Llama 3 70B模型与Claude Sonnet、Mistral Medium和GPT-3.5的比较结果。
可以看出,在这种真实使用场景的测试下,Llama 3 70B表现强劲,可以说是稳稳地压制住了Claude Sonnet、Mistral Medium和GPT-3.5。当然,这仅仅是一项测试,真实的使用体验还需要验证。
下面是Llama 3预训练模型在基准测试中的表现。
Llama 3 400B+模型
Meta表示,Llama 3的8B和70B参数模型仅是开始,未来计划推出具备更多先进功能的模型,包括超过400B(4000亿)参数的模型。这些模型将引入多模态交互、多语言对话、更长上下文理解以及更全面的增强能力。此外,Meta将在完成Llama 3训练后发布详尽的研究论文,并可能分享一些模型训练过程中的预览数据。
虽然参数不是衡量LLM模型的唯一标准,但却是非常重要的一项指标。Meta展示了目前还在训练中的Llama 3 400B+
模型的基准测试结果。
这个结果意味着什么?让我们结合其他顶级模型的表现对比来看。
Benchmark | Llama-3-400B+ | Claude-3-Opus | GPT-4-turbo | Gemini Ultra 1.0 | Gemini Pro 1.5 |
---|---|---|---|---|---|
MMLU | 86.1 | 86.8 | 86.5 | 83.7 | 81.9 |
GPQA | 48 | 50.4 | 49.1 | - | - |
HumanEval | 84.1 | 84.9 | 87.6 | 74.4 | 71.9 |
MATH | 57.8 | 60.1 | 72.2 | 53.2 | 58.5 |
对比可以看出,Llama 3 400B+
模型距离最顶级的模型已经不远了,可以说是“指日可待”,让我们一起期待最强开源大模型的诞生。
如何体验Llama 3
模型
最后,附上Llama 3
模型体验地址和下载地址。
Llama 3
模型体验地址(无需注册):https://www.meta.ai/
Llama 3
模型下载地址:https://llama.meta.com/llama3/
精选推荐
-
完全免费白嫖GPT4的三个方法,都给你整理好了!
-
AI领域的国产之光,ChatGPT的免费平替:Kimi Chat!
-
Kimi Chat,不仅仅是聊天!深度剖析Kimi Chat 5大使用场景!
-
我用AI工具5分钟制作一个动画微电影!这个AI现在免费!
-
当全网都在疯转OpenAI的Sora时,我们普通人能做哪些准备?——关于Sora,你需要了解这些!
-
文心一言4.0 VS ChatGPT4.0哪家强?!每月60块的文心一言4.0值得开吗?
-
ChatGPT和文心一言哪个更好用?一道题告诉你答案!
-
字节推出了“扣子”,国内版的Coze,但是我不推荐你用!
-
白嫖GPT4,Dalle3和GPT4V - 字节开发的Coze初体验!附教程及提示词Prompt
-
2024年了你还在用百度翻译?手把手教会你使用AI翻译!一键翻译网页和PDF文件!
都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。