ChatGPT又多了一个强有力的竞争对手:Meta发布Llama 3开源模型!附体验地址

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

北美时间4月18日,就在刚刚,Meta(原Facebook,中文名脸书)在国外社交媒体平台及自己的博客平台官宣了开源LLM模型Llama 3,不出意外的话,这将是目前全世界最强大的开源大模型,没有之一。

本次发布的是Llama 3的8B70B版本,Meta表示多模态和参数更大的版本将在数月内推出,其中最为强大的Llama 3 400B+版本仍在训练中,根据Meta公布的4月15日(三天前)的基准测试结果,Llama 3 400B+模型的表现已经持平Claude 3 Opus,超过Gemini 1.5 Pro,仅在数学部分落后于最先进的 GPT-4 Turbo 2024-04-09模型。

关于Llama

Llama,全称为Large Language Model Meta AI,是由Meta AI开发的大语言系列模型。Llama发音为la mə,在英语中译为美洲羊驼,所以这个系列的模型也被网友们戏称“羊驼模型”。

Meta于2023年2月发布了Llama 1,这是一个里程碑式的时间点,标志着Meta正式进入大语言模型的竞争。Llama 1展示了在多个任务上的性能,并证明了高质量数据而非仅仅增加模型参数大小的重要性。随后,Meta发布了Llama 2,它在性能上有着显著提高,并且在数据量上增加了40%,上下文长度翻倍,采用了分组查询注意力(Grouped Query Attention)机制。Llama 2还提供了针对对话场景微调的版本,即Llama 2-CHAT。技术方面,Llama 2使用了优化的自回归Transformer框架,支持PyTorch,并进行了数据清理和混合数据更新。

值得一提的是,Meta采取了开源策略,允许研究人员和开发者使用和改进Llama模型,这一策略促进了技术的快速迭代和创新,也为Meta赢得了不少赞誉。同时,Meta宣布Llama 2模型可以免费商用,这使得Llama 2不仅在技术上,也在商业应用上具有竞争力。

Llama 3 8B和70B模型

Meta表示,Llama 3模型的目标是成为能够与当下最强大的私有模型相媲美的最好的开源模型(就差报出GPT-4的名字了)。目前发布的文本模型只是Llama 3系列的开端。Meta的未来目标是使Llama 3能够支持多语言和多模态输入,拥有更长的上下文理解能力,并在核心LLM功能,如推理和编码等方面持续提升整体性能。

Llama 3的最新8B(80亿参数)和70B(700亿参数)模型在性能上相比Llama 2实现了飞跃式提升。得益于预训练和后训练阶段的改进,Meta的预训练和指令微调模型在8B和70B这样的参数规模上成为目前最佳的模型。此外,Meta官方表示Llama 3在推理、代码生成和指令遵循等能力上也有了显著提升,使得Llama 3更易于控制和引导。

Meta不仅关注模型在基准测试上的表现,还针对真实使用场景进行了性能优化。为此,Meta开发了一套人类评估数据集,该数据集包含1800个提示,覆盖了12个关键用例,包括寻求建议、头脑风暴、分类、封闭式问答、编码、创意写作、信息提取、扮演角色/人物、开放式问答、推理、重写和总结。为了防止Llama 3模型在这一评估集上过度拟合,即使是Meta自己的建模团队也无法访问这些数据。下图展示了Llama 3 70B模型与Claude Sonnet、Mistral Medium和GPT-3.5的比较结果。

可以看出,在这种真实使用场景的测试下,Llama 3 70B表现强劲,可以说是稳稳地压制住了Claude Sonnet、Mistral Medium和GPT-3.5。当然,这仅仅是一项测试,真实的使用体验还需要验证。

下面是Llama 3预训练模型在基准测试中的表现。

Llama 3 400B+模型

Meta表示,Llama 3的8B和70B参数模型仅是开始,未来计划推出具备更多先进功能的模型,包括超过400B(4000亿)参数的模型。这些模型将引入多模态交互、多语言对话、更长上下文理解以及更全面的增强能力。此外,Meta将在完成Llama 3训练后发布详尽的研究论文,并可能分享一些模型训练过程中的预览数据。

虽然参数不是衡量LLM模型的唯一标准,但却是非常重要的一项指标。Meta展示了目前还在训练中的Llama 3 400B+模型的基准测试结果。

这个结果意味着什么?让我们结合其他顶级模型的表现对比来看。

BenchmarkLlama-3-400B+Claude-3-OpusGPT-4-turboGemini Ultra 1.0Gemini Pro 1.5
MMLU86.186.886.583.781.9
GPQA4850.449.1--
HumanEval84.184.987.674.471.9
MATH57.860.172.253.258.5

对比可以看出,Llama 3 400B+模型距离最顶级的模型已经不远了,可以说是“指日可待”,让我们一起期待最强开源大模型的诞生。

如何体验Llama 3模型

最后,附上Llama 3模型体验地址和下载地址。

  1. Llama 3模型体验地址(无需注册):https://www.meta.ai/

  2. Llama 3模型下载地址:https://llama.meta.com/llama3/


精选推荐

  1. 完全免费白嫖GPT4的三个方法,都给你整理好了!

  2. AI领域的国产之光,ChatGPT的免费平替:Kimi Chat!

  3. Kimi Chat,不仅仅是聊天!深度剖析Kimi Chat 5大使用场景!

  4. 我用AI工具5分钟制作一个动画微电影!这个AI现在免费!

  5. 当全网都在疯转OpenAI的Sora时,我们普通人能做哪些准备?——关于Sora,你需要了解这些!

  6. 文心一言4.0 VS ChatGPT4.0哪家强?!每月60块的文心一言4.0值得开吗?

  7. ChatGPT和文心一言哪个更好用?一道题告诉你答案!

  8. 字节推出了“扣子”,国内版的Coze,但是我不推荐你用!

  9. 白嫖GPT4,Dalle3和GPT4V - 字节开发的Coze初体验!附教程及提示词Prompt

  10. 2024年了你还在用百度翻译?手把手教会你使用AI翻译!一键翻译网页和PDF文件!


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/380.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatPDF代码解读2

这段代码定义了一个名为`ChatPDF`的类,它结合了文本相似性模型和生成模型,用于处理和生成基于特定文档语料库的自然语言回答。以下是对代码的详细解读: 1. **导入依赖**:代码开始处导入了多个Python库,包括`argparse`(命令行参数解析)、`hashlib`(哈希函数)、`os`(操…

力扣:两数之和

知识点&#xff1a; 动态数组的创建&#xff1a; #include<stdlib.h> arr (int*)malloc(len * sizeof(int)); 如何使用sacnf输入数组&#xff1a; scanf 函数在读取输入时&#xff0c;会自动跳过空格&#xff08;空格、制表符、换行符等&#xff09;和换行符&#…

vscode绿绿主题setting config

下载插件Green Tree Theme 选greentree ctrl shift p找到setting {"workbench.colorTheme": "Green Tree","editor.fontSize": 16.5, // 字号"workbench.colorCustomizations": {"[Green Tree]": {"activityBarBadge.…

日志事件ID

日志排查时&#xff0c;通常会根据事件ID搜索日志。 1、安全日志 用户登录事件&#xff1a; 4624&#xff1a;登录成功 4625&#xff1a;登录失败 4634&#xff1a;注销本地登录用户 4647&#xff1a;注销远程登录的用户 4648&#xff1a;使用显式凭证尝试登录 4672&am…

用pigeon kotlin swift写一个自己的插件

文章目录 1. 创建一个flutter plugin项目2. 引入依赖3. 创建pigeons文件夹和message.dart4. 执行生成各个平台文件的命令5. base_plugin.dart6. BasePlugin.kt7. BasePlugin.swift8. 遇到的问题9. [源码](https://github.com/githubityu/base_plugin) 1. 创建一个flutter plugi…

算法一:数字 - 两数之和

给定一个整数数组 nums 和一个目标值 target&#xff0c;请你在该数组中找出和为目标值的那 两个 整数&#xff0c;并返回他们的数组下标。 你可以假设每种输入只会对应一个答案。但是&#xff0c;数组中同一个元素不能使用两遍。 来源&#xff1a;力扣(LeetCode) 链接&#xf…

scala---基础核心知识(变量定义,数据类型,流程控制,方法定义,函数定义)

一、什么是scala Scala 是一种多范式的编程语言&#xff0c;其设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台&#xff08;Java虚拟机&#xff09;&#xff0c;并兼容现有的Java程序。 二、为什么要学习scala 1、优雅 2、速度快 3、能融合到hado…

管道流设计模式结合业务

文章目录 流程图代码实现pomcontextEventContextBizTypeAbstractEventContext filterEventFilterAbstractEventFilterEventFilterChainFilterChainPipelineDefaultEventFilterChain selectorFilterSelectorDefaultFilterSelector 调用代码PipelineApplicationcontrollerentitys…

浅析binance新币OMNI的前世今生

大盘跌跌不休&#xff0c;近期唯一的指望就是binance即将上线的OMNI 。虽然目前查到的空投数量不及预期&#xff0c;但OMNI能首发币安&#xff0c;确实远超预期了。 OMNI代币总量1亿&#xff0c;初始流通仅10,391,492枚&#xff0c;其中币安Lanchpool可挖350万枚 对于OMNI这个…

设计模式——模版模式21

模板方法模式在超类中定义了一个事务流程的框架&#xff0c; 允许子类在不修改结构的情况下重写其中一个或者多个特定步骤。下面以ggbond的校招礼盒发放为例。 设计模式&#xff0c;一定要敲代码理解 模版抽象 /*** author ggbond* date 2024年04月18日 17:32* 发送奖品*/ p…

50.HarmonyOS鸿蒙系统 App(ArkUI)web组件实现简易浏览器

50.HarmonyOS鸿蒙系统 App(ArkUI)web组件实现简易浏览器 配置网络访问权限&#xff1a; 跳转任务&#xff1a; Button(转到).onClick(() > {try {// 点击按钮时&#xff0c;通过loadUrl&#xff0c;跳转到www.example1.comthis.webviewController.loadUrl(this.get_url);} …

代码随想录第39天|62.不同路径 63. 不同路径 II

62.不同路径 62. 不同路径 - 力扣&#xff08;LeetCode&#xff09; 代码随想录 (programmercarl.com) 动态规划中如何初始化很重要&#xff01;| LeetCode&#xff1a;62.不同路径_哔哩哔哩_bilibili 一个机器人位于一个 m x n 网格的左上角 &#xff08;起始点在下图中标…

Codeforces Round 782 (Div. 2) D. Reverse Sort Sum

题目 思路&#xff1a; #include <bits/stdc.h> using namespace std; #define int long long #define pb push_back #define fi first #define se second #define lson p << 1 #define rson p << 1 | 1 const int maxn 1e6 5, inf 1e9, maxm 4e4 5; co…

Rust常见陷阱 | 线程间传递消息导致主线程无法结束

在多线程编程中,线程之间的通信是一个不可或缺的话题。尤其是在Rust语言中,由于其特有的所有权机制,线程通信需要更加仔细地处理。本文将深入讨论使用Rust标准库中的消息通道时如何避免主线程被阻塞的问题,并提供详尽的代码示例来辅助理解。 问题描述 当我们在Rust中使用…

【WP】猿人学4 雪碧图、样式干扰

https://match.yuanrenxue.cn/match/4 探索 首先打开Fiddler&#xff0c;发现每个包的除了page参数一样&#xff0c;然后重放攻击可以实现&#xff0c;尝试py复现 Python可以正常拿到数据&#xff0c;这题不考请求&#xff0c;这题的难点原来在于数据的加密&#xff0c;这些数字…

用10个Kimichat提示词5分钟创建一门在线课程

●研究市场并在生成式AI主题内找到一个特定细分市场&#xff0c;这一市场尚未被现有课程充分覆盖。使用在线研究来收集关于当前可用课程类型的信息&#xff0c;以及市场上存在哪些空白。利用这些信息创建一个填补空白并吸引对“生成式AI”感兴趣的特定受众群体的课程。确定课程…

面试经典算法系列之二叉树17 -- 验证二叉树

面试经典算法32 - 验证二叉树 LeetCode.98 公众号&#xff1a;阿Q技术站 问题描述 给你一个二叉树的根节点 root &#xff0c;判断其是否是一个有效的二叉搜索树。 有效 二叉搜索树定义如下&#xff1a; 节点的左子树只包含 小于 当前节点的数。节点的右子树只包含 大于 当…

云解析DNS是什么?

说起云解析&#xff0c;相信很多用户都比较陌生&#xff0c;对于刚刚接触互联网的小白并不了解什么是云解析DNS&#xff0c;下面为您详解一下以上问题。 云解析DNS是什么 云解析 DNS(Domain Name System&#xff0c;简称 DNS) 一种安全、快速、稳定、可靠的权威 DNS 解析管理…

ActiveMQ 如果数据处理出现异常会怎么样

我们有一个 Spring 的客户端&#xff0c;在处理消息的时候因为程序的原因出现消息处理异常。 对这种情况&#xff0c;ActiveMQ 会把出现异常的消息放在 DLQ 队列中进行持久化。 因此&#xff0c;在 ActiveMQ 消息处理队列中需要持续关注 DLQ 队列&#xff0c; DLQ 的队列都是无…

生成人工智能体:人类行为的交互式模拟论文与源码架构解析(5)——可控评估端到端评估

最后完结篇,文末有测试中发现的有趣现象,并附上了相关资料链接~ 5.可控评估 分两个阶段评估生成代理。我们从一个更加严格控制的评估开始,单独评估代理的响应,以了解它们是否在狭义上定义的上下文中产生可信的行为。然后,在我们对代理社区进行为期两天的端到端分析中,我…