Llama 3.1 重磅发布，登顶开源大模型王座！

Llama 3.1 重磅发布，登顶开源大模型王座！

bicheng/2025/4/28 4:51:12/文章来源:https://blog.csdn.net/ai2nv/article/details/140764550

7月23日，Meta正式发布迄今为止最强大的开源模型——Llama 3.1 405B，同时发布了全新升级的Llama 3.1 70B和8B模型。

Meta在正式发布里也附上了长达92页的论文《The Llama 3 Herd of Models》，揭示了Llama 3模型的技术和训练细节。

论文地址：

https://ai.meta.com/research/publications/the-llama-3-herd-of-models/。

模型信息

模型版本：共有8B、70B、405B三种版本。其中405B版本拥有4050亿参数，是目前最大的开源模型之一。

上下文长度：扩展到128K上下文长度，能够处理更复杂的任务和对话。

支持语言：支持8种语言，包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。

模型架构：优化了的Transformer模型架构，微调后的版本使用SFT和RLHF来对齐可用性与安全偏好。

训练数据：使用来自公开来源的超过15万亿个token数据进行了预训练，预训练数据的截止日期为2023年12月；微调数据包括公开可用的指令数据集，以及超过2500万个综合生成的示例。

模型的关键参数：

模型评估

根据Meta提供的基准测试数据，最受关注的4050亿参数的Llama 3.1 405B版本，从性能上已经可媲美GPT-4o和Claude 3.5。

注：Human Evaluation主要用于评估模型在理解和生成代码、解决抽象逻辑问题方面的能力。

Llama 3.1与GPT4等闭源模型比较：

Llama 3.1与Mistral 7B Instruct等开源模型比较：

Llama 3.1的发布，让顶尖的开源模型能真正与顶尖的闭源模型PK了！

Meta表示“到目前为止，开源大型语言模型在功能和性能方面大多落后于封闭式模型。现在，我们正迎来一个由开源引领的新时代。”

训练细节

Llama 3.1的训练使用了16000块NVIDIA H100。
为了保证训练稳定性，只用了Transformer模型架构进行调整，而不是现在流行的混合专家模型（MoE）架构。

达到如此训练规模的开源大模型，目前全世界仅此一家。

对于开发者们关心的：大公司们在付出了巨大训练成本后，还会继续开源吗？

在Llama 3.1发布的当下，扎克伯格再次强调：把开源进行到底！

在 AI 发展的浪潮中，我们深知强大算力对于推动 AI 创新的关键作用。英智未来专注于提供高效、稳定、灵活的算力租赁服务，助力您的 AI 项目飞速发展。

无论您是科研机构、创新企业还是个人开发者，英智未来的算力租赁都能为您量身定制解决方案，让您无需为高昂的硬件投入和复杂的运维烦恼，轻松拥抱 AI 新时代！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/bicheng/51568.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Jacoco 单元测试配置

Jacoco 单元测试配置

前言编写单元测试是开发健壮程序的有效途径，单元测试写的好不好可以从多个指标考量，其中一个就是单元测试的覆盖率。单元测试覆盖率可以看到我们的单元测试覆盖了多少代码行、类、分支等。查看单元测试覆盖率可以使用一些工具帮助我们计算，…

阅读更多...

GLSL教程第12章：现代GLSL特性

GLSL教程第12章：现代GLSL特性

目录 12.1 现代OpenGL的特性和GLSL的兼容性 1.1 OpenGL版本及其影响 1.2 GLM与GLSL的兼容性 12.2 使用GLSL的新特性进行开发 2.1 Tessellation Shader 2.2 Compute Shader 2.3 多重渲染目标（MRT） 12.3 着色器的兼容性和移植性问题 3.1 兼容性问…

阅读更多...

图解RocketMQ之生产者如何进行消息重试

图解RocketMQ之生产者如何进行消息重试

大家好，我是苍何。上一篇留了一个小问题，如果消费者出现异常，消费某一条消息失败，这时候 RocketMQ 会怎么处理呢？ 你可能会用你聪明绝顶的脑袋瓜子想，苍何你是不是傻，失败了肯定重试啊&#…

阅读更多...

单据新增，限制单据栏位的录入值，设置过滤条件

单据新增，限制单据栏位的录入值，设置过滤条件

希望通过开发实现单据头的组织栏位，只能选择101开头的组织，实现的效果如下：代码如下： using Kingdee.BOS.Util; using Kingdee.BOS.Core.DynamicForm.PlugIn; using Kingdee.BOS.Core.DynamicForm.PlugIn.Args; using System.ComponentModel;namespace cux.button.test {…

阅读更多...

基于opencv的人脸识别（实战）

基于opencv的人脸识别（实战）

前言经过这几天的学习，我已经跃跃欲试了，相信大家也是，所以我决定自己做一个人脸识别程序。我会把自己的思路和想法都在这篇博客内讲清楚，大家可以当个参考，🌟仅供学习使用🌟。 &#x1f31f…

阅读更多...

分享10个好用的论文编辑服务/平台

分享10个好用的论文编辑服务/平台

学境思源，一键生成论文初稿： AcademicIdeas - 学境思源AI论文写作如果您对自己的学术写作能力存在怀疑，论文编辑服务/平台或许能提供帮助。为了帮助您做出更好的选择，今天的分享我们列出了2024年“全网”最好用的10个论文编辑服…

阅读更多...

怎么样建设数字化车间？

怎么样建设数字化车间？

建设数字化车间是一个综合性的过程，旨在通过现代信息技术、智能设备和自动化技术对车间进行优化改造，提高生产效率和产品质量。以下是一些关键步骤和要点，用于指导数字化车间的建设： 一、明确建设目标和需求分析现状&#xff1…

阅读更多...

【轨物方案】开关柜在线监测物联网解决方案

【轨物方案】开关柜在线监测物联网解决方案

随着物联网技术的发展，电力设备状态监测技术也得到了迅速发展。传统的电力成套开关柜设备状态监测方法主要采用人工巡检和定期维护的方式，这种方法不仅效率低下，而且难以保证设备的实时性和安全性。因此，基于物联网技术的成套开关…

阅读更多...

2024上海国际嵌入式展回顾 | 聚焦嵌入式开发中的合规性工具、项目管理工具、版本迭代工具应用

2024上海国际嵌入式展回顾 | 聚焦嵌入式开发中的合规性工具、项目管理工具、版本迭代工具应用

日前，龙智携嵌入式开发及管理解决方案亮相2024上海国际嵌入式展（embedded world China 2024）。展会期间，我们对话了多位龙智资深DevSecOps顾问及技术支持专家，就嵌入式开发与管理领域的最新趋势、工具选择以及DevSecOp…

阅读更多...

数论与代数几何问题的分类

数论与代数几何问题的分类

数论与代数几何作为数学的两个重要分支，各自拥有广泛的研究领域和问题分类。以下是对这两个领域问题分类的概述： 数论问题分类数论是研究整数的性质的学科，它涵盖了多个方面的问题。按研究方法来看，数论大致可分为初等数论和高…

阅读更多...

Inno setup pascal编码下如何美化安装界面支持带边框，圆角，透明阴影窗口

Inno setup pascal编码下如何美化安装界面支持带边框，圆角，透明阴影窗口

inno setup自带的安装界面太老套了，如何实现类似网易，微信那种带界面的安装？一般有两种思路：提供一个单独的下载器，然后通过下载器将你用innosetup 打包后的软件下载下来，然后，静默安装这个包&a…

阅读更多...

CPU、GPU等处理器介绍

CPU、GPU等处理器介绍

CPU、GPU、IPU、NPU、TPU、LPU、MCU、MPU、SOC、DSP、FPGA、ASIC、GPP、ECU、_c_limengshi138392-GitCode 开源社区

阅读更多...

Mybatis-Plus-常用的注解：@TableName、@TableId、@TableField、@TableLogic

Mybatis-Plus-常用的注解：@TableName、@TableId、@TableField、@TableLogic

1、TableName 经过之前的测试，在使用MyBatis-Plus实现基本的CRUD时，我们并没有指定要操作的表，只是在Mapper接口继承BaseMapper时，设置了泛型User，而操作的表为user表由此得出结论，MyBatis-Plus在确定操作…

阅读更多...

Python:随机数、随机选择的应用

Python:随机数、随机选择的应用

step1:导入导入的random相当于是创建了random文件里的的一个对象 import random random() 产生0~1随机数 randint(a,b)产生a~b的整数闭区间，可以取到a,b random.choice(touple_name)从touple_name（数组、列表..）中随机选择元素 import rand…

阅读更多...

技术周总结 2024.07.22~07.28周日(Java Tidb Mysql)

技术周总结 2024.07.22~07.28周日(Java Tidb Mysql)

文章目录一、 07.23 周二1.1）问题01：下面的java代码会发生NPE吗？String aa "ss: "; String bb null; aa bb;解释完整示例输出总结 1.2）问题02：Spring注解ControllerAdvice 具体的使用方法1.3) 问题03&am…

阅读更多...

Java人力资源招聘社会校招类型招聘小程序

Java人力资源招聘社会校招类型招聘小程序

✨💼【职场新风尚！解锁人力资源招聘新神器：社会校招类型招聘小程序】✨ 🎓【校招新体验，一键触达梦想企业】🎓 还在为错过校园宣讲会而懊恼？别怕，社会校招类型招聘小程序来救场&am…

阅读更多...

日常进度提醒

日常进度提醒

今日进行学习的时联合和枚举，加油！

阅读更多...

L2TP VPN

L2TP VPN

目录一、实验目的二、实验环境三、实验内容 1、实验规划： 2、关键内容： 3、实施步骤： 四、实验总结一、实验目的 1、了解L2TP的实现原理； 2、掌握Client-Initiated场景下的L2TP的配置。二、实验环境华为eNSP模拟器…

阅读更多...

pytest 测试框架中 setup、teardown 方法不生效

pytest 测试框架中 setup、teardown 方法不生效

pytest 测试框架中 setup、teardown 方法不生效源码有改动： 将 setup、teardown改为：setup_method、teardown_method 可生效 def setup_method(self):print("测试用例执行前的初始化,如：打开浏览器,加载网页...")def setup_class…

阅读更多...

MybatisPlus（一）

MybatisPlus（一）

目录入门： 使用MybatisPlus的基本步骤： 常见注解常见配置总结核心功能条件构造器自定义SQL Service接口 IService接口基本用法 IService的Lambda查询 IService的Lambda更新 IService批量新增入门： 使用MybatisPlus的基本步…

阅读更多...

最新文章