英伟达开源最强通用模型Nemotron-4 340B

英伟达的通用大模型 Nemotron,开源了最新的 3400 亿参数版本。

本周五,英伟达宣布推出 Nemotron-4 340B。它包含一系列开放模型,开发人员可以使用这些模型生成合成数据,用于训练大语言模型(LLM),可用于医疗健康、金融、制造、零售等所有行业的商业应用。

高质量的训练数据在自定义 LLM 的响应性能、准确性和质量中起着至关重要的作用 —— 但强大的数据集经常是昂贵且难以访问的。通过独特的开放模型许可,Nemotron-4 340B 为开发人员提供了一种免费、可扩展的方式来生成合成数据,从而帮助人们构建强大的 LLM。

Nemotron-4 340B 系列包括基础、Instruct 和 Reward 模型,它们形成了一个 pipeline,用于生成训练和改进 LLM 的合成数据。这些模型经过优化,可与 NVIDIA NeMo 配合使用,后者是一个用于端到端模型训练的开源框架,包括数据管理、定制和评估。它们还针对开源 NVIDIA TensorRT-LLM 库的推理进行了优化。

英伟达表示,Nemotron-4 340B 现已可从 Hugging Face 下载。开发人员很快就能在 ai.nvidia.com 上访问这些模型,它们将被打包为 NVIDIA NIM 微服务,并带有可在任何地方部署的标准应用程序编程接口。

Hugging Face 下载:https://huggingface.co/collections/nvidia/nemotron-4-340b-666b7ebaf1b3867caf2f1911

技术交流

技术要学会分享、交流,不建议闭门造车。一个人可以走的很快、一堆人可以走的更远。

成立了大模型算法面试和技术交流群,相关资料、技术交流&答疑,均可加我们的交流群获取,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友。

方式①、微信搜索公众号:机器学习社区,后台回复:加群
方式②、添加微信号:mlc2040,备注:来自CSDN + 技术交流

导航 Nemotron 以生成合成数据

大语言模型可以帮助开发人员在无法访问大型、多样化标记数据集的情况下生成合成训练数据。

Nemotron-4 340B Instruct 模型创建了多样化的合成数据,模仿了现实世界数据的特征,有助于提高数据质量,从而提高自定义 LLM 在各个领域的性能和鲁棒性。

为了提高 AI 生成的数据的质量,开发人员可以使用 Nemotron-4 340B Reward 模型来筛选高质量的响应。Nemotron-4 340B Reward 根据五个属性对响应进行评分:可用性、正确性、连贯性、复杂性和冗长性。它目前在 AI2 创建的 Hugging Face RewardBench 排行榜上名列第一,用于评估奖励模型的能力、安全性和缺陷。

图片

在这个合成数据 pipeline 中,(1)Nemotron-4 340B Instruct 模型用于生成基于文本的合成输出。然后,评估模型(2) Nemotron-4 340B Reward 评估生成的文本并提供反馈,从而指导迭代改进并确保合成数据的准确。

研究人员还可以使用自己的专有数据,结合已包含的 HelpSteer2 数据集,来定制 Nemotron-4 340B 基础模型,从而创建自有的 Instruct 模型或奖励模型。

图片

论文地址:https://d1qx31qr3h6wln.cloudfront.net/publications/Nemotron_4_340B_8T_0.pdf

方法介绍

Nemotron-4-340B-Base 模型架构是一种标准的仅解码器 Transformer 架构,具有因果注意力掩码、旋转位置嵌入 (RoPE)、SentencePiece tokenizer 等。Nemotron-4-340B-Base 的超参数如表 1 所示。它有 94 亿个嵌入参数和 3316 亿个非嵌入参数。

图片

下表为 Nemotron-4-340B-Base 模型的一些训练细节,表中总结了批大小渐变的 3 个阶段,包括每次迭代时间和模型 FLOP/s 利用率。

图片

为了开发强大的奖励模型,英伟达收集了一个包含 10k 人类偏好数据的数据集,称为 HelpSteer2,并公开发布了这个数据集 。

数据集地址:https://huggingface.co/datasets/nvidia/HelpSteer2

回归奖励模型 Nemotron-4-340B-Reward 建立在 Nemotron-4-340B-Base 模型之上,并用新的奖励头替换最后的 softmax 层。这个头是一个线性投影,它将最后一层的隐藏状态映射到 HelpSteer 属性(有用性、正确性、连贯性、复杂性、冗长性)的五维向量中。在推理过程中,这些属性值可以通过加权和聚合为总体奖励。这种奖励模式为训练 Nemotron-4-340B-Instruct 提供了坚实的基础。

该研究发现这样的模型在 RewardBench 上表现非常出色:

图片

用 NeMo 微调,用 TensorRT-LLM 优化推理

使用开源的 NVIDIA NeMo 和 NVIDIA TensorRT-LLM,开发者可以优化他们的指导模型和奖励模型的效率,从而生成合成数据并对响应进行评分。

所有 Nemotron-4 340B 模型都使用 TensorRT-LLM 进行了优化,以利用张量并行性,这是一种模型并行性,其中单个权重矩阵在多个 GPU 和服务器上分割,从而实现大规模的高效推理。

Nemotron-4 340B Base 经过 9 万亿个 token 的训练,可以使用 NeMo 框架进行定制,以适应特定的用例或领域。这种微调过程受益于大量的预训练数据,并为特定的下游任务提供更准确的输出。

在这当中,NeMo 框架提供了多种定制方法,包括监督微调和参数高效微调方法,如低秩自适应 (LoRA)。

为了提升模型质量,开发者可以使用 NeMo Aligner 和由 Nemotron-4 340B Reward 注释的数据集对其模型进行对齐。对齐是训练大型语言模型的一个关键步骤,其中模型行为通过使用类似 RLHF 算法进行微调,以确保其输出安全、准确、符合上下文且与其既定目标一致。

寻求企业级支持和生产环境安全的企业也可以通过云原生的 NVIDIA AI Enterprise 软件平台访问 NeMo 和 TensorRT-LLM。该平台为生成式 AI 基础模型提供了加速和高效的运行时环境。

评测数据

图 1 突出显示了 Nemotron-4 340B 模型家族在选定任务中的准确性。具体来说:

Nemotron-4-340B-Base 在 ARC-Challenge、MMLU 和 BigBench Hard 基准等常识推理任务上与 Llama-3 70B、Mixtral 8x22B 和 Qwen-2 72B 等开放访问基础模型相媲美。

在指令遵循和聊天功能方面,Nemotron-4-340B-Instruct 超越了相应的指令模型。Nemotron-4-340B Reward 在 RewardBench 上实现了最高准确率,甚至超越了 GPT-4o-0513 和 Gemini 1.5 Pro-0514 等专有模型。

图片

在 Nemotron-4-340B 推出后,评测平台立即放出了它的基准成绩,可见在 Arena-Hard-Auto 等硬基准测试中它的成绩超越了 Llama-3-70b

图片

这是否意味着,新的业界最强大模型已经出现?

参考链接:

https://blogs.nvidia.com/blog/nemotron-4-synthetic-data-generation-llm-training/

https://x.com/lmsysorg/status/1801682893988892716

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/28319.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

分布式系统中的经典思想实验——两将军问题和拜占庭将军问题

文章目录 一、两将军问题1.1 问题描述1.2 深入理解两将军问题1.3 实验结论 二、拜占庭将军问题2.1 问题描述2.2 深入理解拜占庭将军问题2.3 解决方案 三、两将军和拜占庭问题的关系3.1 区别和联系3.2 应用与现实意义 参考资料 一、两将军问题 1.1 问题描述 两将军问题描述的是…

el-pagination 切换分页条数,会出现两次请求

文章目录 前言一、问题展示二、源码展示 前言 继上一次发现el-pagination在删除的时候pageNum不更新的问题。这次又发现了,切换分页条数,会出现两次请求。网上有很多解决方案,我就不多说了,我就简单记一下为啥会出现两次请求的问…

21. 第21章 算法分析

21. 算法分析 这个附录选自OReilly Media出版的Alen B.Downey的Think Complexity(2012)一书. 当你读完本书之后, 可能会像继续读读那本书.算法分析是计算机科学的一个分支, 研究算法的性能, 尤其是他们的运行时间和空间需求. 参见http://en.wikipedia.org/wiki/Analysis_of_al…

Vue51-插件

一、插件的定义 vue里面的插件,类似于游戏的外挂。 vue中插件的本质:一个对象,里面必须包含install方法。 二、插件的使用 2-1、创建一个插件js文件(写在src中plugins.js) 2-2、应用插件:Vue.use(插件) …

机器真的能思考、学习和智能地行动吗?

In this post, were going to define what machine learning is and how computers think and learn. Were also going to look at some history relevant to the development of the intelligent machine. 在这篇文章中,我们将定义机器学习是什么,以及…

【Java03】Java中数组在内存中的机制

1. 内存中的数组 Java中的数组是一种引用类型,数组变量(引用)和数组元素在内存中是分开的。 Java中的数组变量其实就是指针。 如果想要访问数组元素,只能通过这个数组的引用变量(指针)来访问。 实际数组对…

【stm32-新建工程】

stm32-新建工程 ■ 下载相关STM32Cube官方固件包(F1,F4,F7,H7)■ 1. ST官方搜索STM32Cube■ 2. 搜索 STM32Cube■ 3. 点击获取软件■ 4. 选择对应的版本下载■ 5. 输入账号信息■ 6. 出现下载弹框,等待下载…

刚入职,写接口用了PUT和DELETE方法,结果被同事喷了,感觉自己被针对了

事情是这样,某社交平台上有个兄弟发帖,说自己刚入职国企,写了个借口,用了PUT和DELETE方法,前段说不能用这两个,这位仁兄感觉很委屈,特地发帖吐槽。 其实站在安全的角度来说,真没冤枉…

MySQL 示例数据库大全

前言: 我们练习 SQL 时,总会自己创造一些测试数据或者网上找些案例来学习,其实 MySQL 官方提供了好几个示例数据库,在 MySQL 的学习、开发和实践中具有非常重要的作用,能够帮助初学者更好地理解和应用 MySQL 的各种功…

云计算【第一阶段(14)】Linux的目录和结构

一、Liunx目录结构 1.1、linux目录结构 linux目录结构是树形目录结构 根目录(树根) 所有分区,目录,文件等的位置起点整个树形目录结构中,使用独立的一个"/",表示 1.2、常见的子目录 必须知道 目录路径目…

【探索Linux】P.34(HTTPS协议)

阅读导航 引言一、HTTPS是什么1. 什么是"加密"2. 为什么要加密3. 常见的加密方式(1)对称加密(2)非对称加密 二、证书认证1. CA认证 三、HTTPS的加密底层原理✅非对称加密对称加密证书认证 温馨提示 引言 在上一篇文章中…

阿里云服务器-Linux搭建fastDFS文件服务器

阿里云官网购买服务器,一般会有降价活动,这两天就发现有活动,99计划活动(在活动期内,续费都是99元) 阿里云官网-云服务器ECS 在这里,我购买了这台服务器,活动期内续费每年99元&…

[FFmpeg学习]windows环境sdl播放音频试验

参考资料: FFmpeg和SDL2播放mp4_sdl 播放mp4 声音-CSDN博客 SimplePlayer/SimplePlayer.c at master David1840/SimplePlayer GitHub 在前面的学习中,通过获得的AVFrame进行了播放画面, [FFmpeg学习]初级的SDL播放mp4测试-CSDN博客 播放…

仲恺ZK——信计专业《软件体系结构》24年试卷回忆

以下是我在总结的复习内容,有需要可以参考借鉴一下。我的主页还有另外一篇复习总结《仲恺ZK——信计专业《软件体系结构》,两者结合起来复习,帮助你轻松过考试😊。总的来说,考试不会太难,只要你了解了各类设…

Dockerfile 自定义镜像

大家好 , 今天我要和大家分享一个现代软件开发中不可或缺的工具 - Docker . 在这个快速发展的技术时代 , 我们经常面临着应用部署的复杂性、环境差异以及不同操作系统之间的兼容性问题 . 这些问题不仅消耗大量时间 , 还可能导致项目延期和成本增加 . Docker 的出现解决了我们在…

MFC工控项目实例之三theApp变量传递对话框参数

承接专栏《MFC工控项目实例之二主菜单制作》 用theApp变量传递对话框参数实时改变iPlotX坐标轴最小值、最大值。 1、新建IDD_SYS_DATA对话框,类名SYS_DATA。 三个编辑框IDC_EDIT1、IDC_EDIT2、IDC_EDIT3变量如图 2、SEAL_PRESSURE.h中添加代码 #include "re…

【前端项目笔记】1 登录与登出功能实现

项目笔记 ☆☆代表面试常见题 前后端分离:后端负责写接口,前端负责调接口。 登录/退出功能 登录业务流程 登录页面:用户名密码 调用后台接口进行验证 通过验证,根据后台响应状态跳到项目主页 登录业务相关技术点&#xff1…

Python(三)---字符串

文章目录 前言1.创建字符串2.字符串的编码3.空字符串和len()函数4.转义字符5.从控制台读取字符串6.字符串的相关操作6.1.通过[]访问元素6.2.字符串切片slice操作6.3.字符串拼接和字符串复制6.4.split()分割和join()合并6.5.常用查找方法6.6.replace() 实现字符串替换6.7.去除首…

vulnhub靶机hacksudoLPE中Challenge-1

下载地址:https://download.vulnhub.com/hacksudo/hacksudoLPE.zip 主机发现 目标146 端口扫描 服务扫描 漏洞扫描 上面那整出来几个洞,可以试试 easy? 估计就是看源码 看来是的 登入咯 这里进不去就是ssh咯 这个看着有点像提权的操作 一…

远程桌面端口,远程桌面改端口有哪些方法

方法一:通过修改注册表 步骤一:打开注册表编辑器 按下 Windows键R 打开“运行”对话框。输入 regedit 并按 Enter 打开注册表编辑器。 步骤二:定位到远程桌面服务的端口设置 导航至第一个注册表路径:HKEY_LOCAL_MACHINE\SYSTE…