【什么!Grok记录被打破了】坏消息不是Meta的 llama3 400,好消息是Nvidia发布的Nemotron-4 340B且支持开源

Nvidia 发布了开创性的开放模型系列 “Nemotron-4 340B”,再次巩固了其作为人工智能创新领域无可争议的领导者的地位。这一发展标志着人工智能行业的一个重要里程碑,因为它使各行各业的企业能够创建功能强大的特定领域 LLM,而无需大量昂贵的真实世界数据集。

该模型曾在 LMSys.org Chatbot Arena 上以神秘的别名 "june-chatbot "运行,现在已被正式确认并推出,在人工智能界引起了巨大反响。

在这里插入图片描述

Nemotron-4 340B:用于合成数据生成的无与伦比的性能和多功能性

Nemotron-4 340B 系列包括基础模型、指令模型和奖励模型,形成了一个用于生成高质量合成数据的综合管道。Nemotron-4 340B 在训练中使用了惊人的 9 万亿个token、4,000 个上下文,并支持 50 多种自然语言和 40 种编程语言,超越了其竞争对手,包括 Mistral 的 Mixtral-8x22B、Anthropic 的 Claude-Sonnet、Meta 的 Llama3-70B、Qwen-2,甚至可与 GPT-4 的性能相媲美。

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

Nemotron-4 340B 最值得注意的方面之一是其商业友好的许可。高级深度学习研究工程师Somshubra Majumdar在 X.com 的一篇文章中强调了这一点,他说:“该许可证在商业上是可行的。是的,你可以用它来生成你想要的所有数据。

在这里插入图片描述

这些模型是根据英伟达™(NVIDIA®)开放模型许可协议开放访问的,这是一种允许分发、修改和使用模型及其输出结果的许可模型。这些模型在各种评估基准上的表现与开放访问模型相比具有竞争力,并且在以 FP8 精度部署时,其大小适合配备 8 个 GPU 的单个 DGX H100。我们相信,在各种研究和商业应用中,特别是在生成用于训练较小语言模型的合成数据时,社区可以从这些模型中获益。值得注意的是,在我们的模型对齐过程中,超过 98% 的数据都是合成的,这展示了这些模型在生成合成数据方面的有效性。为了进一步支持开放式研究和促进模型开发,我们还将开源模型配准过程中使用的合成数据生成管道。

Nvidia 致力于让企业能够使用 Nemotron-4 340B,这一点从其商业友好型许可模式中可见一斑。此举将实现人工智能的民主化,使各种规模的公司都能利用 LLM 的强大功能,并创建适合其特定需求的定制模型。HelpSteer2 数据集的发布将 Nemotron-4 340B Reward 模型推向了 Hugging Face RewardBench 排行榜的榜首,进一步彰显了 Nvidia 致力于推动整个人工智能社区发展的决心。

数据集

预训练数据混合了三种不同类型的数据: 英语自然语言数据(70%)、
多语言自然语言数据(15%)和源代码数据(15%)。英语语料库包括
英语语料库由经过策划的文档组成,这些文档来自各种来源和领域,包括网络文档、新闻报道、科学论文、书籍等。
论文、书籍等。我们的多语言数据包含 53 种自然语言,由来自单语言和平行语料库的文档组成。
我们的代码数据集由 43 种编程语言组成。
我们在这些数据上总共训练了 9T 个词条,其中前 8T 个词条是正式的预训练阶段,最后 1T 个词条是持续的预训练阶段。
最后 1T 为持续预训练阶段。有关我们的训练语料库和整理程序的更多详情
更详细的训练语料和整理程序,请参考 Parmar 等人(2024 年)的研究,Nemotron-4-340B-Base 采用了与 Nemotron-4-15 相同的数据混合。
与 Nemotron-4-15B-Base 相同。

架构细节

Nemotron-4-340B-Base 与 Nemotron-4-15B-Base 结构相似(Parmar 等人,2024 年)。它是一个
它是标准的仅解码器的 Transformer 架构(Vaswani 等人,2017 年),具有因果注意掩码,使用
旋转位置嵌入(RoPE)(Su 等人,2021 年)、SentencePiece tokenizer(Kudo 和 Richardson、
2018),以及 MLP 层中的平方 ReLU 激活。它没有偏置项,辍学率为零,并且
输入-输出嵌入。我们还使用了分组查询关注(GQA)(Ainslie 等人,2023 年)。

在这里插入图片描述

硬件需求

BF16 推理:

  • 8x H200 (1x H200 node)
  • 16x H100 (2x H100 nodes)
  • 16x A100 80GB (2x A100 80GB nodes)

Nemotron-4 340B对各行各业的潜在影响:从医疗保健到金融等

Nemotron-4 340B对各个行业的潜在影响怎么强调都不为过。例如,在医疗保健领域,生成高质量合成数据的能力可能会在药物发现、个性化医疗和医学成像方面取得突破。在金融领域,使用合成数据训练的自定义 LLM 可以彻底改变欺诈检测、风险评估和客户服务。制造业和零售业也可以从特定领域的 LLM 中受益匪浅,从而实现预测性维护、供应链优化和个性化客户体验。

然而,英伟达在Nemotron-4 340B上的成功也凸显了AI芯片市场竞争的加剧。随着英特尔、AMD和苹果等科技巨头加大人工智能建设力度,英伟达将需要继续推动创新,以保持其领导地位。该公司最近收购了 Mellanox 和 Arm,以及加大对人工智能研发的投资,表明了其保持领先地位的承诺。

Nemotron-4 340B的发布也引发了关于数据隐私和安全未来的重要问题。随着合成数据变得越来越普遍,企业将需要确保他们有强大的保护措施来保护敏感信息并防止滥用。此外,必须仔细考虑使用合成数据训练人工智能模型的伦理影响,因为数据中的偏见和不准确可能会导致意想不到的后果。

尽管存在这些挑战,但人工智能社区还是以热情和兴奋的心情迎接了Nemotron-4 340B的发布。在 lmsys.org 聊天机器人领域与该模型互动的用户的早期反馈非常积极,许多人称赞其令人印象深刻的性能和特定领域的知识。

随着越来越多的企业采用Nemotron-4 340B并开始生成自己的合成数据,我们可以期待看到各行各业的创新和颠覆浪潮。英伟达富有远见的领导力和对推进人工智能技术的坚定承诺,再次使公司处于人工智能革命的最前沿,其对商业和社会的未来将产生深远的影响。

更多信息

https://d1qx31qr3h6wln.cloudfront.net/publications/Nemotron_4_340B_8T_0.pdf

我会定期在CSDN分享我的学习心得,项目经验和行业动态。如果你对某个领域感兴趣,或者想要了解更多技术干货,请关注我的账号,一起成长!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/28204.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入分析 Android BroadcastReceiver (三)

文章目录 深入分析 Android BroadcastReceiver (三)1. 广播消息的优缺点及使用场景1.1 优点1.2 缺点 2. 广播的使用场景及代码示例2.1. 系统广播示例:监听网络状态变化 2.2. 自定义广播示例:发送自定义广播 2.3. 有序广播示例:有序广播 2.4. …

线代知识点总结

目录 一.初等行/列变换 1.计算行列式时,行列变换都可 2.求矩阵的秩时,行列变换都可 3.解线性方程组时,仅能使用初等行变换 4.判定解的情况,单纯求r(A),r(A,b)的过程行列变换都可 5.求向量组极大无关组、线性表出关系&#x…

汽车级TPSI2140QDWQRQ1隔离式固态继电器,TMUX6136PWR、TMUX1109PWR、TMUX1133PWR模拟开关与多路复用器(参数)

1、TPSI2140-Q1 是一款隔离式固态继电器,专为高电压汽车和工业应用而设计。 TPSI2140-Q1 与 TI 具有高可靠性的电容隔离技术和内部背对背 MOSFET 整合在一起,形成了一款完全集成式解决方案,无需次级侧电源。 该器件的初级侧仅由 9mA 的输入电…

线程介绍及其Java如何用Thread 类创建线程和操作线程方法

目录 一、进程和线程1.1 进程特征 2.2 线程特征 2.3 区别 二、利用Thread类创建线程2.1 通过创建Thread子类,重写run()方法2.2 通过实现Runnable接口,重写run()方法2.3. Callable接口 FutureTask 创建线程2.3 三种方法区别1. 通过创建Thread子类&#x…

SQL深度解析:掌握这些技巧,让你的数据库查询如虎添翼!

前言 随着大数据时代的来临,数据库的角色愈发重要。SQL作为使用最为广泛的数据查询语言,其深度解析与优化对于数据密集型应用来说至关重要。掌握高级SQL技巧不仅可以提升开发效率,还能显著提高数据查询的性能和灵活性。本文将探讨一些关键的S…

修改SubVI的LabVIEW默认搜索路径

在启动顶级VI后&#xff0c;LabVIEW可能会遇到找不到subVI的情况。这通常是由于subVI的路径发生了变化或没有被正确配置。 LabVIEW默认搜索路径 默认情况下&#xff0c;LabVIEW会按以下顺序搜索文件位置&#xff08;*表示LabVIEW将搜索子目录&#xff09;&#xff1a; <t…

如何从印刷体的图片中把手写体部分统统去掉?--免费途径

AI图像处理技术 我是从国外某个网站上找到在线AI免费credit的处理方式的。国内的基本没有全功能试用、或者即使收费也不好用。 国内的差距主要是&#xff1a;1、对图片分辨率和大小有更多限制&#xff0c;即使收费用户也是&#xff1b;2、需要安装app之类&#xff0c;然后连线…

MongoDB使用$addToSet向数组中添加元素

学习mongodb&#xff0c;体会mongodb的每一个使用细节&#xff0c;欢迎阅读威赞的文章。这是威赞发布的第66篇mongodb技术文章&#xff0c;欢迎浏览本专栏威赞发布的其他文章。如果您认为我的文章对您有帮助或者解决您的问题&#xff0c;欢迎在文章下面点个赞&#xff0c;或者关…

驱动开发(四):Linux内核中断

驱动开发系列文章&#xff1a; 驱动开发&#xff08;一&#xff09;&#xff1a;驱动代码的基本框架 驱动开发&#xff08;二&#xff09;&#xff1a;创建字符设备驱动 驱动开发&#xff08;三&#xff09;&#xff1a;内核层控制硬件层 驱动开发&#xff08;四&#xf…

java:一个springfox swagger2的简单例子

# 示例程序 【pom.xml】 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId><version>2.3.12.RELEASE</version> </dependency> <dependency><groupId>…

视图-什么是(VIEW)?怎么创建(CREATE VIEW)?怎么删除(DROP)?怎么用(SELECT/INSERT/UPDATE/DELETE)?

一、引言 之前对数据库的操作都是针对基本关系表&#xff0c;操作都是在数据库的全局逻辑模式上进行的&#xff0c;而在实际的数据库系统中&#xff0c;可能用户只关心或只被允许使用数据库中的某些基本关系表或基本关系表中的某些属性列&#xff0c;这些数据构成了数据库的外…

vue(v-if,v-else-if-else-show)

基本应用 例子 <!DOCTYPE html> <html lang"en"> <head> <meta charset"UTE-8"> <meta http-equiv"X-UA-Compatible" content"IEedge"><meta name"viewport" content"widthdevice-w…

LabView_波形控件

波形图表 将一定数量的数据点存储在缓冲区&#xff0c;并通过这种方式存储并显示这些数据点。当缓冲区被填满后&#xff0c;波形图表将会用新的数据点覆盖缓冲区中存在时间最久的数据点。 当数据点可用时&#xff0c;波形图表将显示已有的数据点外加最新接收到的数据点 。 您可…

NVIDIA Triton系列02-功能与架构简介

NVIDIA Triton系列02-功能与架构简介 B站&#xff1a;肆十二-的个人空间-肆十二-个人主页-哔哩哔哩视频 (bilibili.com) 博客&#xff1a;肆十二-CSDN博客 问答&#xff1a;(10 封私信 / 72 条消息) 肆十二 - 知乎 (zhihu.com) 前面文章介绍微软 Teams 会议系统、微信软件与腾讯…

Thinkphp一文鸡富贵鸡玫瑰庄园富农场仿皮皮果理财农场源码

Thinkphp一文鸡富贵鸡玫瑰庄园富农场仿皮皮果理财农场源码&#xff0c;喜欢的朋友可以下载研究 一文鸡富贵鸡玫瑰庄园富农场仿皮皮果理财农场源码

Django初学者指南

文章目录 Django初学者指南1 Django简介1.1 Django的历史1.2 使用Django的知名网站1.4 Django的主要特点1.5 Django的工作原理 2 Django 使用2.1 Django 支持的 Python 版本2.2 Django 版本 3 Django 开发 Web 程序3.1 安装Django3.2 创建Django项目3.3 运行开发服务器3.4 创建…

数据结构02 队列及其应用【C++实现】

目录 队列及其特点 利用数组模拟队列的基本操作 创建队列 空队条件 元素入队 元素出队 模拟超市收银问题 队列操作 初始化 入队操作 出队操作 取出队首元素 STL模板中队列的基本使用 训练&#xff1a;约瑟夫问题 参考程序 队列及其特点 队列是一种特殊的线性表&am…

求导,积分

求导公式&#xff1a; 复合函数求导法则&#xff1a;两个函数导函数的乘积. 例如&#xff1a;f(x)2x1,f(x)2,g(x)x^24x4,g(x)2x4 那么复合函数&#xff1a; g(f(x))(2x1)^24(2x1)4 把&#xff08;2x1&#xff09;看做整体,则g2(2x1)4 然后再求&#xff08;2x1&#xff09;的导函…

Stable Diffusion vs DALL·E3

大模型技术论文不断&#xff0c;每个月总会新增上千篇。本专栏精选论文重点解读&#xff0c;主题还是围绕着行业实践和工程量产。若在某个环节出现卡点&#xff0c;可以回到大模型必备腔调或者LLM背后的基础模型新阅读。而最新科技&#xff08;Mamba,xLSTM,KAN&#xff09;则提…

基于System-Verilog的流水灯设计与仿真

文章目录 一、system Verilog1.语言基本介绍2.过程赋值和连续赋值 二、编写testbench仿真1.流水灯testbench2.2位全加器3.实验结果 一、system Verilog 1.语言基本介绍 像 Verilog 和 VHDL 之类的硬件描述语言 (HDL) 主要用于描述硬件行为&#xff0c;以便将其转换为由组合门…