Nvidia 发布了开创性的开放模型系列 “Nemotron-4 340B”,再次巩固了其作为人工智能创新领域无可争议的领导者的地位。这一发展标志着人工智能行业的一个重要里程碑,因为它使各行各业的企业能够创建功能强大的特定领域 LLM,而无需大量昂贵的真实世界数据集。
该模型曾在 LMSys.org Chatbot Arena 上以神秘的别名 "june-chatbot "运行,现在已被正式确认并推出,在人工智能界引起了巨大反响。
Nemotron-4 340B:用于合成数据生成的无与伦比的性能和多功能性
Nemotron-4 340B 系列包括基础模型、指令模型和奖励模型,形成了一个用于生成高质量合成数据的综合管道。Nemotron-4 340B 在训练中使用了惊人的 9 万亿个token、4,000 个上下文,并支持 50 多种自然语言和 40 种编程语言,超越了其竞争对手,包括 Mistral 的 Mixtral-8x22B、Anthropic 的 Claude-Sonnet、Meta 的 Llama3-70B、Qwen-2,甚至可与 GPT-4 的性能相媲美。
Nemotron-4 340B 最值得注意的方面之一是其商业友好的许可。高级深度学习研究工程师Somshubra Majumdar在 X.com 的一篇文章中强调了这一点,他说:“该许可证在商业上是可行的。是的,你可以用它来生成你想要的所有数据。
这些模型是根据英伟达™(NVIDIA®)开放模型许可协议开放访问的,这是一种允许分发、修改和使用模型及其输出结果的许可模型。这些模型在各种评估基准上的表现与开放访问模型相比具有竞争力,并且在以 FP8 精度部署时,其大小适合配备 8 个 GPU 的单个 DGX H100。我们相信,在各种研究和商业应用中,特别是在生成用于训练较小语言模型的合成数据时,社区可以从这些模型中获益。值得注意的是,在我们的模型对齐过程中,超过 98% 的数据都是合成的,这展示了这些模型在生成合成数据方面的有效性。为了进一步支持开放式研究和促进模型开发,我们还将开源模型配准过程中使用的合成数据生成管道。
Nvidia 致力于让企业能够使用 Nemotron-4 340B,这一点从其商业友好型许可模式中可见一斑。此举将实现人工智能的民主化,使各种规模的公司都能利用 LLM 的强大功能,并创建适合其特定需求的定制模型。HelpSteer2 数据集的发布将 Nemotron-4 340B Reward 模型推向了 Hugging Face RewardBench 排行榜的榜首,进一步彰显了 Nvidia 致力于推动整个人工智能社区发展的决心。
数据集
预训练数据混合了三种不同类型的数据: 英语自然语言数据(70%)、
多语言自然语言数据(15%)和源代码数据(15%)。英语语料库包括
英语语料库由经过策划的文档组成,这些文档来自各种来源和领域,包括网络文档、新闻报道、科学论文、书籍等。
论文、书籍等。我们的多语言数据包含 53 种自然语言,由来自单语言和平行语料库的文档组成。
我们的代码数据集由 43 种编程语言组成。
我们在这些数据上总共训练了 9T 个词条,其中前 8T 个词条是正式的预训练阶段,最后 1T 个词条是持续的预训练阶段。
最后 1T 为持续预训练阶段。有关我们的训练语料库和整理程序的更多详情
更详细的训练语料和整理程序,请参考 Parmar 等人(2024 年)的研究,Nemotron-4-340B-Base 采用了与 Nemotron-4-15 相同的数据混合。
与 Nemotron-4-15B-Base 相同。
架构细节
Nemotron-4-340B-Base 与 Nemotron-4-15B-Base 结构相似(Parmar 等人,2024 年)。它是一个
它是标准的仅解码器的 Transformer 架构(Vaswani 等人,2017 年),具有因果注意掩码,使用
旋转位置嵌入(RoPE)(Su 等人,2021 年)、SentencePiece tokenizer(Kudo 和 Richardson、
2018),以及 MLP 层中的平方 ReLU 激活。它没有偏置项,辍学率为零,并且
输入-输出嵌入。我们还使用了分组查询关注(GQA)(Ainslie 等人,2023 年)。
硬件需求
BF16 推理:
- 8x H200 (1x H200 node)
- 16x H100 (2x H100 nodes)
- 16x A100 80GB (2x A100 80GB nodes)
Nemotron-4 340B对各行各业的潜在影响:从医疗保健到金融等
Nemotron-4 340B对各个行业的潜在影响怎么强调都不为过。例如,在医疗保健领域,生成高质量合成数据的能力可能会在药物发现、个性化医疗和医学成像方面取得突破。在金融领域,使用合成数据训练的自定义 LLM 可以彻底改变欺诈检测、风险评估和客户服务。制造业和零售业也可以从特定领域的 LLM 中受益匪浅,从而实现预测性维护、供应链优化和个性化客户体验。
然而,英伟达在Nemotron-4 340B上的成功也凸显了AI芯片市场竞争的加剧。随着英特尔、AMD和苹果等科技巨头加大人工智能建设力度,英伟达将需要继续推动创新,以保持其领导地位。该公司最近收购了 Mellanox 和 Arm,以及加大对人工智能研发的投资,表明了其保持领先地位的承诺。
Nemotron-4 340B的发布也引发了关于数据隐私和安全未来的重要问题。随着合成数据变得越来越普遍,企业将需要确保他们有强大的保护措施来保护敏感信息并防止滥用。此外,必须仔细考虑使用合成数据训练人工智能模型的伦理影响,因为数据中的偏见和不准确可能会导致意想不到的后果。
尽管存在这些挑战,但人工智能社区还是以热情和兴奋的心情迎接了Nemotron-4 340B的发布。在 lmsys.org 聊天机器人领域与该模型互动的用户的早期反馈非常积极,许多人称赞其令人印象深刻的性能和特定领域的知识。
随着越来越多的企业采用Nemotron-4 340B并开始生成自己的合成数据,我们可以期待看到各行各业的创新和颠覆浪潮。英伟达富有远见的领导力和对推进人工智能技术的坚定承诺,再次使公司处于人工智能革命的最前沿,其对商业和社会的未来将产生深远的影响。
更多信息
https://d1qx31qr3h6wln.cloudfront.net/publications/Nemotron_4_340B_8T_0.pdf
我会定期在CSDN分享我的学习心得,项目经验和行业动态。如果你对某个领域感兴趣,或者想要了解更多技术干货,请关注我的账号,一起成长!