NVIDIA大模型平台软件全家桶开启云智能第二曲线

第二曲线由英国管理思想大师查尔斯·汉迪提出,讲的是在企业第一曲线达到巅峰的时候,找到驱动企业二次腾飞的第二曲线。而如果企业想实现基业长青,就需要通过主动式破局式创新,跨越到第二曲线中。对于当下的云智能产业以及基于云智能进行数字化转型的广大企业来说,LLM大模型和生成式AI就是开启第二曲线的机遇。

在AI加速计算领域,NVIDIA是市场领导者。早在2019年,NVIDIA就推出了Megatron-LM大语言模型加速软件框架以及一系列创新软件,与NVIDIA已有的人工智能软件一起,为破局第二曲线创新做好了准备。

在2023年11月初由阿里云举办的2023云栖大会上,面向LLM的NVIDIA AI软件“全家桶”吸引了大量开发者。PAI-Megatron-Patch、PAI-ChatLearn等NVIDIA与阿里云合作的大模型平台软件成果亮相,NVIDIA与蚂蚁集团、阿里云医疗与金融行业等合作的案例集中展示,充分显示了NVIDIA的软实力。

作为端到端的数据中心级全栈AI和加速计算解决方案创新者,NVIDIA与阿里云一起开创生成式AI新时代,为云智能产业和企业数字化转型全面打开第二曲线新机遇。

大模型PaaS平台的软底座

对于开发者和企业用户来说,如果想要尽快享受大模型的红利,第一选择就是由公有云服务商提供的自有大模型,以及托管了开源大模型的PaaS(又称为Model as a Service,MaaS)供开发者和企业选用。

例如阿里云既推出了自研通用大模型通义,也推出了MaaS平台灵积,托管了通义千问、Stable Diffusion、ChatGLM-v2、百川、姜子牙等开源大模型,而在阿里云大模型底层的是灵骏智算集群,可支持十万卡GPU规模、承载多个万亿参数大模型同时在线训练,此外阿里云人工智能平台PAI提供AI开发全流程的工程能力。

一方面,很多公有云的自有大模型和MaaS的底层,都采用了NVIDIA大模型软件技术;另一方面,除了公有云的自有大模型和MaaS外,还有一个通用大模型训练框架可选择,这就是由NVIDIA提供的Megatron-LM大模型分布式训练框架,该框架是由NVIDIA开发的一个开源的大模型加速训练框架,通过并行计算等优化方法可极大缩短大模型的训练时间。

2023年9月,阿里云人工智能平台PAI开源了业内较早投入业务应用的大模型训练一站式工具箱Pai-Megatron-Patch,该工具箱基于阿里云上的Megatron-LM最佳实践并补充了丰富的工具。2023云栖大会期间,阿里云和NVIDIA对Pai-Megatron-Patch进行了详细的技术介绍,该工具箱可快速帮助用户上手各种Megatron-LM大模型训练加速技术,以及基于Megatron-LM和阿里云灵骏集群,加速上手更多的HuggingFace开源大模型。

Pai-Megatron-Patch的设计理念是不对Megatron-LM源码进行侵入式修改,即不向Megatron-LM添加新的功能特性,而将需要扩充完善的部分以patch补丁的方式呈现,从而让Megatron-LM的升级不影响到用户LLM最佳实践体验。Pai-Megatron-Patch具有多种特色:支持Llama v1/v2、Code Llama、Baichuan v1/v2、通义千问、Falcon、GLM、StarCoder、BLOOM、ChatGLM等多款热门大模型;提供了HuggingFace模型权重和Megatron模型权重之间的双向转换;支持Flash Attention 2.0和Transformer Engine模式下的FP8训练加速且确保收敛;支持大模型预训练、微调、评估和推理,以及强化学习全流程最佳实践;提供了大模型汉化工具以及阿里云灵骏平台上的最佳实践等等。

PAI-ChatLearn是阿里云人工智能平台 PAI (Platform of AI) 团队自主研发,灵活易用、大规模模型 RLHF 高效训练框架。PAI-ChatLearn支持大模型进行 SFT(有监督指令微调)、RM(奖励模型)、RLHF(基于人类反馈的强化学习)完整训练流程。PAI-ChatLearn采用了多种并行计算技术,突破了已有框架只适用单模型训练/推理的局限,支持更大规模(例如175B + 175B)模型的RLHF训练,特别是支持混合框架训练/推理,例如训练采用Magnetron、推理采用vLLM等。

Pai-Megatron-Patch和PAI-ChatLearn的意义在于积累了阿里云大模型实践,基于NVIDIA Megatron-LM加速框架,能够最大化NVIDIA软件人才的复用率,同时还能减轻企业数字化转型的技术负担,只需要熟悉Megatron-LM框架即可在阿里云上进行大模型的选型、训练和部署应用及推理等全流程。

在Pai-Megatron-Patch和PAI-ChatLearn的示范下,相信将有更多的公有云将提供基于Megatron-LM的通用大模型PaaS,加速打开云智能第二曲线。

大模型平台软件“全家桶”

生成式AI应用的普及将带来大模型的多云与混合云部署,而这就需要跨多云与混合云的通用大模型平台软件。在2023云栖大会上,NVIDIA介绍了NeMo、TensorRT、TensorRT-LLM、Triton推理服务器、Megatron、Megatron Core等大模型平台软件和框架“全家桶”,能够极大加速大模型的训练、微调和推理部署等全链条,缩短大模型和生成式AI应用的研发周期、降低成本。

NVIDIA在几年前就推出了NVIDIA NGC (NVIDIA GPU Cloud),这是一款训练深度学习模型时需要的工具资源的集合,它提供了众多Docker容器允许用户在容器内直接使用GPU,无需安装GPU驱动和CUDA库,从而可以更好地利用GPU资源执行深度学习。NVIDIA在Docker容器的基础上,提供了PyTorch、TensorFlow等所有的主流深度学习框架。

NVIDIA NeMo是一个用于构建先进的对话式AI模型的框架,内置集成了自动语音识别(ASR)、自然语言处理(NLP)和语音合成(TTS)的模型及训练方案。作为一个端到端内置集成了自动语音识别的生产级别开源框架,用户可以基于NVIDIA NeMo直接开发对话式AI应用。NVIDIA NeMo既可以容器化部署,也可直接在裸金属服务器上使用,从而支持多云和混合云环境。

NVIDIA在NeMo的基础上推出了NeMo framework,这是一个端到端的容器化分布式框架,包含了数据处理、训练及优化部署,它允许开发人员高效地训练和部署具有数十亿和数万亿参数的大语言模型。采用NeMo framework,开发者可以进行大模型的训练,训练的模型可导出到TensorRT-LLM并在 NVIDIA Triton 推理服务器进行部署,从而在多个 GPU 和多个节点上运行大语言模型。

而Triton 推理服务器是NVIDIA发布的一款开源软件,可简化深度学习模型在生产环境中的部署。Triton支持所有 NVIDIA GPU、x86和ARM架构CPU以及AWS Inferentia,支持所有的主流云平台、本地AI平台以及MLOps平台。

TensorRT是NVIDIA提供的一款高性能深度学习推理SDK,该SDK包含深度学习推理优化器和运行环境,可为深度学习推理应用提供低延迟和高吞吐量,可用于超大规模数据中心、嵌入式平台或自动驾驶平台进行推理。

最新发布的 TensorRT-LLM,专门用于编译和优化大语言模型推理,可在NVIDIA GPU上加速和优化大语言模型的推理性能,该开源程序库现已作为 NVIDIA NeMo 框架的一部分,在GitHub资源库中免费提供。TensorRT-LLM包含了TensorRT,并采用了最新的优化内核,可在GPU上实现突破性的大语言模型推理性能。

而前面提到的Megatron-LM是一个开源的轻量级大模型训练加速框架,也是当前非常流行的大模型训练框架之一,特别是其中的4D并行计算技术已经成为大模型训练的标准范式之一,Megatron-DeepSpeed和Pai-Megatron-Patch等都是从Megatron-LM衍生出来的大模型训练方案。

如今,NVIDIA还将Megatron-LM的核心功能进一步抽取为Megatron Core。简单理解,如果将Megatron-LM、Megatron-DeepSpeed、Pai-Megatron-Patch、NeMo等视为各种“Linux发行版”的话,那么Megatron Core就相当于“Linux Kernel”内核。作为一个完整和独立的产品,NVIDIA为Megatron Core设计了独立的技术路线图、提供了完善的技术文档、定期发布更新版本以及通过完整的CICD测试确保版本的稳定性等。

随着Megatron Core的正式问世,NVIDIA对于大模型软件平台体系的愿景也浮出水面:要打造大模型平台软件的开源“内核”,成为所有大模型软件和生态式AI应用的“操作系统”。而这就是NVIDIA大模型“全家桶”的意义所在——打造大模型与生成式AI的“操作系统”,为云智能第二曲线提供产品化平台软件体系支撑。

推进大模型创新前沿

未来三年,我们将进入全民化生成式AI阶段。根据Gartner的预测,到 2026 年,超过80%的企业将使用生成式AI的API或模型,或在生产环境中部署支持生成式AI的应用,而在2023年初这一比例不到5%。毫无疑问,大模型和生成式AI将打开云智能与数字化转型的第二曲线,而NVIDIA还在不断推出大模型与生成式AI的创新前沿。

在2023云栖大会上,NVIDIA专家介绍了 NVIDIA Megatron Core 的技术路线图,特别提及当前版本的Megatron Core已经开始支持MoE预训练。MoE混合专家模型将多个模型(即“专家”)结合在一起,以获得更好的预测性能。MoE在文本、图像、搜索和多模态大模型等领域都取得了很多成果,可以说是下一代LLM大模型。

在Megatron Core的2023年11月版本中,已经包括了对于MoE的功能性支持、专家并行技术(Expert Parallelism,EP)、专家张量并行技术(Expert Tensor Parallelism,ETP)等,在2023年12月版本中还将提供MoE进一步的性能优化,以及在明年提供对于多模态的并行计算支持等。也就是说,NVIDIA将在Megatron Core中内置对下一代MoE大模型的全面支持。

在Megatron Core还集成了FP8计算。NVIDIA Hopper是最新的NVIDIA GPU架构,基于Hopper架构的GPU充分利用了最新的FP8张量核心(Tensor Core)技术,实现了速度更快的低精度AI训练方法。因为机器学习的研究人员发现,在很多神经网络计算中,不需要使用高精度的数据类型,神经网络依然能得出同样准确的答案,因此更低精度的FP8计算能够用更低成本与能耗实现更快的推理计算。Megatron Core将通过集成Transformer Engine API的方式,直接“开箱即用”式使用FP8计算。Transformer Engine是针对Transformer模型结构推出的加速库,包括在Hopper GPU上支持FP8精度计算。

大模型与生成式AI的另一个创新前沿是数据中心网络,面向AI的网络是数据中心的下一步优化方向。无论是新建或升级数据中心,大模型与生成式AI应用都对数据中心的网络提出了全新的要求,也就是比传统数据中心激增了数据中心内部的网络通信,NVIDIA为此推出下一代AI网络方案,包括NVIDIA BlueField-3 DPU、NVIDIA Quantum-2 InfiniBand 交换机、NVIDIA SHARP、NVIDIA Spectrum-4 交换机及NVIDIA DOCA等端到端网络解决方案核心产品及技术,这些都在2023云栖大会上集中亮相。

​与领先大模型团队在一起

过去两年,NVIDIA一直与领先的大语言模型企业与团队开展密切合作,帮助云智能产业和企业数字化转型加速开启第二曲线。在2023云栖大会上,展示了NVIDIA与蚂蚁集团、阿里云行业团队等大模型深度优化加速最佳实践。

蚂蚁集团大模型团队开源的CodeFuse大模型是蚂蚁自研的代码生成专属大模型,是蚂蚁百灵大模型家族的一员。CodeFuse根据开发者的输入提供智能建议和实时支持,帮助开发者自动补全/生成代码、自动增加注释、自动生成测试用例、修复和优化代码等,以提升研发效率。CodeFuse采用了NVIDIA TensorRT-LLM,实现了对大模型推理的优化加速,甚至在推理端实现了FP4/INT4更低精度推理,极大降低了成本、提高了推理速度。

NVIDIA Clara Parabricks是由NVIDIA开发、基于GPU的基因测序分析加速软件,提供多种生物信息学工具和功能。阿里云基因分析平台是国内首个公有云的行业PaaS平台,以容器化的方式大规模处理基因组学分析数据,集成NVIDIA Clara Parabricks等行业软件和开源工具,形成完整的端到端解决方案。

在2023云栖大会前夕,淘天集团联合爱橙科技正式对外开源大模型训练框架——Megatron-LLaMA,旨在让技术开发者们能够更方便地提升大语言模型训练性能,降低训练成本,并保持和LLaMA社区的兼容性。测试显示,在32卡训练上,相比HuggingFace上直接获得的代码版本,Megatron-LLaMA能够取得176%的加速;在大规模的训练上,Megatron-LLaMA相比较32卡拥有几乎线性的扩展性,且对网络不稳定表现出高容忍度。

此外,NVIDIA还为开箱即用的魔搭开源模型和灵积模型服务高效 GPU 优化、Megatron 加速通义大模型训练等。

在2023云栖大会上,NVIDIA还展示了在持续推进大模型与AI技术生态、为业界广大开发者、初创企业、女性科技从业者提供丰富的学习资源和生态支持。只有构建更加丰富和开放的生态,才能真正推动生成式AI应用的繁荣,从长期拉升云智能第二曲线。

【全文总结】在2023云栖大会上,NVIDIA从多个维度展示其大模型平台软件的技术领先性。在大模型时代,NVIDIA的AI与大模型平台软件资产正在快速汇聚起来,形成 AI 操作系统和中间件等的一站式通用开发平台,从而成为云智能第二曲线的内核引擎。(文/宁川)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/133865.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【电源专题】PSE如何与PD握手协商功率等级?

在文章:【电源专题】POE连接方式与功率等级划分 中我们讲到POE协议对不同的PD设备进行划分,比如根据不同的供电标准又可以细分成好几种不同的类型(Type1~Type4)和功率等级。 那么有这么多功率等级,PSE怎么知道PD是哪种类型呢?怎么能进行握手协商呢? 下图为PSE与PD设备在…

python 之生成器表达式,以及与列表推导式的区别

文章目录 生成器表达式基本结构示例生成一个简单的生成器遍历生成器并获取值使用条件过滤 优点 生成器表达式与列表推导式的区别1. 返回类型2. 生成方式3. 内存占用4. 访问方式示例总结 生成器表达式是一种在 Python 中用来创建生成器的高效方法。生成器表达式和列表推导式类似…

jstat虚拟机统计信息监控工具

jstat虚拟机统计信息监控工具 1、jstat(JVM Statistics Monitorning Tool) 用于监控虚拟机各种运行状态信息的命令行工具。 它可以显示本地或远程虚拟机进程中的类装载、内存、垃圾收集、JIT编译等运行数据,它是运行期定位虚拟机 性能问题…

数据结构——基于顺序表实现通讯录

一、. 基于动态顺序表实现通讯录 1.1 功能要求 1)⾄少能够存储100个⼈的通讯信息 2)能够保存⽤⼾信息:名字、性别、年龄、电话、地址等 3)增加联系⼈信息 4)删除指定联系⼈ 5)查找制定联系⼈ 6&…

vuepress 打包后左侧菜单链接 404 问题解决办法

背景 上周看到一本开源书 《深入架构原理与实践》,是基于 vuepress 搭建的,下载了源码,本地部署了一下,本文记录如何打包该源码遇到的路径问题及思考。 结论: vuepress 插件的 sideBar 的菜单路径默认是相对 / 的&am…

FPGA高端项目:图像缩放+GTP+UDP架构,高速接口以太网视频传输,提供2套工程源码加QT上位机源码和技术支持

目录 1、前言免责声明本项目特点 2、相关方案推荐我这里已有的 GT 高速接口解决方案我这里已有的以太网方案我这里已有的图像处理方案 3、设计思路框架设计框图视频源选择ADV7611 解码芯片配置及采集动态彩条跨时钟FIFO图像缩放模块详解设计框图代码框图2种插值算法的整合与选择…

【Java 进阶篇】MVC 模式

欢迎来到本篇详细解释 MVC(Model-View-Controller)设计模式的教程。MVC 是一种用于组织应用程序的设计模式,有助于将应用程序分成不同的部分,以提高代码的可维护性和可扩展性。在本文中,我们将深入研究 MVC 模式&#…

SpringBoot整合定时任务遇到的多实例问题

唠嗑部分 是这样,前几日完善了定时任务的日志记录,今日切换了服务器,多部署了一个节点,使用nginx负载均衡,但是查看日志却发现了如下情况 那糟糕了,传说中的多实例问题出现了,今天我们就来聊聊…

虚幻引擎 5.1 中全新的增强型输入操作系统

教程链接 https://www.youtube.com/watch?vCYiHNbAIp4s 前提 虚幻引擎5.1之后,项目设置里的input选项,默认会有一条警告,告知旧的input系统已经不能用了。 做法 在content文件夹下新建一个input按钮 input文件夹里面分成两部分内容 1.…

【ARMv8 SIMD和浮点指令编程】浮点加减乘除指令——四则运算

浮点指令有专门的加减乘除四则运算指令,比如 FADD、FSUB、FMUL、FDIV 等。 1 FADD (scalar) 浮点加法(标量)。该指令将两个源 SIMD&FP 寄存器的浮点值相加,并将结果写入目标 SIMD&FP 寄存器。 该指令可以产生浮点异常。根据 FPCR 中的设置,异常会导致在 FPSR 中…

Pytest系列(16)- 分布式测试插件之pytest-xdist的详细使用

前言 平常我们功能测试用例非常多时,比如有1千条用例,假设每个用例执行需要1分钟,如果单个测试人员执行需要1000分钟才能跑完当项目非常紧急时,会需要协调多个测试资源来把任务分成两部分,于是执行时间缩短一半&#…

AVL树性质和实现

AVL树 AVL是两名俄罗斯数学家的名字,以此纪念 与二叉搜索树的区别 AVL树在二叉搜索树的基础上增加了新的限制:需要时刻保证每个树中每个结点的左右子树高度之差的绝对值不超过1 因此,当向树中插入新结点后,即可降低树的高度&…

InSAR 滤波算法

目录 1.InSAR 滤波原理 2.InSAR 滤波算法 2.1 均值滤波 2.2 Goldstein 滤波 2.3 改进的Goldstein 滤波 2.4 精致 Lee 滤波 2.5 小波滤波2.6 NL-InSAR 滤波 2.7 InSAR-BM3D 滤波 3.参考文献 本文由CSDN点云侠原创,爬虫网站请自重。 InSAR 滤波是InSAR 技术处理中的一…

rviz添加qt插件

一、增加rviz plugin插件 资料:http://admin.guyuehome.com/42336 https://blog.51cto.com/u_13625033/6126970 这部分代码只是将上面两个链接中的代码整合在了一起,整合在一起后可以更好的理解其中的关系 1、创建软件包 catkin_create_pkg rviz_tel…

IntelliJ IDEA 如何修改默认Maven仓库地址

在使用idea过程中,每次新建项目或者打开项目时,maven仓库地址都会变为默认地址。如何修改默认地址,让其保持不变,如下这种方式可以简单快捷的设置。 1.打开idea,取消项目自动加载 2.点击 Customize,然后再点击 All se…

DeepLearning - 余弦退火热重启学习率 CosineAnnealingWarmRestartsLR

欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/134249925 CosineAnnealingWarmRestartsLR,即 余弦退火热重启学习率,周期性修改学习率的下降和上升,间隔幅度逐…

K7系列FPGA进行FLASH读写1——CCLK控制(STARTUPE2原语)

最近的工作涉及对 FPGA 进行远程更新,也就是通过远程通信接口将 .bin 文件送到 FPGA,然后写入 FLASH,这样当 FPGA 重新上电后就可以执行更新后的程序了。因此第一步工作就是进行 FLASH 的读写控制。 然而如果尝试配置 FLASH 管脚时&#xff0…

Android Datastore 动态创建与源码解析

涉及到的知识点 1、协程原理---->很好的博客介绍,一个小故事讲明白进程、线程、Kotlin 协程到底啥关系? 2、Channel知识点---->Android—kotlin-Channel超详细讲解 3、Coroutines : CompletableDeferred and structured concurrency 封装的DataS…

数学建模比赛中常用的建模提示词(数模prompt)

以下为数学建模比赛中常用的建模提示词,希望对你有所帮助! 帮我总结一下数学建模有哪些预测类算法? 灰色预测模型级比检验是什么意思? 描述一下BP神经网络算法的建模步骤 对于分类变量与分类变量相关性分析用什么算法 前10年的数据分别是1&a…

代码随想录 Day38 完全背包问题 LeetCode T70 爬楼梯 T322 零钱兑换 T279 完全平方数

前言 在今天的题目开始之前,让我们来回顾一下之前的知识,动规五部曲 1.确定dp数组含义 2.确定dp数组的递推公式 3.初始化dp数组 4.确定遍历顺序 5.打印dp数组来排错 tips: 1.当求取物品有限的时候用0-1背包,求取物品无限的时候用完全背包 结果是排列还是组合也有说法,当结果是组…