在最近结束的 VMware Explore 2023 拉斯维加斯大会上,VMware 推出了新的 Private AI 产品,以促进企业采用生成式人工智能并挖掘可信数据的价值。VMware 宣布了以下几点:
与 NVIDIA 合作推出 VMware Private AI Foundation,将两家公司的战略合作扩展到为运行 VMware 云基础架构的企业准备适应下一代生成式人工智能的能力。
推出 VMware Private AI 开源参考架构,通过支持当前和未来的最佳开源软件(OSS)技术,帮助客户实现他们期望的人工智能成果。
其中,VMware Private AI 开源参考架构(如下图所示)为客户和合作伙伴提供了灵活性,使他们能够:
- 利用最佳模型、框架、应用程序和数据服务、工具和适合其业务需求的硬件,基于标准化的 VMware 验证体系,实现快速、可重复、安全的部署。
- 通过利用完全记录的架构和相关代码示例以及通过消除系统设计、测试、启动、配置和供应过程中的复杂性,实现快速的交付价值。
- 在共同的本地云基础设施堆栈上运行所有 AI 工作负载,最大化资源利用率,从而提高投资回报率。
- 利用流行的开源项目,如 ray.io、Kubeflow、PyTorch、pgvector 以及 Hugging Face 提供的模型。
Kubeflow 专为在 Kubernetes 环境中进行机器学习工作而设计的开源机器学习平台,目前已被 CNCF 接受作为其孵化项目。它的主要功能如下:
- 提供一系列工具和组件,帮助用户更轻松地部署、管理和扩展机器学习工作负载。
- 帮助开发人员和数据科学家在容器化的环境中构建、训练和部署机器学习模型。
- 提供自动化的资源调度、监控和日志记录等功能,使机器学习任务更加高效和可管理性。
- 提供安全工作组、集成软件物料清单、基于 Serviceaccount 的身份验证、对大多数 API 进行身份验证以及加固 lstio 和网络策略等安全性特性。
许多 VMware 的客户已经在 vSphere 上投入了大量资源来运行关键应用程序,而如今他们希望将 vSphere 扩展为支持 AI/ML 工作负载,并都希望在他们的知识库上训练一个大语言模型。通过 VMware 提供经过优化的 Kubeflow 发行版 Kubeflow VMware Distribution,VMware 客户可以充分利用经过验证的 VMware 技术栈,来解决这些挑战。这使得企业更容易在 vSphere 上安全地进行大规模的 Kubeflow 部署和管理,并且在值得信任的虚拟化基础之上高效地实现客户的 AI/ML 工作负载需求。
Kubeflow VMware Distribution 的架构图如下所示:
Kubeflow VMware Distribution 的主要特点包括:
- 通过与 VMware 基础架构的无缝集成,允许客户在现有 VMware 投资基础上更快地部署 Kubeflow,从而利用成熟的 vSphere、VMware NSX、vSAN 等企业特性,高效地部署人工智能 / 机器学习项目。
- 使用 Carvel 打包技术将 Kubeflow 核心组件与 Tanzu Kubernetes Grid 自然集成,打造 vSphere 上的一站式 Kubeflow 部署经验。
- 提供了与 vSphere 集成的 Pinniped 的统一身份管理,先进的 GPU 动态管理、集成监控堆栈、多租户控制访问等企业级功能和产品就绪能力。
- 支持不同类型的机器学习工作负载,包括自然语言处理(NLP)、图像分类、视频识别等,特别是时下流行的开源大语言模型部署、微调及预训练。
未来,Kubeflow VMware Distribution 将持续改进,与更多 VMware 产品特性进行深度融合,充分利用来自 VMware 合作伙伴的众多商业 MLOps 工具(例如 Anyscale、cnvrg.io、Domino Data Lab、NVIDIA、One Convergence、Run:ai 和 Weights & Biases 等),在中国我们也将与浪潮、超聚变等合作伙伴在此领域进行合作。让我们共同期待!
本文作者:贺黎,VMware高级项目经理;刘奇,VMware高级工程师;曹磊,VMware工程师。
内容来源|公众号:VMware 中国研发中心
有任何疑问,欢迎扫描下方公众号联系我们哦~