赋能人工智能：Kubeflow VMware Distribution的发布

在最近结束的 VMware Explore 2023 拉斯维加斯大会上，VMware 推出了新的 Private AI 产品，以促进企业采用生成式人工智能并挖掘可信数据的价值。VMware 宣布了以下几点：

与 NVIDIA 合作推出 VMware Private AI Foundation，将两家公司的战略合作扩展到为运行 VMware 云基础架构的企业准备适应下一代生成式人工智能的能力。

推出 VMware Private AI 开源参考架构，通过支持当前和未来的最佳开源软件（OSS）技术，帮助客户实现他们期望的人工智能成果。

其中，VMware Private AI 开源参考架构（如下图所示）为客户和合作伙伴提供了灵活性，使他们能够：

利用最佳模型、框架、应用程序和数据服务、工具和适合其业务需求的硬件，基于标准化的 VMware 验证体系，实现快速、可重复、安全的部署。
通过利用完全记录的架构和相关代码示例以及通过消除系统设计、测试、启动、配置和供应过程中的复杂性，实现快速的交付价值。
在共同的本地云基础设施堆栈上运行所有 AI 工作负载，最大化资源利用率，从而提高投资回报率。
利用流行的开源项目，如 ray.io、Kubeflow、PyTorch、pgvector 以及 Hugging Face 提供的模型。

在这里插入图片描述
Kubeflow 专为在 Kubernetes 环境中进行机器学习工作而设计的开源机器学习平台，目前已被 CNCF 接受作为其孵化项目。它的主要功能如下：

提供一系列工具和组件，帮助用户更轻松地部署、管理和扩展机器学习工作负载。
帮助开发人员和数据科学家在容器化的环境中构建、训练和部署机器学习模型。
提供自动化的资源调度、监控和日志记录等功能，使机器学习任务更加高效和可管理性。
提供安全工作组、集成软件物料清单、基于 Serviceaccount 的身份验证、对大多数 API 进行身份验证以及加固 lstio 和网络策略等安全性特性。

许多 VMware 的客户已经在 vSphere 上投入了大量资源来运行关键应用程序，而如今他们希望将 vSphere 扩展为支持 AI/ML 工作负载，并都希望在他们的知识库上训练一个大语言模型。通过 VMware 提供经过优化的 Kubeflow 发行版 Kubeflow VMware Distribution，VMware 客户可以充分利用经过验证的 VMware 技术栈，来解决这些挑战。这使得企业更容易在 vSphere 上安全地进行大规模的 Kubeflow 部署和管理，并且在值得信任的虚拟化基础之上高效地实现客户的 AI/ML 工作负载需求。

Kubeflow VMware Distribution 的架构图如下所示：

在这里插入图片描述

Kubeflow VMware Distribution 的主要特点包括：

通过与 VMware 基础架构的无缝集成，允许客户在现有 VMware 投资基础上更快地部署 Kubeflow，从而利用成熟的 vSphere、VMware NSX、vSAN 等企业特性，高效地部署人工智能 / 机器学习项目。
使用 Carvel 打包技术将 Kubeflow 核心组件与 Tanzu Kubernetes Grid 自然集成，打造 vSphere 上的一站式 Kubeflow 部署经验。
提供了与 vSphere 集成的 Pinniped 的统一身份管理，先进的 GPU 动态管理、集成监控堆栈、多租户控制访问等企业级功能和产品就绪能力。
支持不同类型的机器学习工作负载，包括自然语言处理（NLP）、图像分类、视频识别等，特别是时下流行的开源大语言模型部署、微调及预训练。

未来，Kubeflow VMware Distribution 将持续改进，与更多 VMware 产品特性进行深度融合，充分利用来自 VMware 合作伙伴的众多商业 MLOps 工具（例如 Anyscale、cnvrg.io、Domino Data Lab、NVIDIA、One Convergence、Run:ai 和 Weights & Biases 等），在中国我们也将与浪潮、超聚变等合作伙伴在此领域进行合作。让我们共同期待！

本文作者：贺黎，VMware高级项目经理；刘奇，VMware高级工程师；曹磊，VMware工程师。

内容来源｜公众号：VMware 中国研发中心

有任何疑问，欢迎扫描下方公众号联系我们哦～
请添加图片描述