Kubeflow使用Kubernetes进行机器学习GPU分布式训练

Kubeflow使用Kubernetes进行机器学习

Kubeflow是Google推出的基于kubernetes环境下的机器学习组件,通过Kubeflow可以实现对TFJob等资源类型定义,可以像部署应用一样完成在TFJob分布式训练模型的过程。最初的设计是将Kubernetes和Tensorflow结合实现对Tensorflow分布式训练的支持。但是仅仅实现对Tensorflow的支持还是远远不够的,Kubeflow社区又陆续对各种深度学习框架进行支持,例如:MXNetCaffeePyTorch等。使得机器学习算法同学只需关心算法实现,而后续的模型训练和服务上线都交给平台来做,解放算法同学使其专做自己擅长的事儿。

在继续介绍Kubeflow之前, 先简单介绍下真正的机器学习模型服务上线都需要经历哪些阶段,如下图所示:

 


kubeflow

 

注意:上图的每种颜色代表对一个阶段的处理

从上图可以看出一个机器学习模型上线对外提供服务要经过:数据清洗验证数据集切分, 训练构建验证模型, 大规模训练,模型导出模型服务上线, 日志监控等阶段。Tensorflow 等计算框架解决了最核心的部分问题,但是距离生产化,产品化,以及企业级机器学习项目开发,还有一段距离。比如: 数据收集, 数据清洗, 特征提取, 计算资源管理, 模型服务, 配置管理, 存储, 监控, 日志等等。

 


kubeflow

 

好了机器学习服务上线的基本流程介绍之后,接下来继续介绍Kubeflow.

Kubeflow核心组件介绍

  • jupyter 多租户NoteBook服务
  • Tensorflow PyTorch MPI MXnet Chainer 当前主要支持的机器学习引擎
  • Seldon 提供在Kubernetes上对机器学习模型的部署
  • TF-Serving 提供对Tensorflow模型的在线部署,支持版本控制及无需停止线上服务,切换模型等功能
  • Argo 基于Kubernetes的工作流引擎
  • Ambassador 对外提供统一服务的网关(API Gateway)
  • Istio 提供微服务的管理,Telemetry收集
  • Ksonnet Kubeflow使用ksonnet来向kubernetes集群部署需要的k8s资源

而Kubeflow利用Kubernetes的优势:

  • 原生的资源隔离
  • 集群化自动化管理
  • 计算资源(CPU/GPU)自动调度
  • 对多种分布式存储的支持
  • 集成较为成熟的监控,告警

将机器学习各个阶段涉及的组件已微服务的方式进行组合并已容器化的方式进行部署,提供整个流程各个系统的高可用及方便的进行扩展。

 


kubeflow

 

Kubeflow 部署安装

实验环境

硬件环境
服务器配置:

  • GPU卡型号: Nvidia-Tesla-K80
  • 网卡: 千兆(注意:在进行对大数据集进行训练时,千兆的网卡会是瓶颈)

cephfs服务配置:

  • 网卡:万兆(注意:通过ceph对数据存储时,ceph集群需要与Kubernetes同机房,否则延迟会对加载数据集的影响非常高)

注意:服务器的GPU驱动和Nvidia-docker2.0的部署安装之前介绍过,这里就不介绍了。

软件环境:

  • kubernetes version: v1.12.2(注意: 需要安装kube-dns)
  • kubeflow version: v0.3.2
  • jsonnet version: v0.11.2

Kubeflow 安装

  • 安装ksonnet
1
2
3
4
5
6
7
8
# export KS_VER=0.11.2
# export KS_PKG=ks_${KS_VER}_linux_amd64
# wget -O /tmp/${KS_PKG}.tar.gz https://github.com/ksonnet/ksonnet/releases/download/v${KS_VER}/${KS_PKG}.tar.gz \--no-check-certificate# mkdir -p ${HOME}/bin
# tar -xvf /tmp/$KS_PKG.tar.gz -C ${HOME}/bin
# export PATH=$PATH:${HOME}/bin/$KS_PKG

关于ksonnet的更多信息请查看官网:https://ksonnet.io/

  • 安装Kubeflow
1
2
3
4
5
6
7
8
9
10
11
12
13
14
# export KUBEFLOW_SRC=/home/wangxigang/kubeflow
# mkdir ${KUBEFLOW_SRC}
# cd ${KUBEFLOW_SRC}
# export KUBEFLOW_TAG=v0.3.2# curl https://raw.githubusercontent.com/kubeflow/kubeflow/${KUBEFLOW_TAG}/scripts/download.sh | bash# export KUBEFLOW_REPO=/home/wangxigang/kubeflow/scripts
# export KFAPP=/home/wangxigang/kubeflow/kubeflow_ks_app# ${KUBEFLOW_REPO}/scripts/kfctl.sh init ${KFAPP} --platform none
# cd ${KFAPP}
# ${KUBEFLOW_REPO}/scripts/kfctl.sh generate k8s
# ${KUBEFLOW_REPO}/scripts/kfctl.sh apply k8s

关于kubeflow的更多信息请查看官网:https://v0-3.kubeflow.org/docs/started/getting-started/

当上面的所有安装步骤都正常完成之后,先查看kubeflow在kubernetes集群deployment资源对象的启动状态:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
[root@localhost]# kubectl  get deployment -n kubeflow
NAME                                     DESIRED   CURRENT   UP-TO-DATE   AVAILABLE   AGE
ambassador                               3         3         3            3           11d
argo-ui                                  1         1         1            1           11d
centraldashboard                         1         1         1            1           11d
modeldb-backend                          1         1         1            1           11d
modeldb-db                               1         1         1            1           11d
modeldb-frontend                         1         1         1            1           11d
mxnet-operator                           1         1         1            1           11d
spartakus-volunteer                      1         1         1            1           11d
studyjob-controller                      1         1         1            1           11d
tf-job-dashboard                         1         1         1            1           11d
tf-job-operator-v1alpha2                 1         1         1            1           11d
vizier-core                              1         1         1            1           11d
vizier-db                                1         1         1            1           11d
vizier-suggestion-bayesianoptimization   1         1         1            1           11d
vizier-suggestion-grid                   1         1         1            1           11d
vizier-suggestion-hyperband              1         1         1            1           11d
vizier-suggestion-random                 1         1         1            1           11d
workflow-controller                      1         1         1            1           11d

ok,通过状态我们发现现在服务启动正常,在查看下各个deployment下各个服务的pod的状态:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
[root@localhost]# kubectl  get pods -n kubeflow
NAME                                                      READY   STATUS    RESTARTS   AGE
ambassador-c97f7b448-8qgbg                                3/3     Running   1          8d
ambassador-c97f7b448-bspqt                                3/3     Running   1          8d
ambassador-c97f7b448-vq6mn                                3/3     Running   1          8d
argo-ui-7495b79b59-b2hlg                                  1/1     Running   0          8d
centraldashboard-798f8d68d5-gxx4g                         1/1     Running   0          8d
modeldb-backend-d69695b66-dxr44                           1/1     Running   0          8d
modeldb-db-975db58f7-wshd4                                1/1     Running   0          8d
modeldb-frontend-78ccff78b7-xr7h7                         1/1     Running   0          8d
mxnet-operator-6c49b767bc-nj995                           1/1     Running   19         8d
spartakus-volunteer-94bbd5c86-7xmfd                       1/1     Running   0          8d
studyjob-controller-7df5754ddf-pqqgt                      1/1     Running   0          8d
tf-hub-0                                                  1/1     Running   0          8d
tf-job-dashboard-7499d5cbcf-cct2q                         1/1     Running   0          8d
tf-job-operator-v1alpha2-644c5f7db7-v5qzc                 1/1     Running   0          8d
vizier-core-56dfc85cf9-qdrnt                              1/1     Running   973        8d
vizier-db-6bd6c6fdd5-h549q                                1/1     Running   0          11d
vizier-suggestion-bayesianoptimization-5d5bc5685c-x89lm   1/1     Running   0          8d
vizier-suggestion-grid-5dbfc65587-vv4gs                   1/1     Running   0          8d
vizier-suggestion-hyperband-5d9997fb99-hr9pj              1/1     Running   0          8d
vizier-suggestion-random-7fccb79977-5mggb                 1/1     Running   0          8d
workflow-controller-d5cb6468d-29kmf                       1/1     Running   0          8d

ok,现在服务都是正常的,接下来让我们通过Ambassador来访问kubeflow部署到k8s集群中的各个组件。

注意: 由于官方默认使用的镜像都是google镜像仓库的,所以在部署时可能出现墙的问题

访问Kubeflow UIs

由于Kubeflow使用Ambassador作为kubeflow统一的对外网关,其它的内部服务都是通过使用它来对外提供服务。具体如下图所示:

 


kubeflow

 

接下来我们使用kubectlport-forwarding来对Ambassador Service进行端口转发,在本地对Kubeflow进行访问:

1
2
3
4
# export NAMESPACE=kubeflow
# kubectl --kubeconfig /etc/kubernetes/kubeconfig port-forward -n ${NAMESPACE} `kubectl --kubeconfig /etc/kubernetes/kubeconfig get pods -n ${NAMESPACE} --selector=service=ambassador -o jsonpath='{.items[0].metadata.name}'` 8080:80
Forwarding from 127.0.0.1:8080 -> 80
Forwarding from [::1]:8080 -> 80

通过浏览器进行本地localhost:8080访问:

 


kubeflow

 

通过Kubeflow UIs可以针对不同的功能进行使用,如使用Jupyter Notebook进行对应用的全过程计算:开发、文档编写、运行代码和展示结果。

 


kubeflow

 

通过Kubeflow UIs访问TF-operator来对基于Tensorflow的模型进行多机多卡的分布式训练。

 


kubeflow

 

好了,这篇文章简单的介绍了Kubeflow及其安装流程,关于文章介绍的服务组件太多,需要自行去深入了解了,就不详细介绍了。在接下来的文章会介绍基于kubeflow对TensorflowMXNet模型进行多机多卡的分布式训练。

总结

现在国外的Google,微软,亚马逊,Intel以及国内的阿里云,华为云,小米云,京东云, 才云等等公司都在发力Kubeflow,并结合kubernetes对多种机器学习引擎进行多机多卡的大规模训练,这样可以做到对GPU资源的整合,并高效的提高GPU资源利用率,及模型训练的效率。并实现一站式服务,将机器学习服务上线的整个workflow都在Kubernetes平台实现。减轻机器学习算法同学的其它学习成本,专心搞算法。这势必给Devops的同学带来更高的跳挑战。相信未来Kubeflow会发展的更好。

 

基于 kubeflow 测试 MXNet 分布式训练

 

1 准备测试的训练镜像

 

示例代码: https://github.com/deepinsight/insightface

 

Dockerfile 文件内容:

 

 

2 创建分布式网络文件系统数据卷(cephfs)

 

 

由于我们是基于 kubernetes 的 pv 和 pvc 的方式使用数据卷,所有集群中需要事先安装好 storage-class install,这样当用户创建 pvc 时,会通过 storage-class 自动的创建 pv。

 

当创建好 pv 之后,用户可以将该数据卷 mount 到自己的开发机上,并将需要训练的数据集移到该数据卷。用于之后创建训练 worker pod 的时候,挂载到 worker 容器中,供训练模型使用。

 

3 创建 mxnet 分布式训练任务

 

 

4 创建训练任务

 

kubectl create -f insightface-train.yaml

复制代码

 

5 查看任务运行情况

 

 

 

6 查看训练日志的信息

 

登录到具体的 node 计算节点通过 docker logs 命令查看训练的日志:

 

docker logs -f fc3d73161b27

复制代码

 

 

总结

 

虽然已经完成了 mxnet 结合 kubeflow 实现大规模的分布式训练,但是除了功能上的基本跑通,还存在很多因素影响分布式训练的性能,如: GPU 服务器的网络带宽,普通的我们使用的以太网因为通信延迟的原因,会大大影响多机扩展性。InfiniBand(IB)网络和 RoCE 网络因为支持 RDMA,大大降低了通信延迟,相比之下,20G 的以太网格延迟会大大提升。当然,对于现有的普通以太网络,也可以通过别的方法优化通信带宽的减少,比方说梯度压缩。通过梯度压缩,减少通信带宽消耗的同时,保证收敛速度和精度不会有明显下降。MXNet 官方提供了梯度压缩算法,按照官方数据,最佳的时候可以达到两倍的训练速度提升,同时收敛速度和精度的下降不会超过百分之一。还有如果使用分布式网络文件系统进行数据集的存储,如果解决吞吐量和网络延迟的问题。以及本地磁盘是否是 SSD,还是在训练时是否需要对大文件的数据集进行 record.io 文件格式的处理及训练前数据集的切分等等问题,都需要更进一步的处理。

 

参考

  • http://stevenwhang.com/tfx_paper.pdf
  • https://www.kubeflow.org/
  • https://opensource.com/article/18/6/kubeflow
  • https://www.oliverwyman.com/content/dam/oliver-wyman/v2/events/2018/March/Google_London_Event/Public%20Introduction%20to%20Kubeflow.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/547568.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

hibernate 程序运行时的错误,及解决办法(不定期更新)

这个错误是因为&#xff1a;没有配置hibernate.cfg.xml中的最后一项 <mapping resource"org/hibernate/first/model/Student.hbm.xml"/>这个错误是因为&#xff1a;在配置hibernate缓存的时候出的错&#xff0c;我就把我这个缓存代码删除掉了。代码如下<pro…

kubernetes集群使用GPU及安装kubeflow1.0.RC操作步骤

kubernetes集群使用GPU及安装kubeflow1.0.RC操作步骤 Kubeflow使用场景 希望训练tensorflow模型且可以使用模型接口发布应用服务在k8s环境中(eg.local,prem,cloud) 希望使用Jupyter notebooks来调试代码&#xff0c;多用户的notebook server 在训练的Job中&#xff0c;需要对…

linux线程负载,linux 排查cpu负载过高异常(转载)

问&#xff1a;如何定位是哪个服务进程导致CPU过载&#xff0c;哪个线程导致CPU过载&#xff0c;哪段代码导致CPU过载&#xff1f;步骤一、找到最耗CPU的进程工具&#xff1a;top方法&#xff1a;执行top -c &#xff0c;显示进程运行信息列表键入P (大写p)&#xff0c;进程按照…

WIN10自带远程桌面实现多用户登录

一台主机当两台用&#xff0c;利用WIN10自带远程桌面实现多用户登录 2020-04-27 10:51:24 54点赞 311收藏 35评论 先来说说家里电脑和网络的基本情况。 新房装修时就考虑到家庭多媒体和自己变态的各种网络需求&#xff0c;所以全屋用企业级的网络设备组成了千兆网&#xff0…

PingingLab传世经典系列《CCNA完全配置宝典》-2.7 EIGRP基本配置

2.7 EIGRP基本配置实验目的&#xff1a;1、掌握EIGRP的基本配置。2&#xff0e;掌握EIGRP的邻居表、拓扑表、路由表。3&#xff0e;掌握EIGRP的无类特性。实验拓扑&#xff1a;实验步骤&#xff1a;1、依据图中拓扑配置各设备的IP地址&#xff0c;并保证直连连通性;在R1上做如下…

linux通过ip计算广播地址,子网掩码、网络地址、广播地址的计算

例如 192.168.1.53/27 如何计算出它的子网掩码、网络地址、广播地址、可用的主机数和最大可容纳主机数、可用的IP地址。子网掩码和主机数&#xff1a;192.168.1.53/27为例讲解&#xff0c;这就是平时说的&#xff23;类IP地址&#xff0c;平时大家用的是192.168.0.*或192.168.1…

KubeFlow安装指南

【摘要】 Kubeflow是Google推出的基于kubernetes环境下的机器学习组件&#xff0c;通过Kubeflow可以实现对TFJob等资源类型定义&#xff0c;可以像部署应用一样完成在TFJob分布式训练模型的过程。 组件 http://pachyderm.io/ http://www.argoproj.io/ Kubeflow使用场景 希望…

c#字符相似度对比通用类

本类适用于比较2个字符的相似度&#xff0c;代码如下&#xff1a; View Code using System;using System.Collections.Generic;using System.Text;public class StringCompute{#region 私有变量/// <summary>/// 字符串1/// </summary>private char[] _ArrChar1;/…

javascript数字格式化通用类——accounting.js使用

简介 accounting.js 是一个非常小的JavaScript方法库用于对数字&#xff0c;金额和货币进行格式化。并提供可选的Excel风格列渲染。它没有依赖任何JS框架。货币符号等可以按需求进行定制。 代码内容及下载地址 accounting.js代码如下&#xff1a; View Code /*!* accounting…

linux清除cpu,解决kswapd0 CPU占用率高的问题-清除病毒

连接服务器时发现cpu使用率100%&#xff0c;使用top命令查看是kswapd0进程占用cpu极高百度下后知道kswapd0进程的作用&#xff1a;它是虚拟内存管理中&#xff0c;负责换页的&#xff0c;操作系统每过一定时间就会唤醒kswapd &#xff0c;看看内存是否紧张&#xff0c;如果不紧…

Apache+Mysql+php+ZenTaoPMS安装配置文档

基于ApacheMysqlphpZenTaoPMS安装配置一、Apache安装配置tar zxvf httpd-2.2.23.tar.gzcd httpd-2.2.23mkdir –p /usr/local/app/apache2./configure --prefix/usr/local/app/apache2 --enable-so \--enable-maintainer-mode --enable-rewrite #添加后面的参数是为了解析s…

富编译器汇总及二次开发Demo

富文本编译器汇总 名称总大小当前版本官方地址扩展方法xhEditor1.43 MBv1.1.14http://xheditor.comhttp://xheditor.com/demos/demo09.htmlMarkitUp98.7 KBv1.1.13http://markitup.jaysalvat.com/home在set.js里设置开发。jwysiwyg1.52 MBv0.98https://github.com/akzhan/jwys…

docker安装nginx并配置SSL到个人博客

1 准备 1.已安装好docker环境 2.已申请好域名 2 申请SSL证书 我使用的是腾讯云&#xff0c;申请免费的TrustAsia的SSL证书&#xff0c;阿里云等或者其他平台一般都会提供TrustAsia的SSL证书的 填好域名等相关信息&#xff0c;一般一天就可以下载证书了 3 docker安装Nginx …

redhat linux 6.5 vnc,redhat 6.5 YUM安装kvm 并用VNC远程管理

安装完REDHAT&#xff0c;我们首先配置yum源先卸载系统原来的YUM包一、配置redhat yum源#rpm -aq|grep yum|xargs rpm -e --nodeps下载YUM源&#xff0c;我用的是&#xff11;&#xff16;&#xff13;的# wget http://mirrors.163.com/centos/6/os/x86_64/Packages/yum-plugin…

用DOSBox运行老游戏

DOSBox0.74-3-win32-installer.exe下载地址&#xff1a; https://nchc.dl.sourceforge.net/project/dosbox/dosbox/0.74-3/DOSBox0.74-3-win32-installer.exe 金庸群侠传&#xff1a;https://dos.zczc.cz/games/%E9%87%91%E5%BA%B8%E7%BE%A4%E4%BE%A0%E4%BC%A0/download 新版本…

宿主机为linux、windows分别实现VMware三种方式上网(转)

一、VMware三种方式工作原理1 Host-only连接方式 让虚机具有与宿主机不同的各自独立IP地址&#xff0c;但与宿主机位于不同网段&#xff0c;同时为宿主主机新增一个IP地址&#xff0c;且保证该IP地址与各虚机IP地址位于同一网段。最终结果是新建了一个由所有虚机与宿主主机所构…

摔倒、摔倒检测数据集

近期学习摔倒检测&#xff0c;接触摔倒数据集&#xff0c;自学笔记&#xff0c;仅用作个人复习。 the UR fall detection dataset (URFD)the fall detection dataset (FDD) UR Fall Detection Dataset &#xff08;University of Rzeszow - 热舒夫大学&#xff09; 数据集网…

visual studio内置“iis”组件提取及二次开发

简介 visual studio安装后会自带小型的“iis”服务器&#xff0c;本文就简单提取一下这个组件&#xff0c;自己做一个小型“iis”服务器吧。先来说用途吧&#xff08;废话可绕过&#xff09;&#xff0c;比如在服务器上没有安装iis&#xff0c;或者给客户演示asp.net程序&…

禁用 Microsoft 软件保护平台服务

以前没怎么注意&#xff0c;老觉得cup没事就声音很大&#xff0c;后来发现这玩意儿占用巨多cup&#xff0c;希望有大佬帮助解决一下&#xff0c;谢谢 解决方法&#xff1a; 首先使用【Win】 【R】组合快捷键&#xff0c;快速打开运行命令框&#xff0c;在打开后面键入命令&am…

asp.net mvc3.0安装失败之终极解决方案

安装失败截图 原因分析 因为vs10先安装了sp1补丁&#xff0c;然后安装的mvc3.0&#xff0c;某些文件被sp1补丁更改&#xff0c;导致“VS10-KB2483190-x86.exe”安装不了&#xff0c;造成安装失败。 解决方案 方法1&#xff1a; 解压mvc安装包&#xff08;AspNetMVC3Setup.e…