Win Docker Desktop + WSL2 部署PyTorch-CUDA服务至k8s算力集群

Win Docker Desktop + WSL2 部署PyTorch-CUDA服务至k8s算力集群

  • Win Docker Desktop + WSL2 安装
  • 安装WSL-Ubuntu
  • 拉取镜像并测试
  • 挂载数据并开放端口
  • 导出镜像或导入镜像
  • 在k8s集群部署

Win Docker Desktop + WSL2 安装

首先根据你的操作系统版本 安装WSL ,记得切换WSL2,其次 安装Docker Desktop,如果Docker安装后一直无法加载WSL,卸载后重新安装时不要勾选WSL,安装后去设置里面勾上WSL即可。

安装WSL-Ubuntu

wsl -l -v
wsl --install Ubuntu-18.04

Windows中运行以上代码,WSL中安装Ubuntu是为了方便在docker容器中挂载数据。

拉取镜像并测试

docker pull cnstark/pytorch:2.0.0-py3.9.12-cuda11.8.0-ubuntu20.04
docker run -it --rm --gpus all cnstark/pytorch:2.0.0-py3.9.12-cuda11.8.0-ubuntu20.04
nvcc -V
nvidia-smi
python
>>> import torch
>>> torch.cuda.is_available()

去WSL-Ubuntu系统中运行以上命令,拉取镜像并激活容器。这时候由于--gpus all命令,容器内使用的是宿主机上的英伟达驱动,也就是说你的Windows里得有CUDA和CUDNN。注意,在k8s算力集群中并无法简单挂载宿主机的显卡驱动。部署过程中宿主机中CUDA版本和容器内CUDA版本不一致也能正常部署,但是不排除有兼容性问题。

挂载数据并开放端口

docker run -it --gpus all -p 0.0.0.0:你的程序端口:你的目标端口 --shm-size="4g" -v /etc/localtime:/etc/localtime -v /mnt/c/你的电脑上的数据路径:/workspace cnstark/pytorch:2.0.0-py3.9.12-cuda11.8.0-ubuntu20.04
# 以下代码在容器内运行
cp -r /workspace/你的数据文件夹/code/ /workspace/code/
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
pip install flask pandas numpy scipy easy-torch easydict einops scikit-learn torchdiffeq fastdtw packaging setproctitle torchinfo torch-summary

去WSL-Ubuntu系统中运行以上命令,注意如果是Flask,建议app.run(port=你的程序端口, debug=False, host='0.0.0.0', threaded=True)运行。

导出镜像或导入镜像

docker info
docker images
docker ps -a
docker export 你的镜像ID > /mnt/c/路径/image.tar
docker import /mnt/c/路径/image.tar straka/ts_server_231102:v0.1
docker save -o /mnt/c/路径/image.tar straka/ts_server_231102:v0.1
docker load --input /mnt/c/路径/image.tar

去WSL-Ubuntu系统中运行以上命令。

在k8s集群部署

环境变量:NVIDIA_DRIVER_CAPABILITIES=compute,utility,端口转发按需配置,默认运行"/bin/bash",自动运行bash -c "cd /workspace/code && python server.py"。由于英伟达驱动挂载问题,需要重新软链接驱动(libcuda.so和libnvidia-ml.so)后才能识别到显卡。在容器内运行:

ldconfig # 查看软链接错误的so库
find -name libcuda* # 查看软链接错误的so库所在之处
ls /usr/lib/x86_64-linux-gnu # 一般在这个路径
cd /usr/lib/x86_64-linux-gnu
rm libcuda.so
rm libcuda.so.1
ln -s libcuda.so.525.105.17 libcuda.so
# 注意,525.105.17与宿主机具体安装的驱动版本有关,不同机器需要自行ls /usr/lib/x86_64-linux-gnu后找到size libcuda.so.xxx 大于0的文件
find  -name libnvidia-ml*
rm libnvidia-ml.so.1
ln -s libnvidia-ml.so.525.105.17 libnvidia-ml.so.1
ldconfig # 再次检查是否有遗漏nvcc -V
nvidia-smi
python
>>> import torch
>>> torch.cuda.is_available()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/142484.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue day1(主要是指令)

1、引包 或者:cdn网址 2、创建实例,初始化渲染 3、插值表达式 {{}} 表达式:可以被求值的代码 4、响应式数据:数据发生变化,视图自动更新(底层是dom操作) data中数据会被添加到实例上&#x…

解决Dockerfile中 Could not initialize class sun.awt.X11FontManager错误

Dockerfile中增加命令 RUN yum install dejavu-sans-fonts fontconfig -y如果您使用的是基于Alpine Linux的发行版,可以使用apk命令来安装DejaVu Sans字体和fontconfig工具 RUN apk update RUN apk add ttf-dejavu fontconfig

设计数据库的时候会考虑哪些因素,怎样去建表?

在设计数据库时,通常会考虑以下因素: 数据的结构和关系:首先需要分析业务需求,了解需要存储的数据类型、数据之间的关系以及数据的组织结构。 数据的完整性和一致性:确保数据库中的数据完整性和一致性,例如…

CSDN规则详解——如何申请成为博客专家

文章目录 前言博客专家如何成为博客专家?博客专家列表后记 前言 博客专家是csdn推出的,很多童鞋可能还不知道如何申请成为博客专家或者成为博客专家之后有什么用。成为博客专家可以让您在专业领域分享您的知识和经验,与更多的读者建立联系&a…

服务器如何下载百度网盘数据

百度网盘作为镜像 国外用户传数据到我们服务器比较慢,但是传输百度网盘速度还是可以的。 这样我们就可以将百度网盘作为一个文件中转站。 但Linux系统下使用百度网盘有些麻烦,虽然百度网盘也有Linux版本,但服务器没开启图形界面,使用的是命令行。这个时候就得感谢开发者Ho…

如何进行iOS技术博客的备案?

​ 如何进行iOS技术博客的备案? 标题:iOS技术博客备案流程及要求解析 摘要: 在本篇问答中,我们将为iOS技术博主介绍如何进行备案。如果你的iOS应用只包含简单的页面,并通过蓝牙进行数据采集和传输,那么你…

Rust编程中的共享状态并发执行

1.共享状态并发 虽然消息传递是一个很好的处理并发的方式,但并不是唯一一个。另一种方式是让多个线程拥有相同的共享数据。在学习Go语言编程过程中大家应该听到过一句口号:"不要通过共享内存来通讯"。 在某种程度上,任何编程语言中的信道都类…

单链表的插入删除

#include <iostream>#include <stdio.h> #include <stdlib.h>using namespace std;//带头指针的单链表typedef struct LNode{int data;struct LNode *next;}LNode, *LinkList;bool InitList(LinkList &L){L (LNode *) malloc(sizeof(LNode));if(L NUL…

消息队列简介

什么是消息队列?&#xff08;Message queue&#xff0c;简称MQ&#xff09; 从字面理解就是一个保存消息的一个容器。那么我们为何需要这样一个容器呢&#xff1f; 其实就是为了解耦各个系统&#xff0c;我们来举个例子&#xff1a; 有这么一个简单的场景&#xff0c;系统A负…

Power Automate-与Microsoft Forms连接

创建自动化云端流&#xff0c;流的触发器选择第一个提交新回复时 点击蓝色的Change connection&#xff0c;登录创建Microsoft Forms表单的账号 选择提前创建的表单&#xff1b;如果想连接其他账号创建的Microsoft Forms表单&#xff0c;可以再次点击蓝色的Change connection&a…

DVWA - 3

文章目录 XSS&#xff08;Dom&#xff09;lowmediumhighimpossible XSS&#xff08;Dom&#xff09; XSS 主要基于JavaScript语言进行恶意攻击&#xff0c;常用于窃取 cookie&#xff0c;越权操作&#xff0c;传播病毒等。DOM全称为Document Object Model&#xff0c;即文档对…

Flutter开发实战之上传身份照片并认证

思路 UI视图 上传身份证照片可以选择拍照方式上传,相册选择方式上传即可 身份证照片进行认证功能实现 对身份证照片进行认证,包括正面认证和反面认证即可上传给后端 使用第三方插件 image_picker: ^0.8.4Future<XFile> _getCameraImage() async {final cameraImages = …

【k8s集群搭建(一):基于虚拟机的linux的k8s集群搭建_超详细_解决并记录全过程步骤以及自己的踩坑记录】

虚拟机准备3台Linux系统 k8s集群安装 每一台机器需要安装以下内容&#xff1a; docker:容器运行环境 kubelet:控制机器中所有资源 bubelctl:命令行 kubeladm:初始化集群的工具 Docker安装 安装一些必要的包&#xff0c;yum-util 提供yum-config-manager功能&#xff0c;另两…

LoadRunner Error -26377: No match found for the requested parameter 获取参数的方法要前置

web_reg_save_param("access_token","LBaccess_token\":\"", //获取返回参数左右边界值时&#xff1a;有"双引号时,需要使用\来进行转义"RB\",","SearchBody",LAST);web_reg_save_param("token_type&q…

一分钟禁用云服务器root用户改用自定义用户

目录 1、创建新用户&#xff1a; 2、为新用户分配sudo权限&#xff1a; 3、修改密码 : 4、测试新用户&#xff1a; 5、禁用root登录&#xff1a; 6、测试更改&#xff1a; 入手云服务器后的第一件事就是修改自定义用户&#xff0c;禁用root用户&#xff0c;博主已被暴力破…

尾插建立单链表

#include <iostream>#include <stdio.h> #include <stdlib.h>using namespace std;//带头指针的单链表typedef struct LNode{int data;struct LNode *next;}LNode, *LinkList;bool InitList(LinkList &L){L (LNode *) malloc(sizeof(LNode));if(L NUL…

快乐数[简单]

优质博文&#xff1a;IT-BLOG-CN 一、题目 编写一个算法来判断一个数n是不是快乐数。「快乐数」定义为&#xff1a;对于一个正整数&#xff0c;每一次将该数替换为它每个位置上的数字的平方和。然后重复这个过程直到这个数变为1&#xff0c;也可能是无限循环但始终变不到1。如…

软件工程分析报告07测试计划书——基于Paddle的肝脏CT影像分割

目录 测试计划书 1. 引言 2. 测试目标 3. 测试方法 3.1 黑盒测试 (1)等价类划分&#xff1a; (2)边界值分析&#xff1a; (3)因果图&#xff1a; ​编辑&#xff08;4&#xff09;错误推测法 3.2 白盒测试 测试用例&#xff01;&#xff01; 4. 测试环境 5. 测试计划 6…

@Async注解的坑

问题描述 一个方法调用另一个方法(该方法使用Async注解)在同一个类文件中&#xff0c;该注解会失效&#xff01; 问题复现 TestAsyncController 类 import org.slf4j.Logger; import org.slf4j.LoggerFactory; import org.springframework.scheduling.annotation.Async; im…

MySQL时间类型注意事项

MySQL常见的时间类型有YEAR、DATE、TIME、DATETIME、TIMESTAMP&#xff0c;绝大多数业务都是精确到秒的&#xff0c;所以通常用后两种。并且MySQL5.6以后后两种支持精度到毫秒&#xff08;最多小数点后6位&#xff09; DATETIME占8字节&#xff0c;不论要不要毫秒 TIMESTAMP占4…