正文共:666 字 11 图,预估阅读时间:1 分钟
跌跌撞撞,从Tesla M4终于走到了Tesla P40,显存从4 GB到8 GB,最后再到24 GB,真是不容易。
回顾一下,Tesla M4是最早开始搞的,经历的磨难比较多,主要是不知道怎么把这款GPU设备用起来,从零开始摸索了很久(成了!Tesla M4+Windows 10+Anaconda+CUDA 11.8+cuDNN+Python 3.11)。
然后是Tesla P4,这块卡算是用起来最顺利的,因为他跟M4相比,只是架构和规格做了升级,使用方式上没有什么差异。测试下来,性能提升还是很明显的。以鲁大师跑分为例,Tesla M4的得分大概是57685分。
而Tesla P4可以跑到141744分,是M4的2.45倍。
最难搞的就是P40了,因为这张卡是全高双宽的,我之前的服务器放不下,为此还特地新购置了一台服务器DL580 Gen9(HPE DL580 Gen9到家了,成功开机!)。装在服务器上大概是这个效果,旁边是最早的M4。多么的娇小玲珑。
当然,使用起来也是问题多多,主要是供电的问题,这块GPU额定功率为250瓦,超过了PCIE供电的最大功率75瓦,需要使用单独的外接供电,仅解决供电的问题就用了我一个多月的时间。
不过,皇天不负有心人,终于在五一之前把卡用起来了,目前状态如下图:
鲁大师显示的显卡信息如下:
按照之前的操作(复制成功!GTX1050Ti换版本安装Pytorch、CUDA和cuDNN),安装好GPU驱动、CUDA、cuDNN、Anaconda和PyTorch等。
最近也不知道怎么了,TUNA的响应速度特别慢,慢到让人难以接受的那种。
经过漫长的等待,终于部署好了,简单做个矩阵运算对比一下。
import torch
import time
size = (50000,50000)
input_cpu = torch.randn(size)
input_gpu = input_cpu.to(torch.device('cuda'))
# 在CPU上执行矩阵乘法(耗时操作)
start_time_cpu = time.time()
output_cpu = torch.mm(input_cpu, input_cpu.t())
duration_cpu = time.time() - start_time_cpu
# 在GPU上执行同样的操作
start_time_gpu = time.time()
output_gpu = torch.mm(input_gpu, input_gpu.t().to(torch.device('cuda')))
duration_gpu = time.time() - start_time_gpu
print(f"CPU矩阵乘法运行时间: {duration_cpu:.6f} 秒")
print(f"GPU矩阵乘法运行时间: {duration_gpu:.6f} 秒")
按照运算时间进行计算,CPU和GPU的性能大概差了1386倍。不过,这个内存占用量控制的还算可以,运算任务大概占用了19 GB的内存,CPU负载持续为100 %。因为Windows 10操作系统只能支持2个CPU,所以耗时稍微长一些,不知道换成Windows Server系统是不是能节约一半的时间?
运算时GPU的瞬时功率也是很高,不过只是瞬时的,显存使用量与内存用量基本持平,能达到19 GB,说明跑ChatGLM3应该问题不大了吧?
服务器在使用2颗CPU的情况下,鲁大师跑分得分如下:
好像得分也没有比P4高出很多,大概也就是42%而已。
长按二维码
关注我们吧
HPE DL580 Gen9到家了,成功开机!
快速定制VMware ESXi 8.0U2并部署到DL580 Gen9
奇怪的知识又学到了:服务器的序列号、产品ID和UUID不见了怎么办?
风雨同舟,感谢HP Proliant DL360 Gen9陪我走过的四年
RAID阵列的磁盘顺序能否调整?RAID重建需要多久?
如何操作RAID 5阵列的扩容?
HPE服务器配置通过业务网卡登录iLO管理页面
将OpenWrt 23.05.3部署到VMware ESXi
惠普SSA(Smart Storage Administrator)配置术语详解
配置Juniper虚墙vSRX基于路由的IPsec VPN(CLI方式)
使用vSRX测试一下IPsec VPN各加密算法的性能差异
RDP授权119天不够用?给你的Windows Server续个命吧!
人工智能如何发展到AIGC?解密一份我四年前写的机器学习分享材料
清华大模型ChatGLM3部署初体验