Tesla P4终于在DL580 Gen9上面跑起来了!

413f47bad6e0e127efc7ae124e66be14.gif

正文共:666 字 11 图,预估阅读时间:1 分钟

跌跌撞撞,从Tesla M4终于走到了Tesla P40,显存从4 GB到8 GB,最后再到24 GB,真是不容易。

回顾一下,Tesla M4是最早开始搞的,经历的磨难比较多,主要是不知道怎么把这款GPU设备用起来,从零开始摸索了很久成了!Tesla M4+Windows 10+Anaconda+CUDA 11.8+cuDNN+Python 3.11

然后是Tesla P4,这块卡算是用起来最顺利的,因为他跟M4相比,只是架构和规格做了升级,使用方式上没有什么差异。测试下来,性能提升还是很明显的。以鲁大师跑分为例,Tesla M4的得分大概是57685分。

c8ddd74951891eb4701c553bcaa6c68b.png

而Tesla P4可以跑到141744分,是M4的2.45倍。

8b25328f3cd65f92066e5c4aefb5952c.png

最难搞的就是P40了,因为这张卡是全高双宽的,我之前的服务器放不下,为此还特地新购置了一台服务器DL580 Gen9HPE DL580 Gen9到家了,成功开机!。装在服务器上大概是这个效果,旁边是最早的M4。多么的娇小玲珑。

70f09763d4a5a5e107687ada5b6c48a1.jpeg

当然,使用起来也是问题多多,主要是供电的问题,这块GPU额定功率为250瓦,超过了PCIE供电的最大功率75瓦,需要使用单独的外接供电,仅解决供电的问题就用了我一个多月的时间。

9653d0c5590cb40bdd1f67efcfb4bdeb.png

不过,皇天不负有心人,终于在五一之前把卡用起来了,目前状态如下图:

6ba74e4ddbd4167541bd393195f8ff6b.png

鲁大师显示的显卡信息如下:

ff2e2eebdc9345800289057cbc4eee40.png

按照之前的操作复制成功!GTX1050Ti换版本安装Pytorch、CUDA和cuDNN,安装好GPU驱动、CUDA、cuDNN、Anaconda和PyTorch等。

4d5851a0a030e0de28d4c25521d18b79.png

最近也不知道怎么了,TUNA的响应速度特别慢,慢到让人难以接受的那种。

经过漫长的等待,终于部署好了,简单做个矩阵运算对比一下。

import torch
import time
size = (50000,50000)
input_cpu = torch.randn(size)
input_gpu = input_cpu.to(torch.device('cuda'))
# 在CPU上执行矩阵乘法(耗时操作)
start_time_cpu = time.time()
output_cpu = torch.mm(input_cpu, input_cpu.t())
duration_cpu = time.time() - start_time_cpu
# 在GPU上执行同样的操作
start_time_gpu = time.time()
output_gpu = torch.mm(input_gpu, input_gpu.t().to(torch.device('cuda')))
duration_gpu = time.time() - start_time_gpu
print(f"CPU矩阵乘法运行时间: {duration_cpu:.6f} 秒")
print(f"GPU矩阵乘法运行时间: {duration_gpu:.6f} 秒")

2a58c96665b4bffb7421d6b489c93b08.png

按照运算时间进行计算,CPU和GPU的性能大概差了1386倍。不过,这个内存占用量控制的还算可以,运算任务大概占用了19 GB的内存,CPU负载持续为100 %。因为Windows 10操作系统只能支持2个CPU,所以耗时稍微长一些,不知道换成Windows Server系统是不是能节约一半的时间?

522fd1f4f8e57355bcea81e99691e637.png

运算时GPU的瞬时功率也是很高,不过只是瞬时的,显存使用量与内存用量基本持平,能达到19 GB,说明跑ChatGLM3应该问题不大了吧?

2a11b6ba2eba3a71dfd11c1d0c615e28.png

服务器在使用2颗CPU的情况下,鲁大师跑分得分如下:

868823efa6b47af86480a148d2643056.png

好像得分也没有比P4高出很多,大概也就是42%而已。

d6a5ff74442a1cd1b905b82c9335f3ec.gif

长按二维码
关注我们吧

412239345de3575f64284b29e179f9ea.jpeg

81dec2920a99e52f2f160cee550750c2.png

HPE DL580 Gen9到家了,成功开机!

快速定制VMware ESXi 8.0U2并部署到DL580 Gen9

奇怪的知识又学到了:服务器的序列号、产品ID和UUID不见了怎么办?

风雨同舟,感谢HP Proliant DL360 Gen9陪我走过的四年

RAID阵列的磁盘顺序能否调整?RAID重建需要多久?

如何操作RAID 5阵列的扩容?

HPE服务器配置通过业务网卡登录iLO管理页面

将OpenWrt 23.05.3部署到VMware ESXi

惠普SSA(Smart Storage Administrator)配置术语详解

配置Juniper虚墙vSRX基于路由的IPsec VPN(CLI方式)

使用vSRX测试一下IPsec VPN各加密算法的性能差异

RDP授权119天不够用?给你的Windows Server续个命吧!

人工智能如何发展到AIGC?解密一份我四年前写的机器学习分享材料

清华大模型ChatGLM3部署初体验

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/5070.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CI/CD:基于kubernetes的Gitlab搭建

1. 项目目标 (1)熟悉使用k8s环境搭建Gitlab (2)熟练应用Gitlab基本配置 2. 项目准备 2.1. 规划节点 主机名 主机IP 节点规划 k8s-master 10.0.1.1 kube_master k8s-node1 10.0.1.2 kube_node k8s-node2 10.0.1.3 k…

【AI心理咨询测评】一年后,AI心理咨询的路还有多远?——5例AI模型心理咨询能力测评对比

前言 随着GPT横空出世,AI心理健康的市场开始逐渐被开拓。有人联想到线上以GPT作为基础,开发可线上心理咨询的AI,例如国内的聆心智能。然而,这一想法也遭到了无数人的质疑:“连聊天都尚不能很好完成,去做心…

第⑰讲:Ceph集群各组件的配置参数调整

文章目录 1.Ceph集群各组件的配置文件1.1.Ceph各组件配置方式1.2.ceph临时查看、修改配置参数的方法 2.调整Monitor组件的配置参数删除Pool资源池2.1.临时调整配置参数2.2.永久修改配置参数 1.Ceph集群各组件的配置文件 1.1.Ceph各组件配置方式 Ceph集群中各个组件的默认配置…

【Jenkins】持续集成与交付 (一):深入理解什么是持续集成?

🟣【Jenkins】持续集成与交付 (一):深入理解什么是持续集成? 1、软件开发生命周期与持续集成2、 持续集成的流程3、持续集成的好处4、Jenkins的应用实践5、结语💖The Begin💖点点关注,收藏不迷路💖 1、软件开发生命周期与持续集成 软件开发生命周期(SDLC)是指软…

C语言:项目实践(贪吃蛇)

前言: 相信大家都玩过贪吃蛇这款游戏吧,贪吃蛇是久负盛名的游戏,它也和俄罗斯方块,扫雷等游戏位列经典游戏的行列,那贪吃蛇到底是怎么实现的呢? 今天,我就用C语言带着大家一起来实现一下这款游戏…

微软如何打造数字零售力航母系列科普04 - 微软联合Adobe在微软365应用程序中工作时推出新的生成式AI功能

微软和Adobe正在合作,将情境营销见解和工作流程引入微软Copilot,以提供生成的人工智能功能,使营销人员和营销团队能够在自然的工作流程中实现更多目标。 这些新的集成功能将在生产力和协作工具(如Outlook、Teams和Word&#xff0…

【事业单位专场】联考、省市统考、单独招考

一、考编概述 1、事业单位类别 事业单位是指由国家出资或委托管理的公共机构,其主要职能是为社会提供公共服务。在中国,事业单位覆盖了科研、教育、文化和卫生等多个领域,并且有着不同的类型。以下是一些主要的分类: 教育事业单…

NLP(10)--TFIDF优劣势及其应用Demo

前言 仅记录学习过程,有问题欢迎讨论 TF*IDF: 优势: 可解释性好 可以清晰地看到关键词 即使预测结果出错,也很容易找到原因 计算速度快 分词本身占耗时最多,其余为简单统计计算 对标注数据依赖小 可以使用无标注语…

【状态机dp 状态压缩 分组】1994. 好子集的数目

本文涉及知识点 动态规划汇总 动态规划 状态机dp 状态压缩 分组 LeetCode1994. 好子集的数目 给你一个整数数组 nums 。如果 nums 的一个子集中,所有元素的乘积可以表示为一个或多个 互不相同的质数 的乘积,那么我们称它为 好子集 。 比方说&#xff…

离散数学之命题逻辑思维导图+大纲笔记(预习、期末复习,考研,)

大纲笔记: 命题逻辑的基本概念 命题与联结词 命题 命题是推理的基本单位 真命题,假命题 特征 陈述句 唯一的真值 是非真即假的陈述句 非命题 疑问句 祈使句 可真可假 悖论 模糊性 三个基本概念 复合命题 真值取决于原子命题的值和逻辑联结词 原子命题 逻…

基于SSM的考研助手系统(有报告)。Javaee项目。ssm项目。

演示视频: 基于SSM的考研助手系统(有报告)。Javaee项目。ssm项目。 项目介绍: 采用M(model)V(view)C(controller)三层体系结构,通过Spring Spri…

【Java】图书管理系统 介绍与实现

欢迎浏览高耳机的博客 希望我们彼此都有更好的收获 感谢三连支持! 1.介绍 图书馆作为知识的殿堂和学术的中心,其管理系统不仅是图书馆管理的必备工具,更是为用户提供优质、高效服务的重要保障,促进了知识的传播和学术的发展。随着…

基于FPGA的数字信号处理(6)--如何确定Verilog表达式的符号

前言 尽管signed语法的使用能带来很多便利,但同时也给表达式的符号确定带来了更多的不确定性。比如一个有符号数和一个无符号数的加法/乘法结果是有符号数还是无符号数?一个有符号数和一个无符号数的比较结果是有符号数还是无符号数?等等。接…

力扣刷题Day2

题目链接: 24. 两两交换链表中的节点 - 力扣(LeetCode) 效果: 解题思路: 给定一个链表,两两交换其中相邻的节点,并返回交换后的链表。 注意不可以只是单纯的改变节点内部的值,而…

《QT实用小工具·四十七》可交互的创意动态按钮

1、概述 源码放在文章末尾 该项目实现了可交互的创意动态按钮,包含如下功能: 所有颜色自定义 鼠标悬浮渐变 两种点击效果:鼠标点击渐变 / 水波纹动画(可多层波纹叠加) 额外鼠标移入/移出/按下/弹起的实时/延迟共8种事…

51单片机两个中断及中断嵌套

文章目录 前言一、中断嵌套是什么?二、两个同级别中断2.1 中断运行关系2.2 测试程序 三、两个不同级别中断实现中断嵌套3.1 中断运行关系3.2 测试程序 总结 前言 提示:这里可以添加本文要记录的大概内容: 课程需要: 提示&#x…

德国著名自动化公司Festo设计了一款仿生蜜蜂,仅重34g,支持多只蜜蜂编队飞行!...

德国著名的气动元件研发及自动化解决方案供应商Festo公司近日展示了一款仿生蜜蜂(BionicBee),重量只有34g,却完全可以实现自主飞行,还支持多只相同的蜜蜂机器人编队飞行。 BionicBee 重约 34 克,长 22 厘米…

Redis线程模型及性能优化概述

redis线程模型: 网络模块命令处理 redis的性能: 一个取决于物理内存,另一个是对于socket请求的处理速度。 4.0以前 单线程模式 请求流程:对于一个请求,线程会根据操作产生相应的事件(读,写事…

基于Springboot的水产养殖系统(有报告)。Javaee项目,springboot项目。

演示视频: 基于Springboot的水产养殖系统(有报告)。Javaee项目,springboot项目。 项目介绍: 采用M(model)V(view)C(controller)三层体系结构&…

【MyBatis】进阶使用 (动态SQL)

动态SQL \<if>\<trim>\<where>\<set>\<foreach>\<include> 在填写表单时&#xff0c;有些数据是非必填字段&#xff08;例如性别&#xff0c;年龄等字段&#xff09;&#xff0c;那就需要在接收到参数时判断&#xff0c;根据参数具体的情况…