HPC平台搭建

文章目录

    • 前言
    • 准备
    • 管理节点部署
    • 集群系统部署
    • 集群性能测试

前言

前面我们介绍了HPC高性能计算集群的背景高性能计算(HPC)的背景和简介和结构组成HPC系统组成简介,接下来,我们来聊聊如何一步步搭建一套HPC平台。
PS:本文会持续更新,不断细化和完善

准备

  • 硬件:我们需要至少一台管理节点(mgt),一台登录节点(login),资源不足时login可复用管理节点,一台io节点和若干计算节点,网络环境打通。
  • 操作系统:准备Centos 7.6系统镜像
  • 确定调度系统:SLURM
  • 确定文件系统:GPFS

管理节点部署

  • 安装OS,使用准备的系统镜像进行安装
  • 配置系统
    • SELINUX关闭
    • FIRWALLD关闭
    • SSH端口优化
  • 编写hosts表,配置ip地址
  • 配置本地yum源
  • 安装docker
  • xcat导入
    • ntps、dns、http、dhcp、nfs server
    • 安装LDAP server、webmin、创建slurm用户
    • 导入分发脚本
      • 网络配置:ntp、rsyslog自动配置(xcat自带)
      • 系统优化、ssh调优、swap调优脚本配置、module安装
      • IB网络驱动、GPU显卡自动安装脚本
      • ldap server、ldap client自动安装脚本
      • 作业调度server、client自动安装脚本
      • 文件系统server、client自动安装脚本
      • 自动安装intel编译器、iozone、stream、iperf

集群系统部署

  • client节点导入mac表
  • 集群系统分发:
    • io节点脚本部署:文件系统server、IB驱动、系统优化、ntp、rsyslog、网络配置、多路径安装脚本
    • Login节点脚本部署:系统优化、ntp、rsyslog、网络配置、文件系统client、作业调度server、IB驱动、intel编译器、module安装脚本
    • 计算节点
      • GPU节点:系统优化、npt、rsyslog、网络配置、ldap client、作业调度client、IB驱动、GPU驱动、module安装脚本
      • CPU节点:系统优化、npt、rsyslog、网络配置、ldap client、作业调度client、IB驱动、module安装脚本
    • 文件系统配置
    • 作业调度系统配置

集群性能测试

  • linpack测试脚本
    • 测试输出结果:单节点、单刀箱、整个集群
  • iozone性能测试脚本
    • 测试结果包括8K、16K、128K、1M、4M、8M、16M
  • stream性能测试脚本
  • iperf性能测试脚本

【星猿杂谈】:在这里我们共同探索科技新趋势,分享积累的点滴,从编程语言到系统架构,从人工智能到高性能计算,我们追求技术的进步,同时珍视分享的力量。欢迎关注我们,在技术的精彩世界中一起遨游,发现更多未知!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/588331.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于SpringBoot的健康医院门诊在线挂号系统

文章目录 项目介绍主要功能截图:部分代码展示设计总结项目获取方式🍅 作者主页:超级无敌暴龙战士塔塔开 🍅 简介:Java领域优质创作者🏆、 简历模板、学习资料、面试题库【关注我,都给你】 🍅文末获取源码联系🍅 项目介绍 基于SpringBoot的健康医院门诊在线挂号系…

微信小程序-父子页面传值

父子页面传值 父页面向子页面传值 方法一&#xff1a; 父页面&#xff1a; 1. /page/xxx/xxx?id1子页面&#xff1a; onLoad:function(option){ }方法二 <bindtap“func” data-xxx””> 子页面向父页面传值 定义父子页面 父页面&#xff1a;hotspot 子页面&a…

网安面试三十道题(持续更新)

91 mof提权 ## 是mysql的提权方式&#xff0c;在Linux下不能用&#xff0c;就是利用了 c:/windows/system32/wbem/mof/目录下的nullevt.mof文件&#xff0c;每分钟都会在一个特定的时间去执行一次的特征 sql语句&#xff1a; ## 通过shell上传这个文件&#xff0c;通过sql语句写…

esp32cam和arduino连接百度云AI识别图像识别接口识别图片内容

要将ESP32-CAM和Arduino连接到百度云AI图像识别接口&#xff0c;然后将识别结果打印到串口&#xff0c;可以按照以下步骤进行操作&#xff1a; 首先&#xff0c;确保您已经创建了百度云的账户&#xff0c;并且在控制台上创建了一个图像识别应用。获取到了API Key和Secret Key。…

惨案后续之---重装python 3.8版本的一系列操作

AssertionError: The environment must specify an action space. 报错 引发的惨案-CSDN博客https://blog.csdn.net/qq_38480311/article/details/135210089 总结&#xff1a; 接上昨日惨案&#xff0c;大意就是 为了解决一个错误&#xff0c;要安装gym0.18.0&#xff0c;经历了…

小信跳房子的题解

原题描述&#xff1a; 时间&#xff1a;1s 空间&#xff1a;256M 题目描述&#xff1a; 小信在玩跳房子游戏&#xff0c;已知跳房子游戏的图表现为一颗完美的具有个节点的二叉树。从根节点依次编号为。节点的左子节点编号为&#xff0c;右子节点编号为。 小信从从节点出发&…

Docker之镜像上传和下载

目录 1.镜像上传 1) 先上百度搜索阿里云 点击以下图片网站 2) 进行登录/注册 3) 使用支付宝...登录 4) 登录后会跳转到首页->点击控制台 5) 点击左上角的三横杠 6) 搜索容器镜像关键词->点击箭头所指 ​ 编辑 7) 进入之后点击实例列表 8) 点击个人实例进入我们的一个…

C++每日一练(8):图像相似度

题目描述 给出两幅相同大小的黑白图像&#xff08;用0-1矩阵&#xff09;表示&#xff0c;求它们的相似度。 说明&#xff1a;若两幅图像在相同位置上的像素点颜色相同&#xff0c;则称它们在该位置具有相同的像素点。两幅图像的相似度定义为相同像素点数占总像素点数的百分比。…

【HarmonyOS】ArkTS语言介绍与组件方式运用

从今天开始&#xff0c;博主将开设一门新的专栏用来讲解市面上比较热门的技术 “鸿蒙开发”&#xff0c;对于刚接触这项技术的小伙伴在学习鸿蒙开发之前&#xff0c;有必要先了解一下鸿蒙&#xff0c;从你的角度来讲&#xff0c;你认为什么是鸿蒙呢&#xff1f;它出现的意义又是…

设计模式:抽象工厂模式(讲故事易懂)

抽象工厂模式 定义&#xff1a;将有关联关系的系列产品放到一个工厂里&#xff0c;通过该工厂生产一系列产品。 设计模式有三大分类&#xff1a;创建型模式、结构型模式、行为型模式 抽象工厂模式属于创建型模式 上篇 工厂方法模式 提到工厂方法模式中每个工厂只生产一种特定…

2、python-常见数据类型-字符串(str)

简介 1.可以使用引号 ( ’ 或 " ) 来创建字符串 2.字符串也是一种序列&#xff0c;因此&#xff0c;通用的序列操作&#xff0c;比如索引&#xff0c;分片&#xff08;切片&#xff09;&#xff0c;加法&#xff0c;乘法等对它同样适用 一.索引、切片、加法、乘法 x &…

NFS的基本使用

#江南的江 #每日鸡汤&#xff1a;岁月匆匆&#xff0c;时光荏苒&#xff0c;感悟人生路漫漫&#xff0c;不忘初心方得始终。 #初心和目标&#xff1a;和从前的自己博弈。 NFS(存储共享服务) 本文要点摘要&#xff1a; 下面将讨论什么是NFS&#xff0c;如何配置NFS&#xff0c;…

全新ui自动化测试框架教学——Cypress

前言 在现阶段自动化测试领域大规模普及的是selenium及appium等常规自动化测试工具&#xff0c;但在其中会有遇到很多影响因素导致测试结果不理想和不准确的情况发生。在经过Darren洋对自动化测试工具调研后&#xff0c;发现了Cypress这一款针对端到端的自动化测试工具&#xf…

52.网游逆向分析与插件开发-游戏反调试功能的实现-检测调试器

码云地址&#xff08;master分支&#xff09;&#xff1a;https://gitee.com/dye_your_fingers/sro_-ex.git 码云版本号&#xff1a;be9f058bfaaa4b015f2659db842e07ee37e58996 代码下载地址&#xff0c;在 SRO_EX 目录下&#xff0c;文件名为&#xff1a;SRO_Ex检测调试器.z…

Python地理数据机器学习数学

地理数据 地理数据是存储在地理信息系统 (GIS) 中的位置信息。通过查看具有地理成分的数据&#xff0c;我们可以通过不同的视角来看待它。 用地理数据解决位置问题需要空间思维。让我们深入了解地理数据的类型、主题和来源。 类型 地理数据有不同类型&#xff0c;每种类型在…

认识计算机网络——计算机网络的概念

计算机网络是指将多台计算机通过通信介质连接起来&#xff0c;以便共享资源、交换信息和进行协作的技术体系。在现代社会中&#xff0c;计算机网络已经成为了各个领域的重要基础设施&#xff0c;改变了人们的生活方式和工作方式。本文将介绍计算机网络的基本概念、组成要素和发…

国产操作系统麒麟V10 SP2 设置应用自启动

下面以tomcat为例子&#xff0c;描述设置tomcat自启动的操作步骤&#xff1a;1.创建自启动脚本tomcat-autostart.desktop 内容&#xff1a; [Desktop Entry] Commenttomcat Comment[zh_CN]tomcat Exec/home/tomcat8/bin/startup.sh Hiddenfalse Nametomcat Name[zh_CN]tomcat …

vue3框架笔记

Vue Vue 是一个渐进式的前端开发框架&#xff0c;很容易上手。Vue 目前的版本是 3.x&#xff0c;但是公司中也有很多使用的是 Vue2。Vue3 的 API 可以向下兼容 2&#xff0c;Vue3 中新增了很多新的写法。我们课程主要以 Vue3 为主 官网 我们学习 Vue 需要转变思想&#xff0…

Springboot整合JSP-修订版本(Springboot3.1.6+IDEA2022版本)

1、问题概述&#xff1f; Springboot对Thymeleaf支持的要更好一些&#xff0c;Springboot内嵌的Tomcat默认是没有JSP引擎&#xff0c;不支持直接使用JSP模板引擎。这个时候我们需要自己配置使用。 2、Springboot整合使用JSP过程 现在很多的IDEA版本即使创建的项目类型是WAR工…

build.gradle记录

manifestPlaceholders 当我们想要动态的修改AndroidManifest.xml文件中一些熟悉时&#xff0c;可以通过manifestPlaceholders占位符来完成&#xff0c;首先在AndroidManifest.xml文件中预先设置一些占位符&#xff0c;例如 <meta-dataandroid:name"appkey"androi…