管理 IBM Spectrum LSF

管理 IBM Spectrum LSF

了解如何管理 IBM® Spectrum LSF 集群,控制守护程序,更改集群配置以及使用主机和队列。 管理 LSF 作业和作业调度策略。 查看作业信息和控制作业。 了解如何配置资源并将其分配给 LSF 作业。 了解如何在 LSF 集群中提交,监视和控制高吞吐量和并行工作负载。 了解 LSF 错误和事件日志记录以及 LSF 如何处理作业异常。 调整 LSF 集群的性能和可伸缩性。

IBM Spectrum LSF 集群管理要点

了解如何管理 LSF 集群,控制守护程序,更改集群配置以及使用主机,队列和用户。

  • 使用集群
    了解 LSF 目录和文件,用于查看集群信息的命令,控制工作负载守护程序以及如何配置集群。
  • 使用主机
    检查集群中主机的状态,查看有关主机的信息,控制主机。 在集群中添加和除去主机。
  • 作业目录和数据
    作业将临时目录用于工作文件和临时输出。 缺省情况下, IBM Spectrum LSF 使用缺省操作系统临时目录。 使用 LSF 当前工作目录 (CWD) 功能部件可根据配置参数以及路径中包含的任何动态模式来动态创建和管理作业 CWD。 使用灵活的作业输出目录来根据配置参数动态创建和管理作业输出目录。
  • 作业通知
    缺省情况下,当批处理作业完成或退出时, LSF 会通过电子邮件向提交用户帐户发送作业报告。

监视 IBM Spectrum LSF 集群操作和运行状况

了解如何监视集群性能,作业资源使用情况以及有关队列,作业和用户的其他信息。

  • 监视集群性能
    使用 badmin perfmon 来监视集群性能。 使用 badmin diagnose 对集群问题进行故障诊断。
  • 监视作业信息
    使用 bjobs 和 bhist 来监视作业和作业阵列的当前和过去状态。 bjdepinfo 命令显示作业具有的任何依赖关系,这些依赖关系可以是依赖于作业的作业,也可以是依赖于作业的作业。 使用 bhosts -l 和 bqueues -l查看暂挂条件。 运行 bjobs -lp 以查看暂挂作业的原因。 运行 bjobs -l 以查看控制何时恢复作业的调度阈值。
  • 使用外部脚本监视应用程序
    使用看守程序功能来定期运行外部脚本,以检查应用程序信息并将作业信息作为通知传递。
  • 查看有关资源的信息
    使用 bhosts 命令可查看有关主机上的共享资源和主机上的装入的信息。 使用 bjobs 命令可查看作业资源使用情况。 使用 lsinfo 命令可查看总体集群资源,使用 lshosts 命令可查看基于主机的资源和按资源划分的主机负载。
  • 查看用户和用户组信息
    使用 busers 和 bugroup 命令可显示有关 LSF 用户和用户组的信息。
  • 查看队列信息
    bqueues 命令显示有关队列的信息。 bqueues -l 选项还提供有关特定队列中的作业的当前统计信息,例如队列中的作业总数,正在运行的作业数和已暂挂的作业数。

管理 IBM Spectrum LSF 作业执行
了解如何管理 LSF 作业和作业调度策略。 查看作业信息,控制作业以及管理作业依赖关系,作业优先级,作业数组,交互式作业,作业执行前和执行后以及作业启动者。

  • 管理作业执行
    了解 LSF 作业状态,如何查看有关作业的信息,以及通过暂挂,恢复,停止和发送信号来控制作业执行。
  • 作业文件假脱机
    LSF 通过创建用于缓冲作业输入和输出的目录和文件来启用作业输入,输出和命令文件的假脱机。 当作业完成时, LSF 将除去这些文件。
  • 作业数据管理
    LSF 提供了不同的选项来管理作业数据。
  • 作业调度和分派
    了解如何调度作业并将其分派给主机以供执行。
  • 控制作业执行
    使用资源使用限制来控制运行作业可耗用的资源量。 根据执行主机上的装入条件自动暂挂作业。 在作业完成之前和之后,使用执行前和执行后处理在执行主机上运行命令。 使用作业启动程序为作业设置运行时环境。 作业提交和执行控件使用特定于站点的外部可执行文件来验证,修改和拒绝作业,传输数据以及修改作业执行环境。
  • 交互式作业和远程任务
    使用 bsub -I, bsub -Is和 bsub -Ip 命令运行交互式作业,以利用资源密集型作业的批处理调度策略和主机选择功能。 使用非批处理实用程序 (例如 lsrun 和 lsgrun) 以交互方式远程运行任务。

配置和共享 IBM Spectrum LSF 作业资源
了解如何配置资源并将其分配给 LSF 作业。 在用户和项目之间公平共享计算资源。 将资源分配限制应用于作业,管理主机和用户组,保留资源以及指定作业的资源需求。

  • 关于 LSF 资源
    LSF 系统使用内置和配置的资源来跟踪作业资源需求,并根据各个主机上的可用资源来调度作业。
  • 在 LSF 中表示作业资源
    了解如何在 LSF中表示作业资源。
  • 基于计划的调度和预留
    基于计划的调度极大地改进了 LSF中的原始调度和预留功能。 调度程序可以在不久的将来规划作业布置,而不是仅查看当前资源可用性。 然后,将根据这些计划的分配进行预留。 基于计划的调度旨在替代旧的 LSF 预留策略。 启用 ALLOCATION_PLANNER 时,将忽略与旧预留功能部件相关的参数。
  • 将作业资源分发给 LSF 中的用户
    了解用户如何通过 LSF共享作业资源。
  • 全局资源
    全局资源是在所有已连接集群之间共享的资源。

GPU 资源
了解如何为 LSF 作业配置和使用 GPU 资源。

NVIDIA GPU 资源在 x64 和 IBM Power LE (Little Endian) 平台上受支持。
AMD GPU 资源在 x64 平台上受支持。

  • 启用 GPU 功能部件
    了解如何在 IBM Spectrum LSF中启用 GPU 功能部件。
  • 监视 GPU 资源
    了解如何在 IBM Spectrum LSF中监视 GPU 资源。
  • 提交和监视 GPU 作业
    了解如何在 IBM Spectrum LSF中提交和监视使用 GPU 资源的作业。
  • 旧的-使用 ELIM 的 GPU 功能
    了解如何手动使用旧的 ELIM 来使用 IBM Spectrum LSF中的 GPU 功能。

使用 LSF 配置容器

针对容器配置和使用 LSF 集成。
容器是基于 Linux 控制组 (cgroups) 和名称空间的轻量级操作系统级别虚拟化。 容器高效运行,并根据预定义的映像启动。 您可以打包应用程序并将其作为容器映像发布。 容器是可移植的,可以在任何映像的任何 Linux 发行版上运行。 LSF 支持 Docker,奇异性和 Shifter 容器运行时。

与 LSF GPU 调度配合使用时, LSF 可以使用 nvidia-docker 运行时使分配的 GPU 在容器中工作以实现应用程序加速。 LSF 为作业启动基于作业的容器,并且该容器的生命周期与作业的生命周期相同。 对于并行作业, LSF 将为作业启动一组容器。 作业完成后, LSF 将销毁所有容器。

LSF 在应用程序概要文件中配置容器运行时控件。 LSF 管理员负责在应用程序概要文件中配置容器运行时,最终用户无需考虑将哪些容器用于其作业。 最终用户将其作业提交到应用程序概要文件, LSF 会自动管理容器运行时控件。

  • IBM Spectrum LSF with Docker
    配置并使用 LSF 以根据需要在 Docker 容器中运行作业。 LSF 管理在容器中作为公共作业运行的作业的整个生命周期。
  • IBM Spectrum LSF with Shifter
    配置并使用 LSF 根据需要在 Shifter 容器中运行作业。 LSF 管理在容器中作为公共作业运行的作业的整个生命周期。
  • 具有奇异性的IBM Spectrum LSF
    配置并使用 LSF 以根据需要在奇异性容器中运行作业。 LSF 管理在容器中作为公共作业运行的作业的整个生命周期。
  • 带有 Podman的IBM Spectrum LSF
    配置并使用 LSF 以根据需要在 Pod Manager (podman) OCI 容器中运行作业。 LSF 管理在容器中作为公共作业运行的作业的整个生命周期。
  • IBM Spectrum LSF with Enroot
    配置并使用 LSF 以根据需要在 Enroot 容器中运行作业。 LSF 管理在容器中作为公共作业运行的作业的整个生命周期。

管理 IBM Spectrum LSF 高吞吐量工作负载
了解如何在 LSF 集群中提交,监视和控制高吞吐量工作负载。 配置支持高效排队,分派和执行短时间运行的作业的调度策略。

  • 作业包
    使用 LSF 作业包来加速大量作业的提交。 通过作业包,您可以通过提交包含多个作业请求的单个文件来提交作业。
  • 作业数组
    作业数组是具有相同可执行文件和资源需求但不同输入文件的作业组。 可以将作业数组作为单个单元或作为单个作业或作业组进行提交,控制和监视。
  • 公平共享调度
    公平共享调度在用户和队列之间划分 LSF 集群的处理能力,以提供对资源的公平访问权,从而使任何用户或队列都无法垄断集群的资源,并且不会使任何队列处于饥饿状态。
  • 有保证的资源池
    有保证的资源池为一组用户或其他使用者提供最低限度的资源保证。
  • 保留内存和许可证资源
    使用 LSF 为高吞吐量工作负载保留内存和许可证资源。

管理 IBM Spectrum LSF 并行工作负载
了解如何在 LSF 集群中提交,监视和控制并行工作负载。 配置用于保留资源的调度策略,以支持高效执行大型并行作业。

  • 运行并行作业
    LSF 提供了并行编程包的通用接口,以便可以通过编写 shell 脚本或包装程序来支持任何并行包。
  • 提前预留
    提前预留可确保在指定时间内访问特定主机或插槽。 在提前预留处于活动状态的时间内,只有与预留关联的用户或组才有权在预留的主机或插槽上启动新作业。
  • 公平共享调度
    公平共享调度在用户和队列之间划分 LSF 集群的处理能力,以提供对资源的公平访问权,从而使任何用户或队列都无法垄断集群的资源,并且不会使任何队列处于饥饿状态。
  • 作业检查点并重新启动
    通过作业检查点优化资源使用情况,然后重新启动以停止作业,然后从作业停止的位置重新启动作业。
  • 可检查点和可重新运行的作业的作业迁移
    使用作业迁移将可检查点和可重新运行的作业从一个主机移至另一个主机。 作业迁移使用作业检查点并重新启动,以便已迁移的可检查点作业从作业在原始主机上停止的位置在新主机上重新启动。
  • 可处理作业
    可处理作业可以使用随时可用的任务数,并且可以在作业运行时通过请求额外任务 (如果需要) 或释放不再需要的任务来增大或缩小任务数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/37318.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开发测试框架一 - 创建springboot工程及基础操作

一、创建及运行方式 1. 从官网导入: 注意:由于我的java版本是1.8;所以选中了spring2.7.14;如果你的java版本是9及以上,选中spring3相关的同时Java 版本也要对应起来 2. 创建第一个get请求 创建Controller package及…

mysql滑动窗口案例

获取学科最高分 SELECT DISTINCT name,subject,MAX(score) OVER (PARTITION by subject) as 此学科最高分数 from scores;获取学科的报名人数 select DISTINCT subject,count(name) over (partition by subject) as 报名此学科的人数 from scores; 求学科总分 SELECT DISTI…

JavaScript高级:常见设计模式

设计模式是在软件开发中重复出现的问题的解决方案,它们是经过验证的、被广泛接受的最佳实践。设计模式可以让我们避免重复造轮子,提高代码质量和可维护性。在本文中,我们将介绍几种常见的设计模式,以及它们的实现和应用。 1. 单例…

Conda(Python管理工具)

1.简介 Conda是一个开源的包管理器和环境管理器,主要用于管理Python,但也可以用于其他语言。它主要用于安装、管理和更新软件包及其依赖项,以及创建、保存、加载和切换不同的开发环境。Conda可以在Windows、MacOS和Linux系统上使用&#xff…

Spring Boot + Vue3前后端分离实战wiki知识库系统十二--用户管理单点登录开发一...

目标: 在上一次https://www.cnblogs.com/webor2006/p/17533745.html我们已经完成了文档管理的功能模块开发,接下来则开启新模块的学习---用户登录,这块还是有不少知识点值得学习的,先来看一下整体的效果,关于效果官网有…

2023全国大学生数学建模竞赛C提思路模型代码

目录 1.C题思路模型:比赛开始后,第一时间更新,获取见文末名片 2.比赛时间:2023年9月7日18点到2023年9月10日20点 3 全国大学生数学建模竞赛常见数模问题 3.1 分类问题 3.2 优化问题 详细思路见此名片,开赛第一时间…

YOLOv8目标检测算法

YOLOv8目标检测算法相较于前几代YOLO系列算法具有如下的几点优势: 更友好的安装/运行方式速度更快、准确率更高新的backbone,将YOLOv5中的C3更换为C2FYOLO系列第一次尝试使用anchor-free新的损失函数 YOLOv8简介 YOLOv8 是 Ultralytics 公司继 YOLOv5…

FiboSearch Pro – Ajax Search for WooCommerce 商城AJAX实时搜索插件

FiboSearch Pro是最受欢迎的WooCommerce 产品搜索插件。它为您的用户提供精心设计的高级 AJAX 搜索栏,并提供实时搜索建议。默认情况下,WooCommerce 提供非常简单的搜索解决方案,没有实时产品搜索,甚至没有 SKU 搜索。FiboSearch&…

网络基础(一)桥接网络

网络基础知识 桥接网络 桥接网络是一种网络设计技术,其目的是将两个或多个网络段连接在一起,使它们在逻辑上表现为单个网络。这通过使用网络桥来实现,网络桥工作在数据链路层(第2层),只关心MAC地址&#…

uniapp开发微信小程序底部地区选择弹框

个人项目地址: SubTopH前端开发个人站 (自己开发的前端功能和UI组件,一些有趣的小功能,感兴趣的伙伴可以访问,欢迎提出更好的想法,私信沟通,网站属于静态页面) SubTopH前端开发个人站…

React Native 图片组件基础知识

在 React Native 中使用图片其实跟 HTML 中使用图片一样简单,在 React Native 中我们使用Image组件来呈现图片的内容,其中主要的属性有:source。这个属性主要是设置图片的内容,它可以是网络图像地址、静态资源、临时本地图像以及本…

Android侧滑栏(一)可缩放可一起移动的侧滑栏

在实际的各类App开发中,经常会需要做一个左侧的侧滑栏,类似于QQ这种。 今天这篇文章总结下自己在开发中遇到的这类可以跟随移动且可以缩放的侧滑栏。 一、实现原理 使用 HorizontalScrollView 实现一个水平方向的可滑动的View,左布局为侧滑…

MySQL-MGR报错MY-011526

问题背景: 单主MGR集群,主节点在服务器意外重启之后,无法重新加入现有MGR集群,报错误[MY-011526] [Repl] Plugin group_replication reported: This member has more executed transactions than those present in the group. Local transact…

2023年度漏洞预警

1 漏洞 漏洞是硬件,软件,协议的具体实现或系统安全策略上存在的缺陷。从而可以使用攻击者能够在破坏系统。 2 漏洞汇总数据 以下数据针对 23 年截至8月期间爆发的高危严重漏洞进行了数据统计和分析, 具体的数据如下所示: 漏洞…

Camx--概述

该部分代码主要位于 vendor/qcom/proprietary/ 目录下: 其中 camx 代表了通用功能性接口的代码实现集合(CamX),chi-cdk代表了可定制化需求的代码实现集合(CHI),从图中可以看出Camx部分对上作为H…

v3s平台学习

printf 应用程序 arm-linux-gnueabihf-gcc test.c 复制a.out 到 sd卡 /media/shen/rootfs/root 运行a.out 不显示 解决方法 https://blog.csdn.net/whatday/article/details/85137031/?utm_mediumdistribute.pc_relevant.none-task-blog-2defaultbaidujs_baidulandingword~def…

Linux 性能分析之iostat命令详解

Linux 性能分析之iostat命令详解 iostat命令是IO性能分析的常用工具,其是input/output statistics的缩写。本文将着重于下面几个方面介绍iostat命令: iostat的安装iostat命令行选项说明iostat输出内容分析如何确定磁盘IO的瓶颈iostat实际案例 命令的安…

django boostrap html实现可拖拽的左右布局,鼠标拖动调整左右布局的大小或占比

一、实现的效果 最近需要在Django项目中,实现一个左右布局的html页面,页面框架使用的是boostrap。但这个布局不是简单的左右分栏布局,而是需要实现可以通过鼠标拖拽的方式动态调整左右两侧布局的大小和占比。效果大致如下: 一开始,页面分为左右两块布局: 鼠标放到中间的…

Python脚本之连接MySQL【四】

本文为博主原创,未经授权,严禁转载及使用。 本文链接:https://blog.csdn.net/zyooooxie/article/details/124640412 之前写了篇 Python脚本之连接MySQL【三】,日常使用过程中,代码实际有很多改动,特此更新…

阿里云SMS,APi接口返回错误码

API错误码 更新时间:2023-06-29 16:33提交缺陷 产品详情 相关技术圈 我的收藏 调用API接口失败时,会返回错误码。本文档为您提供API接口错误码列表,请根据错误码和对应错误信息排查问题。 错误码(Code) 错误信息…