助力企业解决降本增效的难题,Altair HPCWorks新功能创新升级

“IO一旦出现问题,整个计算效率会降低50%以上。License、昂贵的硬件、紧张的项目周期都会因此而卡顿,而HPCWorks可以帮助包括像英伟达这样的顶尖客户随时了解研发资源的实时情况和实时瓶颈。

—— Altair 企业计算部技术总监 王轶华

在2024年 Altair 技术大会的精彩演讲

众所周知,Altair有三大产品线,AI产品线、HyperWorks产品线以及HPCWorks产品线。Altair在全球服务了大量包括芯片半导体、CAE、气象、生命科学等不同领域学科的HPC(高性能计算)应用需求

为了更大范围扩展服务,我们也在不断收购和增加产品线,今天主要介绍一下最新的产品和技术以及分享如何帮助国内客户实现HPC业务降本增效的案例。分为以下几个部分:

1、 HPCWorks解决方案更新;

2、 AI和HPC融合的解决方案;

3、 HPC软件优化方向;

4、 HPC利用率优化。

以下为具体演讲内容:

01、HPCWorks解决方案更新

首先一起看看HPCWorks最新的情况:

大家都知道,目前企业的研发资源越来越多,同时会产生非常多复杂的需求,例如很多企业有不同架构资源需要混合,可能有Windows、Linux、英特尔、英伟达或者ARM处理器架构等几十个厂商的软件,以及上云下云等需求。

目前Altair已经具备了帮助用户完成全场景覆盖以及不同系统平台统一调度和管理的能力,同时提供了很多非常个性化的功能,比如高吞吐的计算。

日常有一些仿真计算是以分钟或者小时为单位的,但是在芯片行业或数据科学行业,可能是以毫秒级为单位的。一天超过百万级计算任务的时候,企业对于作业调度软件和基础设施的需求是完全不同的。我们的高吞吐百万级作业调度能力以及基于存储感知的调度可以帮助用户进行上云下云的HPC调度。

HPC里非常重要的是IO和存储。因为仿真的数据越来越多,结果越来越大,IO层面一旦出现瓶颈,会让整个HPC系统形成阻塞。我们的IO监控和遥测遥感工具可以让用户实时知晓整个后台算力的IO瓶颈和当前IO负载的情况。

我们也提供了全新的一体化门户和远程前后处理的技术。Altair有很多技术栈,可以通过HPC技术在云端直接调用GPU卡,启动Windows,从而启动Altair的前后处理软件,或者其他第三方公司的图形软件。用户可以把整个数据处理放在数据中心,也就是用户的工作站,不需要GPU卡,只需要一个浏览器或者客户端就可以完成一整套HPC计算与操作。

我们也有HPC管理系统,可以在HPC端提供管理员可见的基于Web的管理模式。另外我们创建了一个用于流程整合和数据治理的平台,在CAE行业叫仿真流程和数据管理,在芯片行业主要是芯片研发的多流程管理。

此外,我们还有License的监控和管理系统,对于整个企业来说仿真的资源占到非常大的比重,目前我们有一整套解决方案专门用于仿真软件的License使用情况、瓶颈情况以及明年使用情况的预测。

接下来介绍AI技术栈的导入:

现在很多客户需要CAE、AI,甚至有一些客户有芯片研发的需求,我们可以整合成一个统一的平台,例如PBS、HPCWorks等。我们提供了AI整套解决方案,包括和CAE的混合管理能力,以及对于云和成本的管理能力。

目前我们有四个作业调度软件:PBS、Accelerator、Grid Engine(见下图),可以服务于不同的业务场景。比如比亚迪不仅有整车的研发团队,还有芯片的研发团队,用我们的作业调度软件实现了一整套研发资源的调度和管理需求。

目前我们的应用性门户有Access、Control,同时还有对于IO、对于License的监控平台,以及对于IO和研发流程管理的平台。

图片

目前很多用户都主要在用CAE的业务场景,但其实未来AI以及对于AI业务的混合管理会成为一个越来越重要的需求。我们提供对于AI平台、CAE平台以及EDA平台的大的整合管理,未来用户的研发资源池、算力池、存储池等几种不同的业务可以实现完全打通共享的状态。

接下来分享HPCWorks如何通过我们的解决方案帮助用户不断迭代和优化业务

目前我们有资源调度软件帮助用户提升计算效率,同时我们有用于存储和硬件系统监控的Mistral。我们可以了解到底层硬件当前最内核的状况,这个对于很多用户来说是一个黑盒。

全球的著名公司,包括英伟达都在用我们的产品进行大规模HPC后台IO系统优化。IO一旦出现问题,整个计算效率会降低50%以上。License、昂贵的硬件、紧张的项目周期都会因此而卡顿,我们的系统可以帮助包括英伟达这样顶尖的客户随时了解研发资源的实时情况和实时瓶颈。

10月份Altair发布了一个新的产品:桌面软件的监控和分析平台,帮用户在整个企业内部(除了后端数据中心的HPC系统和存储以及License之外)管理每一个研发工程师桌面的工作站软件使用情况。每一个人在工作站上装的软件、软件打开时间、软件使用情况、License使用情况、审计等,都可以在工作站采集到信息,然后形成大的数据池。

了解到整个研发资源的使用情况后,使用Altair的Monitor,可以跟SAO进行合并,帮客户了解到浮动License的使用情况。我们还有基于SDM的项目管理以及一个新的产品InsightPro,可以帮客户了解到HPC基于作业调度软件层面的使用情况,基于HPC项目人员、时间节点,甚至一些工况的分析情况。

我们也加入了AI功能,在门户里用户可以通过AI功能在提交和计算任务之前就了解需要的时间和大概的资源。我们也提供了AI的业务场景,比如大家经常会用到的Jupiter Notebook的统一整合,包括Container和 K8S的整合,实现完整的AI算力和技术架构的整合和管理。

图片

02、AI和HPC融合的解决方案

在AI和HPC整合方面我们也做了不少努力。国内很多用户希望专用自己的AI系统、AI算力、AI工程师,而CAE系统和软件给专门的CAE团队使用。但其实全球很多企业在底层基础架构,包括服务器、显卡、GPU卡等是可以作为整合的基础算力的。Altair HPCWorks的PBS就可以实现AI、CAE、EDA的计算资源池形成统一的整合。

那么,CAE和AI之间的区别是什么呢?CAE是标准的多线程并行计算,或者MPI的跨节点的计算。AI需要通过Container启动镜像文件,然后开始训练或者AI算法的学习过程。

如图中蓝色部分,我们提供了包括Spark、Magpie等的集成,也提供K8s的整合。我们还可以支持多种多样的Workload,放在一个统一的架构上进行管理。

图片

对于很多AI研发工程师来说,AI和CAE的最大不同在于AI有专门的研发Workflow,这些Workflow是通过第三方的工具(比如 KubeFlow或者MLFlow等)实现,这些工具可能原生对接的管理系统是Kubernetes(K8s),但Kubernetes其实是一套专用的系统,基本上只针对于AI的业务场景。

很多用户希望实现资源复用,所以Altair开发了PBS Kubernetes Connector,把底层K8s的调度器替换成了PBS,使每一个GPU的资源池上有一个PBS的守护进程,叫PBS Mom。

用户通过MLFlow或者KubeFlow提交AI训练任务的时候,K8s会找到PBS的调度器,启动每一个硬件资源上的守护进程。通过这个技术实现昂贵的GPU资源在CAE和AI两个业务场景的复用,同时不改变原有的用户使用习惯。

目前,我们的HPCWorks也在不断加入AI功能,包括Deep Learning功能,也会提供给用户基于机器学习的资源预估功能。

2024年我们新发布了2024.2版本的HPC,更新了入口的一个功能,如图所示,Altair OptiStruct的结构求解器,在选择不同内存的时候,会对计算的时间和性能产生影响,用户输入不同的CPU核数或者内存参数的时候,菜单会自动给一个预估时间。用户在提交任务的时候就可以了解到需要怎么提高计算效率。

图片

举个例子,一个AI工程师需要在AI的资源上提交一个Jupiter Notebook进行训练,或者基于学习的计算任务。在我们的门户里会给他一个基于Jupiter Notebook的启动资源,这个资源是基于HPC的调度分配,只有当GPU卡闲着的时候才会接收到AI训练的工作。

同时它也支持CPU和GPU的调度,在基于Web版本的用户提交了任务之后,可以开启一个IDE完成训练所需的资源,这个资源在AI工程师不用的时候还可以用做远程的前后处理以及CAE计算时需要GPU的业务场景。

03、HPC软件优化方向

Altair除了提供HPC的调度器之外,还有一整套License管理和监控工具:

(1)Insight Pro:基于HPC使用情况的数据管理

(2)SLAM:整合了之前的SAO软件资产优化和License Monitor两个工具,可以自动抽取企业内部几十种第三方CAE、CAD或者EDA软件的License使用情况,进行数据清洗和数据入库,最后通过数据展示了解整个License的历史使用情况,同时还有一些预测功能。

(3)LSC:具有License管理功能,面向企业内部的几十个License Server,可以进行远程License更换、License Option配置、License的启停、License的状态监控等。也可以导入企业内部的组织架构,针对不同人员进行License的消耗和使用情况管理。

(4)DSUA:每一个工程师桌面电脑的License统计分析工具。

图片

如下图,是整个解决方案的系统架构,中间有数据库、Web Server、Scheduler,导入企业内部的组织架构,可以方便用户了解不同部门不同人员不同项目组的License资产使用情况,进行基于人员的分析。同时会有HPC的数据进入,将各种各样的License数据导入数据库里。最后使用专门装在每一个工程师工作站上的数据收集工具将数据收集起来。

图片

通过一整套的工具,用户可以了解所有HPC端、License端、桌面工作端的实际使用情况以及生成相关的报表。

下图是系统架构的通用因素,有高性能数据库、数据清洗、认证功能导入等。我们会在每个浮动License上装一个agent,把每个License的数据采集出来,放在数据清洗和数据存储的数据库里。最终会提供给用户一个入口,通过这个入口可以看到企业内部所有License相关的消耗情况以及进行相关计费等。

前面提到,我们有三个工具(目前都在HPCWorks的解决方案里),通过这三个工具,企业可以对License的所有监控管理以及每个工程师使用情况进行大的整合:

SLAM:是软件资产优化和License监控的两个工具的合并,可以快速地装在所有的License Server上,把实时和历史的数据进行大的整合。同时支持多种多样的License服务器,可以把这些所有数据收集起来。
 

LSC:主要有License管理功能。
 

DSUA:是桌面License的管理工具。


License是非常昂贵的资源,可能比硬件贵很多,对很多用户来说,这些资源的真正使用情况、饱满度、使用位置、优化空间等都需要数据提供管理支持,最终可以帮助用户规划出正确的License投入。对于昂贵资产,通过数据的预测可以得到更加真实可靠的结果。

04、HPC利用率优化

HPC和软件License通常有很多问题,可能出现资源不够或库存爆掉的情况。HPC关联的资产通常非常昂贵,很多大型头部企业每年在HPC上投的软件费用可能上亿,在算力的投入可能几千万。但是真正的使用情况以及问题的发现和解决对企业而言是个难点。

目前企业都面临着降本增效的问题,期望通过现有的资源,在不增加投入的情况下提高有效产出以及提升用户体验。Altair在多年不断探索和产品迭代中发现,用户需要解决智能调度策略问题,在资源空闲的时候能够自动把紧急任务或需要大量使用资源的任务安排出去,并且把用户的计算时间进一步缩短,同时也能帮用户发现上亿资产背后的瓶颈

我们可以基于资源利用率帮用户进行HPC优化。首先通过采集到的资源情况、IO情况、License情况进行大量分析,帮用户诊断问题,带来企业全局收益,提升整体轮转效率,甚至实现用更少的资源完成更多的任务。

我们也可以基于资源切片分析进行优化。切片分析指通过后台自动化策略帮助用户实现智能调度,达到利用率的提升。

图片

对于企业而言,及时发现问题并持续优化,可以大幅度提升企业投资回报。当面对各种约束条件的时候如何提升现有系统效率,是非常值得我们思考的问题。

以上,就是本次演讲全部内容。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/60394.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

蓝桥杯每日真题 - 第20天

题目:(机房) 题目描述(13届 C&CG题) 解题思路: 这道题目可以看作在一个无向图中查找两点之间的最短路径。题目中的 n 台电脑和 n−1 根网线形成了一棵树,树是一个特殊的无向图&#xff0c…

【Python系列】浅析 Python 中的字典更新与应用场景

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

基于docker进行任意项目灵活发布

引言 不管是java还是python程序等,使用docker发布的优势有以下几点: 易于维护。直接docker命令进行管理,如docker stop、docker start等,快速方便无需各种进程查询关闭。环境隔离。项目代码任何依赖或设置都可以基本独立&#x…

【课堂笔记】隐私计算实训营第四期:“隐语”可信隐私计算开源框架

“隐语”可信隐私计算开源框架 隐语架构一览隐语架构拆解产品层算法层PSI/PIR数据分析(Data Analysis)联邦学习(Federated Learning) 计算层混合编译调度——RayFedSPUHEUTEEUYACL 资源层KUSCIA 互联互通跨域管控 隐语架构一览 隐…

Kubernetes的pod控制器

文章目录 一,什么是pod控制器二,pod控制器类型(重点)1.ReplicaSet2.Deployment3.DaemonSet4.StatefulSet5.Job6.Cronjob 三,pod与控制器的关系1.Deployment2.SatefulSet2.1StatefulSet组成2.2headless的由来2.3有状态服…

一文读懂埋阻埋容工艺

PCB 埋阻埋容工艺是一种在 PCB 板内部埋入电阻和电容的工艺。通常情况下, PCB 上电阻和电容都是通过贴片技术直接焊接在板面上的,而埋阻埋容工艺则将电 阻和电容嵌入到 PCB 板的内部层中,这种印制电路板,其自下而上依次包括第一介电 层,隐埋电…

QA|使用 MapleSim 模拟卷料生产 (Converting)和卷对卷系统 (R2R)

使用 MapleSim 模拟卷料生产 (Converting)和卷对卷系统 (R2R) 纸张、薄膜、塑料、金属箔、新能源电池和卷料生产设备 (converting equipment) 的制造商正在转向建模和仿真,以提升卷料处理的设备性能和产品质量。MapleSim 卷料处理库提供了专业的建模元件以及功能&a…

MATLAB读入不同类型图像并显示图像和相关信息

MATLAB(Matrix Laboratory)是一种常用的数学工具软件,MATLAB以矩阵运算为核心,为图像处理提供了高效的数据处理能力。图像处理中的许多操作都可以转化为矩阵运算,从而利用MATLAB的矩阵运算能力进行优化和加速。在图像处理方面&…

学习日志015--python单链表

创建 class Node:def __init__(self,data):# 数据域self.data data# 链接域self.next Noneclass LinkList:def __init__(self,):# 初始化头节点self.head None# 记录链表的长度self.size 0 增加 #头插def insert_head(self,value):# 创建新节点node Node(value)q self…

CnosDB 实时流式计算:优化时序数据处理与降采样解决方案

在处理时序数据时,数据写入周期通常与数据采集设备的频率相关,有时每秒钟就需要处理大量的数据点。长时间处理如此多的数据会导致存储问题。一个有效的解决方案是使用流式计算,将原始数据进行降采样。 流式计算在时序数据库中指对实时数据流…

241120学习日志——[CSDIY] [InternStudio] 大模型训练营 [09]

CSDIY:这是一个非科班学生的努力之路,从今天开始这个系列会长期更新,(最好做到日更),我会慢慢把自己目前对CS的努力逐一上传,帮助那些和我一样有着梦想的玩家取得胜利!!&…

机器学习基础06_梯度下降

目录 一、为什么使用梯度下降 二、什么是梯度下降 三、为什么要用梯度下降 四、怎么进行梯度下降 1、微分 1.单变量的微分 2.多变量的微分 2、梯度 3、步骤 (1)学习率α (2)梯度(导数)前的负号 4、实例实现 五、sklearn梯度下降 一、为什么使用梯度下降 前面利用正…

ELK8.15.4搭建开启安全认证

安装 Elastic :Elasticsearch,Kibana,Logstash 另外安装一个收集器filebeat 通过二进制安装包进行安装 创建一个专门放elk目录 mkdir /elk/ mkdir /elk/soft下载 es 、kibana、Logstash、filebeat二进制包 cd /elk/softwget https://art…

贴代码框架PasteForm特性介绍之image

简介 PasteForm是贴代码推出的 “新一代CRUD” ,基于ABPvNext,目的是通过对Dto的特性的标注,从而实现管理端的统一UI,借助于配套的PasteBuilder代码生成器,你可以快速的为自己的项目构建后台管理端!目前管…

【划分型 DP-约束划分个数】【hard】【阿里笔试】力扣1278. 分割回文串 III

给你一个由小写字母组成的字符串 s,和一个整数 k。 请你按下面的要求分割字符串: 首先,你可以将 s 中的部分字符修改为其他的小写英文字母。 接着,你需要把 s 分割成 k 个非空且不相交的子串,并且每个子串都是回文串…

YOLO入门教程(三)——训练自己YOLO11实例分割模型并预测【含教程源码+一键分类数据集 + 故障排查】

目录 引言前期准备Step0 环境部署1.安装OpenCV2.安装Pytorch3.安装Ultralytics Step1 打标训练Step2 格式转换Step3 整理训练集Step4 训练数据集4.1创建yaml文件4.2训练4.3预测4.4故障排查4.4.1OpenCV版本故障,把OpenCV版本升级到4.0以上4.4.2NumPy版本故障&#xf…

鸿蒙系统下使用AVPlay播放视频,封装播放器

鸿蒙系统下使用AVPlay开发一款视频播放器流程 一. 申请权限 申请相关权限&#xff0c;主要是读取存储卡权限&#xff0c;方便后面扫描视频用&#xff1a; getPermission(): void {let array: Array<Permissions> [ohos.permission.WRITE_DOCUMENT,ohos.permission.REA…

编程语言05:面向对象

一、定义 使用步骤&#xff1a; 1.定义类 2.创建对象 3.调用类的属性和方法 (一)定义类 1.java 一个java文件中可以定义多个class类&#xff0c;且只能一个类是public修饰&#xff0c;而且public修饰的类名必须成为代码文件名。 实际开发中建议还是一个文件定义一个…

低速接口项目之串口Uart开发(二)——FIFO实现串口数据的收发回环测试

本节目录 一、设计思路 二、loop环回模块 三、仿真模块 四、仿真验证 五、上板验证 六、往期文章链接本节内容 一、设计思路 串口数据的收发回环测试&#xff0c;最简单的硬件测试是把Tx和Rx连接在一起&#xff0c;然后上位机进行发送和接收测试&#xff0c;但是需要考虑到串…

机器学习系列----关联分析

目录 1. 关联分析的基本概念 1.1定义 1.2常用算法 2.Apriori 算法的实现 2.1 工作原理 2.2 算法步骤 2.3 优缺点 2.4 时间复杂度 2.5实际运用----市场购物篮分析 3. FP-Growth 算法 3.1 工作原理 3.2 算法步骤 3.3 优缺点 3.4 时间复杂度 3.5实际运用——网页点…