StarCloud开源行动:激发算力调度的创新潜力

01  于StarCloud

OpenCSG StarCloud 是一个集开源系统(Kubernetes ,K8S)与高性能计算(High Performance  Computing,HPC)一体的混合算力调度平台。它专注于大模型训练和推理,并提供一站式服务,包括从训练到部署,以及多模型比较等。除了在人工智能领域的应用,StarCloud 在工程设计与仿真、金融和风险管理、药物研发和医学研究等多个领域也展现出其卓越的性能。

随着大模型应用的发展及落地,GPU 算力资源变得日益紧张,StarCloud提供了多样化的异构计算算力服务,旨在满足大模型应用和高性能计算的需求,致力于构建一个普惠、易用的算力服务平台。StarCloud的资源调度平台有效缓解这一问题,通过精细化管理大模型的调度过程,从而提高资源的利用率。此外,企业可以利用StarCloud部署自己私有化的平台,实现定制化的资源管理和调度,以满足特定的业务需求。

02  StarCloud 功能介绍

StarCloud 是一个全面而高效的混合算力调度平台,它整合了多机多卡异构算力调度、异地多中心的统一调度,通过并行化计算加速大规模任务的处理。平台还能支持构建超大运算中心,调度数百万内核和数万GPU资源,同时提供了大模型微调的统一框架,以及多租户和私有化的支持,确保了调度的高效性和灵活性。

StarCloud功能覆盖了多个关键领域。接下来,本文将从用户模块、作业模块、资源模块、调度策略及其它这四个方面,为您详细解读 StarCloud 的核心功能:

用户模块

   1.多租户管理

  • 引入多租户管理功能,支持同时管理多个租户。

  • 通过强化数据与资源隔离,精准满足差异化租户需求。

   2. 用户角色

  • 允许定义和分配用户角色,优化访问控制和权限管理。

  • 为不同用户提供定制化的视图,并确保资源量与数据的独立性。

   3.用户和用户组设定

  • 提供了用户和用户组的设置功能,用户和用户组的管理更加便捷高效。

  • 确保系统用户的管理高效和准确。

   4.用户登录登出

  • 支持用户的登录和登出功能,确保系统的安全性和用户身份的验证。

作业模块

   1.作业状态查看

  • 允许实时监控提交作业的状态,包括进度和完成度。

  • 提供了对作业执行情况的全面监控,确保用户能够随时了解作业的进度和状态。

   2.作业详情和作业输出内容查看

  • 提供了对作业详细信息和输出内容的查看功能。

  • 深入了解作业的执行结果和输出。

   3.作业提交和相关参数配置

  • 提供了作业提交功能,同时还提供了相关参数的配置选项。

  • 灵活地配置作业的执行方式和参数。

资源模块​​​​​​

   

1.集群资源状态查看

  • 允许用户实时查看集群资源状态,包括资源的可用性和利用率。

  • 用户能够可视化管理资源,全面掌握集群资源的实时状况

   2.阿里云资源动态调度

  • 引入了阿里云资源的动态调度功能,能够更加灵活地管理和分配阿里云上的资源。

  • 满足不同作业的需求。

调度策略及其它

1.角色和队列关联

  • 提供角色和队列关联功能,将特定角色与特定队列相关联。

  • 简化作业的提交和管理流程。

   2.QoS创建和维护

  • 提供了QoS(服务质量)的创建和维护功能。

  • 满足不同作业的特定需求,确保作业按照预期的优先级和要求执行。

03  更多计划

未来,StarCloud 将持续优化和发展,增加更多实用的功能,进一步提升用户体验并满足不断变化的计算需求。这些功能可能包括但不限于:

  • StarCloud 一体式安装包

  • StarCloud K8S operator

  • StarCloud与 csghub整合, 允许用户选择模型微调

  • 支持更多微调框架例如 deepspeed, pytorch chepoint

  • 失败作业自动从检查点重启

StarCloud 开源地址:

https://github.com/OpenCSGs/llm-scheduler-ui 

https://github.com/OpenCSGs/llm-scheduler-api

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/11904.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【OpenVINO™】在 C# 中使用OpenVINO™ 部署PP-YOLOE实现物体检测

前言 OpenVINO™ C# API 是一个 OpenVINO™ 的 .Net wrapper,应用最新的 OpenVINO™ 库开发,通过 OpenVINO™ C API 实现 .Net 对 OpenVINO™ Runtime 调用,使用习惯与 OpenVINO™ C API 一致。OpenVINO™ C# API 由于是基于 OpenVINO™ 开发…

DevOps 温故知新

【引】伴随着微服务架构以及云技术的广泛使用,DevOps相应地引起了人们的关注,尤其在互联网企业展开了大量的探索和实践。去年赋闲在家的时候, 有幸精读了三本书,分别是《持续架构实践——敏捷和DevOps时代下的软件架构》&#xff…

Linux安装MySQL(CentOS 7)

安装步骤 下载的MySQL版本为mysql-8.0.26 进入网站MySQL,点击下载 找到mysql社区版 点击Archive,查看所有相关不同版本 点击MySQL Community Server 注意下载MySQL对应的Linux版本,CentOS7 对应 Linux7,如果下成Linux 8 则后面…

解决SpringBoot整合MyBatis和MyBatis-Plus,请求后不打印sql日志

问题发现 在整合springBootmyBatis时,发现请求不打印sql日志,示例代码如下: RestController public class MyController {AutowiredProductMapper productMapper;GetMapping("/test")public void test() {System.out.println(&qu…

全国大学生数学建模竞赛【集训营E题】丨 近5年赛题实现,模拟参赛体验

全国大学生数学建模竞赛E题集训营即将开营 基于Python的近5年E题数学建模基础巩固 近5年E题赛题实现 模拟参赛体验与作品评审

数据库笔记-【视图】

视图 视图通俗是企业想展示给用户看的,数据库存储的数据有很多,但是也有很多是不能对外公开的,做项目的过程就通过视图这个媒介达到这种效果 视图也可以保证数据库表结构字段的隐私安全等 create or replace view stu_v_1 as select id st…

✨✨使用vue3打造一个el-form表单及高德地图的关联组件实例✨

✨1. 实现功能 🌟表单内显示省市县以及详细地址 点击省市县输入框时,打开对应地图弹窗,进行位置选择选择位置回显入对应输入框表单内的省市县以及地址输入框同外嵌表单走相同的校验方式触发校验后点击reset实现清除校验与清空数据 &#x1f…

Base64在线编码解码方法

Base64在线编码解码 打开网站 在线工具网-梦幻加菲猫 选择“Base64编码解码” 输入需要编码/解码的内容,点击“编码”/“解码”按钮 编码: 解码: 4. 复制已经编码/解码后的内容。

【云原生】Kubeadm搭建K8S

一、部署Kubernetes 实验环境 服务器主机名IP地址主要组件k8s集群master01 etcd01master01192.168.10.100kube-apiserver kube-controller-manager kube-schedular etcdk8s集群node01 etcd02node01192.168.10.101kubelet kube-proxy docker flannelk8s集群node02 etcd03nod…

数据结构-题目

1.已知一颗完全二叉树的第6曾(设根为第1层),有8个结点,则完全二叉树的结点个数,最少和最多分别是多少? 因此最少为39,最多为111 2.假设一棵三叉树的结点数为50,则它的最小高度为&…

【声呐仿真】学习记录3-待续

【声呐仿真】学习记录3-后续 第五阶段-获取数据1.运行赫尔库勒斯沉船的世界:2.键盘操纵rov至合适的位置,调整Image topic,查看输出图像3.RVIZ SONAR 图像查看器插件(没有对应的topic)4.点云5.录制rosbag 第六阶段-查看…

守护数据安全:精选七款数据加密软件

在数字化日益普及的今天,数据安全成为了企业和个人不可忽视的重要问题。加密软件作为数据安全的第一道防线,扮演着至关重要的角色。本文将为读者精选七款优秀的加密软件,帮助大家更好地守护数据安全。 Ping32数据加密软件 Ping32数据加密软…

Timestamp Unix时间戳在线转换

Timestamp Unix时间戳在线转换 打开网站 在线工具网-梦幻加菲猫 选择“时间戳转换” 在前半部分输入框输入时间/时间戳,点击“转换>>”按钮,即可转换完成 得到转换结果

Python自动化SQL注入和数据库取证工具库之sqlmap使用详解

概要 在网络安全领域,SQL注入仍然是最常见的攻击之一。sqlmap是一个开源的自动化SQL注入和数据库取证工具,它提供了广泛的功能来检测和利用SQL注入漏洞。本文将详细介绍sqlmap的安装、特性、基本与高级功能,并结合实际应用场景,展示其在网络安全测试中的应用。 安装 sqlm…

银行监管报送系统系列介绍(十七):一表通2.0

国家金融监督管理总局于9月发布了【一表通2.0(试用版)】(简称:一表通2.0),在原试点报送范围的基础上扩大了试点报送区域,意味着将陆续扩大试报送机构范围,推进的速度已明显加快。尽早…

HQChart使用教程98-右键菜单2.0使用介绍

HQChart使用教程98-右键菜单2.0使用介绍 内置右键菜单启用右键菜单定制右键菜单内容1. 注册内置右键菜单创建回调事件2. 修改内置菜单的显示内容回调函数格式菜单数据结构示例 3. 注册菜单项点击事件回调 右键事件完整示例HQChart代码地址 内置右键菜单 HQChart h5版本内置提供…

Spring Boot + Mybatis-plus代码生成器 自动生成项目结构

首先创建一个新的springboot项目 项目初始化结构如下: 运行自动生成结构代码后的效果如下: 对比初始化项目结构可以发现结构中多了以下几个部分; controller文件夹存储接口类mapper文佳夹存储数据库映射model文件夹存储数据库模型类Service文件夹存储业…

未授权访问:Docker未授权访问漏洞

目录 1、漏洞原理 2、环境搭建 3、未授权访问 4、通过crontab反弹宿主机shell 防御手段 今天继续学习各种未授权访问的知识和相关的实操实验,一共有好多篇,内容主要是参考先知社区的一位大佬的关于未授权访问的好文章,还有其他大佬总结好…

万字长文带你掌握 IDEA 2024 的30个Debug调试绝技,让你开发与修复 Bug 的效率提升亿倍

万字长文带你掌握 IDEA 2024 的30个Debug调试绝技,让你开发与修复 Bug 的效率提升亿倍 博主猫头虎的技术世界 🌟 欢迎来到猫头虎的博客 — 探索技术的无限可能! 专栏链接: 🔗 精选专栏: 《面试题大全》 — …

QCC---Aptx Lossless验证

因为aptx Lossless属于高通骁龙声音的一部分,一般支持高通骁龙声音的设备会支持到,比如说手机,而且还要支持最新的aptx adaptive协议R2.2版本。但是如果手上没有这样的手机的话,有source芯片也可以去做测试验证。在最新的784.1版本…