Cube-Studio:开源大模型全链路一站式中台

开源项目,欢迎star哦,https://github.com/data-infra/cube-studio

一款真正意义的 LLMOps 框架

LLMOps(Large Language Model Operations)是一个涵盖了大型语言模型(如GPT系列)开发、部署、维护和优化的一整套实践和流程,而不仅仅是大模型的应用层。

简介

Cube-Studio是由腾讯音乐开源的一款云原生一站式AI中台,覆盖机器学习/深度学习/LLM大模型,开发、训练、推理、应用,全链路。

github地址:https://github.com/data-infra/cube-studio

该项目目前已是国内最火的开源算法全链路中台,上千家企业私有化部署和项目交付,非常适合数据算法架构团队搭建公司级AI中台,以及toB企业算法中台类项目交付。

LLMOps

cube-studio除了支持原有mlops全链路能力外,新版本增加了很多大模型相关的链路能力。

1. 支持AIHub形式部署40+常用开源大模型:

模型市场中已集成了40+常用开源大模型,包括chatglm4、llama3、qwen2、baichuan2、gemma等,还有openjourney、stable diffusion等文生图模型,并且支持开源模型一键部署,一键开发,一键微调,快速直观地感受大模型。

在这里插入图片描述

提示:除了大模型,另外还有400+开源图文音常规模型。

2. 多层次支持大模型训练微调技术栈:

• 支持tensorflow、pytorch、paddlejob、mindspore、mxnet等分布式多机多卡训练框架;

• 支持deepspeed、megatron、colossalai、horovod、mpi等分布式加速框架;

• 同时支持RDMA网络协议,可以使用底层IB交换机或roce网络;

• 硬件适配英伟达,以及海光、华为、寒武纪、天数智芯等国产设备,支持vgpu。

在这里插入图片描述

提示:除了多机多卡训练,也包含spark/ray/volcano等分布式计算框以及特征处理,文本处理,模型处理等环节。

3. 支持自有数据集一键微调部署:

支持chatglm3、chatglm4、qwen2、baichuan2、llama3等一键微调,集成了llama factory 支持100+LLMs的微调方案;并支持自动发布为推理服务,vllm推理加速,形成openai流接口。

pipeline一键训练推理部署,非常适合不太熟悉大模型微调算法的同学,任务流完成后可以直接对接到其他的openai接口使用的产品中。

在这里插入图片描述

4. 通过智能体构建,构建智能人机交互

• 支持对接外部llm服务厂商接口

• 支持对接内部预训练模型或微调模型llm服务接口

• 支持通过prompt构建领域专家和添加私有知识库

• 支持文生图,语音多模态交互

• 支持支持对接企业oa软件机器人

在这里插入图片描述

在这里插入图片描述

5. 大模型自动化标注

标注是AI中经常出现的任务,cube-studio中集成了开源标注平台label studio,支持图/文/音/多模态/大模型多种类型标注功能,用户管理,工作任务分发,对接数据集,支持标注数据导入;对接pipeline,支持标注结果自动化训练;对接aihub模型市场,支持自动化标注,只需将服务接口配置到label studio中,即可实现通过大模型来自动化标注。

在这里插入图片描述

在这里插入图片描述

提示:除了支持大模型的自动化标注,也支持普通模型图文音的自动化标注。

详细操作
使用参考wiki:https://github.com/data-infra/cube-studio/wiki

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/40071.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【深度学习】第3章实验——回归模型

根据相关数据集进行回归分析 1. import statsmodels.api as sm # df.loc[:, ...] 表示选择所有行。 # df.columns != mpg 创建一个布尔数组,指示哪些列不等于 mpg。 # df.loc[:, df.columns != mpg] 选择 df 中所有行和列名不等于 mpg 的所有列。 x =df.loc[:,df.columns!=m…

Python酷库之旅-第三方库Pandas(004)

目录 一、用法精讲 5、pandas.DataFrame.to_csv函数 5-1、语法 5-2、参数 5-3、功能 5-4、返回值 5-5、说明 5-6、用法 5-6-1、代码示例 5-6-2、结果输出 6、pandas.read_fwf函数 6-1、语法 6-2、参数 6-3、功能 6-4、返回值 6-5、说明 6-6、用法 6-6-1、代码…

05-《猪笼草》

猪笼草 猪笼草是猪笼草属全体物种的总称。属于热带食虫植物,原产地主要为旧大陆热带地区。其拥有一个独特的吸取营养的器官——捕虫笼,捕虫笼呈圆筒形,下半部稍膨大,笼口上具有盖子,因其形状像猪笼而得名。 猪笼草 形…

昂首平台一分钟理清VSA理论的市场阶段

VSA的英文全程是volume spread analysis,翻译过来就是成交量价格幅度差分析,从名字角度就也可以重点看出,VSA分析法主要是从成交量供应分析来分析。但是很多投资者不理解VSA理论的市场阶段,今天昂首平台就和投资者一分钟理清。 根…

第五篇——谋攻篇:韩信该死,拿破仑该亡

目录 一、背景介绍二、思路&方案三、过程1.思维导图2.文章中经典的句子理解3.学习之后对于投资市场的理解4.通过这篇文章结合我知道的东西我能想到什么? 四、总结五、升华 一、背景介绍 人生也是如此,伤敌一千,自损八百;而不…

AI绘画擦边变现赛道怎么玩?新手小白必看教程!

今天给大家介绍一个用 AI 搞擦边的变现赛道 而且可以说是0 成本变现的 现在真的越来越多的人都想 0 成本变现,那么 0 成本到底能不能变现,变现的上下限又是多少? 今天这个案例就可以很好的进行说明 可以说 AI 是现在第一生产力&#xff0…

【RT-thread studio 下使用STM32F103-学习sem-信号量-初步使用-线程之间控制-基础样例】

【RT-thread studio 下使用STM32F103-学习sem-信号量-初步使用-线程之间控制-基础样例】 1、前言2、环境3、事项了解(1)了解sem概念-了解官网消息(2)根据自己理解,设计几个使用方式(3)不建议运行…

const char * 、char const *、 char * const 三者的区别

一.const char*(常量指针) 1.定义一个指向字符常量的指针,这里,ptr是一个指向 char* 类型的常量,所以不能用ptr来修改所指向的内容,换句话说,*ptr的值为const,不能修改。但是ptr的声…

【Python机器学习】处理文本数据——停用词

删除没有信息量的单词有一种方法,就是舍弃那些出现次数太多以至于没有信息量的单词。 有两种主要方法: 1、使用特定语言的停用词(stopword)列表; 2、舍弃那些出现过于频繁的单词。 scikit-learn的feature_extracti…

达梦DM8使用管理工具自动commit设置

缘起 随着国产化信创大势崛起,越来越多的国产数据库跃上潮头。在用惯了国外数据库软件后,使用DM8的过程中前前后后遇到了不少“不习惯”,当然,用多了也就习惯了,要多给国产DB一些成长空间。 功能点探索 DM管理工具…

强烈建议!所有Python基础差的同学,死磕这本64页的背记手册!

Python背记手册是一份非常实用的学习资料,它涵盖了Python语言的基础知识、语法规则、常用函数和模块等内容,对于初学者和有一定基础的Python程序员来说都非常有用。通过背诵这份手册,可以加深对Python语言的理解和记忆,提高编程能…

摸鱼大数据——Spark Core——RDD综合案例——搜狗搜索流

2.1 数据源介绍 访问时间 用户id []里面是用户输入搜索内容 url结果排名 用户点击页面排序 用户点击URL 字段与字段之间的分隔符号为 \t和空格 (制表符号) 2.2 需求分析 需求一: 统计每个 关键词 出现了多少次,最终展示top10数据关键词示例: [.,,的,360, 安全卫士, 哄抢, 救灾…

Zabbix触发器

目录 触发器基础概念 创建和管理触发器 示例 定义一个触发器 在 Zabbix 中,触发器(Trigger)用于定义在监控数据满足特定条件时触发警报或动作。触发器是实现监控告警和自动响应的核心组件之一。以下是关于 Zabbix 触发器的详细解释和用法…

yaml格式转换成json格式

yaml格式转换成json格式 ①postman生成的结果是yaml格式 ps:postman输出的格式是没有自动换行的,需要将内容换行 ②复制到Python的脚本跑一趟:自动换行并去掉/n; str " "//(postman输出的内容) print(st…

LMT加仿真,十一届大唐杯全国总决赛

这次省赛带了太多个省一了,并且很多都进入了国赛总决赛,具体可看下面的图片,只放了一部分。目前只有B组是只有一个商用设备赛也就是LMT,A组和高职组都是仿真实践赛加上商用设备赛。 针对商用设备赛有对应的资料&#xff…

windows server2016搭建AD域服务器

文章目录 一、背景二、搭建AD域服务器步骤三、生成可供java程序使用的keystore文件四、导出某用户的keytab文件五、主机配置hosts文件六、主机确认是否能ping通本人其他相关文章链接 一、背景 亲测可用,之前搜索了很多博客,啥样的都有,就是不介绍报错以…

中国1km高分辨率高质量逐年近地表CO数据集(2013-2022年)

该数据为中国高分辨率高质量逐年CO数据集,该数据集主要的空间范围覆盖整个中国,其中内容包括中国1km高分辨率高质量逐年CO数据集(2013-2022年)。时间分辨率为年,单位为mg/m3,数据以(.nc/.tif)格式进行存储。

人工智能写作对话系统源码 自然语言的处理能力 前后端分离 带完整的安装代码包以及搭建教程

系统概述 随着互联网信息爆炸式增长,用户对于高质量、个性化内容的需求日益增长,而传统的内容生成方式已难以满足这一需求。另一方面,深度学习和自然语言处理技术的突破性进展,为人机交互提供了新的可能。本项目正是在此背景下应…

检索增强生成RAG系列7--RAG提升之高级阶段

系列5中讲到会讲解3个方面RAG的提升,它们可能与RAG的准确率有关系,但是更多的它们是有其它用途。本期来讲解第三部分:高级阶段。之所以说是高级阶段,可能是不好归一,而且实现起来相对于前面来说可能更为复杂。 目录 1…

PyCharm中如何将某个文件设置为默认运行文件

之前在使用JetBrain公司的另一款软件IDEA的时候,如果在选中static main函数后按键altenter可以默认以后运行Main类的main函数。最近在使用PyCharm学习Python,既然同为一家公司的产品而且二者的风格如此之像,所以我怀疑PyCharm中肯定也有类似的…