阿里云人工智能平台PAI论文入选OSDI ‘24

近日,阿里云人工智能平台PAI的论文《Llumnix: Dynamic Scheduling for Large Language Model Serving》被OSDI '24录用。论文通过对大语言模型(LLM)推理请求的动态调度,大幅提升了推理服务质量和性价比。

Llumnix是业界首个能灵活在不同模型实例间重新分配请求的框架;并且,实验表明,与最先进的LLM服务系统相比,Llumnix请求尾延迟时间剧减超过10倍,将高优先级请求的速度提高了1.5倍,并在实现类似尾部延迟的同时,成本降低为原先的64%

OSDI是操作系统及分布式系统领域的旗舰级会议,OSDI与其姊妹会议SOSP长期以来对系统领域发展起着深刻的推动作用,在学术和工业界均有巨大影响力。OSDI/SOSP上曾诞生了许多影响深远的论文和系统,如GFS、MapReduce、BigTable等经典的分布式系统,以及如TensorFlow、TVM、vLLM等在人工智能领域产生深远影响的系统。

此次入选意味着阿里云人工智能平台PAI在大模型推理持续引领业界方向,获得了国际学者的认可,展现了中国机器学习系统技术创新在国际上的竞争力。

自ChatGPT这一颠覆性产品问世以来,生成式大语言模型(LLM)技术迎来了堪称日新月异的发展,短短一到两年时间我们已经见证了一系列大模型及产品的诞生和应用。LLM推理服务也因此成为LLM不断产品化进程中的关键技术支撑。然而LLM推理的请求及其执行呈现高度的差异性、动态性和不可预测性,这些特性给现今的推理服务系统带来了一系列挑战,大大限制了LLM推理服务的效率。

Llumnix是阿里云PAI团队研发的LLM推理动态调度框架,旨在利用调度的动态性来化解由请求的动态性带来的种种挑战。Llumnix是一个支持在多个模型实例之间对请求进行运行时重调度的框架,这一重调度能力使得Llumnix可以根据请求状态的动态变化对调度决策进行适应性调整,并以此实现了如负载均衡、碎片整理、请求优先级等一系列调度特性和优化(如下图)。通过在LLaMA系列模型上的实验,初步展示了动态调度的潜力,如大幅降低延迟,加速高优先级请求,以及降低服务成本等。

阿里云人工智能平台PAI团队对Llumnix进行了产品化研发,并已开源(Github地址:GitHub - AlibabaPAI/llumnix)。当前版本的Llumnix支持vLLM为后端推理引擎,可自动化拉起多实例vLLM服务,并在多实例之间进行请求调度及重调度。Llumnix保持了与vLLM非常相似的用户接口,从而以尽可能平滑和透明的方式加持在已部署的vLLM服务之上。目前,开源版本的Llumnix处于alpha状态,仍在积极研发和迭代中。欢迎您的试用和反馈!

后续Llumnix将与阿里云人工智能平台PAI自研的BladeLLM推理引擎PAI-EAS模型在线服务等产品深度结合,形成一体化的高性能LLM推理套件,并集成进入PAI灵骏智算服务产品,助力企业和个人开发者完成云上大语言模型服务的创新。

论文信息

论文标题:Llumnix: Dynamic Scheduling for Large Language Model Serving

作者:孙彪,黄梓铭,赵汉宇,肖文聪,张欣怡,李永,林伟

论文地址:Llumnix: Dynamic Scheduling for Large Language Model Serving | USENIX

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/45743.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第一次构建一个对话机器人流程解析(一)

1.问答机器人的组成 1.1 问答机器人的组成结构图 2. 问答机器人的组成-机器人的个人属性 所谓的机器人一般具备有个人的属性,这些属性固定,形成了机器人的个人偏好 在实现过程中,此处使用一个xml配置文件,配置了机器人的个人年…

如何选购一台云服务器

说明:基于博主本人经常在用云服务学习技术,许多博客里的技术分享也都是在自己购买的云服务器上操作的,本文介绍根据自己的经验,如何选购一台云服务器 选择产商 云服务可以选择阿里云、华为云、腾讯云、百度云,都是几…

296个地级市GDP相关数据(2000-2023年)

GDP相关数据:衡量地区经济活动的综合指标 国内生产总值(GDP)是衡量一个国家或地区经济规模和发展水平的核心指标。它反映了在一定时期内,所有常住单位生产活动的最终成果。 GDP的种类及其含义: 名义GDP:按…

昆明高校大学智能制造实验室数字孪生可视化系统平台建设项目验收

昆明高校大学智能制造实验室的数字孪生可视化系统平台建设项目,正是在这样的背景下应运而生。项目自启动以来,便受到了校方的高度重视和大力支持。经过数月的紧张筹备和精心实施,项目团队克服了种种技术难题,成功完成了系统的开发…

热题系列9

剑指 Offer 39. 数组中出现次数超过一半的数字 给一个长度为 n 的数组,数组中有一个数字出现的次数超过数组长度的一半,请找出这个数字。 例如输入一个长度为9的数组[1,2,3,2,2,2,5,4,2]。由于数字2在数组中出现了5次,超过数组长度的一半&am…

用 Kotlin 编写四则运算计算器:从零开始的简单教程

人不走空 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌赋:斯是陋室,惟吾德馨 目录 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌…

AI搜索助手心流正式上线 小程序版本、APP版本也将推出

7月10日,专为科研人员、高校教师和学生、职场人士研发的大模型应用产品心流正式上线。据了解,其产品定位为用户的AI搜索助手,提供智能搜索、知识问答、智能阅读、辅助创作等能力,旨在帮助用户提升工作和学习效率。 心流支持AI搜索…

AI绘画:midjourney快速生成符合心意的AI人物形象

生成人物的万能句式,包含**「人物的客观描述」「视角」「角度」「距离」「表情」「服装」「风格」「光源」**等内容,也可以只取其中部分的也会得到一个还不错的结果。 人物构图视角的选择 视角可以按照相机相对于被拍摄对象的位置,分为 正面…

微信小程序毕业设计-报刊订阅系统项目开发实战(附源码+论文)

大家好!我是程序猿老A,感谢您阅读本文,欢迎一键三连哦。 💞当前专栏:微信小程序毕业设计 精彩专栏推荐👇🏻👇🏻👇🏻 🎀 Python毕业设计…

网络(二)——套接字编程

文章目录 理解源IP地址和目的IP地址认识端口号认识TCP/UDP协议网络字节序socket编程接口socket 常见APIsockaddr结构 理解源IP地址和目的IP地址 在IP数据包头部中, 有两个IP地址, 分别叫做源IP地址, 和目的IP地址; 源IP即发送方的地址,目的IP即接受方的…

免费开源数字人生成工具

使用步骤更是简单到不行: 1. 输入图片:选择你想要生成动态视频的肖像图片。 2. 输入音频:提供与图片匹配的音频文件,EchoMimic会根据音频内容驱动肖像的动态效果。 3. 设置参数:一般保持默认设置即可,当然&…

【银河麒麟服务器操作系统】系统夯死分析及处理建议

了解银河麒麟操作系统更多全新产品,请点击访问麒麟软件产品专区:https://product.kylinos.cn 服务器环境以及配置 【机型】物理机 处理器: Intel 内存: 512G 整机类型/架构: X86_64 【内核版本】 4.19.90-25…

【C++深入学习】类和对象(一)

欢迎来到HarperLee的学习笔记! 博主主页传送门:HarperLee博客主页! 欢迎各位大佬交流学习! 本篇本章正式进入C的类和对象部分,本部分知识分为三小节。复习: 结构体复习–内存对齐编译和链接函数栈桢的创建…

再升级!视频理解大模型 CogVLM2 开源

节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。 针对大模型技术趋势、算法项目落地经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。 总结链接如…

基于JAVA-JSP的电子书下载系统设计与实现

点击下载源码 基于JAVA-JSP电子书下载系统 目 录 第1章 绪论 1 课题的研究背景、内容和意义 1 第2章 主要技术概述 3 2.1 B/S结构 3 2.2 JSP技术 4 2.2.1 JSP技术的强势 5 2.2.2 JSP技术的弱势 5 2.3 SQL SERVER 2000数据库 5 2.4 JDBC数据库连接 6 2.4.1 JDBC接口 …

Mathematica笔记

Mathematica笔记 mathematica等距、不等距数组mathematica多条线作图与循环图例 mathematica等距、不等距数组 mathematica多条线作图与循环图例 Clear["*"] h[x_, a_] a*E^x; LogLogPlot[Evaluate[Table[h[x, i], {i, 1, 20, 2}]], {x, 0.001, 10}, PlotRange -&g…

OpenGL笔记八之EBO和EBO绘制流程

OpenGL笔记八之EBO和EBO绘制流程 —— 2024-07-07 晚上 总结自bilibili赵新政老师的教程 code review! 文章目录 OpenGL笔记八之EBO和EBO绘制流程1.EBO2.glDrawElements:如果使用了ebo,最后一个参数可以写03.glDrawElements:如果使用了ebo…

CSS技巧专栏:一日一例 2.纯CSS实现 多彩边框按钮特效

大家好,今天是 CSS技巧一日一例 专栏的第二篇《纯CSS实现多彩边框按钮特效》 先看图: 开工前的准备工作 正如昨日所讲,为了案例的表现,也处于书写的习惯,在今天的案例开工前,先把昨天的准备工作重做一遍。 清除浏览器的默认样式定义页面基本颜色设定body的样式清除butt…

2024辽宁省数学建模B题【钢铁产品质量优化】思路详解

2024 辽宁省大学数学建模竞赛试题 B 题 钢铁产品质量优化 由于连续退火工序中各阶段的工艺参数之间存在耦合性(加热炉的温度设定会影响后续均热与冷却温度的设定,以及带钢穿行速度),导致难以建立该工序的机理模型,从而…

科特勒营销管理学读后感01

营销管理学之名词解释 任务环境可以理解为营销平台规模,公司营销渠道等等,宏观环境则是社会状况,环境状况。(个人理解)