LitServe - 闪电般快速服务AI模型⚡

文章目录

    • 一、关于 LitServe
    • 二、快速启动
      • 定义服务器
      • 测试服务器
      • LLM 服务
      • 小结
    • 三、特色示例
      • 功能特点
    • 四、性能表现
    • 五、托管选项


一、关于 LitServe

LitServe是一个易于使用、灵活的服务引擎,适用于基于FastAPI构建的AI模型。批处理、流式传输和GPU自动缩放等功能消除了为每个模型重建FastAPI服务器的需要。

LitServe至少比普通FastAPI快2倍。

  • github : https://github.com/Lightning-AI/LitServe
  • 官方文档:https://lightning.ai/docs/litserve
  • 快速启动• 例子• 特点• 性能• 托管• 文档
  • Discord

特点:简单、灵活、企业规模

(2x)+ faster serving  ✅ Easy to use        ✅ Batching, Streaming   
✅ Bring your own model  ✅ PyTorch/JAX/TF/... ✅ Built on FastAPI      
✅ GPU autoscaling       ✅ Multi-modal        ✅ Self-host or ⚡️ managed

二、快速启动

通过pip安装LitServe(更多选项):

pip install litserve

定义服务器

这个2模型玩具示例(AI复合系统)展示了LitServe的灵活性(参见真实示例):

# server.py
import litserve as ls# (STEP 1) - DEFINE THE API (compound AI system)
class SimpleLitAPI(ls.LitAPI):def setup(self, device):# setup is called once at startup. Build a compound AI system (1+ models), connect DBs, load data, etc...self.model1 = lambda x: x**2self.model2 = lambda x: x**3def decode_request(self, request):# Convert the request payload to model input.return request["input"] def predict(self, x):# Easily build compound systems. Run inference and return the output.squared = self.model1(x)cubed = self.model2(x)output = squared + cubedreturn {"output": output}def encode_response(self, output):# Convert the model output to a response payload.return {"output": output} # (STEP 2) - START THE SERVER
if __name__ == "__main__":# serve with advanced features (GPUs, etc...)server = ls.LitServer(SimpleLitAPI(), accelerator="auto", max_batch_size=1)server.run(port=8000)

现在通过命令行运行服务器

python server.py

  • LitAPI可以完全控制构建可扩展的复合AI系统(1个或多个模型)。
  • LitServer处理优化,如批处理,自动GPU缩放等。

测试服务器

使用自动生成的LitServe客户端:

python client.py

或使用此终端命令:

curl -X POST http://127.0.0.1:8000/predict -H "Content-Type: application/json" -d '{"input": 4.0}'

LLM 服务

LitServe不仅仅适用于像vLLM或Ollama这样的LLM;它为任何AI模型提供完全控制内部的服务(了解更多信息)。
为了方便LLM服务,集成vLLM与LitServe,或使用LitGPT(基于LitServe构建)。

litgpt serve microsoft/phi-2

小结

  • LitAPI让您可以使用一个或多个模型(文档)轻松构建复杂的AI系统。
  • 将设置方法用于连接模型、数据库和加载数据(文档)等一次性任务。
  • LitServer处理优化,如批处理、GPU自动缩放、流式传输等(文档)。
  • 在您自己的机器上自行托管或使用Lightning Studios进行完全托管的部署(了解更多信息)。

了解如何使此服务器快200倍。


三、特色示例

使用LitServe部署任何模型或AI服务:(Gen AI、经典ML、嵌入服务器、LLM、视觉、音频、多模态系统等……)

演示视频: https://private-user-images.githubusercontent.com/884798/360682715-5e73549a-bc0f-47a9-9d9c-5b54389be5de.mp4

在这里插入图片描述


例子:

Featured examplesToy model:      Hello world
LLMs:           Llama 3 (8B), LLM Proxy server
NLP:            Hugging face, BERT, Text embedding API
Multimodal:     OpenAI Clip, MiniCPM, Phi-3.5 Vision Instruct
Audio:          Whisper, AudioCraft, StableAudio, Noise cancellation (DeepFilterNet)
Vision:         Stable diffusion 2, AuraFlow, Flux, Image super resolution (Aura SR)
Speech:         Text-speech (XTTS V2)
Classical ML:   Random forest, XGBoost
Miscellaneous:  Media conversion API (ffmpeg)

浏览100多个社区构建的模板


功能特点

最先进的功能:

✅(2x)+比普通FastAPI更快
✅带上你自己的模特
✅构建复合系统(1个以上模型)
✅GPU自动缩放
✅配料
✅流媒体
✅工人自动缩放
✅在您的机器上自托管
✅主机在闪电AI上完全管理
✅服务于所有模型:(LLM ,视觉等)
✅缩放到零(无服务器)
✅支持PyTorch、JAX、TF等…
✅符合OpenAPI标准
✅开放AI兼容性
✅认证

10+功能…

注意:我们优先考虑可扩展的企业级功能而不是炒作。


四、性能表现

LitServe专为AI工作负载而设计。专门的多工作者处理可提供比FastAPI至少2倍的加速。

批处理和GPU自动缩放等附加功能可以将性能提高到2倍以上,有效地扩展以处理比FastAPI和TorchServe更多的同时请求。

在这里复制完整的基准(越高越好)。

在这里插入图片描述

这些结果适用于图像和文本分类ML任务。性能关系适用于其他ML任务(嵌入、LLM服务、音频、分割、目标检测、摘要等…)。

*💡关于LLM服务的注意事项:*对于高性能LLM服务(如Ollama/VLLM),请使用LitGPT或使用LitServe构建自定义的类似VLLM的服务器。需要使用LitServe进行kv缓存等优化以最大限度地提高LLM性能。


五、托管选项

LitServe可以独立托管在您自己的机器上,也可以通过Lightning Studios进行完全管理。

自托管非常适合黑客、学生和DIY开发人员,而完全托管托管非常适合需要轻松自动缩放、安全性、发布管理以及99.995%正常运行时间和可观察性的企业开发人员。

FeatureSelf ManagedFully Managed on Studios
Deployment✅ Do it yourself deployment✅ One-button cloud deploy
Load balancing
Autoscaling
Scale to zero
Multi-machine inference
Authentication
Own VPC
AWS, GCP
Use your own cloud commits

2025-01-27(一)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/69615.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

小程序电商运营内容真实性增强策略及开源链动2+1模式AI智能名片S2B2C商城系统源码的应用探索

摘要:随着互联网技术的不断发展,小程序电商已成为现代商业的重要组成部分。然而,如何在竞争激烈的市场中增强小程序内容的真实性,提高用户信任度,成为电商运营者面临的一大挑战。本文首先探讨了通过图片、视频等方式增…

【HarmonyOS之旅】基于ArkTS开发(三) -> 兼容JS的类Web开发(三)

目录 1 -> 生命周期 1.1 -> 应用生命周期 1.2 -> 页面生命周期 2 -> 资源限定与访问 2.1 -> 资源限定词 2.2 -> 资源限定词的命名要求 2.3 -> 限定词与设备状态的匹配规则 2.4 -> 引用JS模块内resources资源 3 -> 多语言支持 3.1 -> 定…

Linux网络 | 理解TCP面向字节流、打通socket与文件的关系

前言:我们经常说TCP是面向字节流的, TCP是面向字节流的。 但是, 到底是什么事面向字节流呢? 另外, 我们知道sockfd其实就是文件fd。 但是,为什么sockfd是文件fd呢? 这些问题都在本节内容中的到回…

FireFox | Google Chrome | Microsoft Edge 禁用更新 final版

之前的方式要么失效,要么对设备有要求,这次梳理一下对设备、环境几乎没有要求的通用方式,universal & final 版。 1.Firefox 方式 FireFox火狐浏览器企业策略禁止更新_火狐浏览器禁止更新-CSDN博客 这应该是目前最好用的方式。火狐也…

大数据学习之Kafka消息队列、Spark分布式计算框架一

Kafka消息队列 章节一.kafka入门 4.kafka入门_消息队列两种模式 5.kafka入门_架构相关名词 Kafka 入门 _ 架构相关名词 事件 记录了世界或您的业务中 “ 发生了某事 ” 的事实。在文档中 也称为记录或消息。当您向 Kafka 读取或写入数据时,您以事件的 形式执行…

深度学习指标可视化案例

TensorBoard 代码案例:from torch.utils.tensorboard import SummaryWriter import torch import torchvision from torchvision import datasets, transforms# 设置TensorBoard日志路径 writer SummaryWriter(runs/mnist)# 加载数据集 transform transforms.Comp…

Linux文件原生操作

Linux 中一切皆文件,那么 Linux 文件是什么? 在 Linux 中的文件 可以是:传统意义上的有序数据集合,即:文件系统中的物理文件 也可以是:设备,管道,内存。。。(Linux 管理的一切对象…

基于springboot+vue的流浪动物救助系统的设计与实现

开发语言:Java框架:springbootJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包:…

提供一种刷新X410内部EMMC存储器的方法

USRP X410内部采用了16G的EMMC存储器,内有内核和文件系统。官方站[注1]提供了多个版本的EMMC映像文件,并提供了多种刷新方法[注2]。 1,如果内核还能运行只是文件系统破坏,可以从外接USB盘,之后使用mount挂载U盘&#…

CTFSHOW-WEB入门-命令执行29-32

题目:web 29 题目:解题思路:分析代码: error_reporting(0); if(isset($_GET[c])){//get一个c的参数$c $_GET[c];//赋值给Cif(!preg_match("/flag/i", $c)){eval($c);//if C变量里面没有flag,那么就执行C…

探索AI(chatgpt、文心一言、kimi等)提示词的奥秘

大家好,我是老六哥,我正在共享使用AI提高工作效率的技巧。欢迎关注我,共同提高使用AI的技能,让AI成功你的个人助理。 "AI提示词究竟是什么?" 这是许多初学者在接触AI时的共同疑问。 "我阅读了大量关于…

【CS61A 2024秋】Python入门课,全过程记录P4(Week7 Generators开始,更新于2025/1/29)

文章目录 关于基本介绍👋新的问题更好的解决方案Week7Mon Generators阅读材料Lab 05: Iterators, MutabilityQ1: WWPD: List-MutationQ2: Insert Items 关于 个人博客,里面偶尔更新,最近比较忙。发一些总结的帖子和思考。 江湖有缘相见&…

使用 OpenResty 构建高效的动态图片水印代理服务20250127

使用 OpenResty 构建高效的动态图片水印代理服务 在当今数字化的时代,图片在各种业务场景中广泛应用。为了保护版权、统一品牌形象,动态图片水印功能显得尤为重要。然而,直接在后端服务中集成水印功能,往往会带来代码复杂度增加、…

【MySQL — 数据库增删改查操作】深入解析MySQL的 Update 和 Delete 操作

1. 测试数据 mysql> select* from exam1; ----------------------------------------- | id | name | Chinese | Math | English | ----------------------------------------- | 1 | 唐三藏 | 67.0 | 98.0 | 56.0 | | 2 | 孙悟空 | 87.0 | 78.…

webAPI -DOM 相关知识点总结(非常细)

title: WebAPI语法 date: 2025-01-28 12:00:00 tags:- 前端 categories:- 前端WEB API 了解DOM的结构并掌握其基本的操作,体验 DOM 在开发中的作用 API简介 就是使用js来操作html和浏览器 什么是DOM? 就是一个文档对象模型,是用来呈现预计于任意htm…

图论——最小生成树的扩展应用

最小生成树相关原理 acwing1146.新的开始 假设存在一个“超级发电站” 在每一个矿井修发电站相当于从这个“超级发电站”到各个矿井连一条长度为 v [ i ] v[i] v[i]的边。 这样一来这就是一个最短路的模板题。 #include <iostream> #include <cstring> using na…

K8S中高级存储之PV和PVC

高级存储 PV和PVC 由于kubernetes支持的存储系统有很多&#xff0c;要求客户全都掌握&#xff0c;显然不现实。为了能够屏蔽底层存储实现的细节&#xff0c;方便用户使用&#xff0c; kubernetes引入PV和PVC两种资源对象。 PV&#xff08;Persistent Volume&#xff09; PV是…

宝塔面板SSL加密访问设置教程

参考:https://www.bt.cn/bbs/thread-117246-1-1.html 如何快速使用证书加密访问面板 因早期默认未开启https访问所以没有相关的风险提醒&#xff0c;现面板默认已开启https加密访问、提升安全性 由于采用的是服务器内部本身签发证书&#xff0c;不被公网浏览器信任请参考以下步…

深入探讨数据库索引类型:B-tree、Hash、GIN与GiST的对比与应用

title: 深入探讨数据库索引类型:B-tree、Hash、GIN与GiST的对比与应用 date: 2025/1/26 updated: 2025/1/26 author: cmdragon excerpt: 在现代数据库管理系统中,索引技术是提高查询性能的重要手段。当数据量不断增长时,如何快速、有效地访问这些数据成为了数据库设计的核…

21.2-工程中添加FreeRTOS(掌握) 用STM32CubeMX添加FreeRTOS

这个是全网最详细的STM32项目教学视频。 第一篇在这里: 视频在这里 STM32智能小车V3-STM32入门教程-openmv与STM32循迹小车-stm32f103c8t6-电赛 嵌入式学习 PID控制算法 编码器电机 跟随 **V3:HAL库开发、手把手教学下面功能&#xff1a;PID速度控制、PID循迹、PID跟随、遥控、…