主流 LLM 部署框架

主流 LLM 部署框架

框架主要特点适用场景
vLLM- 超快推理(高吞吐)
- 动态批处理
- 支持 HuggingFace Transformer
- 支持 PagedAttention
高并发、低延迟在线推理
TGI (Text Generation Inference)- Huggingface官方出品
- 多模型管理
- 支持动态量化
- 支持 Flash Attention
生产环境大规模推理
Triton Inference Server- NVIDIA出品
- 支持多种框架(PyTorch、TensorFlow、ONNX)
- 多模型管理和自动Batching
通用模型部署、高性能
DeepSpeed-MII- 微调和推理一体化
- 支持数千亿参数推理(ZeRO-Inference)
- DeepSpeed集成
超大模型推理优化
FasterTransformer- NVIDIA高性能库
- 纯推理加速(TensorRT级别)
- 专为巨型模型而生
极限推理加速场景
Turbomind (By Alibaba)- 阿里自研,兼容 Huggingface
- 极致多卡推理
- FP16/BF16混合精度
大模型国产部署
vLLM+OpenAI API兼容- 通过OpenAI接口暴露
- 低成本私有部署
搭建内部API服务

 

搭建内部 API 服务的区别

不同框架提供的API服务有不同的实现和调优方式,下面列出不同框架搭建内部API服务的特点:

框架内部 API 服务搭建特点
vLLM- 快速响应:vLLM专注于超高吞吐量和低延迟,非常适合需要响应速度快的在线推理任务。
- 动态批处理:能够根据请求的大小动态调整批处理大小,进一步提升吞吐量。
- 适用场景:多用于高并发的API服务场景。
TGI (Text Generation Inference)- 多模型管理:支持同时管理多个模型,可以根据业务需求灵活切换模型。
- Flash Attention支持:提供高效的注意力机制,适用于需要高性能推理的服务。
- 适用场景:生产环境中大规模的推理服务,尤其适用于处理大量请求的场景。
Triton Inference Server- 多框架支持:支持PyTorch、TensorFlow、ONNX等多种框架,能够与不同类型的模型兼容。
- 自动Batching:能够自动进行批处理,优化吞吐量。
- 适用场景:适用于各种类型的API服务,无论是单个模型还是多个模型同时服务。
DeepSpeed-MII- 微调和推理一体化:能够同时进行微调和推理,适合需要根据用户反馈优化模型的场景。
- ZeRO-Inference:通过分布式优化,大幅降低对内存的需求,适合超大模型的推理。
- 适用场景:超大模型推理服务,尤其在云环境和大型计算集群中部署。
FasterTransformer- TensorRT加速:支持使用TensorRT等推理加速工具,极大提升推理速度。
- 适用场景:对推理性能要求极高的应用,特别是推理任务对延迟要求严格的场景。
Turbomind (By Alibaba)- 极致多卡支持:专为多卡部署优化,能够最大化硬件资源的利用率,适合大规模的推理任务。
- FP16/BF16混合精度:通过混合精度优化,提升推理性能并降低计算需求。
- 适用场景:大模型推理和国产化部署。
vLLM+OpenAI API兼容- 低成本私有部署:提供类似OpenAI API的接口,能够以较低的成本实现大模型的私有部署。
- 适用场景:公司内部API服务,适用于需要私有化的开发环境。

总结:

  • vLLMTGI 更适合于 在线推理高并发请求的场景,因为它们的 低延迟高吞吐量 设计。

  • Triton Inference Server 是一个多框架支持的通用推理框架,适合需要兼容多种框架和处理多模型的场景。

  • DeepSpeed-MII 更适合于 超大模型推理微调 场景,尤其是需要优化内存和推理性能的环境。

  • FasterTransformer 是专为高效推理而生,特别适合对延迟要求非常严格的任务。

  • Turbomind大模型部署多卡支持 方面非常强大,特别适用于国产化场景。

  • vLLM+OpenAI API兼容 提供了类似 OpenAI 接口的私有部署服务,适合有低成本部署需求的场景。

选择框架时的考虑:

  • 硬件资源:如果有多个 GPU 或者强大的硬件,DeepSpeed-MII 和 Turbomind 能发挥更大作用。

  • 推理性能:FasterTransformer 和 Triton 是极限推理加速场景的优选。

  • 应用规模和并发:vLLM 和 TGI 非常适合高并发的在线推理任务。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/77287.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在 Vue 3 setup() 函数中使用 TypeScript 处理 null 和 undefined 的最佳实践

在 Vue 3 中使用 setup() 函数和 TypeScript 时,null 和 undefined 是两个需要特别关注的类型。虽然它们看起来都表示“没有值”,但它们在 JavaScript 和 TypeScript 中有着不同的含义和使用场景。如果不小心处理它们,可能会导致潜在的 bug 或…

在 UniApp 中获取当前页面地址

在 UniApp 中获取当前页面地址,可以通过以下步骤实现: 方法说明: 获取当前页面实例:使用 getCurrentPages() 获取页面栈数组,最后一个元素即为当前页面实例。 提取页面路径和参数:从页面实例的 route 属性…

【华为】防火墙双击热备-之-主备模式-单外网线路-分享

FW1和FW2的业务接口都工作在三层,上行连接二层交换机。上行交换机连接运营商的接入点,运营商为企业分配的IP地址为100.100.100.2。现在希望FW1和FW2以主备备份方式工作。正常情况下,流量通过FW1转发;当FW1出现故障时,流…

crossOriginLoading使用说明

1. 说明 此配置用于控制 Webpack 动态加载的代码块&#xff08;chunk&#xff09;&#xff08;例如代码分割或懒加载的模块&#xff09;在跨域&#xff08;不同域名&#xff09;加载时的行为。它通过为动态生成的 <script>标签添加 crossorigin 属性&#xff0c;确保符合…

windows中安装VMware Workstation Pro虚拟机和ubuntu

目录 一、安装 VMware Workstation Pro 虚拟机 1、官网下载VMware Workstation Pro 1.1 选中 "VMware Workstation Pro for PC" 的 "DOWNLOAD NOW" 1.2 跳转到broadcom登录页面 1.3 注册账号 1.4 输入给邮箱收到的验证码信息&#xff0c;然后点击”Verify…

如何快速轻松地恢复未保存的 Word 文档:简短指南

文字处理器已经存在了几十年&#xff0c;其中许多已经变得非常擅长防止问题。丢失未保存的数据是一个常见问题&#xff0c;因此办公软件通常带有恢复文件的方法。在本文中&#xff0c;我们将介绍如何恢复 Word 文档&#xff0c;即使您尚未保存它。 确保数据安全的最佳方法是保…

JavaScript原生实现简单虚拟列表(列表不定高)

本文首发在我的个人博客上&#xff1a;JavaScript原生实现简单虚拟列表(列表不定高)https://www.brandhuang.com/article/1745637125513 前言 之前实现了一个定高版本的虚拟列表&#xff0c;今天在定高版本的基础上稍作调整&#xff0c;来实现不定高版本&#xff0c;之前的版本…

redis数据类型-位域bitfield

redis数据类型-位域bitfield 文档 redis单机安装redis常用的五种数据类型redis数据类型-位图bitmapredis数据类型-基数统计HyperLogLogredis数据类型-地理空间GEOredis数据类型-流Stream 官方文档 官网操作命令指南页面&#xff1a;https://redis.io/docs/latest/commands/…

pandas读取MySQL中的数据

使用pandas读取MySQL中的数据 1、导入库 pip install pandas pip install sqlalchemy2、示例代码 # -*- coding: utf-8 -*-import pandas as pd import re from sqlalchemy import create_engine# 清洗文本 def clean_text(text):text

MyBatis缓存配置的完整示例,包含一级缓存、二级缓存、自定义缓存策略等核心场景,并附详细注释和总结表格

以下是MyBatis缓存配置的完整示例&#xff0c;包含一级缓存、二级缓存、自定义缓存策略等核心场景&#xff0c;并附详细注释和总结表格&#xff1a; 1. 一级缓存&#xff08;默认开启&#xff09; // 使用同一SqlSession执行两次查询&#xff0c;自动命中一级缓存 try (SqlSe…

深入解析 C++17 中的std::variant与std::visit:从原理到实践

引言 什么是std::variant 在 C17 之前&#xff0c;如果你想在一个变量中存储多种可能的类型&#xff0c;通常会使用 union 或 void* 指针。然而&#xff0c;这些方法都有明显的缺点。 使用 union 时&#xff0c;类型信息会丢失&#xff0c;使得代码容易出错。 void* 指针则需…

Dijkstra算法对比图神经网络(GNN)

什么是AI模型? AI模型(人工智能模型)是一类模仿人类智能行为的数学模型或算法。它们通过从大量数据中学习,识别模式、做出预测或决策。常见的AI模型包括机器学习模型(如决策树、神经网络、支持向量机)和深度学习模型(如卷积神经网络CNN、循环神经网络RNN)。简单来说,…

Yarn 安装与使用教程

Yarn 安装与使用教程 Yarn 是一个由 Facebook 开发的 JavaScript 包管理工具&#xff0c;它比传统的 npm 更加高效、可靠&#xff0c;并且在性能上有所提升。Yarn 主要解决了 npm 安装速度慢、并发性差、缓存机制不完善等问题&#xff0c;它提供了更快的安装速度、更稳定的依赖…

Spring Boot 的配置加载顺序

Spring Boot 的配置加载顺序是“后来居上”——优先级高的配置源会覆盖优先级低的配置源中的同名配置 覆盖规则如下&#xff1a; 后加载的配置具有更高的优先级&#xff0c;会覆盖先加载的配置。如果多个配置源中存在同名配置项&#xff0c;最终生效的是具有最高优先级的那个…

Git分支重命名与推送参数解析

这两个参数的解释如下&#xff1a; git branch -M master 中的 -M 参数 -M 是 --move --force 的组合简写&#xff0c;表示强制重命名当前分支为 master。如果当前分支已经存在名为 master 的分支&#xff0c;-M 会强制覆盖它&#xff08;慎用&#xff0c;可能导致数据丢失&…

qt源码编译

问题1&#xff1a; 源码头文件问题&#xff1a; 有部分头文件缺少#include<limits>头文件 home/jetson/qt-everywhere-src-5.15.2/qtbase/include/QtCore/qfloat16.h /home/jetson/qt-everywhere-src-5.15.2/qtbase/src/corelib/text/qbytearraymatcher.h 问题2&…

芯岭技术XL32F003单片机 32位Cortex M0+ MCU简单介绍 性能优异

XL32F003单片机是深圳市芯岭技术有限公司的一款基于 32 位 ARM Cortex-M0 内核的高性能微控制器&#xff0c;提供SOP8/SOP14/SOP16/TSSOP20/SSOP24/QFN20/QFN32多种封装可选&#xff0c;可满足不同设计需求。XL32F003可用于工业控制、手持设备、PC 外设、传感器节点等应用场景&…

计算机图形学实践:结合Qt和OpenGL实现绘制彩色三角形

在Qt项目中结合OpenGL与CMake需要配置正确的依赖关系、链接库以及代码结构设计。以下是具体实现步骤和关键要点&#xff1a; 一、环境准备 安装Qt 确保安装包含OpenGL模块的Qt版本&#xff08;如Qt OpenGL、Qt OpenGLWidgets组件&#xff09;。安装CMake 使用3.10及以上版本&a…

3:QT联合HALCON编程—海康相机SDK二次程序开发

思路&#xff1a; 1.定义带UI界面的主函数类 1.1在主函数中包含其它所有类头文件&#xff0c;进行声明和实例化&#xff1b;使用相机时&#xff0c;是用公共相机的接口在某一个具体函数中去实例化具体的海康相机对象。 1.2设计界面&#xff1a;连接相机&#xff0c;单次采集&a…

基于大模型底座重构司法信息系统

前置篇章&#xff1a;法律智能体所需的基础知识 构建一个高效的法律智能体&#xff0c;特别是在基于RAG&#xff08;Retrieval-Augmented Generation&#xff09;架构的背景下&#xff0c;需要融合多种学科和领域的知识。以下是对法律智能体开发和应用所需核心基础知识的简要介…