一. 大模型部署面临的挑战
1. 计算量巨大
大模型参数量巨大,前向推理时需要进行大量计算。
2. 内存开销巨大
大模型在推理过程中,以FP16为例,20B模型仅加载参数就需40G+显存,175B模型更是需要350G+显存。同时在推理过程中,为避免重复计算,会将计算注意力得到的KV进行缓存。
而目前的最大的GPU的显存仅为80GB。
3. 访存瓶颈
大模型推理时”访问密集“型任务。目前硬件计算数据"远快于”显存带宽,存在严重的访存性能瓶颈。
二. LMDeploy
1. 简介
LMDeploy由MMDeploy 和 MMRazor 团队联合开发,时涵盖了LLM任务的全套轻量化,部署和服务解决方案。核心功能包括高效推理,可靠量化,便捷服务和有状态推理。
2. 核心功能
LMDeploy主要提供 模型高效推理,量化压缩,服务化部署等核心功能。
3. 支持的模型
不仅仅支持InternLM,而且支持目前大部分的开源模型,包括国外的LLama,国内的Qwen, baichuan等。