用api的方式调用本地下载好的大模型（以llama为例，不是ollama！！！）

1、创建虚拟环境

conda create -n myenv python=3.12 -y

2、激活虚拟环境

conda activate myenv

3、安装相关库

pip install vllm fastapi uvicorn

4、编写脚本（test.py）

from fastapi import FastAPI, Request
from vllm import LLM, SamplingParams
import uvicorn# Initialize FastAPI
app = FastAPI()# Load the model once at startup with adjusted parameters
model_path = "/home/zhengyihan/.cache/modelscope/hub/LLM-Research/Llama-3___2-3B-Instruct"
llm = LLM(model=model_path,max_model_len=8192,  # Reduced from defaultgpu_memory_utilization=0.95  # Increase memory allocation
)@app.post("/generate")
async def generate(request: Request):# Parse the request bodybody = await request.json()# Extract parameters from the requestprompt = body.get("prompt", "")temperature = body.get("temperature", 0.7)top_p = body.get("top_p", 0.95)max_tokens = body.get("max_tokens", 512)  # Reduced default# Set up sampling parameterssampling_params = SamplingParams(temperature=temperature,top_p=top_p,max_tokens=max_tokens)# Generate the responseoutputs = llm.generate(prompt, sampling_params)# Extract the generated textresults = []for output in outputs:results.append({"generated_text": output.outputs[0].text,"prompt": output.prompt})return {"results": results}if __name__ == "__main__":uvicorn.run(app, host="0.0.0.0", port=8000)

调用脚本

python test.py

5、bash中测试通信

curl -X POST http://localhost:8000/generate -H "Content-Type: application/json" -d '{"prompt": "Once upon a time"}'

完美结果

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/pingmian/78194.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

用api的方式调用本地下载好的大模型（以llama为例，不是ollama！！！）

目录

1、创建虚拟环境

2、激活虚拟环境

3、安装相关库

4、编写脚本（test.py）

调用脚本

5、bash中测试通信

完美结果

相关文章

算力网络(CFN)在跨校联合科研中的应用：安全性挑战与联邦调度实践

高防IP+CDN组合：电商大促的“双保险”防护方案

# 构建词汇表：自然语言处理中的关键步骤

SQL进阶知识：七、数据库设计

python如何取消word中的缩进

Docker拉取镜像代理配置实践与经验分享

【数字图像处理】立体视觉基础（1）

实验4：列表与字典应用

c++之网络编程

【Harmony_Bug】forEach + asyncawait 的异步陷阱

大肠杆菌诱导蛋白时OD600=0.6-0.8添加IPTG的思考-实验操作系列-009

OpenHarmony - 小型系统内核（LiteOS-A）（十），魔法键使用方法，用户态异常信息说明

CUDA编程之Grid、Block、Thread线程模型

实战交易策略篇十九：君山居士熊市交易策略

Flutter IOS 真机 Widget 错误。Widget 安装后系统中没有

【计算机视觉】CV实战项目 - 深入解析基于HOG+SVM的行人检测系统：Pedestrian Detection

day01_编程语言介绍丶Java语言概述丶开发环境搭建丶常用DOS命令

告别默认配置！Xray自定义POC开发指南

C语言编程--17.有效的括号

代码随想录算法训练营第60期第十七天打卡