【xinference】(8):在autodl上,使用xinference部署qwen1.5大模型,速度特别快,同时还支持函数调用,测试成功!

1,关于xinference

Xorbits Inference (Xinference) 是一个开源平台,用于简化各种 AI 模型的运行和集成。借助 Xinference,您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理,并创建强大的 AI 应用。

Xorbits Inference(Xinference)是一个性能强大且功能全面的分布式推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者,开发者,或是数据科学家,都可以通过 Xorbits Inference 与最前沿的 AI 模型,发掘更多可能。

官方网站:
https://inference.readthedocs.io/zh-cn/latest/index.html

启动Xinference服务
https://gitee.com/fly-llm/xinference-run-llm

项目地址:
https://github.com/xorbitsai/inference

2,安装qwen 1.5 大模型

发现代码已经支持啦:

https://github.com/xorbitsai/inference/pull/1161

      {"model_format": "awq","model_size_in_billions": "0_5","quantizations": ["Int4"],"model_id": "Qwen/Qwen1.5-0.5B-Chat-AWQ"},

然后就可以查看全部支持的模型进行启动

2024-04-02 22:51:48,866 xinference.model.llm.llm_family 1358 INFO     Caching from Modelscope: qwen/Qwen1.5-0.5B-Chat-AWQ
2024-04-02 22:51:48,982 - modelscope - INFO - PyTorch version 2.1.2+cu121 Found.
2024-04-02 22:51:48,984 - modelscope - INFO - Loading ast index from /root/autodl-tmp/modelscope/ast_indexer
2024-04-02 22:51:49,301 - modelscope - INFO - Loading done! Current index file version is 1.13.3, with md5 2ce72687914bb920fc5ddbea16bddaae and a total number of 972 components indexed
Downloading: 100%|████████████████████████████████████████████████████████████████████████████████████████| 839/839 [00:00<00:00, 287kB/s]
Downloading: 100%|█████████████████████████████████████████████████████████████████████████████████████| 52.0/52.0 [00:00<00:00, 39.5kB/s]
Downloading: 100%|████████████████████████████████████████████████████████████████████████████████████████| 205/205 [00:00<00:00, 158kB/s]
Downloading: 100%|████████████████████████████████████████████████████████████████████████████████████| 7.11k/7.11k [00:00<00:00, 255kB/s]
Downloading: 100%|███████████████████████████████████████████████████████████████████████████████████| 1.59M/1.59M [00:00<00:00, 6.58MB/s]
Downloading:   0%|                                                                                             | 0.00/747M [00:00<?, ?B/s]

可以进行下载,说明模型已经支持了:

curl -X 'POST' 'http://0.0.0.0:9997/v1/chat/completions' \-H 'Content-Type: application/json' \-d '{"model": "qwen-chat","messages": [{"role": "user","content": "北京景点"}],"max_tokens": 512,"temperature": 0.7}'{"id":"chatc043f510-f100-11ee-b0dc-0242ac110004","object":"chat.completion","created":1712069603,"model":"qwen1.5-chat","choices":[{"index":0,"message":{"role":"assistant","content":"北京是中国的首都,拥有众多的文化遗产和风景名胜。以下是一些热门的北京景点:\n\n1. 故宫:故宫是中国明清两代的宫殿,被誉为“皇家的后宫”。这里有大量的宫殿、文物和艺术品,是了解中国古代建筑艺术的最好地方。\n\n2. 二里头:二里头是北京的一条历史悠久的街道,有许多保存完好的古建筑和商店。这里的建筑风格独特,充满了历史韵味。\n\n3. 颐和园:颐和园是清朝皇家园林的瑰宝,也是世界文化遗产。这里有大量古建筑和园林艺术,是了解中国古代园林艺术的好地方。\n\n4. 淮河风光:北京的淮河风光是北京市的标志之一,也是中国最美的风景之一。这里有众多的河流风光,是骑行和步行的好地方。\n\n5. 颐和园荷花:颐和园的荷花是皇家园林的代表,也是中国最美的风景之一。这里有众多的荷花,是观赏荷花的好地方。\n\n6. 人民英雄纪念碑:人民英雄纪念碑是北京的标志性建筑,是展示中国历史和人民英雄的重要场所。\n\n7. 北京动物园:北京动物园是世界上最大的动物保护基地,也是北京的一道亮丽的风景线。这里有众多的动物,是了解动物保护的重要场所。\n\n以上是一些在北京的主要景点,还有许多其他的景点等待游客探索。"},"finish_reason":"stop"}],"usage":{"prompt_tokens":21,"completion_tokens":288,"total_tokens":309}}

测试接口正常

速度特别快。瞬间返回:

在这里插入图片描述

3,还支持函数调用!

# encoding:utf-8import openai
import jsonclient = openai.OpenAI(base_url="http://127.0.0.1:9997/v1",
)
messages = [{"role": "system", "content": "你是一个有用的助手。不要对要函数调用的值做出假设。"},{"role": "user", "content": "北京 现在的天气怎么样?"}
]tools = [{"type": "function","function": {"name": "get_current_weather","description": "获取当前天气","parameters": {"type": "object","properties": {"location": {"type": "string","description": "城市,例如北京",},"format": {"type": "string","enum": ["celsius", "fahrenheit"],"description": "使用的温度单位。从所在的城市进行推断。",},},"required": ["location", "format"],},},}
]chat_completion = client.chat.completions.create(model="qwen1.5-chat",messages=messages,tools=tools,temperature=0.7
)
func_name = chat_completion.choices[0].message.tool_calls[0].function.name
print('func_name', func_name)
func_args = chat_completion.choices[0].message.tool_calls[0].function.arguments
func_args_dict = json.loads(func_args)
print('func_args', func_args_dict['location'])

返回 北京。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/787923.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

互联网、因特网、万维网的区别

互联网 internet&#xff1a;凡是能彼此通信的设备组成的网络就叫互联网&#xff0c;即使只有两台计算机&#xff0c;无论以何种技术使其彼此通信&#xff0c;都叫互联网。所以&#xff0c;根据互联网的覆盖规模可以分为&#xff1a; 局域网&#xff08;Local Area Network&am…

初学者必看!Python wtforms库让你轻松创建和验证Web表单

1. 什么是WTForms 库? WTForms 是一个 Python 库&#xff0c;用于在 Web 应用程序中创建和验证表单。它提供了一个简单的接口来定义表单字段和验证规则&#xff0c;并将它们呈现为 HTML 表单。WTForms 支持多种 Web 框架&#xff0c;包括 Flask、Django 和 Pyramid。 2. 核心…

NSSCTF Round#20 Basic 真亦假,假亦真 CSDN_To_PDF V1.2 出题笔记 (附wp+源码)

真亦假&#xff0c;假亦真 简介&#xff1a;java伪造php一句话马。实则信息泄露一扫就出&#xff0c;flag在/flag里面。 题目描述&#xff1a;开开心心签个到吧&#xff0c;祝各位师傅们好运~ 静态flag&#xff1a;NSS{Checkin_h4v3_4_g00D_tINNe!} /路由显示 <?php e…

【MyBatis】MyBatis的日志实现

目录 一、日志演变 二、MyBatis中实现日志管理 1.导入pom依赖 2.添加logback配置文件 3.日志打印 三、MyBatis日志技术实现原理 3.1 初始化 3.2 具体实现类 3.3 自己模拟实现mybaits的日志实现 四、架构系统如何考虑日志 一、日志演变 JDK 1.4之前 没有任何的日志框…

vue 移动端弹窗带滚动效果 滚动到底的时候弹窗下的页面会跟着滑动

<template><div class"wrap" :style"dynamicStyle"><!--dynamicStyle主要是介个 通过computed设置postion的值 弹窗的时候设置为fixed 关闭弹窗的时候设置为unset--><div class"banner-wrap"><img src"/assets/…

16.Python多线程

如果想让我们的程序同时执行多个任务&#xff0c;就需要使用多线程技术了 。到目前为止&#xff0c;我们编写的程序都是单线程的&#xff0c;在运行时一次只能执行 一个任务。 1 线程相关的知识 1.1 进程 一个进程就是一个正在执行的程序&#xff0c;每一个进程都有自己独立…

sklearn主成分分析PCA

文章目录 基本原理PCA类图像降维与恢复 基本原理 PCA&#xff0c;即主成分分析(Principal components analysis)&#xff0c;顾名思义就是把矩阵分解成简单的组分进行研究&#xff0c;而拆解矩阵的主要工具是线性变换&#xff0c;具体形式则是奇异值分解。 设有 m m m个 n n …

Rust---有关介绍

目录 Rust---有关介绍变量的操作Rust 数值库&#xff1a;num某些基础数据类型序列(Range)字符类型单元类型 发散函数表达式&#xff08;&#xff01; 语句&#xff09; Rust—有关介绍 得益于各种零开销抽象、深入到底层的优化潜力、优质的标准库和第三方库实现&#xff0c;Ru…

蚁剑流量分析

蚁剑流量分析 在靶机上面上传一个一句话木马&#xff0c;并使用蚁剑连接&#xff0c;进行抓包, 一句话木马内容 <?php eval($_POST[1]); defalut编码器 在使用蚁剑连接的时候使用default编码器 连接之后进行的操作行为是查看当前目录(/var/www/html)下的文件&#xff0…

数据结构进阶篇 之 【插入排序】详细讲解(直接插入排序,希尔排序)

千万不要因为一件事不会做而失去信心&#xff0c;你又不是只有这一件事不会&#xff0c;你还有很多呢 一、插入排序 1.直接插入排序 InsertSort 1.1 基本思想 1.2 实现原理 1.3 代码实现 1.4 直接插入排序的特性总结 2.希尔排序 ShellSort 2.1 基本思想 2.2 实现原理 …

Sora 基础作品之 DiT:Scalable Diffusion Models with Transformer

Paper name Scalable Diffusion Models with Transformers (DiT) Paper Reading Note Paper URL: https://arxiv.org/abs/2212.09748 Project URL: https://www.wpeebles.com/DiT.html Code URL: https://github.com/facebookresearch/DiT TL;DR 2022 年 UC Berkeley 出…

罗克韦尔AB的PLC协议和西门子PLC协议转换网关

下面是罗克韦尔(AB)的Compact系列的PLC与西门子S7-1500之间的通讯的配置&#xff0c;实现AB的标签数组与西门子DB数据块之间通讯。 首先在AB的PLC内建立输入和输出数组&#xff0c;用于接收和写入S7-1500的PLC数据&#xff0c;名称分别是IN_INT16、OUT_OUT16&#xff0c;输入80…

为“自研”的KV数据库编写JDBC驱动

一觉醒来&#xff0c;受到梦的启发&#xff0c;自研了一套K/V数据库系统&#xff0c;因为"客户"一直催促我提供数据库的JDBC驱动&#xff0c;无奈之下&#xff0c;只好花费一个上午的时间为用户编写一个。 我们知道&#xff0c;JDBC只定义一系列的接口, 具体的实现需…

WeekPaper:GraphTranslator将知识图谱与大模型对齐

GraphTranslator: 将图模型与大型语言模型对齐&#xff0c;用于开放式任务。 将基于图的结构和信息与大型语言模型的能力整合在一起&#xff0c;以提高在涉及复杂和多样数据的任务中的性能。其目标是利用图模型和大型语言模型的优势&#xff0c;解决需要处理和理解结构化和非结…

Python深度学习034:cuda的环境如何配置

文章目录 1.安装nvidia cuda驱动CMD中看一下cuda版本:下载并安装cuda驱动2.创建虚拟环境并安装pytorch的torch_cuda3.测试附录1.安装nvidia cuda驱动 CMD中看一下cuda版本: 注意: 红框的cuda版本,是你的显卡能装的最高的cuda版本,所以可以选择低于它的版本。比如我的是11…

Prometheus+grafana环境搭建redis(docker+二进制两种方式安装)(四)

由于所有组件写一篇幅过长&#xff0c;所以每个组件分一篇方便查看&#xff0c;前三篇 Prometheusgrafana环境搭建方法及流程两种方式(docker和源码包)(一)-CSDN博客 Prometheusgrafana环境搭建rabbitmq(docker二进制两种方式安装)(二)-CSDN博客 Prometheusgrafana环境搭建m…

HarmonyOS实战开发-一次开发,多端部署-视频应用

介绍 随着智能设备类型的不断丰富&#xff0c;用户可以在不同的设备上享受同样的服务&#xff0c;但由于设备形态不尽相同&#xff0c;开发者往往需要针对具体设备修改或重构代码&#xff0c;以实现功能完整性和界面美观性的统一。OpenHarmony为开发者提供了“一次开发&#x…

Ubuntu20.04安装MatlabR2018a

一、安装包 安装包下载链接 提取码&#xff1a;kve2 网上相关教程很多&#xff0c;此处仅作为安装软件记录&#xff0c;方便后续软件重装&#xff0c;大家按需取用。 二、安装 1. 相关文件一览 下载并解压文件后&#xff0c;如下图所示&#xff1a; 2. 挂载镜像并安装 2…

python实战之宝塔部署flask项目

一. 项目 这个demo只是提供了简单的几个api接口, 并没有前端页面 # -*- coding: utf-8 -*- import flask as fk from flask import jsonify, requestapp fk.Flask(__name__)app.route(/api/hello, methods[GET]) def get_data():return hello world# 假设我们要提供一个获取用…

rabbitmq死信交换机,死信队列使用

背景 对于核心业务需要保证消息必须正常消费&#xff0c;就必须考虑消费失败的场景&#xff0c;rabbitmq提供了以下三种消费失败处理机制 直接reject&#xff0c;丢弃消息&#xff08;默认&#xff09;返回nack&#xff0c;消息重新入队列将失败消息投递到指定的交换机 对于核…