QAnything 在mac M2 上纯python环境安装使用体验(避坑指南)

 这是一篇mac m2本地纯python环境安装 qanything的文章。安装并不顺利,官方提供的模型无法在本地跑。

 这篇文章记录了,使用xinference来部署本地模型,并利用openAi的通用接口的方式,可以正常使用。

 记录了遇到的所有的问题,以及解决方法,包括源码的修改。这是一个成功的案例。

一、关于QAnything的简介

开源的RAG本地知识库检索的有不少。最近比较火热的就是 QAnything  和 RAGflow 。其中Qanything 是相对比较早的。并且它是网易开源的,各种都相对更正规一些。安装部署文档也都比较齐全。

dify 是开源做工作流的,其中也有RAG的部分。但是做的很粗糙。

如果想做自己的本地知识库开发,可以在Qanything上做。我看过QAnything  和 RAGflow  dify的源码,也对比了他们的效果,最终评估使用Qanything 打底。做一个全新的RAG搜索。

二、使用官方的文档来本地部署模型,启动

2.1 这里是官方文档

QAnything/README.md at qanything-python · netease-youdao/QAnything · GitHub

2.2 以下是安装过程

2.3 问题:启动过过程中遇到了问题(3B模型在mac上无法使用)

我的是mac m2 ,如果是m1,应该不会有问题。

llama_new_context_with_model: n_ctx      = 4096
llama_new_context_with_model: n_batch    = 512
llama_new_context_with_model: n_ubatch   = 512
llama_new_context_with_model: freq_base  = 10000.0
llama_new_context_with_model: freq_scale = 1
ggml_metal_init: allocating
ggml_metal_init: found device: Apple M2 Max
ggml_metal_init: picking default device: Apple M2 Max
ggml_metal_init: using embedded metal library
ggml_metal_init: error: Error Domain=MTLLibraryErrorDomain Code=3 "program_source:155:11: error: unions are not supported in Metalunion {^
program_source:176:11: error: unions are not supported in Metalunion {^
program_source:197:11: error: unions are not supported in Metalunion {^
program_source:219:11: error: unions are not supported in Metalunion {^
program_source:264:11: error: unions are not supported in Metalunion {^
program_source:291:11: error: unions are not supported in Metalunion {^

2.4 试试使用另外openAI的api的方式来启动

也就是说不用使用本地的模型(embedding模型还是用本地的,ocr模型也是用本地的)。

这里还是跟着官方文档来操作。

QAnything/README.md at qanything-python · netease-youdao/QAnything · GitHub

使用这个命令启动

这个就报错,因为还没有配置apikey,这里官方文档也没有说

这里需要修改这里,替换成自己的apikey就可以了(我这个是一个失效的key,没有调用量了) 

该模型在本地跑不起来,有错误。官方的教程是针对M1的。所以需要探索本地部署模型的方法。

这里不附错误的图了。我原本的截图在csdn上发布的时候丢失了。

三、Macbook M2本地部署模型的方案

在经过大量调研和使用后,准备使用Xinference来部署模型。

下载部署Xinference的教程(教程是我自己写的,都验证通过的)

Mac M2 本地下载 Xinference-CSDN博客

使用Xinference部署模型的教程

使用Xinference 在mac m2 上部署模型 Qwen 7B-CSDN博客

到这里为止,本地已经可以运行模型来。

四、继续脱坑

4.1 这里使用本地7B的模型来配合使用qanything

在Qanything中切换使用本地模型,这里需要在调用openai的基础上改!

Xinference是可以发布成和openai兼容的接口的,利用这一点。

这里先做一个测试方法,来调用本地模型(调试好了,可以直接使用的,我这里本地部署的是qwen7b,注意要替换model_uid)

这个id在这个界面上可以看到。

代码

import openai# Assume that the model is already launched.
# The api_key can't be empty, any string is OK.
model_uid = "qwen-chat"
client = openai.Client(api_key="not empty", base_url="http://localhost:9997/v1")
# client.chat.completions.create(
#     model=model_uid,
#     messages=[
#         {
#             "content": "What is the largest animal?",
#             "role": "user",
#         }
#     ],
#     max_tokens=1024
# )
#
# 定义一个调用方法
def chat_with_model(prompt):try:response = client.chat.completions.create(model=model_uid,messages=[{"content": prompt,"role": "user",}],stream=False,max_tokens=1024)# Extracting the model's reply from the responseif response.choices and len(response.choices) > 0:model_reply = response.choices[0].message.contentprint(f"Model's Reply: {model_reply}")return response.choices[0].message.contentelse:print("No response received from the model.")except Exception as e:print(f"An error occurred: {e}")# 测试 chat_whith_model 函数
chat_with_model("什么是房颤")

4.2 修改qanything的代码

在llm_for_openai_api.py下,87行处添加我们的自己部署的模型(模型名称在xinference上看,和上边一样)。否则会报错。

4.3 使用不支持流式接口

看到X inference后台模型的日志

这个问题暂时是无法解决的,模型的问题

但是我找到了一个解决方案,我修改了这里,指定为非流式输出处。这个问题就可以暂时解决了。

这是我修改后的_call方法

    async def _call(self, prompt: str, history: List[List[str]], streaming: bool = False) -> str:messages = []for pair in history:question, answer = pairmessages.append({"role": "user", "content": question})messages.append({"role": "assistant", "content": answer})messages.append({"role": "user", "content": prompt})debug_logger.info(messages)try:# TODO 临时修改用来调试streaming = Falseif streaming:response = self.client.chat.completions.create(model=self.model,messages=messages,stream=True,max_tokens=self.max_token,temperature=self.temperature,top_p=self.top_p,stop=[self.stop_words] if self.stop_words is not None else None,)debug_logger.info(f"OPENAI RES: {response}")for event in response:if not isinstance(event, dict):event = event.model_dump()if isinstance(event['choices'], List) and len(event['choices']) > 0:event_text = event["choices"][0]['delta']['content']if isinstance(event_text, str) and event_text != "":# debug_logger.info(f"[debug] event_text = [{event_text}]")delta = {'answer': event_text}yield "data: " + json.dumps(delta, ensure_ascii=False)else:# response = self.client.chat.completions.create(#     model=self.model,#     messages=messages,#     stream=False,#     max_tokens=self.max_token,#     temperature=self.temperature,#     top_p=self.top_p,#     stop=[self.stop_words] if self.stop_words is not None else None,# )model_uid = "qwen1.5-chat"client = openai.Client(api_key="not empty", base_url="http://localhost:9997/v1", timeout=6000)print(">>>>>gpt调用")print(messages)response = client.chat.completions.create(model=model_uid,messages=messages,max_tokens=1024)debug_logger.info(f"[debug] response.choices = [{response.choices}]")event_text = response.choices[0].message.content if response.choices else ""delta = {'answer': event_text}yield "data: " + json.dumps(delta, ensure_ascii=False)except Exception as e:debug_logger.info(f"Error calling OpenAI API: {e}")delta = {'answer': f"{e}"}yield "data: " + json.dumps(delta, ensure_ascii=False)finally:# debug_logger.info("[debug] try-finally")yield f"data: [DONE]\n\n"

4.3 一个问题很长时间不回答

我这里上传了一个文档,来测试问题。半天没有反应

这里折腾了半天,看了半天,调试了半天,还以为是程序不行呢。因为界面上没有反应。这里看了下mac的cpu监控,发现推理任务还在跑着。也就是程序是没有问题的。

这里在重复的跑这个任务,一直没有结束。且一直在重复的调用。跟了一遍源码,源码中没有这样的循环逻辑。

然后看模型的任务,每个任务都很长时间,

先测试修改超时时间,看是否可以

修改调用模型的超时时间,并不可以。这里没有用。一开始觉得是模型的问题,模型推理的太慢了,所以试试再部署一个小模型测试一下。

这里我部署了一个qwen1.5 ,占用内存不到10个g,推理速度使用cpu也很快。

这里有教程细节

使用X inference下载部署小模型(qwen1.5)测试效果-CSDN博客

最后看到了能够成功调用,但是这里还是一个问题,发现有在一直重新调用后台接口,这里不知道是不是流式请求的问题。到这里我也找到的后台日志显示一直重新调用的罪魁祸手,就是在前端这里调用的,本来我还以为是后台代码有地方是写的循环,看了一圈以后,也没有循环的地方。

这里要找到源码中,前端部分,发送请求的时候发送,不指定流式输出。 

这里先验证一下测试接口的输出

 测试问答的接口

stream_chat.py
import json
import requests
import sys#kb_id = sys.argv[1]
def stream_requests(data_raw):url = 'http://0.0.0.0:8777/api/local_doc_qa/local_doc_chat'response = requests.post(url,json=data_raw,timeout=60,stream=True)for line in response.iter_lines(decode_unicode=False, delimiter=b"\n\n"):if line:yield linedef test(kb_id):data_raw = {"kb_ids": [kb_id],"question": "房颤会有危险吗?","user_id": "zzp","streaming": True,"history": []}for i, chunk in enumerate(stream_requests(data_raw)):if chunk:chunkstr = chunk.decode("utf-8")[6:]chunkjs = json.loads(chunkstr)print(chunkjs)if __name__ == '__main__':
# 在文件上传的时候,日志后台会打印知识库的id,这里需要替换自己的test("KBa2f41b8753fd48df8b408bca28e17830")

可以看到测试结果

五、源码结构解析

这里有时间再整理。之所以本地跑通,是因为我想在源码的基础上做开发和优化。

后续这块,我需要改成访问es的方式。会整理更多的内容出来。


 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/9715.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

*****水上飞机:继承,虚函数,虚继承

一题目 请设计以下航行器、飞机、船、水上飞机等 4 个类。 CRAFT 为航行器类,是公共基类,提供航行器的基本特性。包括: 一个保护数据成员:speed(速度)。 三个公有成员函数:构造函数(初始化速度)、析构函数和 Show 函数…

AOSP开发

Android 开发者 | Android Developers (google.cn) android开源代码: Android 开源项目 | Android Open Source Project (google.cn)

FreeRTOS任务调度器

目录 1、什么是任务调度器 2、FreeRTOS中的任务调度器 2.1 抢占式调度 2.2 时间片调度 2.3 协作式调度 3、任务调度案例分析 3.1 实验需求 3.2 CubeMX配置 3.3 代码实现 3.3.1 uart.c 重定向printf 3.3.2 打开freertos.c并添加代码 3.3.4 代码现象 1、什么是任务调度…

Spring:spring-boot-starter-parent与spring-boot-dependencies的区别

参考:spring-boot-starter-parent与spring-boot-dependencies的区别

[uniapp] 配置ts类型声明

我想引进图片,但是报错 声明一下就行 TypeScript 支持 | uni-app官网 创建tsconfig.json文件,复制官网的配置 然后在随便一个目录下写一个随便名字的.d.ts文件 例如这样 保存就行 因为ts是默认扫描全部的,所以要按照官网的写法 把不必要的排除掉就行,免得浪费性能

JS-导入导出

export和export default是ES6中导出模块中变量的语法 导入导出变量 //导出方法(js文件中) export const 变量名值//导入方法 对应导入的变量,一定要加花括号 import {变量名} from js文件路径 导入导出函数 //导出方法(js文件中…

RST文档技巧汇总

RST文件技巧汇总 前言转换工具简洁语法注释空行标题与章节样式链接图片列表表格代码块文档内引用引用rst 前言 RST全称ReStructuredText,是一种使用简单标记语法编写文档的文本文件格式。RST文档是轻量级标记语言的一种,被设计为容易阅读和编写的纯文本…

TikTok自动评论、回复的脚本怎么制作?

在当今数字化的时代,社交媒体平台如TikTok已经成为人们日常生活的一部分,为了更有效地在TikTok上进行营销或互动,许多用户和企业开始寻找自动化工具,如自动评论和回复的脚本,以节省时间并提高效率。 本文将科普如何制…

[数据结构]——非递归排序总结——笔试爱考

具体代码实现在gitee:登录 - Gitee.com 目录 具体代码实现在gitee:登录 - Gitee.com 1.非递归实现的快速排序算法。 第一步 首先要创建一个栈 第二步紧接着进行入栈,出栈,弹出栈顶元素,获取栈顶元素,判…

Windows下安装Node.js、npm和electronic,并运行一个Hello, World!脚本程序

20240510 By wdhuag 目录 简介: 参考: 安装Node.js 安装npm 配置npm: 修改包存放目录和缓存目录 切换镜像源 使用 nrm 切换镜像源 安装Electron 运行一个Hello, World!脚本程序 安装Yarn JavaScript 指南 简介: Nod…

英文论文审稿

英文论文审稿1 英文论文审稿4英文论文审稿5审稿意见: Identification and early warning method of key disaster-causing factors of AE signals for rockburst based on principal component analysis method 作者从城市地质环境的量化评价出发,创造性地提出城市地质环境健…

MT8370_联发科MTK8370(Genio 510)芯片性能规格参数

MT8370芯片是一款利用超高效的6nm制程工艺打造的边缘AI平台,具有强大的性能和功能。这款芯片集成了六核CPU(2x2.2 GHz Arm Cortex-A78 & 4x2.0 GHz Arm Cortex-A55)、Arm Mali-G57 MC2 GPU、集成的APU(AI处理器)和DSP,以及一个HEVC编码加速引擎&…

数据库查询--条件查询

目录 1.关系运算条件的查询 2.逻辑运算符条件的查询 3.带关键字IN的查询 4.带BETWEEN AND关键字的查询 5.空值查询 6.带LIKE关键字的模糊查询 1.关系运算条件的查询 在SELECT语句中,最常见的是使用WHERE字句指定关系运算条件对数据进行过滤。 语法格式&#x…

【二叉树算法题记录】二叉树的所有路径,路径总和——回溯

目录 257. 二叉树的所有路径题目描述题目分析cpp代码 112. 路径总和题目描述题目分析cpp代码 257. 二叉树的所有路径 题目描述 给你一个二叉树的根节点root ,按任意顺序,返回所有从根节点到叶子节点的路径。 题目分析 其实从根节点往下走&#xff0c…

设计模式——迭代器模式(Iterator)

迭代器模式(Iterator Pattern)是一种行为设计模式,它使得我们能够顺序地访问一个聚合对象中的各个元素,而又不需要暴露该对象的内部表示。迭代器模式为遍历不同的聚合结构提供了一个统一的接口,使得客户端代码可以独立…

【回溯算法】【Python实现】图的m着色问题

文章目录 [toc]问题描述图的 m m m可着色判定问题图的 m m m可着色优化问题四色猜想 回溯法时间复杂性Python实现 问题描述 图的 m m m可着色判定问题 给定无向连通图 G G G和 m m m种不同的颜色,用这些颜色为图 G G G的各顶点着色,每个顶点着一种颜色…

自然资源-地质勘查工作的流程梳理

自然资源-地质勘查工作的流程梳理 地质勘查从广义上可理解为地质工作,地质队员就好像是国家宝藏的“寻宝人”,通过地质勘查,为国家找矿,以保障国家能源资源安全和服务国计民生,发挥着地质工作在国民经济建设中的基础性…

Qt——信号 和 槽

目录 概述 信号和槽的使用 自定义信号和槽 带参数的信号和槽 概述 在Linux系统中,我们也介绍了信号的产生、信号的检测以及信号的处理机制,它就是系统内部的通知机制,也可以是一种进程间通信的方式。在系统中有很多信号,我们可…

kubernate 基本概念

一 K8S 是什么? K8S 全称:Kubernetes 1 kubernate基本概念 作用: 用于自动部署、扩展和管理“容器化(containerized)应用程序”的开源系统。 可以理解成 K8S 是负责自动化运维管理多个容器化程序(比如…

C语言—深入理解指针(3)

1.字符指针变量 一般使用: 另一种使用方法: “hello world”是一个常量字符串,不能被修改。 上述代码是将字符串中的首字符‘h’赋值给指针pstr,用%s打印字符串的时候,只需要提供首字符的地址就行。(如果…