大模型本地部署系列(3) Ollama部署QwQ[阿里云通义千问]

大家好,我是AI研究者, 今天教大家部署 一个阿里云通义千问大模型。

QwQ大模型简介

QwQ是由阿里云通义千问(Qwen)团队推出的开源推理大模型,专注于提升AI在数学、编程和复杂逻辑推理方面的能力。其核心特点包括:

  1. 深度自省能力

    • 能够主动质疑自身假设,进行多轮自我反思,优化推理过程,类似于人类的深度思考模式16。

    • 在解决“猜牌问题”等复杂逻辑推理任务时,展现出类似人类的逐步分析能力9。

  2. 对标OpenAI o1模型

    • 在MATH-500评测中达到90.6%的准确率,超越OpenAI的o1-preview和o1-mini模型17。

    • 在编程任务(LiveCodeBench)和研究生级科学推理(GPQA)测试中表现优异7。

  3. 高效架构设计

    • 采用动态推理路径,根据问题复杂度调整计算深度,提高效率1。

    • 325亿参数(QwQ-32B-Preview),在较小规模下实现高性能推理8。

  4. 开源与易用性

    • 阿里云首个开源AI推理模型,支持本地部署及二次开发,适用于科研、教育、编程辅助等场景36。

  5. 当前局限性

    • 语言切换时可能出现表达不连贯7。

    • 复杂逻辑推理时可能陷入循环思考9。

QwQ的推出标志着国产大模型在推理能力上的重要突破,尤其在数学和编程领域展现出接近研究生水平的分析能力。

部署步骤

首先需要安装ollama,这个在我之前的文章已经讲到了,这里就不在赘述。

我们进入到ollama的官网:

https://ollama.com/

找到上方的Models ,然后点击

此时会跳转到模型列表页面:

点击 qwq 链接进去,此时我们会看到下拉框中有各个版本的大模型,如下图所示:

模型参数(1.5B、7B、8B等)是什么意思?

这些数字代表模型的 参数量(比如1.5B=15亿,7B=70亿),你可以简单理解为模型的“脑细胞数量”:

  • 参数越多 → 模型越聪明(能处理复杂任务,比如写代码、逻辑推理),但需要的计算资源也越多。
  • 参数越少 → 模型更轻量(反应快、适合简单任务),但对复杂问题可能表现一般。

举个例子:

  • 1.5B 模型 ≈ 一个“高中生”水平(能聊天、写短文)。
  • 7B 模型 ≈ “大学生”水平(能写代码、分析问题)。
  • 70B 模型 ≈ “教授”水平(专业级回答,但需要顶级显卡)。

K_M , fp 是什么意思?

q4_K_M, q8_0, fp16 这些指的是模型精度。这里的 q4 指的是 4bit 量化,q8 指的是 8bit 量化,fp16 就是原版模型。

因为量化都是有损的,只要把握数字越小,模型体积越小,所以模型能力会更弱这个逻辑就行。所以 q4 就是 QwQ32b 家族中,体积最小,性能有可能是最弱的那个(不排除 8bit 量化也都差不多的效果)。

我们部署就选用 32b-q4_K_M,选用它的原因很简单, 体积小。耗能低。
 

 点进 32b-q4_K_M , 找到右边的复制 安装命令:

打开cmd, 粘贴上面复制的命令, 等待下载。

等了很久,如果出现了 “unable to allocate CUDA0 buffer” , 表示你的GPU内存不足。

然后运行 “nvidia-smi”, 查看 占用GPU的进程,然后全部关掉。

然后重新运行命令, 还是不行的话,就是机器跟不上了!

如果成功了,默认是运行了模型,直接可以在cmd输入命令对话, 如果关掉了,下次运行就要输入 运行模型命令:

ollama run 模型名称

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/77538.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微信小程序学习实录12:掌握大数据量轨迹展示的MySQL结构设计

获取经纬度信息后,mysql建立数据表po_trajectory,字段包含tra_id、longitude、latitude、tra_time和openid。 为微信小程序创建的 po_trajectory 数据表,字段包含 tra_id、longitude、latitude、tra_time 和 openid,从结构设计上…

计算机系统---性能指标(3)续航与散热

计算机电池续航的性能指标 一、电池基础物理指标 电池容量(核心指标) 单位: 毫安时(mAh):常见于手机/平板,反映电池存储电荷量,需结合电压计算实际能量(如3.7V电池&…

贪心算法之最小生成树问题

1. 贪心算法的基本思想 贪心算法在每一步都选择局部最优的边,希望最终得到整体最优的生成树。常见的两种 MST 算法为 Kruskal 算法 和 Prim 算法。这两者均满足贪心选择性质和最优子结构性质,即: 贪心选择性质:局部最优选择&…

LeetCode hot 100—编辑距离

题目 给你两个单词 word1 和 word2, 请返回将 word1 转换成 word2 所使用的最少操作数 。 你可以对一个单词进行如下三种操作: 插入一个字符删除一个字符替换一个字符 示例 示例 1: 输入:word1 "horse", word2 &q…

2.3 Spark运行架构与流程

Spark运行架构与流程包括几个核心概念:Driver负责提交应用并初始化作业,Executor在工作节点上执行任务,作业是一系列计算任务,任务是作业的基本执行单元,阶段是一组并行任务。Spark支持多种运行模式,包括单…

NO.82十六届蓝桥杯备战|动态规划-从记忆化搜索到动态规划|下楼梯|数字三角形(C++)

记忆化搜索 在搜索的过程中,如果搜索树中有很多重复的结点,此时可以通过⼀个"备忘录",记录第⼀次搜索到的结果。当下⼀次搜索到这个结点时,直接在"备忘录"⾥⾯找结果。其中,搜索树中的⼀个⼀个结点…

使用 VBA 宏创建一个选择全部word图片快捷指令,进行图片格式编辑

使用 VBA 宏批量选择图片 ✅ 第一步:创建 .dotm 加载项文件 1、使用环境 office word 365,文件格式为.docx 图片格式为.PNG 2、创建 .dotm 加载项文件 打开 Word,新建一个空白文档。 按下 Alt F11 打开 VBA 编辑器。 点击菜单栏&#xff…

深度学习的下一个突破:从图像识别到情境理解

引言 过去十年,深度学习在图像识别领域取得了惊人的突破。从2012年ImageNet大赛上的AlexNet,到后来的ResNet、EfficientNet,再到近年来Transformer架构的崛起,AI已经能在许多任务上超越人类,比如人脸识别、目标检测、医…

使用dyn4j做碰撞检测

文章目录 前言一、环境准备添加依赖基本概念 二、实现步骤1.创建世界2.添加物体3.设置碰撞监听器4.更新世界 三、完整代码示例四、优化补充总结 前言 dyn4j 提供了高效的碰撞检测和物理模拟功能,适用于游戏开发、动画制作以及其他需要物理交互的场景。通过简单的 A…

VS Code settings.json 文件中常用的预定义变量‌及其用途说明

VS Code settings.json 常用预定义变量 以下是 Visual Studio Code 配置文件中常用的预定义变量列表: 1. 工作区相关变量 变量描述示例值${workspaceFolder}当前工作区根目录的绝对路径C:/projects/my-project${workspaceFolderBasename}工作区文件夹名称&#x…

elasticSearch-搜索引擎

搜索引擎的优势 有了数据库分页查询,为什么还需要搜索引擎? 搜索引擎速度上很快数据库分页查询,随着数据库数据量增大,页数靠后,会导致搜索速度变慢,但是搜索引擎不会搜索引擎支持分词查询,地…

安装OpenJDK1.8 17 (macos M芯片)

安装OpenJDK 1.8 下载完后,解压,打开 环境变量的配置文件即可 vim ~/.zshrc #export JAVA_HOME/Users/xxxxx/jdk-21.jdk/Contents/Home #export JAVA_HOME/Users/xxxxx/jdk-17.jdk/Contents/Home #export JAVA_HOME/Users/xxxxx/jdk-11.jdk/Contents…

断言与反射——以golang为例

断言 x.(T) 检查x的动态类型是否是T,其中x必须是接口值。 简单使用 func main() {var x interface{}x 100value1, ok : x.(int)if ok {fmt.Println(value1)}value2, ok : x.(string)if ok {//未打印fmt.Println(value2)} }需要注意如果不接受第二个参数就是OK,这…

Java设计模式:系统性解析与核心模式

一、设计模式三大分类总览 创建型模式(5种) 核心目标:对象创建的优化与解耦 单例模式(Singleton) 工厂模式(Factory) 抽象工厂模式(Abstract Factory) 建造者模式&#…

Elasticsearch 向量数据库,原生支持 Google Cloud Vertex AI 平台

作者:来自 Elastic Valerio Arvizzigno Elasticsearch 将作为第一个第三方原生语义对齐引擎,支持 Google Cloud 的 Vertex AI 平台和 Google 的 Gemini 模型。这使得联合用户能够基于企业数据构建完全可定制的生成式 AI 体验,并借助 Elastics…

408 计算机网络 知识点记忆(7)

前言 本文基于王道考研课程与湖科大计算机网络课程教学内容,系统梳理核心知识记忆点和框架,既为个人复习沉淀思考,亦希望能与同行者互助共进。(PS:后续将持续迭代优化细节) 往期内容 408 计算机网络 知识…

10-MySQL-性能优化思路

1、优化思路 当我们发现了一个慢SQL的问题的时候,需要做性能优化,一般我们是为了提高SQL查询更快,一个查询的流程由下图的各环节组成,每个环节都会消耗时间,要减少消耗时候需要从各个环节都分析一遍。 2 连接配置优化 第一个环节是客户端连接到服务端,这块可能会出现服务…

Docker:安装与部署 Nacos 的技术指南

1、简述 Nacos(Dynamic Naming and Configuration Service)是阿里巴巴开源的一个动态服务发现、配置管理和服务治理的综合解决方案,适用于微服务架构。 Nacos 主要功能: 服务发现与注册:支持 Dubbo、Spring Cloud 等主流微服务框架的服务发现与注册。动态配置管理:支持…

【非机动车检测】用YOLOv8实现非机动车及驾驶人佩戴安全帽检测

非机动车及驾驶人佩戴安全帽检测任务的意义主要包括以下几点: 保障行车安全:非机动车包括自行车、电动车等,佩戴安全帽能够有效保护骑车人头部,减少因交通事故造成的头部伤害风险,提高行车安全系数。 符合交通法规&am…

壹起航:15年深耕互联网营销,助力中国工厂出海获客

在全球化浪潮下,越来越多的中国工厂渴望拓展海外市场,但面临品牌建立、稳定询盘获取及营销成本降低等多重挑战。壹起航凭借15年的丰富经验,整合外贸建站、SEO优化及海外短视频营销,为中国工厂提供一站式出海解决方案。 一、外贸独…