免费国外服务器推荐/外贸seo优化

免费国外服务器推荐,外贸seo优化,品牌策划公司哪家好推荐,wordpress python采集器基于llama.cpp的QwQ32B模型推理 llama.cpp项目主页: https://github.com/ggml-org/llama.cpp# llama.cpp源码下载 cd /root/lanyun-tmpgit clone https://github.com/ggml-org/llama.cpp#llama.cpp编译 llama.cpp是个C语言项目,实际调用过程需要先构建项…

基于llama.cpp的QwQ32B模型推理

  • llama.cpp项目主页:

    https://github.com/ggml-org/llama.cpp#

  • llama.cpp源码下载

    cd /root/lanyun-tmpgit clone https://github.com/ggml-org/llama.cpp#
    

llama.cpp编译

  • llama.cpp是个C语言项目,实际调用过程需要先构建项目,然后设置参数进行编译,最终创建可执行文件并运行本地大模型。借助llama.cpp可以实现纯CPU推理、纯GPU推理和CPU+GPU混合推理。

  • 下载依赖

    apt-get updateapt-get install build-essential cmake curl libcurl4-openssl-dev -y
    

    这条命令安装了一些常用的构建和开发工具,具体的每个部分的含义如下:

    1. build-essential:安装一组构建必需的工具和库,包括:

      编译器(如 GCC)、make 工具、其他一些常见的构建工具,确保你的系统能进行编译。

    2. cmake:安装 CMake 工具,它是一个跨平台的构建系统,允许你管理项目的编译过程。

    3. curl:安装 cURL 工具,它是一个命令行工具。

    4. libcurl4-openssl-dev:安装 libcurl 库的开发版本。它是 cURL 的一个库文件,允许你在编程中通过 cURL 发送 HTTP 请求。libcurl4-openssl-dev 是与 OpenSSL 配合使用的版本,提供了 SSL/TLS 加密支持,用于安全的 HTTP 请求。

  • 构建 :使用cmake来构建项目文件

    cmake llama.cpp -B llama.cpp/build \-DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
    
    1. cmake:运行 CMake 工具,用于配置和生成构建文件。

    2. llama.cpp:指定项目的源代码所在的目录。在这个例子中,llama.cpp 是项目的根目录。

    3. -B llama.cpp/build:指定生成构建文件的目录。-B 参数表示构建目录llama.cpp/build 是生成的构建目录。这是 CMake 将生成的文件存放的地方(例如 Makefile 或 Ninja 构建文件)。

    4. 同时还指定了一些编译选项:

      禁用共享库(-DBUILD_SHARED_LIBS=OFF),生成 静态库

      启用 CUDA 支持(-DGGML_CUDA=ON),以便在有 GPU 的情况下使用 GPU 加速。

      启用 CURL 库支持(-DLLAMA_CURL=ON),以便支持网络请求。

  • 编译: (请等待,需要半个小时左右)

    cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split
    
    1. --build llama.cpp/build:告诉 CMake 使用 llama.cpp/build 目录中的构建文件来执行构建过程。这个目录是在之前运行 cmake llama.cpp -B llama.cpp/build 命令时生成的,包含了所有构建所需的文件(例如 Makefile 或 Ninja 构建文件)。

    2. --config Release:指定构建的配置为 Release 配置。

      Release 配置通常意味着启用更多的 优化,生成的程序运行速度较快,适合发布。

      在 CMake 中,通常有两种常见的构建配置:

      • Debug:用于调试版本,包含调试信息且没有做过多优化。
      • Release:优化后的发布版本,去除调试信息,运行时性能更高。
    3. -j:表示并行构建,允许 CMake 使用多个 CPU 核心来加速构建过程。

      如果没有指定数字,CMake 会使用默认的并行级别,通常是可用的所有 CPU 核心。你也可以指定并行的作业数,例如 -j 8 表示使用 8 个并行作业进行编译。

    4. --clean-first:表示在构建之前先清理掉之前的构建结果。这可以确保每次构建时都是从一个干净的状态开始,避免由于缓存或中间文件引起的编译错误。

      如果你之前运行过构建并且有问题,或者希望重新构建而不使用任何缓存文件,这个选项非常有用。

    5. --target:指定构建的目标(target)。通常,一个项目会定义多个目标(比如库、可执行文件等),通过这个参数可以告诉 CMake 只编译特定的目标。

      llama-quantize:可能是与模型量化相关的目标。量化(quantization)是将模型的精度从浮点数降低到整数,从而减少内存占用和提高推理速度。

      llama-cli:可能是一个命令行工具,用于运行模型或与用户交互。

      llama-gguf-split:可能是一个用于拆分模型文件的目标,通常用于将一个大模型文件拆分成多个小文件,方便存储和加载。

      image-20250316230343644

  • 复制可执行文件

    cp llama.cpp/build/bin/llama-* llama.cpp
    

    所有生成的可执行文件 从构建目录 llama.cpp/build/bin/ 复制到项目的根目录 llama.cpp 下。这样可以更方便地在项目根目录下执行这些可执行文件,而无需每次都进入构建目录。


纯CPU推理

  • 模型运行门槛很低,但运行速度非常慢。只调用内存+CPU进行计算,GPU不参与,调用Q4_K_M模型时,实际内存占用为18G。

    cd ./llama.cpp./llama-cli \--model /root/lanyun-tmp/QwQ-32B-GGUF/qwq-32b-q4_k_m.gguf \--cache-type-k q4_0 \--threads 10 \--prio 2 \--temp 0.8 \--ctx-size 300 \--seed 1024 \--n-gpu-layers 0 \-no-cnv \--prompt "<|User|>你好,你知道《凡人修仙传吗》<|Assistant|>" 
    

    相关参数说明见github

    https://github.com/ggml-org/llama.cpp/blob/master/examples/main/README.md

    参数说明:

    1. --cache-type-k:指定缓存类型,K 缓存量化为 4 位(4bit)。
    2. --threads:设置生成过程中要使用的线程数。为了获得最佳性能,建议将此值设置为系统拥有的物理 CPU 核心数
    3. --prio:设置进程优先级
    4. --temp:模型温度参数;温度越高,生成文本的随机性和多样性越具随机性。
    5. --ctx-size:设置提示上下文的大小。默认值为 4096。
    6. --seed:设置随机数生成的种子,用于控制生成结果的随机性。
    7. --n-gpu-layers:需要卸载到 GPU 的层数,设置为0时代表完全使用CPU进行推理;
    8. -no-cnv:禁用多轮对话功能,限制为单轮对话。
  • 从下面两张图可以看到,实际占用的内存为19G左右

    image-20250317210746599image-20250317211001992

  • 推理速度还是非常慢的,基本也就2个tokens左右1秒

    image-20250317211102005

混合推理(CPU+GPU)

  • 我们只需要合理的设置--n-gpu-layers参数,即可灵活的将模型的部分层加载到GPU上进行运行。并且无需手动设置,llama.cpp会自动识别当前GPU数量以及可以分配的显存,自动将模型权重加载到各个不同的GPU上。例如,我们这里考虑将30层加载到GPU上,运行效果如下所示:

    ./llama-cli \--model /root/lanyun-tmp/QwQ-32B-GGUF/qwq-32b-q4_k_m.gguf \--cache-type-k q4_0 \--threads 10 \--prio 2 \--temp 0.8 \--ctx-size 300 \--seed 1024 \--n-gpu-layers 30 \-no-cnv \--prompt "<|User|>你好,你知道《凡人修仙传吗》<|Assistant|>" 
    
  • 此时显存占用约10G左右

    image-20250317211446025

  • 推理速度大概在4个tokens左右(GPU4090)

纯GPU推理

  • 把全部的模型权重都放在GPU上进行推理(4090)。

    ./llama-cli \--model /root/lanyun-tmp/QwQ-32B-GGUF/qwq-32b-q4_k_m.gguf \--cache-type-k q4_0 \--threads 10 \--prio 2 \--temp 0.8 \--ctx-size 300 \--seed 1024 \--n-gpu-layers 66 \-no-cnv \--prompt "<|User|>你好,你知道《凡人修仙传吗》<|Assistant|>" 
    
  • 此时实际GPU占用约在20G左右

    image-20250317212001665
    image-20250317211919947

  • 推理速度达到了约20tokens/s (4090)

    image-20250317211802378


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/72584.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何使用Spring AI提示词模板PromptTemplate?

如何使用Spring AI提示词模板PromptTemplate 目录 如何使用Spring AI提示词模板PromptTemplate 1、提示词Prompt介绍 2、Spring Boot集成Spring AI框架 3、提示词模板PromptTemplate用法 4、开发代码使用PromptTemplate 5、启动Springboot工程并验证 本文章节介绍Prompt…

Windows Server中的NTP服务器部署(NTP Srver Deployment in Windows Server)

构建稳定内网时间同步&#xff1a;Windows Server中的NTP服务器部署指南 服务简介 NTP&#xff08;Network Time Protocol&#xff09;服务器是用于同步计算机网络中各设备时间的服务器。它通过网络协议与标准时间源&#xff08;如原子钟、GPS系统等&#xff09;进行时间同步&…

【 <二> 丹方改良:Spring 时代的 JavaWeb】之 Spring Boot 的自动配置:约定优于配置的设计美学

<前文回顾> 点击此处查看 合集 https://blog.csdn.net/foyodesigner/category_12907601.html?fromshareblogcolumn&sharetypeblogcolumn&sharerId12907601&sharereferPC&sharesourceFoyoDesigner&sharefromfrom_link <今日更新> 一、Spring…

SourceTree的安装与使用

SourceTree的安装与使用 一、前言 作为可视化Git管理工具&#xff0c;SourceTree可以避免我们使用命令进行常规的代码拉取&#xff0c;更新&#xff0c;合并等操作。 鼠标点点就可以完成代码管理的工作。所以强烈推荐可视化的工具。不过SourceTree还是有点bug&#xff0c;比…

JMeter 性能测试

Jmeter 用户手册 名词解释&#xff1a; RPS&#xff1a;每秒请求数-每秒向服务器发送多少请求数&#xff08;一个场景&#xff0c;系统面临多大的压力&#xff09; TPS&#xff1a;每秒事务数-每秒能够处理多少请求/事务数性能评价标准&#xff08;其中的一个核心指标&#x…

【Mac 从 0 到 1 保姆级配置教程 09】09. 快速配置终端复用工具 tmux 和 oh-my-tmux

文章目录 1. 前言2. 安装 tmux3. 配置 tmux4. 安装 oh-my-tmux5. 最后6. 参考资料7. 系列教程 Mac 从 0 到 1 保姆级配置教程目录&#xff0c;点击即可跳转对应文章&#xff1a; 【Mac 从 0 到 1 保姆级配置教程 00】 - 教程说明 【Mac 从 0 到 1 保姆级配置教程 01】 - 安装无…

Java 大视界 -- 基于 Java 的大数据机器学习模型的迁移学习应用与实践(129)

&#x1f496;亲爱的朋友们&#xff0c;热烈欢迎来到 青云交的博客&#xff01;能与诸位在此相逢&#xff0c;我倍感荣幸。在这飞速更迭的时代&#xff0c;我们都渴望一方心灵净土&#xff0c;而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识&#xff0c;也…

通义万相 2.1 与蓝耘智算平台的深度协同,挖掘 AIGC 无限潜力并释放巨大未来价值

我的个人主页 我的专栏&#xff1a; 人工智能领域、java-数据结构、Javase、C语言&#xff0c;希望能帮助到大家&#xff01;&#xff01;&#xff01; 点赞&#x1f44d;收藏❤ 引言&#xff1a;AIGC 浪潮下的新机遇 在当今数字化飞速发展的时代&#xff0c;人工智能生成内容&…

C语言高级学习之变量和内存分布

一.变量和内存分布 1.课程要求 2.技术层次 3.C语言标准 1.3.1 K&R C 起初&#xff0c;C语言没有官方标准。1978年由美国电话电报公司(AT&T&#xff09;贝尔实验室正式发表了C语言。布莱恩柯林汉&#xff08;Brian Kernighan&#xff09; 和 丹尼斯里奇&#xff08;D…

蓝桥杯学习-12递归

12递归 1.概述 2.几个递归模板 (1)求阶乘 int f(int n){ if(n 1) return 1; return f(n-1) * n; }(2)斐波拉契序列 int f(int n){ if(n 1 || n 2) return n; return f(n - 1) f(n - 2); }例题一-蓝桥5194 int f(int n){if(n 0) return 1;if(n % 2 0) return f(n / 2)…

Python----数据可视化(Pyecharts三:绘图二:涟漪散点图,K线图,漏斗图,雷达图,词云图,地图,柱状图折线图组合,时间线轮廓图)

1、涟漪特效散点图 from pyecharts.globals import SymbolType from pyecharts.charts import EffectScatter from pyecharts.faker import Faker from pyecharts import options as opts from pyecharts.globals import ThemeType # 绘制图表 es (EffectScatter(init_optsop…

自然语言处理预训练模型的研究综述

&#x1f4d5;参考&#xff1a;&#xff1a;2020-11-02,https://kns.cnki.net/kcms/detail/11.2127.tp.20201030.1952.017.html 主要是这篇文章的自己摘了点笔记。 预训练模型的深度学目标是如何使预训练好的模型处于良好的初始状态&#xff0c;在下游任务中达到更好的性能表现…

一次Linux下 .net 调试经历

背景&#xff1a; Xt160Api, 之前在windows下用.net调用&#xff0c;没有任何问题。 但是移植到Linux去后&#xff0c;.net程序 调用 init(config_path) 总是报错 /root/test 找不到 traderApi.ini (/root/test 是程序目录) 然后退出程序 解决过程: 于是考虑是不是参数传错了&…

iOS底层原理系列01-iOS系统架构概览-从硬件到应用层

1. 系统层级结构 iOS系统架构采用分层设计模式&#xff0c;自底向上可分为五个主要层级&#xff0c;每层都有其特定的功能职责和技术组件。这种层级化结构不仅使系统更加模块化&#xff0c;同时也提供了清晰的技术抽象和隔离机制。 1.1 Darwin层&#xff1a;XNU内核、BSD、驱动…

日志存储与分析

日志是系统运行的详细记录&#xff0c;包含各种事件发生的主体、时间、位置、内容等关键信息。出于运维可观测、网络安全监控及业务分析等多重需求&#xff0c;企业通常需要将分散的日志采集起来&#xff0c;进行集中存储、查询和分析&#xff0c;以进一步从日志数据里挖掘出有…

Flutter 边框按钮:OutlinedButton 完全手册与设计最佳实践

目录 1. 引言 2. OutlinedButton 的基本用法 3. 主要属性 3.1 核心属性详解 3.2 ButtonStyle 子属性详解 (styleFrom/copyWith) 状态响应优先级说明 4. 自定义按钮样式 4.1 修改边框颜色和文本颜色 4.2 修改按钮形状 4.3 修改按钮大小 4.4 集中演示 5. 结论 相关推…

【Node.js入门笔记4---fs 目录操作】

Node.js入门笔记4 Node.js---fs 目录操作一、目录操作1.fs.mkdir()&#xff1a;创建目录。异步&#xff0c;非阻塞。创建单个目录创建多个目录创建目前之前需要确认是否存在&#xff1a; 2. fs.mkdirSync()&#xff1a;用于创建一个新的目录。异步&#xff0c;非阻塞。3.fs.rmd…

IP风险度自检,互联网的安全“指南针”

IP地址就像我们的网络“身份证”&#xff0c;而IP风险度则是衡量这个“身份证”安全性的重要指标。它关乎着我们的隐私保护、账号安全以及网络体验&#xff0c;今天就让我们一起深入了解一下IP风险度。 什么是IP风险度 IP风险度是指一个IP地址可能暴露用户真实身份或被网络平台…

【软考-架构】5.3、IPv6-网络规划-网络存储-补充考点

✨资料&文章更新✨ GitHub地址&#xff1a;https://github.com/tyronczt/system_architect 文章目录 IPv6网络规划与设计建筑物综合布线系统PDS&#x1f4af;考试真题第一题第二题 磁盘冗余阵列网络存储技术其他考点&#x1f4af;考试真题第一题第二题 IPv6 网络规划与设计…

SVN学习笔记

svn:版本控制软件 解决&#xff1a;1.协作开发 2.远程开发 3.版本回退 服务端软件&#xff1a; VisualSVN http://www.visualsvn.com 客户端软件:Tortoisesvn http://tortoisesvn.net/downloads 1.checkout(检出) 第一查更新数据到本地&#xff0c; 2.update&#xf…