【个人开发】llama2部署实践(三)——python部署llama服务(基于GPU加速)

1.python环境准备

注:llama-cpp-python安装一定要带上前面的参数安装,如果仅用pip install装,启动服务时并没将模型加载到GPU里面。

# CMAKE_ARGS="-DLLAMA_METAL=on" FORCE_CMAKE=1 pip install llama-cpp-python
CMAKE_ARGS="-DLLAMA_CUBLAS=on" FORCE_CMAKE=1 pip install llama-cpp-pythonpip install uvicorn
pip install starlette
pip install fastapi
pip install sse_starlette
pip install starlette_context
pip install pydantic_settings

2.llama-cpp-python安装报错

报错踩坑1:
安装llama-cpp-python过程出现报错

CMake Error at vendor/llama.Cpp/CMakeLists.txt:186 (find library):
Could not find FOUNDATION LIBRARY using the followingnames: Foundation

解决方法1:
网上找到采用离线安装到方式,可以成功安装,但是高兴得太早了。

wget https://github.com/abetlen/llama-cpp-python/releases/download/v0.2.56/llama_cpp_python-0.2.56-cp311-cp311-manylinux_2_17_x86_64.whl
pip install llama_cpp_python-0.2.56-cp311-cp311-manylinux_2_17_x86_64.whl
# 参考链接:https://blog.csdn.net/qq_38463737/article/details/136477026

坑1:
虽然可以成功安装,但是启动llama服务的时候,没法用到GPU加速。

报错踩坑2:
倒腾了很久,看报错一直是cmake对问题,寻思着可能是gcc版本的问题,将gcc升级到13.1。但还是出现报错:

CMake Error at vendor/llama.Cpp/CMakeLists.txt:186 (find library):
Could not find FOUNDATION LIBRARY using the followingnames: Foundation

在这里插入图片描述
或者其他诸如的报错【报错太多,没法全记录下来】

CMake configuration failed

看上面的报错Compiling the CUDA compiler identification source file “CMakeCUDACompilerId.cu” failed。感觉像是cuda跟gcc版本的不兼容问题。

解决方法2:
捣鼓了很久,后来参考了一些成功安装的经验,最后选择gcc-9.4.0版本
附带一下gcc版本安装步骤:

## 安装
tar xf gcc-9.4.0.tar.xz
cd gcc-9.4.0/
./contrib/download_prerequisites
mkdir build && cd build
../configure --prefix=/usr/local/gcc-9.4.0 --enable-bootstrap --enable-checking=release --enable-languages=c,c++ --disable-multilib
make -j16 # 我这里服务器是16核,这里根据服务器核数修改并行度。
make install ## 配置环境变量
export GCC_ME_HOME=/usr/local/gcc-9.4.0/
PATH=$GCC_ME_HOME/bin:/usr/local/bin:$PATH
export PATH
LD_LIBRARY_PATH=$GCC_ME_HOME/lib:$GCC_ME_HOME/lib64:/usr/local/lib:/usr/local/lib64:/usr/lib64:/lib64:$LD_LIBRARY_PATH
export LD_LIBRARY_PATH
export CC=$GCC_ME_HOME/bin/gcc
export CXX=$GCC_ME_HOME/bin/g++

报错踩坑2:
后来还遇到这个问题

Could not find compiler set in environment variable CXX:

在这里插入图片描述

估摸着应该是CXX变量没加载的原因,重新加载环境变量,安装。

3.服务启动

python3 -m llama_cpp.server --model /data/opt/llama2_model/llama-2-7b-bin/ggml-model-f16.bin --n_threads 30 --n_gpu_layers 200

在这里插入图片描述
在这里插入图片描述
终于加载到GPU里面!
在这里插入图片描述

4.总结

当前环境各组件版本:

  • gcc:9.4.0
  • cuda:11.8
  • python:3.11.4
  • llama_cpp_python:0.2.56

以上,End

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/735792.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

探寻程序员职业之迷:选择你的职业赛道

作为一名程序员,你站在职业发展的十字路口,眼前是一个庞大而复杂的迷宫,每条通道都通往不同的职业赛道。前端如花园般绚丽,后端似黑暗洞穴,数据科学则隐藏着神秘的密室。在这充满挑战和机遇的迷宫中,你准备…

解决eclipse上启动不了tomcat问题

一、问题:在eclipse上启动不了tomcat 网上搜的方法基本都不行,改Maven配置和重建项目等等都解决不了。问题如下 严重: 子容器启动失败 java.util.concurrent.ExecutionException: org.apache.catalina.LifecycleException: Failed to start component …

【实验报告】C语言实现猜单词的小游戏

之前帮别人写的一个简单的报告,无偿分享给大家~代码在后面,有一些图片出于懒惰没有上传。比较简单,喜欢的话关注我~,请勿商用~ 1 系统功能模块结构图 该程序主要思路: 头文件设计,存储结构设计&#xff0…

Ubuntu启用ROOT用户和配置SSH远程

文章目录 Ubuntu启用ROOT用户和配置SSH远程一、前言1.简介2.环境 二、正文1.首次启用ROOT用户2.配置ROOT的SSH远程 Ubuntu启用ROOT用户和配置SSH远程 一、前言 1.简介 在Ubuntu系统中,默认情况下,root用户(也就是超级用户或管理员用户&…

Biomedical knowledge graph-enhanced prompt generation for large language models

1. 生物医学知识图谱增强大语言模型提示生成 论文地址:[2311.17330] Biomedical knowledge graph-enhanced prompt generation for large language models (arxiv.org) 源码地址:https://github.com/BaranziniLab/KG_RAG 2. 摘要 大语言模型&#xff0…

IOS面试题object-c 71-80

71. 简单介绍下NSURLConnection类及 + sendSynchronousRequest:returningResponse:error:与– initWithRequest:delegate:两个方法的区别?NSURLConnection 主要用于网络访问,其中 + sendSynchronousRequest:returningResponse:error:是同步访问数据,即当前线程会阻塞,并等待…

UE4开个头-简易小汽车

跟着谌嘉诚学的小Demo,记录一下 主要涉及到小白人上下车和镜头切换操作 1、动态演示效果 2、静态展示图片 3、蓝图-上下车

机器人大赛有什么用?

机器人大赛在多个方面都具有显著的价值。首先,机器人大赛可以为学生提供一个实践与创新的机会,有助于培养学生的动手实践能力和创新思维。在比赛过程中,学生需要运用所学的知识和技能,设计、制作和调试机器人,这不仅可…

云原生技术实践:Kubernetes集群的部署与运维

随着云原生技术的兴起,Kubernetes作为容器编排领域的领导者,受到了越来越多开发者和运维人员的关注。本文将深入探讨Kubernetes集群的部署与运维实践,旨在为中高级技术人员提供有价值的参考和帮助。 一、引言 云原生技术作为现代软件开发的…

基于冠豪猪优化算法(Crested Porcupine Optimizer,CPO)的无人机三维路径规划(MATLAB)

一、无人机路径规划模型介绍 无人机三维路径规划是指在三维空间中为无人机规划一条合理的飞行路径,使其能够安全、高效地完成任务。路径规划是无人机自主飞行的关键技术之一,它可以通过算法和模型来确定无人机的航迹,以避开障碍物、优化飞行…

在 .NET 项目中复制资源文件夹到生成目录

本文主要介绍在使用 Visual Studio 进行调试和发布时,如何在 .NET 项目中复制资源文件夹到生成目录。 1. 背景 在开发 .NET 项目的过程中,我们有时会遇到需要在 debug 、 release 或是发布时将资源文件夹复制到生成目录的需求。这些资源可能包括图片、配…

突破编程_C++_设计模式(观察者模式)

1 观察者模式的概念 观察者模式(Observer Pattern)是设计模式中的一种行为模式,它定义了一种一对多的依赖关系,让多个观察者对象同时监听某一个主题对象。当主题对象状态发生变化时,它的所有依赖者(观察者…

Git分支管理(IDEA)

文章目录 Git分支管理(IDEA)1.Git分支管理(IDEA)1.基本介绍1.分支理解2.示意图 2.搭建分支和合并的环境1.创建Gitee仓库2.创建普通maven项目3.克隆Gitee项目到E:\GiteeRepository4.复制erp文件夹下的内容到IDEA项目下5.IDEA项目中…

基于微信小程序的校园跑腿小程序,附源码

博主介绍:✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末获取源码联系🍅 👇🏻 精彩专栏推荐订阅👇…

Django 模版基本语法

Django学习笔记 模版语法 本质:在HTML中写一些占位符,由数据对这些占位符进行替换和处理。 views.py def page2(request):#定义一些变量将变量传送给templates中的html文件name1 sallyname2 yingyinghobbys [swimming,badminton,reading]person {…

03-安装配置jenkins

一、安装部署jenkins 1,上传软件包 为了方便学习,本次给大家准备了百度云盘的安装包 链接:https://pan.baidu.com/s/1_MKFVBdbdFaCsOTpU27f7g?pwdq3lx 提取码:q3lx [rootjenkins ~]# rz -E [rootjenkins ~]# yum -y localinst…

音频分类革命:如何用Hugging Face实现前沿的音频频谱图变换器

目录 引言 ASTConfig 参数解释 示例代码及注释 ASTFeatureExtractor 参数解释 call 方法参数 ASTModel 参数 forward 方法参数 返回值 返回的主要元素 示例代码及说明 ASTForAudioClassification 参数 forward 方法参数 返回值 主要返回元素

【C语言】linux内核ip_generic_getfrag函数

一、讲解 这个函数ip_generic_getfrag是传输层用于处理分段和校验和的一个辅助函数,它通常用在IP层当需要从用户空间拷贝数据构建成网络数据包时。这个函数的实现提供了拷贝数据和进行校验和计算(如果需要的话)的功能。函数的参数解释如下&a…

[Spark SQL]Spark SQL读取Kudu,写入Hive

SparkUnit Function:用于获取Spark Session package com.example.unitlimport org.apache.spark.sql.SparkSessionobject SparkUnit {def getLocal(appName: String): SparkSession {SparkSession.builder().appName(appName).master("local[*]").getO…

如何优雅的比较两个对象是否相等

注意事项 使用 equals 方法:对于基本数据类型和包装类,可以直接使用 运算符进行比较。对于对象,应该使用 equals 方法进行比较,因为equals 方法考虑对象的实际内容,而 运算符比较的是对象的引用。 处理 null 值&…