大模型学习笔记十二:AI产品部署

文章目录

    • 一、如何选择GPU和云服务器厂商,追求最高性价比
      • 1)根据场景选择GPU
      • 2)训练或微调所需显卡(以Falcon为例子)
      • 3)服务器价格计算器
    • 二、全球大模型了解
      • 1)llm所有模型
      • 2)模型综合排行
      • 3)模型评测
      • 4)国内大模型
      • 5)文心一言API接入指南
      • 6)国外域名服务商推荐
    • 三、搭建OpenAI代理
      • 1)搭建原理:透传
      • 2)服务器选择
      • 3)实践
    • 四、基于云平台快速部署SD
    • 五、本地计算机运行大型模型
      • 1)Ollama基础
      • 2)讲解Ollama API(略)
      • 3)结合RAG运行:分析github仓库代码(略)
    • 六、如何部署自己fine-tune的模型,向业务提供高可用推理服务
      • 1)架构图
      • 2)重要模块
    • 七、基于vLLM部署大模型
      • 1)vLLM部署开源大模型介绍
      • 2)vLLM开启api调用
      • 3)vLLM分布式推理
    • 八、部署一套开源LLM项目
    • 九、如何控制内容安全,做好算法备案,确保合规

一、如何选择GPU和云服务器厂商,追求最高性价比

  • AI常用GPU
    在这里插入图片描述
    有些京东能买,没过限制GPU对华出口不超过4800TOPS和带宽不超过600GB/s,导致最强的H100和A100禁售。黄教主后面推出针对中国市场的A800和H800

  • H100和A100对比:
    16bit推理快3.5倍,16bit训练快2.3倍
    在这里插入图片描述

  • LPU(推理特别快)
    在这里插入图片描述
    在这里插入图片描述

  • 云服务厂商对比
    -国内主流
    阿里云:https://www.aliyun.com/product/ecs/gpu (可申请免费试用)
    腾讯云:https://cloud.tencent.com/act/pro/gpu-study
    火山引擎:https://www.volcengine.com/product/gpu
    -国外主流
    AWS:https://aws.amazon.com
    Vultr:https://www.vultr.com
    TPU:https://cloud.google.com/tpu

  • 算力平台(内部先用,跑小模型):主要用于学习和训练
    Colab:谷歌出品,升级服务仅需 9 美金。https://colab.google.com
    Kaggle:免费,每周 30 小时 T4,P100 可用。https://www.kaggle.com
    AutoDL:价格亲民,支持 Jupyter Notebook 及 ssh,国内首选。https://www.autodl.com
    建议:若一来GITHUB或Docker官方镜像,建议国外服务器

1)根据场景选择GPU

以下是我们为您提供的,基于显卡 4090 上的 chatglm 和 chatglm2 模型的 Fine tuning 实验数据概览:
(微调数据不同导致所需时间不同)
在这里插入图片描述

2)训练或微调所需显卡(以Falcon为例子)

补充:Falcon 是目前为止 huggingface 上排行榜第一的模型

在这里插入图片描述

  • 注意点
    ①对于本地个人研发项目,GeForce RTX 4090 等消费级 GPU 足以满足中等规模的需求。
    ②对于公司的大规模数据和复杂模型,推荐使用如 NVIDIA A100 的高性能 GPU。
    ③数据规模小时,可考虑预算内的 A10 或 T4 型号。
    ④如果追求性价比,可以选择把 4090 显卡搭建服务器使用,也可以选择市面的第三方服务,比如:AutoDL 的 4090 服务
  • 补充资料
    https://gpus.llm-utils.org/cloud-gpu-guide/
    https://gpus.llm-utils.org/nvidia-h100-gpus-supply-and-demand/

3)服务器价格计算器

火山引擎提供的这个价格计算器很方便,做个大概的云服务器 GPU 选型价格参考。其它服务厂商价格相差不是很多。

https://www.volcengine.com/pricing?product=ECS&tab=2

二、全球大模型了解

1)llm所有模型

传送门

2)模型综合排行

传送门
在这里插入图片描述

3)模型评测

传送门
在这里插入图片描述

4)国内大模型

①国内模型列表
传送门

在这里插入图片描述

  • agicto.com能开发票

5)文心一言API接入指南

传送门

6)国外域名服务商推荐

①www.spaceship.com
②www.namecheap.com

三、搭建OpenAI代理

  • 业务流程建议
    因为业务在国内,所以大部分业务代码在国内的服务器,国内服务器调用代理服务器即可。

1)搭建原理:透传

  • 缺点
    容易触发官方封号概率
  • 实现方案
    ①Nginx
    ②node服务
    ③纯js

①Nginx方案

server
{listen 80;server_name a.openaixx.com;index index.html;location / {proxy_pass https://api.openai.com;proxy_ssl_name api.openai.com;proxy_ssl_server_name on;proxy_set_header Host api.openai.com;proxy_set_header Upgrade $http_upgrade;proxy_set_header Connection 'upgrade';chunked_transfer_encoding off;proxy_read_timeout 3600;proxy_buffering off;proxy_cache off;proxy_redirect off;proxy_hide_header Cache-Control;}location ~ /.well-known {allow all;}access_log off;
}

参考

②node服务
agi-proxy

③纯js方案
复制以下代码,去 cloudflare 建立一个 worker 即可
.传送门

2)服务器选择

在这里插入图片描述

  • vercel介绍
    ①服务器提供商
    ②操作简单,选择项目添加,然后发版就可以部署了
    ③侧重前端
    ④云平台

  • render
    ①可以用docker去构建
    ②像Nginx、redis都可以部署云服务
    ③云平台

  • zeabur
    ①这个服务器好处是国内
    ②云平台

3)实践

用vercel部署自己一个OpenAI代理

四、基于云平台快速部署SD

五、本地计算机运行大型模型

1)Ollama基础

  • ollama的作用:
    将各种大模型量化裁剪功能,让大模型能在本地能跑起来
  • 网址
    https://ollama.com/library
    https://ollama.com/
  • 本地调用询问API方式
curl http://localhost:11434/v1/chat/completions \-H "Content-Type: application/json" \-d '{"model": "wizardlm2","messages": [{"role": "system","content": "You are a helpful assistant."},{"role": "user","content": "你是谁?"}]}
  • 端口
    11434

2)讲解Ollama API(略)

3)结合RAG运行:分析github仓库代码(略)

六、如何部署自己fine-tune的模型,向业务提供高可用推理服务

1)架构图

在这里插入图片描述

2)重要模块

①

七、基于vLLM部署大模型

1)vLLM部署开源大模型介绍

①定义:是一个快速且容易使用的库,用于大语言模型LLM的推理和服务
②特点:

1)速度快,每个请求需要3个并行输出完成时的服务器吞吐量,比huggingface transformer的吞吐量高出8.5到15倍,比huggingface文本生成推理TGI的吞吐量高3.3到3.5倍
2)优化的cuda内核
3)与huggingface模型无缝集成
4)支持张量并行处理,实现分布式推理
5)支持滚式输出

2)vLLM开启api调用

3)vLLM分布式推理

八、部署一套开源LLM项目

九、如何控制内容安全,做好算法备案,确保合规

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/48451.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

WSL2 Centos7 Docker服务启动失败怎么办?

wsl 安装的CentOS7镜像,安装了Docker之后,发现用systemctl start docker 无法将docker启动起来。 解决办法 1、编辑文件 vim /usr/lib/systemd/system/docker.service将13行注释掉,然后在下面新增14行的内容。然后保存退出。 2、再次验证 可以发现,我们已经可以正常通过s…

offer题目51:数组中的逆序对

题目描述:在数组中的两个数字,如果前面一个数字大于后面的数字,则这两个数字组成一个逆序对。输入一个数组,求出这个数组中的逆序对的总数。例如,在数组{7,5,6,4}中,一共存在5个逆序对,分别是(7…

给Wordpress添加评分功能到评论表单

今天要 给你的 Wordpress 添加评分功能到评论表单 吗? 评分功能效果图 什么类型的网站需要评分? 资源站教程站其他,我也没想到。。。 但我这个网站,因为是电影类的网站,好像还是有点需要的,所以&#xf…

针对汽车应用而设计的SCT4026D、SCT4062K、SCT3105K、SCT3080A、SCT3060A全新系列碳化硅 (SiC) MOSFET

全新系列碳化硅 (SiC) MOSFET SCT4026DWAHRTL SCT4062KWAHRTL SCT3105KRC15 SCT3080ALHRC11 SCT3080ARC15 SCT3060ARC15 ——明佳达 AEC-Q101 SiC功率MOSFETs是汽车和开关电源的理想选择。SiC功率MOSFETs可以提高开关频率,减少所需的电容、电抗器和其他元件的体积…

【RAG探索第4讲】KG+RAG丨基于知识图谱优化大型语言模型方法

原文链接:【RAG探索第4讲】KGRAG丨基于生物医学知识图谱优化的大型语言模型提示生成方法 一、现有问题: LLMs在处理特定领域或高度专业化查询时缺乏专业知识,导致回答不够准确和可靠。 LLMs可能会产生事实错误(即幻觉&#xff0…

【计算机视觉】siamfc论文复现

什么是目标跟踪 使用视频序列第一帧的图像(包括bounding box的位置),来找出目标出现在后序帧位置的一种方法。 什么是孪生网络结构 孪生网络结构其思想是将一个训练样本(已知类别)和一个测试样本(未知类别)输入到两个CNN(这两个CNN往往是权值共享的)中&#xff0…

深入理解PHP基础【代码审计实战指南】

文章目录 基础语法单双引号的区别前后端分离数据类型PHP常量函数var_dump函数count函数print_r函数**readfile()函数****file_get_contents()函数****file_put_contents()函数**header函数fopen函数fread 函数rename函数copy()函数…

OCR识别采购单小程序管理助手

千呼新零售2.0系统是零售行业连锁店一体化收银系统,包括线下收银线上商城连锁店管理ERP管理商品管理供应商管理会员营销等功能为一体,线上线下数据全部打通。 适用于商超、便利店、水果、生鲜、母婴、服装、零食、百货、宠物等连锁店使用。 详细介绍请…

Qt开发网络嗅探器01

引言 随着互联网的快速发展和普及,人们对网络性能、安全和管理的需求日益增 长。在复杂的网络环境中,了解和监控网络中的数据流量、安全事件和性能 问题变得至关重要。为了满足这些需求,网络嗅探器作为一种重要的工具被 广泛应用。 网络嗅探…

【Godot4.2】SVGParser - SVG解析器函数库

概述 这是一个基于GDScript内置XMLParser编写的简易SVG文件解析函数库。 目的就是可以将SVG文件解析为GDSCript可以处理的字典或DOM形式,方便SVG渲染和编辑。 目前还只是一个简易实现版本。还需要一些改进。 函数库源码 # # 名称:SVGParser # 类型…

AI算法23-决策树ID3算法Iterative Dichotomiser 3 | ID3

目录 决策树ID3算法概述 决策树ID3算法简介 决策树ID3算法的原理 决策树ID3算法的核心 决策树ID3算法的本质 决策树ID3算法的基本流程 决策树ID3算法计算过程 步骤1 步骤2 步骤3 决策树ID3算法的代码实现 决策树ID3算法的优缺点 优点 缺点 决策树ID3算法的应用场…

ue5笔记

1 点光源 聚光源 矩形光源 参数比较好理解 (窗口里面)环境光混合器:快速创造关于环境光的组件 大气光源:太阳光,定向光源 天空大气:蓝色的天空和大气 高度雾:大气下面的高度感的雾气 体积…

【HarmonyOS】HarmonyOS NEXT学习日记:五、交互与状态管理

【HarmonyOS】HarmonyOS NEXT学习日记:五、交互与状态管理 在之前我们已经学习了页面布局相关的知识,绘制静态页面已经问题不大。那么今天来学习一下如何让页面动起来、并且结合所学完成一个代码实例。 交互 如果是为移动端开发应用,那么交…

自主巡航,目标射击

中国机器人及人工智能大赛 参赛经验: 自主巡航赛道 【机器人和人工智能——自主巡航赛项】动手实践篇-CSDN博客 主要逻辑代码 #!/usr/bin/env python #coding: utf-8import rospy from geometry_msgs.msg import Point import threading import actionlib impor…

鸿蒙开发 03 封装 @ohos/axios (最新深度封装)

鸿蒙开发 03 封装 ohos/axios (最新深度封装) 1、安装 ohos/axios2、开始封装2.1 新建 utils 文件夹 和 api 文件夹2.2 在 utils 文件夹里新建 http.ts2.3 在 api 文件夹里新建 api.ets 3、页面调用4、打印结果 1、安装 ohos/axios ohpm install ohos/a…

linux环境交叉编译openssl库,以使Qt支持https

一.前言 Qt若需要支持https,则需要openssl的支撑,并且要注意,Qt不同版本会指定对应的openssl版本库,比方我用的Qt5.15.10他要求用的openssl版本是1.1.1,你就不能用其他版本,不然基本就是失败报错。 如何查看Qt对应ope…

无人机反制技术常见的有哪些?

随着无人机技术的迅速发展和广泛应用,无人机在民用、军事等领域都发挥着重要作用。然而,无人机的滥用和非法入侵也带来了严重的安全隐患。为了维护国家安全和社会稳定,无人机反制技术应运而生。本文将详细介绍无人机反制技术的常见类型&#…

【Git学习 | 第2篇】在IDEA中使用Git

文章目录 在IDEA中使用Git1. IDEA中配置Git2. 获取Git仓库2.1 本地初始化仓库2.2 从远程仓库克隆 3. 本地仓库操作4. 远程仓库操作5. 分支操作 在IDEA中使用Git 1. IDEA中配置Git IDEA中使用Git,本质上使用的本地安装的Git软件配置步骤: 2. 获取Git仓库…

Unity UGUI 之 RectTransform

本文仅作学习笔记与交流,不作任何商业用途 本文包括但不限于unity官方手册,唐老狮,麦扣教程知识,引用会标记,如有不足还请斧正 Unity - Manual: Rect Transform 1.Rect Transform是什么 2.轴心与锚点的映射关系 首先…

【雷丰阳-谷粒商城 】【分布式高级篇-微服务架构篇】【29】Sentinel

持续学习&持续更新中… 守破离 【雷丰阳-谷粒商城 】【分布式高级篇-微服务架构篇】【29】Sentinel 简介熔断降级什么是熔断什么是降级相同点不同点 整合Sentinel自定义sentinel流控返回数据使用Sentinel来保护feign远程调用自定义资源给网关整合Sentinel参考 简介 熔断降…