十三、大模型项目部署与交付

1 硬件选型

  1. CUDA 核心和 Tensor 核心
  • CUDA 核心:是NVIDIA开发的并行计算平台和编程模型,用于GPU上的能用计算,可做很多的工作。应用在游戏、图形渲染、天气预测和电影特效
  • Tensor 核心:张量核心,专门设计用于深度学习的矩阵运算,加速深度学习算法中的关键计算过程
  1. 常用的GPU
    在这里插入图片描述
显卡目标市场性能应用场景价格
T4企业/AI 推理适中AI 推理, 轻量级训练, 图形渲染7999(14G)
4090消费者非常高通用计算, 图形渲染, 高端游戏, 4K/8K 视频编辑14599(24G)
A10企业/图形适中图形渲染, 轻量级计算18999(24G)
A6000企业/图形适中图形渲染, 轻量级计算32999(48G)
V100数据中心/AI深度学习训练/推理, 高性能计算42999(32G)
A100数据中心/AI深度学习训练/推理, 高性能计算69999(40G)
A800数据中心/AI中等深度学习推理, 高性能计算, 大数据分析110000
H100数据中心/AI深度学习训练/推理, 高性能计算, 大数据分析242000
  1. LPU
    在这里插入图片描述

Jonathan Ross - 前谷歌工程师,参与设计 TPU 芯片核心。后创办 Groq 公司,创造了世界首个语言处理单元 LPU™。
LPU™ 推理引擎可提供卓越 AI 工作负载速度,比其他领先供应商快 18 倍。

  1. 云服务

国内主流云服务厂商

  • 阿里云:https://www.aliyun.com/product/ecs/gpu
  • 腾讯云:https://cloud.tencent.com/act/pro/gpu-study
  • 火山引擎:https://www.volcengine.com/product/gpu

国外主流云服务厂商

  • AWS:https://aws.amazon.com
  • Vultr:https://www.vultr.com
  • TPU:https://cloud.google.com/tpu
  1. 算力平台
    主要用于学习和训练,不适合提供服务。
  • Colab:谷歌出品,升级服务仅需 9 美金。https://colab.google.com
  • Kaggle:免费,每周 30 小时 T4,P100 可用。https://www.kaggle.com
  • AutoDL:价格亲民,支持 Jupyter Notebook 及 ssh,国内首选。https://www.autodl.com

2 全球大模型选型

  1. 国产大模型
    国产模型列表
公司名称网址备注
百度文心一言https://yiyan.baidu.com/
阿里云通义千问https://tongyi.aliyun.com/开源模型Qwen-1.8B,7B,14B,72B、Qwen-VL和Qwen-Audio
科大讯飞星火https://xinghuo.xfyun.cn/
百川智能百川https://chat.baichuan-ai.com/开源小模型baichuan-7B和Baichuan-13B
零一万物Yihttps://github.com/01-ai/Yi6B 和 34B 开源模型
360智脑/一见https://ai.360.cn/, https://github.com/360CVGroup/SEEChat
昆仑万维天工 Skyworkhttps://github.com/SkyworkAI/Skywork开源且可商用,无需单独申请,Skywork 是由昆仑万维集团·天工团队开发的一系列大型模型,本次开源的模型有 Skywork-13B-Base 模型、Skywork-13B-Chat 模型、Skywork-13B-Math 模型和 Skywork-13B-MM 模型
腾讯混元https://hunyuan.tencent.com/
月之暗面Moonshothttps://www.moonshot.cn/“长文本”大模型 支持 20 万字输入
商汤科技商量https://chat.sensetime.com/
  1. chat-lmsys
    在这里插入图片描述
  2. llmmodels
    在这里插入图片描述
  3. opencompass
    在这里插入图片描述
  4. huggingface
    在这里插入图片描述
  5. maximumtruth
    在这里插入图片描述

3 OLLAMA部署

  1. https://ollama.com/
    在这里插入图片描述
  2. ollama run llama3
    在这里插入图片描述
  3. run llama3

在这里插入图片描述
4. OpenWebUI 前端页面与大模型交互

open-webui

在这里插入图片描述

4 VLLM部署

  1. vllm
    在这里插入图片描述

vLLM 是一个快速且易于使用的库,用于进行大型语言模型(LLM)的推理和服务。它具有以下特点:

  • 速度快:
    在每个请求需要 3 个并行输出完成时的服务吞吐量。vLLM 比 HuggingFace Transformers(HF)的吞吐量高出 8.5 倍-15 倍,比 HuggingFace 文本生成推理(TGI)的吞吐量高出 3.3 倍-3.5 倍

  • 优化的 CUDA 内核

  • 灵活且易于使用:

  • 与流行的 Hugging Face 模型无缝集成。

  • 高吞吐量服务,支持多种解码算法,包括并行抽样、束搜索等。

  • 支持张量并行处理,实现分布式推理。

  • 支持流式输出。

  • 兼容 OpenAI API 服务器。

支持的模型
vLLM 无缝支持多个 Hugging Face 模型,包括 Aquila、Baichuan、BLOOM、Falcon、GPT-2、GPT BigCode、GPT-J、GPT-NeoX、InternLM、LLaMA、Mistral、MPT、OPT、Qwen 等不同架构的模型。

  1. installation
# (Recommended) Create a new conda environment.
conda create -n myenv python=3.9 -y
conda activate myenv# Install vLLM with CUDA 12.1.
pip install vllm
  1. Prepared Model
    以Yi-6B-Chat为例, 这个模型需要提前下载到服务器
  2. Run
python -m vllm.entrypoints.openai.api_server --model /root/autodl-tmp/Yi-6B-Chat --trust-remote-code --port 6006

使用autodl算力服务

curl https://u394727-bf57-ff9e7382.westb.seetacloud.com:8443/v1/chat/completions \-H "Content-Type: application/json" \-d '{"model": "/root/autodl-tmp/Yi-6B-Chat","max_tokens":60,"messages": [{"role": "user","content": "你知道承德吗?"}]}'

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
5. 分布式推理
要运行多 GPU 服务,请在启动服务器时传入 --tensor-parallel-size 参数。

例如,要在 2 个 GPU 上运行 API 服务器:

python -m vllm.entrypoints.openai.api_server --model /root/autodl-tmp/Yi-6B-Chat --dtype auto --api-key token-agiclass  --trust-remote-code --port 6006 --tensor-parallel-size 2

5 Dify部署

  1. dify
    在这里插入图片描述
  2. installation
cd docker
docker compose up -d

在这里插入图片描述

6 内容安全

敏感词库管理与用户输入过滤:

  • 定期更新敏感词汇和短语库,应对文化变迁和当前事件。
  • 使用第三方服务或自建工具进行实时输入过滤和提示。推荐使用:
    • 网易易盾:https://dun.163.com/product/text-detection
    • 百度文本内容安全:https://ai.baidu.com/tech/textcensoring

7 备案步骤

什么情况下要备案?

  • 对于 B2B 业务,不需要备案。
  • 但在 B2C 领域,一切要视具体情况而定。
  • 如果我们自主训练大型模型,这是必要的。
  • 但如果是基于第三方模型提供的服务,建议选择那些已获得备案并且具有较大影响力的模型。
  • 如果你使用了文心一言的模型,可以向他们的客服要相关算法备案号。

备案指南 && 申请引导

beian

yuque

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/5802.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前端开发框架Vue

版权声明 本文原创作者:谷哥的小弟作者博客地址:http://blog.csdn.net/lfdfhl Vue概述 Vue.js(简称Vue)是由尤雨溪(Evan You)创建并维护的一款开源前端开发框架。Vue以其轻量级、易上手和高度灵活的特点&…

IoTDB 入门教程③——基于Linux系统快速安装启动和上手

文章目录 一、前文二、下载三、解压四、上传五、启动六、执行七、停止八、参考 一、前文 IoTDB入门教程——导读 二、下载 下载二进制可运行程序:https://dlcdn.apache.org/iotdb/1.3.1/apache-iotdb-1.3.1-all-bin.zip 历史版本下载:https://archive.…

YOLOv3模型在不同硬件平台上的性能表现有何差异?

YOLOv3模型在不同硬件平台上的性能表现可能会有显著差异,这主要受到以下因素的影响: 1. 计算能力:高性能的GPU(如NVIDIA的高端系列)或ASIC(如Google的TPU)可以更快地处理复杂的神经网络运算&am…

C——双向链表

一.链表的概念及结构 链表是一种物理存储单元上非连续、非顺序的存储结构,数据元素的逻辑顺序是通过链表中的指针链接次序实现的。什么意思呢?意思就是链表在物理结构上不一定是连续的,但在逻辑结构上一定是连续的。链表是由一个一个的节点连…

24五一杯ABC题完整思路+可执行代码+可视化图表(1)

2024五一赛A题保姆级建模思路20页1-3问可执行代码后续成品论文各类可视化图表(完整版资料在文章最后) 处理第一问的代码 其余各题的代码如下: A题保姆级建模思路20页:(手把手教你如何建模) 高清图片如下&am…

Windows bat读取每行第一、二、三列的内容

1.场景: 使用Windows bat实现读取每行第一、二、三列的类内容,并输出到屏幕 2.实现: bat脚本 ::关闭命令回显 @echo off::日志目录创建 if not exist "C:\BPPMStatus_Check\%date:~0,4%%date:~5,2%%date:~8,2%" (md "C:\BPPMStatus_Check\%date:~0,4%%da…

第12章 软件测试基础(第一部分)概念、质量保证、测试用例、测试执行过程

一、软件测试 (一)定义 动态验证计算机程序对有限的测试用例集是否可产生期望的结果的过程。测试计划是描述了要进行的测试活动的范围、方法、资源和进度的文档。编写测试计划目的:使测试工作顺利进行、使项目参与人员沟通更舒畅、使测试工…

面试常见 | 项目上没有亮点,如何包装?

很多技术人在公司用的老技术,而且很多都是搬业务代码且做枯燥乏味的CRUD,在面试提交简历或做自我介绍的时候并不突出,这种情况,如何破局? 首先不管你做的啥项目,全世界不可能只有你自己在做,比…

访问一个 HTTP 接口却收到 HTTPS 错误的响应

当访问一个 HTTP 接口却收到 HTTPS 错误的响应时,可能有以下几个原因: 重定向问题:请求可能被服务端重定向到了 HTTPS 地址。这意味着服务器要求使用 HTTPS 协议进行访问。可以尝试直接使用重定向后的 HTTPS 地址进行访问,或者检查…

Tensorflow2.0笔记 - ResNet实践

本笔记记录使用ResNet18网络结构,进行CIFAR100数据集的训练和验证。由于参数较多,训练时间会比较长,因此只跑了10个epoch,准确率还没有提升上去。 import os import time import tensorflow as tf from tensorflow import keras …

附录6-5 黑马优购项目-我的与后端本地化

目录 1 我的 2 后端本地化 1 我的 tarbar我的 只有这两个页面 其中未登录页面中只有一键登录有用,其他都是写死的,一键登录的功能仅仅是切换到登录的页面 目前微信小程序和微信用户的信息是脱钩的(之前的wx.getUserProfile与wx.getUs…

企业气候风险披露、报表词频、文本分析数据集合(2007-2022年)

01、数据介绍 企业气候风险披露是指企业通过一定的方式,将气候变化对其影响、自身采取的应对措施等信息披露出来。这有助于投资者更准确地评估企业价值,发现投资机会,规避投资风险。解企业在气候风险方面的关注度和披露情况。 可以帮助利益…

Django后台项目开发实战七

为后台管理系统换风格 第七阶段 安装皮肤包 pip install django-grappelli 在 setting.py 注册 INSTALLED_APPS [grappelli,django.contrib.admin,django.contrib.auth,django.contrib.contenttypes,django.contrib.sessions,django.contrib.messages,django.contrib.stat…

【yolov8】yolov8剪枝训练流程

yolov8剪枝训练流程 流程: 约束剪枝微调 一、正常训练 yolo train model./weights/yolov8s.pt datayolo_bvn.yaml epochs100 ampFalse projectprun nametrain二、约束训练 2.1 修改YOLOv8代码: ultralytics/yolo/engine/trainer.py 添加内容&#…

R语言4版本安装mvstats(纯新手)

首先下载mvstats.R文件 下载mvstats.R文件点此链接:https://download.csdn.net/download/m0_62110645/89251535 第一种方法 找到mvstats.R的文件安装位置(R语言的工作路径) getwd() 将mvstats.R保存到工作路径 在R中输入命令 source(&qu…

⑤ - 前端工程师通识指南

📖 该文隶属 程序员:职场关键角色通识宝典✍️ 作者:哈哥撩编程(视频号同名) 博客专家全国博客之星第四名超级个体COC上海社区主理人特约讲师谷歌亚马逊演讲嘉宾科技博主极星会首批签约作者🏆 推荐专栏: 🏅 程序员:职场关键角色通识宝典🏅

我选择哪个区块链平台将作品转化为NFT最合适?

选择哪个区块链平台将作品转化为NFT,取决于您的个人需求、目标和偏好。不同的区块链平台具有不同的特点和优势,以下是一些流行的选择及其考虑因素: 1. 以太坊 (Ethereum): 优点:以太坊是最成熟和最受欢迎的NFT平台&am…

ctf web-部分

** web基础知识 ** *一.反序列化 在PHP中,反序列化通常是指将序列化后的字节转换回原始的PHP对象或数据结构的过程。PHP中的序列化和反序列化通过serialize()和unserialize()函数实现。 1.序列化serialize() 序列化说通俗点就是把一个对象变成可以传输的字符串…

创新指南|如何通过用户研究打造更好的人工智能产品

每个人都对人工智能感到兴奋,但对错过机会 (FOMO) 的恐惧正在驱使公司将人工智能嵌入到每个产品功能中。这可能会导致以技术为中心的方法,从而掩盖产品开发的基本目标:创建真正解决用户问题并满足他们需求的解决方案。本文将介绍通过用户研究…

HawkEye—高效、细粒度的大页管理算法

文章目录 HawkEye—高效、细粒度的大页管理算法1.作者简介2.文章简介与摘要3.简介(1).当时的SOTA系统概述LinuxFreeBSDIngensHawkEye 4.动机(1).地址翻译开销与内存膨胀(2).缺页中断延迟与缺页中断次数(3).多处理器大页面分配(4).如何测算地址翻译开销? 5.设计与实现…