2024-01-07-AI 大模型全栈工程师 - AI 产品部署和交付

摘要

2024-01-07 周日 杭州 阴

本节内容:

  1. 如何选择 GPU 和云服务器,追求最高性价比
  2. 如何部署自己的 fine-tune 的模型,向业务提供高可用服务
  3. 如何控制内容安全,做好算法备案,确保合规

课程内容

1. 硬件选型

a. Nvidia 几乎是模型训练和推理的 GPU 硬件唯一选择

2. 什么是 GPU?

GPU: Graphical Processing Units (GPUs)

  • 图形处理单元(GPU)是一种功能强大的电子芯片,用于沉浸式视频游戏,电影和其他视觉媒体中呈现丰富的 2D/3D 图形和动画;
  • GPU 引起超过 CPU 的并行矩阵运算性能,所以也被广泛应用于人工智能相关的各种系统,包括机器视觉,NLP,语音识别,自动驾驶等
3. CUDA 核心和 Tensor 核心
  • CUDA 核心:

a. CUDA 是NVIDIA 开发的并行计算平台和编程模型,用于 GPU 上的通用计算,就像万能工人,可以做很多不同的工作

b. 适合游戏和图形渲染,天气预报,电影特效等场景

  • Tensor 核心:

a. 中文名: 张量核心
b. 专门设计用于深度学习中的矩阵运算,加速深度学习算法中的关键计算过程
c. 适合语音助手,人脸识别等场景

4. AI 领域常用 GPU
  • 价格排序

说明: 美国商务部限制 GPU 对华出口的算力不超过 4800TOPS 和带宽不超过 600GB/s ,导致最强的 H100 和 A100 对华禁售,黄仁勋随后推出针对中国市场的 A800 和 H800 (阉割版)。

  • H100 比 A100 快多少?

5. 物理机与云服务器如何选择?

重点前提:

  • 如果经常做微调实验,有自己的物理服务器会更加方便
  • 提供推理服务,首选云服务器
  • 如果有自建机房或者 IDC ,请随意
6. 云服务厂商对比

*a. 国内主流
a.1 阿里云
a.2 腾讯云
a.3 火山引擎

*b. 国外主流
b.1 AWS
b.2 Vultr
b.3 TPU: 谷歌专门用于加速机器学习的硬件,特别适合大规模机器学习任务,架构和性能方面表现出色;

*c. TPU 优势
c.1 高性能和能效
c.2 大规模训练
c.3 实时推理
c.4 云端使用

适用于图像处理,自然语言处理,推荐系统等多个领域,在国外,科研机构,大公司和初创企业普遍使用 TPU。

7. A100 与 T4 对比
  • A100: 在云服务中,A100 是顶级的企业 GPU ,适用于高性能计算需求
  • T4: 相比之下,T4 更为经济,适合日常模型微调和推理任务

8. 算力平台

主要用于学习和训练,不适合提供服务

  • Colab: 谷歌产品,升级服务仅需 9 美金(70人民币);
  • Kaggle: 每周30小时 T4 ,A100可用;
  • AutoDL: 价格亲民,支持 Jupyter Notebook 及 SSH ,国内首选;

根据场景选择 GPU(基于 4090 的训练场景)

下面是 llm-utils 上的一些选型建议:

重点小结:
a. 对于本地个人研发项目,GeForce RTX 4090 等足以满足中等规模需求;
b. 对于公司的大规模数据和复杂模型,推荐使用 NVIDIA A100 的高性能 GPU;
c. 数据规模较小时,选择预算内的 A10 和 T4;
d. 如果追求性价比,可以选择把 4090 显卡搭建成集群服务器使用,也可以选择第三方服务;

9. 阿里云私有部署开源大模型

*a. 向量数据库的应用场景

a.1 知识库/问答系统:
a.2 图像识别和搜索
a.3 内容推荐系统

*b. 选择向量数据库

*c. 重点小结

c.1 通用数据库最初不是为矢量搜索设计的,因此不如专门矢量数据库性能高
c.2 如果业务知识少量向量(例如TPS<10万),不用考虑太多抉择问题
c.3 当成本和延迟成为问题时,考虑使用专用的矢量数据库

10. TorchServe
  • a. 什么是 TorchServer

TorchServer 是一个专为 PyTorch 设计的模型服务工具,它可以帮助开发者轻松的部署,管理,和提供 PyTorch模型服务,它是由 PyTroch 团队和亚马逊 AWS 团队共同开发的,旨在为 PyTorch 团队提供一个简单,灵活且高效的模型部署解决方案;

  • a. TorchServer 优势

    a.1 模型管理API:通过优化工作角色与模型的分配,实现多模型管理
    a.2 推理 API :支持 REST 和 gRPC 的批量推理
    a.3 性能指南:内置支持优化,基准测试和分析 PyTorch 和 TorchServer 的性能;
    a.4 富有表现力的处理程序架构: 通过多种开箱即用的支持,轻松支持各种用例的推理

11. 实验思路

*a. 准备阶段

a.1 获取模型文件: chatglm2-6b
a.2 选择合适的服务器

*b. 部署阶段

b.1 准备好基础镜像: nvida-smi 验证 nvidia 是否安装
b.2 加载模型: 下载好模型

*c. 开发阶段

c.1 使用 FastAPI 创建一个简单的 WebAPI 接口

*d. 测试阶段: 通过 Postman/Curl 发送请求,进行测试调试

本地实践,自行完成

总结

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/660495.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IAR编译和调试CMS32L051

0 Preface/Foreword 0.1 参考文档 中微半导体BAT系列单片机学习笔记_V1.1.pdf 1 配置方法 1.1 编译工具链添加 CMS对于IAR工具&#xff0c;有一个插件文件&#xff0c;用于安装对应的CMS系列芯片。 工具名称&#xff1a;iar_plug20210926.7z 按照完成之后&#xff0c;可…

如果我要访问一个网址,那么在网络中会有哪些过程

访问一个网址是我们日常网络使用中非常常见的操作&#xff0c;背后涉及到一系列精密而复杂的步骤。这个过程包括DNS解析、建立TCP连接、发起HTTP请求、服务器处理请求、服务器响应、浏览器渲染等环节。在这篇文章中&#xff0c;我们将深入探讨这些步骤&#xff0c;并解释它们在…

强大的虚拟机Parallels Desktop 19 mac中文激活

Parallels Desktop是一款功能全面、易于使用的虚拟机软件&#xff0c;它为用户提供了在Mac电脑上同时运行多个操作系统的便利。 软件下载&#xff1a;Parallels Desktop 19 mac中文激活版下载 Parallels Desktop 19 mac具有快速启动和关闭虚拟机的能力&#xff0c;让用户能够迅…

基于SpringBoot+Vue学科竞赛管理系统

文章目录 基于SpringBootVue学科竞赛管理系统1系统概述1.3系统设计思想 2相关技术2.1 MYSQL数据库2.2 B/S结构2.3 Spring Boot框架简介2.4 Vue简介 3系统分析3.1可行性分析3.1.1技术可行性3.1.2经济可行性3.1.3操作可行性 3.2系统性能分析3.2.1 系统安全性3.2.2 数据完整性 3.4…

Wampserver 切换中文时无法启动报错处理

在使用 Wampserver 软件时默认为英语&#xff0c;可以看到有语言选择功能&#xff0c;切换其他语言。但选择中文切换后&#xff0c;软件重启时报如下错误&#xff1a; The configuration file contains a systax error on line 44:[EParseError] Mismatched or misplaced quoue…

(十六)串口UART

文章目录 UART简介传输数据帧和波特率定时器1作为串口1波特率发生器串口部分相关寄存器TMODAUXRPCONSCONSBUF 串口1工作模式1&#xff1a;8位UART&#xff0c;波特率可变总体工作原理如何简单接收一个字符和发送数据一步之遥的设置现象演示 UART简介 通用异步收发传输器(Unive…

一种轻量分表方案-MyBatis拦截器分表实践|京东零售技术实践

背景 部门内有一些亿级别核心业务表增速非常快&#xff0c;增量日均100W&#xff0c;但线上业务只依赖近一周的数据。随着数据量的迅速增长&#xff0c;慢SQL频发&#xff0c;数据库性能下降&#xff0c;系统稳定性受到严重影响。本篇文章&#xff0c;将分享如何使用MyBatis拦…

微软Azure-OpenAI 测试调用及说明

本文是公司在调研如何集成Azure-openAI时&#xff0c;调试测试用例得出的原文&#xff0c;原文主要基于官方说明文档简要整理实现 本文已假定阅读者申请部署了模型&#xff0c;已获取到所需的密钥和终结点 变量名称值ENDPOINT从 Azure 门户检查资源时&#xff0c;可在“密钥和…

Advanced CNN

文章目录 回顾Google NetInception1*1卷积Inception模块的实现网络构建完整代码 ResNet残差模块 Resedual Block残差网络的简单应用残差实现的代码 练习 回顾 这是一个简单的线性的卷积神经网络 然而有很多更为复杂的卷积神经网络。 Google Net Google Net 也叫Inception V…

5、应急响应-拒绝服务钓鱼识别DDOS压力测试邮件反制分析应用日志

目录 前言&#xff1a; 1、#内网应急-日志分析-爆破&横向&数据库 2、#红队APT-钓鱼邮件识别-内容&发信人&附件 3、#拒绝服务攻击-DDOS&CC-代理&防火墙防御 用途&#xff1a;个人学习笔记&#xff0c;欢迎指正&#xff01; 前言&#xff1a; 了解和…

OkHttp完全解读

一&#xff0c;概述 OkHttp作为android非常流行的网络框架&#xff0c;笔者认为有必要剖析此框架实现原理&#xff0c;抽取并理解此框架优秀的设计模式。OkHttp有几个重要的作用&#xff0c;如桥接、缓存、连接复用等&#xff0c;本文笔者将从使用出发&#xff0c;解读源码&am…

深度视频恢复软件推荐,轻松恢复视频文件!

“我在电脑上保存了一些视频&#xff0c;但在清理时却不小心将这些视频删除了&#xff0c;有什么方法可以恢复删除的视频吗&#xff1f;希望大家给我推荐一些好用的方法。” 随着科技的飞速发展&#xff0c;数字媒体已经成为了我们生活中不可或缺的一部分。然而&#xff0c;数字…

国图公考:考公和考编一样吗?

公务员&#xff1a;是指在各级机关中&#xff0c;符合规定&#xff0c;行使职权&#xff0c;执行公务的人员 事业单位&#xff1a;事业单位是指由国家或社会组织举办&#xff0c;从事教育、科学、文化、卫生、体育等社会公益事业的单位。 公务员和事业编都是有编制的&#xf…

dataframe 列按指定字符截取

创建一个示例 import pandas as pd data {Column1: [1~2, 21~3, 3~41, 411~5], } test_df pd.DataFrame(data) print(test_df) 截取 ’~ ‘前、后的值 test_df[Column1_left] test_df[Column1].apply(lambda x: x.split(~)[0] if pd.notnull(x) else np.nan) test_df[…

某赛通电子文档安全管理系统 PolicyAjax SQL注入漏洞复现

0x01 产品简介 某赛通电子文档安全管理系统(简称:CDG)是一款电子文档安全加密软件,该系统利用驱动层透明加密技术,通过对电子文档的加密保护,防止内部员工泄密和外部人员非法窃取企业核心重要数据资产,对电子文档进行全生命周期防护,系统具有透明加密、主动加密、智能…

推荐系统|排序_MMOE

MMOE MMOE是指Multi-gate Mixture-of-Experts 注意看Expert后面加了s&#xff0c;说明了有多个专家。 而在MMOE中专家是指用来对输入特征计算的神经网络&#xff0c;每个神经网络根据输入计算出来的向量都会有所不同。 MMOE的低层 MMOE的上一层 通过MMOE的低层算出的向量和权…

Markdown 图片尺寸对齐等详细使用

✍️作者简介&#xff1a;小北编程&#xff08;专注于HarmonyOS、Android、Java、Web、TCP/IP等技术方向&#xff09; &#x1f433;博客主页&#xff1a; 开源中国、稀土掘金、51cto博客、博客园、知乎、简书、慕课网、CSDN &#x1f514;如果文章对您些帮助请&#x1f449;关…

全链路压测的关键点是什么?

全链路压测是一种重要的性能测试方法&#xff0c;用于评估应用程序或系统在真实生产环境下的性能表现。通过模拟真实用户行为和流量&#xff0c;全链路压测能够全面评估系统在不同负载下的稳定性和性能表现。本文将介绍全链路压测的关键点&#xff0c;以帮助企业更好地理解和应…

【第二十二课】最短路:dijkstra算法 ( acwing849 / acwing850 / c++ 代码)

目录 dijkstra算法求最短距离步骤 朴素的dijkstra算法---acwing-849 代码如下 代码思路 堆优化版的dijkstra算法---acwing-850 代码如下 关于最短路问题分有好几种类型 &#xff1a; 单源就是指&#xff1a;只求从一个顶点到其他各顶点 多源是指&#xff1a;要求每个顶…

SD-WAN和MPLS的区别以及如何选择?

网络连接技术的选择对企业来说至关重要。SD-WAN&#xff08;软件定义广域网&#xff09;和MPLS&#xff08;多协议标签交换&#xff09;是两种备受关注的网络连接方案。它们在架构、带宽、成本和管理等方面存在显著区别&#xff0c;企业应了解清楚这些区别再进行选择。 SD-WAN采…