写给大模型新人的经验,刷到少走三年弯路!

这篇文章,我将结合自己在大模型领域的经验,给大家详细聊聊新人应该如何转行大模型赛道?

比如大模型都有哪些方向?各方向的能力要求和岗位匹配?新手转行大模型常踩的坑和常见的误区?以及入行大模型最顺滑的路径?

如果你是正打算入行大模型的校招/社招同学,请一定看完,可能会让你在入行大模型的路上,少走很多弯路。

01

大模型都有哪些方向?

如果你在求职网站搜索"大模型"关键词,看一下招聘 JD,基本可以了解现在业内对大模型工程师的需求方向和能力要求.。

总结一下,大致可以分为 4 类:

  • 做数据的(大模型数据工程师,爬虫/清洗/ETL/Data Engine/Pipeline)

  • 做平台的(大模型平台工程师,分布式训练/大模型集群/工程基建)

  • 做应用的(大模型算法工程师,搜/广/推/对话机器人/AIGC)

  • 做部署的(大模型部署工程师,推理加速/跨平台/端智能/嵌入式)

02

大部分新手的误区

如果是你,看到这几个方向,会怎么选?我估计很多人都直奔第三点去了,坚定的要做应用,走在所有工种的最前沿,做出让老板,用户都看得到的核心"产品"。

不过这里我不禁要给各位泼一点冷水,在 AI 算法这个行业,三是很吃业务经验的,如果你之前本身就是做算法的,比如是做 NLP,又或者是做语音助手,对话机器人这类的,再顺水推舟做相关方向的大模型算法工程师,这是比较合适的。

在自身业务里融入一些大模型的算法和技法,拿到实际的业务产出,去市面上也比较好找这类岗位。

但如果你是 CS 方向的实习生/应届毕业生,或者其他 IT 方向转行大模型,3 未必是一个最好的选择,大家不要带着一个误区:大模型算法工程师就是调模型,调超参,做一做预训练,做一做 finetune,SFT 之类的活。

实际上呢,这部分工作只有很少人做,基本一个 team 中只有个位数的人,或者只是算法工作的很小的一部分。

注意一点,新人进去 90% 以上都不可能直接让你干算法模型调优的活,大部分可能还是让你配环境,搭链路,清洗数据,分析数据,调研,写一写 function,tools。

这些体力活都干熟了以后,可能才会让你跑一些模型实验。其中比较出色的,脑子比较灵活的同学,才会慢慢让他们开始接触线上业务。

也有很多同学,干了好几年,还是在干一些边角料,脏活,杂活,根本接触不到核心业务。对于刚入行的新人,如果你学历背景好点,可以去大公司做 intern 然后转正,背景差一点,可以去中小公司,积累业务经验。

03

数据很重要!

然后很多人可能往往忽视了上面的 1,2,4,觉得我学了这么多算法知识,学了机器学习,深度学习,还了解大模型,再去做数据,有点屈才了。

但我想告诉你的是,1 是更多转行大模型同学更容易上岸的方式。条条大路通罗马,不是只有一条路走到黑。

首先,目前国外的大模型技术至少领先国内两年,虽然国内已经有几十上百个“大模型”了,但真正能打的并没有几个。探究原因,还是有很多技术没有突破。

算法本身来说,GPT 已经不是什么秘密了。那剩下还有什么呢,一是数据,二是工程技巧

拿数据来说,先说通用的大模型训练,数据的来源,从哪里采,数据的质量怎么把控,如何过滤有毒信息,语言的筛选与比例,数据的去重,以及数据的规范化处理,评测集的构建。这些既是体力活,又是技术活。

对于垂直领域,比如金融,电商,法律,车企,这种领域数据的构建就更考验技术了,业务数据怎么来,数据不够怎么办,完全没有数据怎么办?如果构建高质量的微调数据?

能把这些问题解决好,模型也就成功了一大半。因此,就目前的现状,对于数据工程师,特别是有经验的数据工程师,是非常稀缺的。

04

大模型平台干些啥?

然后说下 2,大模型平台工程师。如果你之前是做工程的,或者对工程比较感兴趣,我比较建议你选 2。

这二者其实并没有本质的区别,都是为了大模型业务服务的,也叫大模型基础设施的建设,作用就是让大模型 train 得更好,大模型跑得更快。

这块主要是干些啥呢?

从计算层面来说,有分布式计算,并行计算,高性能计算,有些公司对这三者也不加区分。

从硬件层面来说,有搞大模型训练集群,GPU 集群,CPU/GPU 混部集群,池子里要管理几百上千张卡,还要负责他们的利用率,机器的健康状况,有没有挂的,中小公司这块基本都是开发和运维一体的,一个工作干两个工种的活。

从平台层面来说,有做 LLMOps 的,也就是 pipeline。集数据 IO,模型训练,预测,上线,监控于一体,这种就是跟着业务团队走,做适配,造很多高效的轮子,方面业务团队使用,减少他们额外重复开发的时间。

这块整体上来说,在大模型时代稳中有升,因为实际上很多公司这方面的人都是从之前搞深度学习平台,大规模机器学习平台的人招过来的,技术上的 gap 相对比较小。因此,对于 AI 工程感兴趣的,可以选这个方向。

05

大模型部署干些啥?

最后说一下 4,大模型部署工程师。这个岗位之前也有,不过在大模型这一两年尤其的火热。

什么原因呢?

因为部署大模型太费钱了。首先模型延迟本身就高,30B 以上的模型,对算力,显存要求很高。

老板关心什么?一方面是大模型产品,也就是业务指标要好看,方便 PR。另一方面也要求控制成本(大厂/独角兽除外)。

一般企业里面,一个 P8 级别的 leader,要在公司里面抢业务,拉资源,找人力,本身就是一个不容易的事。

“降本增效”是 23 年以来,几乎所有公司的一个主旋律。所以老板们很关心你节约了多少钱,比如你把推理效率提高一倍,那就实实在在降低了一倍的成本。

回到大模型部署工程师来,这个岗位总体有两个方向的工作:云端部署和端侧部署

云端比较好理解,可以做推理加速平台,也可以随着业务走,做大模型定制化加速。

比如 Qwen-7b 的加速,还可以做大模型推理引擎,比如搜索/问答的推理引擎,一般是在高并发用户场景下,在保证用户 SLO 的前提下,最优化 latency 和 throughput。

另一个大方向是端侧的部署。也就是在消费级 GPU/NPU 以及边端设备下,部署大模型,同时让领域大模型小型化,让业务能实际工程落地。

总的来说,大模型部署工程师对工程能力,系统能力,以及硬件等方面都要有一定的了解,现在各种推理框架出来以后,降低了一点难度,但仍然是一个比较有竞争力的工种。

你得了解计算图和 OP 的优化,得了解各种推理框架,缓存/显存优化,还有 LLM 结构运行时的系统架构。这个岗位一般不推荐新人入场,因为太吃经验了。建议先从 2 进场,然后逐步转到 4。

06

总结

最后,给准备入场大模型的新人几点建议:

  1. 不要只关心 finetune,SFT,RLHF,作为系统性学习是 OK 的,切忌花太多精力。

  2. 想做应用的,建议 focus 到某个垂直领域,比如对话机器人,问答系统,金融/医疗/教育方向,找一个具体的场景,把它做好,做深。

  3. 多关心数据,data pipeline,高质量训练/测试集的构建经验,对数据的sense,是最直接,也是最适合用到未来工作当中的。

  4. 大模型不只有算法,也可以有工程。大公司拼的都是基建,平台是对业务的支撑,牛逼的 infrastrure 是大模型产品成功不可或缺的因素。

如何学习AI大模型?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高

针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

学习路线

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/52115.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

什么是HW,企业要通过什么方式进行HW安全保障?

一、什么是HW 网络安全形势近年出现新变化,网络安全态势变得越来越复杂,黑客攻击入侵、勒索病毒等网络安全事件愈演愈烈,严重威胁到我国的网络空间安全。同时,国内不少关键信息基础设施的建设管理单位安全意识不够、安全投入不足…

怎么管控终端电脑上的移动端口

管控终端电脑上的移动端口,尤其是USB等移动端口,是确保企业数据安全和提升网络管理效率的重要手段。 一、使用注册表编辑器禁用USB端口(适用于Windows系统) 打开注册表编辑器: 同时按下“WinR”组合键,打…

24年上半年天融信营收缩减1.8亿,亏损2.06亿

吉祥知识星球http://mp.weixin.qq.com/s?__bizMzkwNjY1Mzc0Nw&mid2247485367&idx1&sn837891059c360ad60db7e9ac980a3321&chksmc0e47eebf793f7fdb8fcd7eed8ce29160cf79ba303b59858ba3a6660c6dac536774afb2a6330#rd 《网安面试指南》http://mp.weixin.qq.com/s?…

哪家轻量化PDM系统更适合中小企业?国内PDM系统推荐

在数字化转型的大潮中,中小企业面临着前所未有的挑战与机遇。产品数据管理PDM系统作为支持企业产品研发、制造和维护全生命周期的重要工具,其重要性日益凸显。然而,传统PDM系统往往因成本高、实施复杂而让中小企业望而却步。因此,…

java使用itext 直接生成pdf

itext 使用 需求背景itext 的使用依赖简单示例基础设置(页面大小、边距、字体等)段落内部,特殊设置关键字 字体或颜色生成动态表格页脚展示页数其他设置密码添加水印(背景图)目录Header, Footer分割 PDF合并 PDF 需求背…

HTML标签入门篇(1)——标题标签、段落标签、换行标签、水平线标签、图片标签、文本标签

目录 一. 标题标签 1.1 标题标签的介绍 1.2 标题标签的使用 1.3 快速在浏览器打开的插件 二. 段落、换行、水平线标签 2.1 段落标签 2.2 换行标签 2.3 水平线标签 三. 图片标签 3.1 标签举例 3.2 alt 替代文本属性 3.3 width图片宽度、heght图片高度属性 3.4 ti…

java学习--MySQL--安装与配置

\ 选中语句点击箭头,可出现user表

代码随想录算法day19 | 回溯算法part01 | 77. 组合,216.组合总和III,17.电话号码的字母组合

第77题. 组合 对着 在 回溯算法理论基础 给出的 代码模板,来做本题组合问题,大家就会发现 写回溯算法套路。 力扣题目链接(opens new window) 给定两个整数 n 和 k,返回 1 ... n 中所有可能的 k 个数的组合。 示例: 输入: n 4, k 2 输出: […

vue3 中 defineProps 和 defineEmits

在 Vue 3 中,defineProps 和 defineEmits 是组合式 API 的核心功能,用于处理父子组件之间的传值和事件通信。 1. defineProps defineProps 用于定义并接收父组件传递过来的数据(props)。它是在子组件中使用的,接收的…

吹爆SyntaxFlow!数据流分析实战解析

正文开始前辟个谣先 最近有小伙伴来问闭源收费的事 牛牛郑重告知大家 目前还没有这个计划 请大家放心使用 添加图片注释,不超过 140 字(可选) 样例解析在之前的SyntaxFlow教程中,我们已经看到了非常多的代码样例进行数据流分…

前端使用 Konva 实现可视化设计器(21)- 绘制图形(椭圆)

本章开始补充一些基础的图形绘制,比如绘制:直线、曲线、圆/椭形、矩形。这一章主要分享一下本示例是如何开始绘制一个图形的,并以绘制圆/椭形为实现目标。 请大家动动小手,给我一个免费的 Star 吧~ 大家如果发现了 Bug&#xff0c…

WEB渗透免杀篇-cshot远程shellcode

往期文章 WEB渗透免杀篇-免杀工具全集-CSDN博客 WEB渗透免杀篇-加载器免杀-CSDN博客 WEB渗透免杀篇-分块免杀-CSDN博客 WEB渗透免杀篇-Powershell免杀-CSDN博客 WEB渗透免杀篇-Python源码免杀-CSDN博客 WEB渗透免杀篇-C#源码免杀-CSDN博客 WEB渗透免杀篇-MSFshellcode免杀…

笔记本电脑无线网卡突然没有了

目录 笔记本电脑无线网卡突然没有了最优解决方案 笔记本电脑无线网卡突然没有了 记录一次笔记本无线网卡突然没有了的解决方案 显示黄色感叹号,试了几个安装驱动的软件都不行 最优解决方案 找到网卡的厂商官网,官网上下载驱动 比如我的无线网卡是Int…

2024零基础转行做程序员,选什么语言更好就业?

零基础转行做程序员,选什么语言更好就业,未来的发展前景更好? 这个问题困扰了不少想转行的同学。有人说Python简单好上手,有人说Java就业机会多,有人说C薪资高,到底该怎么选? 其实各个语言的发…

leetcode118. 杨辉三角,老题又做

leetcode118. 杨辉三角 给定一个非负整数 numRows,生成「杨辉三角」的前 numRows 行。 在「杨辉三角」中,每个数是它左上方和右上方的数的和。 示例 1: 输入: numRows 5 输出: [[1],[1,1],[1,2,1],[1,3,3,1],[1,4,6,4,1]] 示例 2: 输入: numRows 1…

数字媒体产业发展现状剖析,洞悉数字产业园的创新之举

在当今数字化时代,数字媒体产业发展迅猛,呈现出一片繁荣景象。然而,在这繁荣的背后,数字媒体产业发展现状也存在着诸多挑战与机遇。 数字媒体产业发展现状的一个显著特点是技术的快速更新换代。从虚拟现实(VR&#xf…

vue3之仪表盘

vue3之仪表盘 效果&#xff1a; 版本 “echarts”: “^5.5.1” 核心代码&#xff1a; <!--* Description: 圆环组件封装* Version: 1.0* Autor: qh --><template><div ref"chartRef" class"circle"></div> </template>&l…

如何在没有密码的情况下解锁Oppo手机?5 种简单的方法

保护智能手机隐私的一种绝佳方法是设置复杂的锁屏密码或图案。一些OPPO手机的所有者在更改图案或密码后&#xff0c;在一夜之间失去了对其图案或密码的内存。事实上&#xff0c;OPPO用户遇到的众多问题包括忘记密码或锁定屏幕。遗憾的是&#xff0c;没有多少人知道无需密码即可…

阿里声音项目Qwen2-Audio的部署安装,在服务器Ubuntu22.04系统——点动科技

阿里声音项目Qwen2-Audio的部署安装&#xff0c;在服务器Ubuntu22.04系统——点动科技 一、ubuntu22.04基本环境配置1.1 更换清华Ubuntu镜像源1.2 更新包列表&#xff1a;2. 安装英伟达显卡驱动2.1 使用wget在命令行下载驱动包2.2 更新软件列表和安装必要软件、依赖2.2 卸载原有…

vue3 RouterLink路由跳转后RouterView组件未加载,页面未显示,且控制台无任何报错

在使用 vue3 开发项目过程中&#xff0c;组件之间使用 router-link 跳转&#xff0c;但是当我开发的组件跳转到其他组件时&#xff0c;其他组件的页面未加载&#xff0c;再跳转回自己的组件时&#xff0c;自己的组件也加载不出来了&#xff0c;浏览器刷新后页面可以加载出来。但…