前言
对于大部分人来说,能够灵活使用AI工具,并对自己每个常用的AI工具优劣势很清楚,就已经足够了。不过,毕竟AI发展实在太快,多了解一些相关的知识点,以全局的视角去看AI,可以避免管中窥豹,宏观和微观来回切换,就不容易掉队。
所以分享一下大模型的4种层次的运用模式。从易到难,分别是提示词工程(Prompt Engineering),检索增强生成(RAG),微调(Fine-tuning),预训练(Pre-training)4个方式(这4个方式也是AI新手到高手的成长路线)。
image
提示词工程
提示词工程(Prompt Engineering)是一种技术,它涉及精心设计问题或指令(即“提示词”),以引导人工智能(AI)模型生成特定类型的输出。这种方法的核心在于通过精确的语言输入来激发AI的潜能,使其能够提供更加准确、相关或创造性的回答。
image
举例:
-
内容创作:
-
- 假设你想要AI帮你写一篇关于“时间管理”的博客文章。你可以设计一个提示词,如:“写一篇关于时间管理的指南,面向忙碌的专业人士,语言风格要鼓舞人心,包含实用的技巧和案例研究。”
-
代码生成:
-
- 如果你是一个软件开发者,需要生成一个特定的函数来解析JSON数据,你可以给AI一个提示词,例如:“生成一个Python函数,该函数接受一个JSON字符串作为输入,并返回解析后的数据字典。”
-
语言翻译:
-
- 想要将一段文本从英语翻译成法语,你可以使用提示词:“将以下英文文本翻译成法语:‘Welcome to our new website!’”
-
问题解答:
-
- 当你向AI提出一个复杂问题时,比如“解释量子纠缠是什么?”你可以设计一个提示词,让它以易于理解的方式回答:“请用简单的语言解释量子纠缠的概念,并提供日常生活中的类比。”
-
艺术创作:
-
- 如果你想利用AI来创作一幅画,可以给出一个艺术风格的提示词,如:“创作一幅描绘夏日海滩的油画,风格要类似于梵高的《星夜》。”
这些例子里,提示词相对比较简单,如果想系统的学习提示词,网上也有很多资料可以学,可以参考这个:
https://zhuanlan.zhihu.com/p/671241020
RAG(检索增强生成)
RAG是一种通过知识库外挂的形式,让问题回复更精准的技术。
image
逻辑阐述
比如你在用一些大模型对话机器人时,这些回复是从大的数据集中生成答案,但有些你自己的独有问题,并不一定能找到答案。比如公司会有自己独有的资料库或者档案。这个时候,借助RAG,可以支持把你独有的知识库存储到向量数据库(这个不清楚的话,可以问AI哈),然后包装成一个应用,AI就变成了你自己独有的一个智能的“信息助手”,它不仅记住了很多你喂给ta的东西,还能在需要时快速查找更多相关资料,然后结合这些信息给出一个全面的答案。
流程:
- 像搜索引擎一样检索:当你问一个问题时,RAG技术会像使用搜索引擎一样,在你提供的各种资料中快速找到最相关的信息。
- 像老员工一样经验丰富:找到信息后,它会像有经验的员工那样,结合已有的知识和新找到的信息,给你一个更全面的答复。
- 生成回答:最后,它会把整合后的信息以回答的形式呈现给你,就像一个知识渊博且反应迅速的同事。
举例:
假设你是一个刚入职场2年的市场营销专员,需要准备一个新产品的推广方案,但你不确定从何开始。
- 提出问题:你问AI助手:“我们新产品的推广方案应该包括哪些要素?”
- 检索信息:AI助手会在你的公司内部资料库、市场研究报告、以往的成功案例等资料中检索,找到与新产品推广相关的策略和数据。
- 生成回答:然后,AI助手会结合这些资料和你之前参与的项目经验,给出一个包含关键要素、市场定位、目标受众分析、预期效果评估等的推广方案建议。
比如平时把文档发给kimi,就是一个RAG小场景,可以不断追问文档里的信息。
一些亲民的RAG工具,比如Dify(https://cloud.dify.ai/),FastGPT(https://fastgpt.in/)等都比较容易上手。
通过RAG技术,你得到的不仅仅是一些基本的推广建议,而是一个结合了公司内部资料和市场数据的定制化方案,帮助你更有效地完成工作。
精调(也叫微调)
image
微调大模型(Fine-tuning Large Models)是机器学习和人工智能领域中的一个概念,它指的是在预训练的大型机器学习模型的基础上,通过进一步的训练来适应特定的任务或数据集的过程。**背后改变的是大模型的参数。**当预训练模型需要应用于具体的、特定的任务时(如特定领域的文本分类、情感分析等),由于这些任务的数据量可能较小,直接使用预训练模型可能无法达到最佳效果。微调就是通过在特定任务的数据上继续训练模型,使模型更好地适应这些数据的特征。
举例:
假设你是一个有5年工作经验的软件工程师,现在你的团队需要开发一个聊天机器人,用于客户服务。你们选择了一个预训练的大型语言模型作为基础,这个模型已经在互联网上的大量文本数据上训练过,能够理解多种语言和上下文。
但是,这个通用模型可能并不了解你们公司产品的具体信息和客户服务的特定语境。这时,你们可以对模型进行微调:
- 收集数据:首先,你们需要收集与客户服务相关的对话记录、产品手册、常见问题解答等数据。
- 微调过程:然后,使用这些特定领域的数据对预训练模型进行再训练,调整模型的参数,使其更好地理解你们公司产品的术语和客户需求。
- 测试与部署:微调完成后,进行测试以确保模型的表现符合预期,然后将其部署到客户服务平台上。
具体使用场景:
- 客户服务:如上例所述,聊天机器人可以用于回答客户咨询,提供产品信息,处理常见问题等。
- 医疗咨询:在医疗领域,微调模型可以用于理解病人的症状描述,并提供初步的医疗建议。
- 法律分析:法律行业可以利用微调模型来分析法律文档,提供案例研究和法律条文的查询服务。
- 内容推荐:在新闻或电商平台,微调模型可以根据用户的历史行为和偏好,推荐相关新闻或商品。
- 情感分析:在社交媒体管理中,微调模型可以分析用户评论的情感倾向,帮助企业了解公众对品牌或产品的看法。
预训练
预训练模型这个事情不是我们普通人能做的,简单了解下即可。
大概意思就是前3个方式都满足不了的时候,才会使用这个,但成本很高,很多公司也做不了。
image
预训练模型(Pre-trained Models)是深度学习中的一种模型训练策略,它涉及到在大量数据上训练一个通用模型,以便捕捉和学习语言、图像或其他类型数据的内在结构和特征。这种模型通常在特定任务之前就已经训练好,因此被称为“预训练”。
解释:
- 大规模数据集训练:预训练模型使用的数据集规模通常非常庞大,比如数以亿计的网页、书籍、新闻文章等,这些数据构成了模型训练的基础。
- 通用特征学习:在预训练阶段,模型学习到的是数据的通用特征,如语言模型中的词序、语法结构、语义信息等,或者图像模型中的颜色、形状、纹理等视觉特征。
- 迁移学习(Transfer Learning):预训练模型是迁移学习的一个典型应用,即将在大规模数据集上学到的知识迁移到特定领域的任务上。
- 参数冻结与微调:在微调阶段,模型的大部分参数(如底层的权重和偏置)通常被冻结,只有顶层的一小部分参数会被调整,以适应新任务。
- 模型架构:预训练模型通常基于深度神经网络,如循环神经网络(RNN)、长短期记忆网络(LSTM)、Transformer等,这些架构能够处理序列数据并捕捉长距离依赖关系。
小结
以上这些只是使用大模型的技术方法,在实际场景中,客户需要的是解决方案,通常是多个方式一起配合。比较常见的配合就是提示词工程+RAG,涉及到本地部署,可能会用到微调。
除了这些方法,还有调换大模型,或者借助多模态大模型解决具体需求场景,后面我们接着聊。
学习AI就是多玩,多实践,共勉。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。