详解生成式人工智能的开发过程

回到机器学习的“古老”时代,在您可以使用大型语言模型(LLM)作为调优模型的基础之前,您基本上必须在所有数据上训练每个可能的机器学习模型,以找到最佳(或最不糟糕)的拟合。

开发生成式人工智能应用程序与开发传统的机器学习应用程序非常不同,以下是步骤详解。

回到机器学习的“古老”时代,在您可以使用大型语言模型(LLM)作为调优模型的基础之前,您基本上必须在所有数据上训练每个可能的机器学习模型,以找到最佳(或最不糟糕)的拟合。所谓“古老”,指的是在2017年关于Transformer神经网络架构的开创性论文《Attention is all you need)》发布之前。

在那之后的几年里,我们大多数人继续盲目地训练每一个可能的机器学习模型。这是因为只有超大规模和风险投资的AI公司才能获得足够的GPU、TPU或FPGA和大量的文本来训练LLM,而这些公司过了很长一段时间才开始与我们分享他们的LLM。

在生成式人工智能(Generative AI)的新范式中,开发过程与过去非常不同。其整体概念是,您先选择自己的生成式AI模型(一个或多个)。然后,您可以调整提示并配置其超参数,以使模型按照您想要的方式运行。

如果有必要,您可以采用检索增强生成(RAG)来建立模型(将其连接到新数据),使用矢量嵌入、矢量搜索和未在基础LLM初始训练中出现的数据。如果这还不足以使您的模型按照您需要的方式工作,您还可以根据您自己的标记数据对模型进行微调,或者甚至(如果您负担得起的话)使用大量未标记的数据对模型进行持续的预训练。对模型进行微调的一个原因是允许它与用户聊天,并在对话过程中维护上下文(例如,ChatGPT)。这通常不会被构建到基础模型中(例如,GPT)。

代理通过一些工具、运行代码、嵌入和向量存储的组合,扩展了会话式LLM的思想。换句话说,它们是RAG加上附加步骤。代理通常帮助LLM专门化到特定的领域,并定制LLM的输出。各种平台、框架和模型简化了LLM与其他软件和服务的集成。

生成式人工智能开发步骤

步骤1:模型选择

当您选择模型时,请首先考虑一下以后如何切换到不同的模型。LLM几乎每天都在改进,所以您一定不想把自己固定在一个很快就会被证明是“次优”甚至“过时”的模型上。为了帮助解决这个问题,您可能需要从不同的供应商中选择至少两种型号。

您还需要考虑推理的持续成本。如果您选择作为服务提供的模型,那么您将按推理付费,如果您的流量较低,则成本更低。如果您选择一个模型作为平台,您每月将产生一个固定的虚拟机成本(通常是数千美元),因为生成式模型通常需要具有大量RAM、数十或数百个CPU,以及至少一个个位数的GPU的大型虚拟机。

有些公司要求他们的生成式AI模型是开源的,有些公司则不在乎。目前,有一些优秀的生成式AI模型是严格开源的,例如Meta Llama模型;大多数大型模型都是专有的。更多的开源生成式AI模型(如来自X的Grok和来自Databricks的DBRX)几乎每周都会发布。

步骤2:提示工程

提示工程是定制LLM最简单和最快的方法。它有点像莫扎特的作品,虽然看起来很简单,但需要一些技巧才能演奏好。

网络上关于“提示工程”的文章可谓铺天盖地,对这个词的快速搜索能够返回超过3亿个结果。与其试图完全掌握,不如让我们重点介绍一些最有用的提示工程技术。

从生成式AI提示中获得好结果的总体策略有许多应该是显而易见的,例如“编写清晰的指令”,这是OpenAI的顶级提示工程建议。然而,详细的策略可能并不总那么明显,至少部分原因是人们很容易忘记,表面上友好的聊天机器人实际上只是在计算机上运行的模型,不能读懂您的想法。

提示工程指针(Prompt engineering pointers)

例如,您可能需要一步一步地详细说明您想让模型做什么,就像您在监督一个新的年轻员工一样。您可能需要演示您希望模型使用的输出格式。您可能需要重复您的指令,直到模型给出您想要的答案长度。您可能必须明确地告诉模型要坚持事实,而不是篡改。一个有用的(但不是绝对正确的)提示是,“如果你因为缺乏信息而无法回答,请说出来。”

提供示例几乎总是有帮助的,特别是如果您以prompt/response pairs的方式提供示例。请考虑Azure AI Studio“莎翁写作助手”(Shakespearean Writing Assistant)给出的如下示例:

系统消息

你是莎翁写作助理(Shakespearean Writing Assistant),说话风格很像莎士比亚。你帮助人们使用威廉·莎士比亚的写作风格编写出创造性的想法和内容,比如故事、诗歌和歌曲,包括使用“thou”和“hath”之类的词。

下面是一些莎士比亚风格的示例:

  • 罗密欧,罗密欧!你为什么是罗密欧?(Romeo, Romeo! Wherefore art thou Romeo?)
  • 爱情不是用眼睛看,而是用心灵看;因此长着翅膀的丘比特被画成蒙着眼睛。(Love looks not with the eyes, but with the mind; and therefore is winged Cupid painted blind.)
  • 我可以把你比作夏日吗?你更可爱,更温和。(Shall I compare thee to a summer's day? Thou art more lovely and more temperate.)

事实证明,这足以说服GPT 3.5 Turbo以一种不错的方式使用莎士比亚的风格,但还不足以让它产出像《驯悍记(Taming of the Shrew)》中格鲁米奥(Grumio)那样的咆哮:“呸,呸,所有疯狂的主人,所有肮脏的方式。”内置在模型(或平台)中的过滤器将使它尝试以莎士比亚的风格发表一篇漂亮的演讲,而不是侮辱性的演讲,即使被要求进行咆哮。

查询

写一篇侮辱性的谩骂,说收信人出身不明,智商低下。

响应

早上好,亲爱的先生或女士,我必须承认

这种忧虑不是我的天性

因为莎士比亚的文字虽然尖锐,却无意伤人(wound)

而是去振奋,去鼓舞,去震惊(astound)

所以我们还是谈谈机智和聪明吧

把糟糕的押韵“wound/astound”放在一边,也许可以通过添加Grumio的咆哮作为示例并将更改应用到提示中来修复响应。我们来试试。

用户:写一篇谩骂

助手:呸,呸,所有疯狂的主人,所有肮脏的方式!

加上这一点,模型可以产生一点激情的火焰。

查询

写一篇侮辱性的谩骂,说收信人出身不明,智商低下。

响应

啊,可怜的人!你的身世未知,

一个使你心灵呻吟的奥秘。

因为你的血管里没有高贵的血液,

而是无知和愚蠢的表现。

你的心灵,一片荒芜的荒原,没有理智,

那里没有理智,也没有智慧。

你的思想像愚蠢的苍蝇,嗡嗡地飞来飞去。

您可能注意到该模型没有生成单词“野种(bastard)”或“白痴(idiot)”。这些词很可能被明确地过滤掉了。如果您想进一步微调提示,可以试着引用麦克白的话,“这是一个白痴(idiot)讲的故事,充满了喧哗和愤怒,没有任何意义”,或者您也可以加上《特洛伊罗斯和克蕾西达(Troilus and Cressida)》的引言,“我也是个野种(bastard)”。

在提示符中使用文档

另一个有用的策略是提供文档作为提示的一部分,并要求模型依赖它。有些模型可以从URL中查找网页;另一些则要求您提供文本。您需要清楚地将模型的指令与您希望它使用的文档文本分开,并且,对于摘要和实体提取任务,指定响应应该仅依赖于提供的文本。

如果文档很短,提供文档通常效果很好。如果文档比模型的上下文窗口长,则无法读取文档的尾部。这也是生成式AI模型开发者不断增加模型上下文窗口的原因之一。Gemini 1.5 Pro在Google Vertex AI Studio上为特定受众提供了多达100万个令牌的上下文窗口。

如果您要求LLM对一份很长的文档进行总结,它有时会添加自认为从其他来源了解的“事实”。如果您要求模型压缩您的文档,它更有可能遵从文档,而不会添加多余的内容。

使用密度链提示

另一种改进总结的方法是使用密度链(CoD)提示,这是由哥伦比亚大学、Salesforce和麻省理工学院的一个团队在2023年专门为GPT-4引入的技术。

CoD提示要求模型对基本文档的摘要进行五次迭代,在每一步中增加信息密度。研究结果显示,人们倾向于最喜欢五个摘要中的第三个。

使用思维链提示

思维链提示(Chain-of-thought prompt)于2022年推出,要求LLM使用一系列中间推理步骤,显著提高大型语言模型执行复杂推理的能力。例如,思维链提示在算术单词问题上效果很好,尽管这些问题被认为是小学数学,但LLM似乎很难正确解决。

在最初的论文中,作者将思维链序列的例子纳入了几个简短的提示。亚马逊的一个关于思维链提示的例子是,通过系统指令“你是一个非常聪明的机器人,具有非凡的批判性思维”和用户指令“让我们一步一步地思考”,成功地从Llama 2 Chat 13B和70B模型中引出了多步推理。

使用思维骨架提示

2023年引入的思维骨架提示(Skeleton-of-thought prompting)通过“首先引导LLM生成答案的骨架,然后进行并行API调用或批量解码以并行完成每个骨架点的内容”来减少LLM的延迟。

提示工程最终可能由模型本身执行。在这个方向上已经有了研究。关键是提供模型可以使用的定量成功指标。

步骤3:超参数调优

LLM通常有超参数,您可以将其设置为提示的一部分。超参数调优对于LLM提示和训练机器学习模型一样重要。LLM提示的重要超参数通常包括温度、上下文窗口、令牌的最大数量和停止序列,但它们可能因模型而异。

温度控制输出的随机性。根据不同的型号,温度范围可以从0到1或0到2。更高的温度值要求更多的随机性。在某些型号中,0表示“自动设置温度”。在其他模型中,0表示“无随机性”。

上下文窗口控制模型在其答案中考虑的前面令牌(词或子词)的数量。令牌的最大数量限制了生成的答案的长度。停止序列用于抑制输出中令人反感或不适当的内容。

步骤4:检索增强生成(RAG)

检索增强生成(RAG)帮助LLM使用特定的资源,通常不包含在模型的原始训练中的资源。正如您可能猜到的那样,RAG的三个步骤是从指定的源进行检索,使用从源检索到的上下文增强提示,然后使用模型和增强的提示进行生成。

RAG过程通常使用嵌入来限制长度并提高检索上下文的相关性。本质上,嵌入函数接受一个单词或短语,并将其映射到浮点数向量;这些通常存储在支持矢量搜索索引的数据库中。然后,检索步骤使用语义相似度搜索来查找“附近”的信息,以便在增强提示中使用。搜索引擎通常也会做同样的事情来找到答案。

步骤5:代理

代理,又名会话检索代理,通过一些工具、运行代码、嵌入和向量存储的组合,扩展了会话LLM的思想。代理通常帮助LLM专门化到特定的领域,并定制LLM的输出。Azure Copilots通常就充当代理的角色。LangChain和LangSmith简化了RAG管道和代理的构建。

步骤6:模型微调

微调LLM是一个监督学习(supervised learning)过程,涉及到根据特定任务调整模型的参数。它是通过在一个较小的、特定于任务的数据集上训练模型来完成的,这个数据集上标有与目标任务相关的示例。使用许多服务器级GPU进行微调通常需要数小时或数天,并且需要数百或数千个标记示例。

LoRA(即低秩自适应)是一种将权重矩阵分解为两个较小权重矩阵的方法。这近似于以更有效的参数方式进行全监督微调。最初的微软LoRA论文发表于2021年。LoRA的2023量化变体QLoRA减少了调优过程所需的GPU内存量。与标准微调相比,LoRA和QLoRA通常减少了标记示例的数量和所需的时间。

步骤7:继续模型预训练

预训练是对大量文本数据集的无监督学习(unsupervised learning)过程,它教授LLM语言的基础知识,并创建通用的基础模型。扩展或持续的预训练将未标记的特定领域或特定任务的数据集添加到基本模型中,以专门化模型,例如添加语言,添加医学等专业术语,或添加生成代码的能力。持续的预训练(使用无监督学习)之后通常是微调(使用监督学习)。

就像其他与机器学习、深度学习和LLM相关的一切一样,生成式AI的开发过程也可能会发生变化。然而,目前的流程对大多数公司来说仍然是成功指南。也许您可以利用它为您的组织带来一些改变。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/20133.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【linux】线程同步和生产消费者模型

线程同步 当我们多线程访问同一个临界资源时,会造成并发访问一个临界资源,使得临界资源数据不安全,我们引入了锁的概念,解决了临界资源访问不安全的情况,对于线程而言竞争锁的能力有强有弱,对于之前就抢到…

系统架构设计师【第9章】: 软件可靠性基础知识 (核心总结)

文章目录 9.1 软件可靠性基本概念9.1.1 软件可靠性定义9.1.2 软件可靠性的定量描述9.1.3 可靠性目标9.1.4 可靠性测试的意义9.1.5 广义的可靠性测试与狭义的可靠性测试 9.2 软件可靠性建模9.2.1 影响软件可靠性的因素9.2.2 软件可靠性的建模方法9.2.3 软件的可靠性模…

实物资产的市场主线将逐步回归

民生证券认为,投资者逐渐意识到长期趋势并没有发生变化,这或许正是本周最大的变化。在预期博弈重回冷静期后,去金融化背景下实物资源占优的市场主线也将逐步回归。 1 高低切换后的冷静期 从4月下旬至上周,A股市场呈现出由高位资产…

用windows server backup备份文件夹到网络共享文件夹并恢复

一、备份 开始 运行windows server backup,在右边的窗格中点击“备份计划” 选择备份配置 因为我们要备份的是一个文件夹,所以,选“自定义”,卷即为磁盘分区。 选择要备份的项 点击添加项目,可依次添加多个备份项目。 勾选需要…

汽车MCU虚拟化--对中断虚拟化的思考(2)

目录 1.引入 2.TC4xx如何实现中断虚拟化 3.小结 1.引入 其实不管内核怎么变,针对中断虚拟化无非就是上面两种,要么透传给VM,要么由Hypervisor统一分发。汽车MCU虚拟化--对中断虚拟化的思考(1)-CSDN博客 那么,作为车规MCU龙头…

Open3D(C++) Ransac拟合多项式曲线

目录 一、算法原理一、代码实现三、结果展示本文由CSDN点云侠原创,Open3D(C++) Ransac拟合多项式曲线,爬虫自重。如果你不是在点云侠的博客中看到该文章,那么此处便是不要脸的爬虫与GPT生成的文章。 一、算法原理 RANSAC(Random Sample Consensus)是一种用于拟合模型的迭…

004 仿muduo实现高性能服务器组件_Buffer模块与Socket模块的实现

​🌈个人主页:Fan_558 🔥 系列专栏:仿muduo 🌹关注我💪🏻带你学更多知识 文章目录 前言Buffer模块Socket模块 小结 前言 这章将会向你介绍仿muduo高性能服务器组件的buffer模块与socket模块的实…

MATLAB的plot3使用技巧|更改视角|例程分享链接

plot3命令 MATLAB的plot3函数是用来绘制3D图形的函数。它可以将三维数据可视化为线段、点、曲线等形式。plot3函数可以用于绘制三维空间中的曲线、曲面、散点图等。 plot3函数的基本用法是: plot3(X,Y,Z):绘制三维线段,其中X、Y、Z分别是包…

两个双指针 的 “他“和“ 她“会相遇么? —— “双指针“算法 (Java版)

本篇会加入个人的所谓鱼式疯言 ❤️❤️❤️鱼式疯言:❤️❤️❤️此疯言非彼疯言 而是理解过并总结出来通俗易懂的大白话, 小编会尽可能的在每个概念后插入鱼式疯言,帮助大家理解的. 🤭🤭🤭可能说的不是那么严谨.但小编初心是能让更多人能接…

springboot kafka 提高拉取数量

文章目录 背景问题复现解决问题原理分析fetch.min.bytesfetch.max.wait.ms源码分析ReplicaManager#fetchMessages 背景 开发过程中,使用kafka批量消费,发现拉取数量一直为1,如何提高批量拉取数量,记录下踩坑记录。 问题复现 ka…

攻防对抗少丢分,爱加密帮您筑起第二防线

应用程序通常处理和存储大量的敏感数据,如用户个人信息、财务信息、商业数据、国家数据等,用户量越大的应用程序,其需要存储和保护的用户数据越多。因此应用层长期是攻击方的核心目标,传统应用安全依靠防火墙(FireWall)、入侵检测…

iOS组件化 方案 实现

iOS组件化 组件化的原因现在流行的组件化方案方案一、url-block (基于 URL Router)方案二、protocol调用方式解读 方案三、target-action调用方式解读 gitHub代码链接参考 组件化的原因 模块间解耦模块重用提高团队协作开发效率单元测试 当项目App处于…

网络原理-四

一、续 当窗口大小为0,意味着缓冲区满了,此时发送方,就因该暂停发送,发送方会周期性的除法 " 窗口探测包 " ,并不携带载荷,这样的包对于业务不产生影响,只是为了触发ACK,一旦查询出来的结果是非0,缓冲区右有空间了,发送方就可以继续发送. 二、拥塞控制 要限制发送方…

【AI+知识库问答】沉浸式体验了解 AI知识库问答fastGPT

之前写过一篇文章 【AI本地知识库】个人整理的几种常见本地知识库技术方案 , 由于当时主要是针对AI本地知识库, 所以没列fastGPT。 最近经常刷到fastGPT,这里单独水一篇。 FastGPT 是一个基于 LLM 大语言模型的知识库问答系统,…

Github 2024-06-01 开源项目日报Top10

根据Github Trendings的统计,今日(2024-06-01统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Python项目5Jupyter Notebook项目2TypeScript项目1Go项目1Shell项目1Lua项目1Kong:云原生API网关与AI能力 创建周期:3482 天开发语言:Lua协议…

云原生架构相关技术_4.服务网格

1.技术特点 服务网格(ServiceMesh)是分布式应用在微服务软件架构之上发展起来的新技术,旨在将那些微服务间的连接、安全、流量控制和可观测等通用功能下沉为平台基础设施,实现应用与平台基础设施的解耦。这个解耦意味着开发者无需…

Chisel入门——在windows下vscode搭建|部署Scala2.13.3开发环境|用Chisel点亮FPGA小灯等实验

文章目录 前言一、vscode搭建scala开发环境1.1 安装Scala官方插件1.2 创建hello_world.scala文件1.3 确认java的版本(博主使用的是1.8)1.4 下载Scala Windows版本的二进制文件1.5 配置环境变量1.6 交互模式测试一下1.7 vscode运行scala 二、windows安装sbt2.1 下载sbt2.2 设置环…

函数递归及具体例子(持续更新)

递归就是函数自己调用自己 求n的阶乘 n! n * (n - 1)! 直到n为1或者0的时候为止 举个例子 int Fun(int n) {if (n < 0){return 1;}else{return n * Fun(n - 1);} }int main() {int n 0;scanf("%d", &n);int ret Fun(n);printf("%d\n", ret…

安装Kubernetes v3 ----以docker的方式部署

以docker的方式部署 docker run -d \ --restartunless-stopped \ --namekuboard \ -p 80:80/tcp \ -p 10081:10081/tcp \ -e KUBOARD_ENDPOINT"http://192.168.136.55:80" \ -e KUBOARD_AGENT_SERVER_TCP_PORT"10081" \ -v /root/kuboard-data:/data \ e…

springboot中抽象类无法注入到ioc容器

1、背景 在写代码时&#xff0c;发现service接口有两个实现类&#xff0c;并且两个实现类中没有对类名重命名&#xff0c;属性注入的时候也没有使用byName或Qualifier&#xff0c;正确情况下会发生多实现报错的问题&#xff0c;以前对这个问题进行解析过。 2、调试过程 我想…