生产中的 RAG:使你的生成式 AI 项目投入运营

作者:来自 Elastic Tim Brophy

检索增强生成 (RAG) 为组织提供了一个采用大型语言模型 (LLM) 的机会,即通过将生成式人工智能 (GenAI) 功能应用于其自己的专有数据。使用 RAG 可以降低固有风险,因为我们依赖受控数据集作为模型答案的基础,而不是依赖可能不可靠、与我们的用例无关或完全不正确的训练数据。但是,你必须不断管理 RAG 管道,以确保答案有根据且准确。本博客将探讨在生产中部署 RAG 功能的关键注意事项,并展示 Elastic Search AI 平台如何为你提供所需的洞察力,让你安心运行 RAG 管道。

定义 RAG 管道

典型的 RAG 实现包括将用户提供的问题连同附带的上下文一起发送到 LLM。上下文需要提供相关信息,以告知 LLM 的答案。上下文由搜索结果生成,搜索结果是通过对用户问题与向量存储的内容进行评估而返回的,以确保结果在语义上与问题相匹配。在 Elastic Search AI 平台的情况下,上下文也可以是混合搜索的结果,其中包括词汇搜索、文档过滤和访问控制规则。通过一次谨慎的动作执行混合搜索操作的能力,开发人员可以通过结合语义轴和词汇搜索轴的结果,为 LLM 构建尽可能相关的上下文。此外,过滤器和访问控制规则限制了将要搜索的数据语料库,以符合 RBAC 规则,既提高了性能,又维护了数据安全。

LLM 接收问题,解释上下文,然后给出答案,该答案通常是上下文的摘要或来自上下文的相关陈述的综合。问题和上下文的组合被称为提示(prompt),提示还为 LLM 提供了有关其角色的说明和定义其应如何回答的护栏。开发人员创建了一个称为提示模板的工件,该工件以逻辑方式将所有这些值组合在一起,可以重复使用和微调以确保正确的结果。

因此,RAG 实现可以看作是由以下元素组成的管道:

  1. 用户提供的问题
  2. 搜索生成的上下文
  3. 提示模板
  4. LLM 生成的答案

生产注意事项

在实施 RAG 管道时,需要考虑许多操作和性能注意事项,以确保提供的体验符合最终用户和在其应用程序中构建 LLM 功能的团队的期望。

  1. 与任何应用程序一样,需要跟踪指标,以确保 RAG 管道在 SLO 和 SLI 目标范围内运行。
  2. 问题和答案不应被丢弃,因为它们包含有关系统行为和用户偏好的宝贵信息。
  3. 成本应不断跟踪和审查。
  4. 需要持续评估 RAG 管道,以确保 LLM 响应准确,并为它们提供足够的背景信息来回答这些问题。

那么,究竟如何实现这一点?将 RAG 管道投入生产时需要考虑哪些模式和实践?可以理解,这是一个非常广泛的主题,但我们将从高层次介绍这些考虑因素,以鼓励进一步阅读和探索。

RAG 性能和监控

在构建 RAG 管道时,确定适合你用例的正确提示技术至关重要,因为它可能是真实而有价值的答案与误导性和令人沮丧的答案之间的区别。因此,快速开发需要对基础数据和基准测试框架有充分的了解,该框架可以客观地衡量 LLM 答案并严格根据事实对其进行测试。选择基准测试框架不仅依赖于了解哪些指标很重要,而且还依赖于了解这些指标需要如何衡量。一旦投入生产,记录所有 LLM 交互就成为 RAG 管道的强制性方面,以确保管理和控制数据点,例如成本、延迟和响应质量。

RAG 基准测试和评估

我们从基准测试和评估开始,因为这必须在交付生产之前进行,以减轻服务质量差或破坏性的风险。有许多基准测试框架可用,所有这些框架通常都围绕来自底层知识体系的问题和基本答案数据集进行调整,这些知识体系将用于 RAG 上下文。选择正确的框架归结为几个关键因素:

  1. 该框架应与你团队的技能、你的应用程序代码和你的组织策略兼容。这是一种跨职能集成,应与你的决策保持一致。例如,如果你选择专门利用本地托管的 LLM,那么框架应该适应这一点。
  2. 你需要灵活地选择对你来说很重要的评估指标。
  3. 生成的评估输出应该易于集成到你现有的可观察性或安全性工具中,因为 LLM 是它们所用应用程序的关键功能,不应被视为单独的系统。

这些问题/答案对代表对数据和用例的基本理解,并将用于评估整个管道的性能。重要的是,问题集应包含用户最有可能提出的相关问题,或者至少是用户最有可能提出的问题类型。答案不应是简单地从文档中剪切和粘贴,而应是一个或多个事实的总结,这些事实足以回答问题,因为这正是 LLM 可能在回答问题时生成的。

基准问题将通过 RAG 管道传递,并生成两个输出以告知任何评估指标:LLM 响应和上下文。在大多数情况下,除了测量答案的语义相似性之外,框架还会根据基准数据集中的答案评估 LLM 响应的准确性或正确性。还可以将答案与上下文进行比较,以确保其包含的任何陈述都可以基于问题得出的搜索结果。可以通过考虑基准、上下文和问题来计算答案的相关性,从而应用进一步的指标。

尽管 RAG 基准旨在出于功能原因衡量答案的质量,但实施预生产阶段可以显著降低幻觉、偏见甚至训练数据中毒的风险,因为基准数据集代表绝对真实并将突出显示 LLM 输出中的不规则之处。

RAG 日志记录

LLM 可能确实不会生成有关其如何生成内容的日志文件,但这并不意味着无法记录与 LLM 交互的宝贵细节。决定需要记录什么取决于对你的业务而言什么是重要的,但至少应该捕获以下数据:

  1. 用户提供的推动交互的问题(例如,我每年可以获得多少 PTO?)
  2. LLM 生成的答案(例如“...根据政策,你每年有权获得 23 天的 PTO,来源:人力资源政策,第 10 页。”)
  3. 提交给 LLM、第一次回复和 LLM 完成回复的时间戳。
  4. 提交和第一次响应之间的延迟
  5. LLM 模型名称、版本和提供商
  6. 调用时配置的 LLM 模型温度(用于调试幻觉)
  7. 端点或实例(用于区分生产和开发)

此外,你可能会发现以下字段很有用:

  1. 提示和答案的成本,以代币为单位衡量,并基于模型提供商提供的单位成本
  2. 正在促进的业务工作流程(客户支持、工程知识库等)
  3. 提交给 LLM 的提示(带或不带上下文,因为你可能希望将上下文提取到单独的字段中,这有助于调试或排除答案语气、幻觉和准确性故障。)
  4. LLM 响应的情绪(这可以通过运行情绪模型来实现)

即使在你的 RAG 管道达到生产状态之前,记录运营数据也至关重要,以消除任何潜在的盲点,充分管理成本和客户满意度,并验证基准测试中观察到的结果是否在现实世界中得到复制。

创建统一的 RAG 数据平台

新兴技术中最常见的模式之一是针对每个细微需求使用多种工具。单点解决方案往往能满足系统的一项需求,但需要系统所有者或架构师为其余需求寻找解决方案。这本身并不坏,因为试图满足太多不同的目标可能会导致无法完全满足其中任何一个目标。然而,当你考虑到数据是任何系统中最有价值的资产时,将数据集中到一个统一的平台确实会让你的最宝贵资产更易于使用和管理。当使用来自大型系统其他部分的数据提供的上下文来分析数据时,就会出现新的见解和意义。

适用于 RAG 的 Elastic Search AI 框架

Elastic 可以作为基础数据层,在单一平台上解决 RAG 管道的所有数据输入和输出问题,包括性能和监控框架生成的数据。下面是一个功能架构,代表了 Elastic 如何促进 RAG 管道的每个步骤。

Elastic Search AI 平台的独特之处在于,它能够通过利用以下功能满足管道的功能需求:

  1. Elastic 是用于 GenAI 上下文构建的最佳存储和检索引擎。可以在单个 API 端点内灵活地使用词汇和语义搜索功能,允许 RBAC 实施和复杂的重新排名功能,以实现有效的上下文窗口。
  2. Elastic 是全球无数项目和团队的事实标准日志记录平台,并作为 Elastic Observability 和 Elastic Security 解决方案的底层数据平台。添加 LLM 日志记录数据只需利用此本机功能即可。
  3. Elastic Search AI 平台能够托管将内容向量化所需的转换器模型,以便使其在语义上可搜索,而无需外部模型托管工具和服务。这是通过利用 Elastic 提供的 ELSER 稀疏向量模型以及启用自定义模型导入来实现的。
  4. Elastic 可以用作基准测试设置数据的内容存储,包括问题、答案和基本事实 - 允许使用与 RAG 管道相同的库来实现评估框架,从而进一步降低复杂性并确保测试框架与应用程序实现保持一致。
  5. Elastic 作为基准测试数据目标,可以进行细粒度分析和全面可视化结果。这些基准测试结果还可以与实时日志数据相结合,以表示整体管道健康状况并识别功能偏差,这可以进一步利用 Elastic 的警报功能来确保不会遗漏任何异常。
  6. 最后,Elastic 可以轻松汇总常见问题,以更好地告知基准测试配置,使其与现实世界数据紧密结合。鉴于基准测试实际上是一种回归活动,这一步对于确保其可信和相关至关重要。了解用户最常问的问题还可以缓存这些答案以获得即时响应,从而无需参考 LLM。

由于所有数据都记录在 Elastic 中,因此可视化、仪表板和警报的配置都简单且快捷,为你的团队提供了顺利且主动地运行管道所需的可视性。

结论

经过深思熟虑和深思熟虑地实施 RAG 可以获得很多好处,但如果不考虑 RAG 管道的持续管理生命周期,许多好处都可能被抵消。Elastic Search AI 平台简化了强大且安全的 RAG 管道的部署,支持 GenAI 的采用,同时最大限度地降低与这些早期技术相关的风险。请务必立即注册 Elastic Cloud 的免费试用版,以使用 Elastic Search AI 平台将你的 GenAI 想法尽快、轻松地投入生产。

准备好自己尝试了吗?开始免费试用。
希望将 RAG 构建到你的应用程序中?想要尝试使用向量数据库的不同 LLMs?
查看我们在 Github 上针对 LangChain、Cohere 等的示例笔记本,并立即加入 Elasticsearch Relevance Engine 培训。

原文:Retrieval Augmented Generation in production: Operationalize your GenAI project — Elastic Search Labs

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/27829.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【菜狗学前端】uniapp(vue3|微信小程序)实现外卖点餐的左右联动功能

记录,避免之后忘记...... 一、目的:实现左右联动 右->左 滚动(上拉/下拉)右侧,左侧对应品类选中左->右 点击左侧品类,右侧显示对应品类 二、实现右->左 滚动(上拉/下拉)右…

什么是深拷贝;深拷贝和浅拷贝有什么区别;深拷贝和浅拷贝有哪些方法(详解)

目录 一、为什么要区别深拷贝和浅拷贝 二、浅拷贝 2.1、什么是浅拷贝 2.2、浅拷贝的方法 使用Object.assign() 使用展开运算符(...) 使用数组的slice()方法(仅适用于数组) 2.3、关于赋值运算符() 三、深拷贝 3.1、什么是…

selenium使用已经打开的浏览器

Selenium 本身不支持直接连接到一个已经打开的浏览器页面。Selenium 启动的浏览器实例是一个全新的会话,它与手动打开的浏览器页面是分开的。但是,有一些变通的方法可以实现类似的效果。 一种方法是通过附加代理连接到已经打开的浏览器。下面是如何实现…

解决:GoLand能断点,但无法下一步debug | 下一步按钮是灰的

目录 1. 背景2. 解决方案 1. 背景 突然发现goLand能断点成功,但是无法debug下一步,又急,网上一下子没找到解决方案,最后花了好多时间,打印了好多日志才定位到代码问题所在,后面花时间研究了一下&#xff0…

C++ 20新特性之线程与jthread

💡 如果想阅读最新的文章,或者有技术问题需要交流和沟通,可搜索并关注微信公众号“希望睿智”。 为什么要引入jthread 在C 11中,已经引入了std::thread。std::thread为C标准库带来了一流的线程支持,极大地促进了多线程…

leetcode第709题:转换成小写字母

注意字符不仅有26个英文字母&#xff0c;还有特殊字符。特殊字符的话&#xff0c;原样输出。 public class Solution {public char toLowChar(char c){if(c>a&&c<z){return c;}else if(c>A&&c<Z){int n(int)c32;return (char)n;}return c;}publi…

Java数据结构之ArrayList(如果想知道Java中有关ArrayList的知识点,那么只看这一篇就足够了!)

前言&#xff1a;ArrayList是Java中最常用的动态数组实现之一&#xff0c;它提供了便捷的操作接口和灵活的扩展能力&#xff0c;使得在处理动态数据集合时非常方便。本文将深入探讨Java中ArrayList的实现原理、常用操作以及一些使用场景。 ✨✨✨这里是秋刀鱼不做梦的BLOG ✨✨…

useEffect的概念以及使用(对接口)

// useEffect的概念以及使用 import {useEffect, useState} from reactconst Url"http://geek.itheima.net/v1_0/channels"function App() {// 创建状态变量const [lustGet,setLustGet]useState([]);// 渲染完了之后执行这个useEffect(() > {// 额外的操作&#x…

软考初级网络管理员__标准化基础知识单选题

1.张某购买了一张有注册商标的应用软件光盘&#xff0c;擅自复制出售&#xff0c;则其行为侵犯了()。 注册商标专用权 光盘所有权 软件著作权 软件著作权与商标权 2.以下关于软件著作权产生的时间&#xff0c;表述正确的是()。 自软件首次公开发表时 自开发者有开发意图…

如何进行两表数据合并-即包含两张表的所有数据

如果第二张表的数据量多于第一张表&#xff0c;并且您希望最终的表包含两张表的所有数据&#xff0c;即使某些数据在一张表中不存在&#xff0c;可以使用FULL OUTER JOIN。然而&#xff0c;需要注意的是&#xff0c;MySQL不支持FULL OUTER JOIN&#xff0c;但是可以通过结合LEF…

红队攻防渗透技术实战流程:组件安全:SolrShirolog4j

红队攻防渗透实战 1. 组件安全1.1 Solr1.1.1 命令执行(CVE-2019-17558)1.1.2 远程命令执行漏洞(CVE-2019-0193)1.1.3 Apache Solr 文件读取&SSRF (CVE-2021-27905)1.2 Shiro:1.2.1 CVE_2016_4437 Shiro-550+Shiro-7211.2.2 CVE-2020-119891.2.3 CVE-2020-19571.2.4 CVE-…

【TypeScript】泛型工具

跟着 小满zs 学 ts&#xff1a;学习TypeScript24&#xff08;TS进阶用法-泛型工具&#xff09;_ts泛型工具-CSDN博客 Partial 所有属性可选的意思Required 所有属性必选的意思Pick 提取部分属性Exclude 排除部分属性emit 排除部分属性并且返回新的类型 Partial 属性变为可选。…

Qt-Advanced-Docking-System的学习

Qt5.12实现Visual Studio 2019 拖拽式Dock面板-Qt-Advanced-Docking-System_c_saide6000-GitCode 开源社区 (csdn.net) 我使用的是Qt5.5.0 开始&#xff0c;我下载的是最新版的源码&#xff1a;4.1版本 但是&#xff0c;打开ads.pro工程文件&#xff0c;无法编译成功。 然后…

RERCS系统开发实战案例-Part02 创建BOPF对应的业务对象(Business Object)

1、通过事务码 BOBF创建业务对象 2、输入debug&#xff0c;进入编辑模式新建BO对象&#xff1b; 选择对应的BO对象属性类别&#xff1a; 3、激活BO对象 接口页签&#xff1a; 属性页签&#xff1a;自动带出标准的常量 改接口类部分源码&#xff1a; 4、BO对象Node Elemen…

Golang的Gin框架

目录 功能以及简单使用 gin.Engine数据结构 RouterGroup methodTrees gin.context 功能以及简单使用 功能: • 支持中间件操作&#xff08; handlersChain 机制 &#xff09; • 更方便的使用&#xff08; gin.Context &#xff09; • 更强大的路由解析能力&#xff08…

Web前端在深圳:探索技术与创新的融合之地

Web前端在深圳&#xff1a;探索技术与创新的融合之地 在数字化浪潮席卷全球的今天&#xff0c;深圳作为中国最具创新活力的城市之一&#xff0c;其在Web前端领域的发展同样引人注目。本文将从四个方面、五个方面、六个方面和七个方面&#xff0c;深入剖析深圳在Web前端领域的独…

Linux之tar打包解包命令

Linux之tar打包解包命令 打包与压缩区别 打包&#xff0c;也称之为归档&#xff0c;指的是一个文件或目录的集合&#xff0c;而这个集合被存储在一个文件中。归档文件没有经过压缩&#xff0c;所占空间是其中所有文件和目录的总和。 压缩&#xff0c;将一个大文件通过压缩算法…

基于 Delphi 的前后端分离:之五,使用 HTMX 让页面元素组件化之面向对象的Delphi代码封装

前情提要 本博客上一篇文章&#xff0c;描述了使用 Delphi 作为后端的 Web Server&#xff0c;前端使用 HTMX 框架&#xff0c;把一个开源的前端图表 JS 库&#xff0c;进行了组件化。 上一篇文章仅仅是描述了简单的前端代码组件化的可能性&#xff0c;依然是基于前端库的 JS…

windows下的eclipse按Ctrl+Shift+F格式化代码不起作用的处理

1、先上张图&#xff1a; 上面Format&#xff1a;CtrlShiftF&#xff0c;按了以后不起作用。 2、这个快捷键不起作用的原因&#xff1a;可能是快捷键冲突了。 机器上装了Sougou输入法&#xff0c;将输入法切换为英文模式是起作用的。 那么应该就是这个原因了。 3、解决方法…

【Ardiuno】使用ESP32单片机创建web服务通过网页控制小灯开关的实验(图文)

经过实验测试ESP32单片机的网络连接还是很方便的&#xff0c;这里小飞鱼按照程序实例的代码亲自实验一下使用Esp32生成的网页服务来实现远程无线控制小灯开关功能&#xff0c;这样真的是离物联网开发越来越近了&#xff0c;哈哈&#xff01; 连接好开发板和电路&#xff0c;将…