RAG架构的数据准备流程

虽然现成的大型语言模型 (LLM) 功能强大,但企业发现,根据其专有数据定制 LLM 可以释放更大的潜力。检索增强生成 (RAG) 已成为这种定制的主要方法之一。RAG 模型将大型语言模型强大的语言理解能力与检索组件相结合,使其能够从外部数据源收集相关信息。这使模型能够“读取”和利用企业数据来生成输出,从而产生更准确、更符合上下文的答案,并使用最新信息进行更新。

有许多工具可以帮助企业构建 RAG 架构;但是,构建高性能 RAG 系统需要对架构的每个步骤进行优化。本文将重点介绍在企业范围内构建有效 RAG 架构的数据准备流程和注意事项。

AI 模型的好坏取决于其数据。实施 RAG 需要精心准备模型将从中学习和检索上下文的数据源。清理、构建和优化大型知识库以将其提取到矢量数据库中可能具有挑战性,因为数据源通常包含结构化和非结构化数据。

数据源整理过流程

  • 数据源:用于构建 RAG 架构知识库的数据源是基础。它们必须是全面、高质量的来源,能够准确涵盖系统将要查询的领域和主题。此过程通常涉及选择符合您的用例要求的企业结构化和非结构化数据存储库的相关子集,并听取专家的意见。
  • 数据清理:原始数据通常很嘈杂,包含不相关的内容、过时的信息和重复数据。这给 RAG 实施带来了挑战,因为模型无法从其知识库中检索相关且准确的信息,从而对生成产生负面影响。例如,Jira 或 Confluence 中的企业知识通常包含用户评论和版本更改历史记录,这些内容与存储在知识库中无关。在将数据输入矢量存储之前,有效的数据清理技术(例如过滤和重复数据删除)至关重要。
  • 隐私/PII:企业数据集通常包含敏感和私人信息。作为数据准备过程的一部分,企业需要根据其用例和潜在最终用户定义如何处理这些数据。在内部用例中,LLM 可以合并有关个人的信息,例如查询“谁是沃尔玛账户的销售代表?”但是,对于外部用例,泄露有关个人的信息可能会导致隐私侵犯。即使设置了防护措施,对抗性攻击也可能导致训练数据意外泄露。确保适当处理 PII 元素,并在适当的情况下检测、过滤、编辑和用合成数据替换,可以保护隐私,同时保持数据实用性并防止潜在的合规性问题。
  • 文本提取:  企业数据有多种格式,包括 PDF、PowerPoint 演示文稿和图像。从这些非结构化和半结构化来源中提取干净、可用的文本对于构建全面的知识库至关重要。文本提取的方法可能因文档的结构、形式和复杂性而异。简单的情况可能使用标准文本提取工具来解决,而更复杂的文档可能需要结合使用自动化工具和人工注释。
  • 文本规范化:来自多个来源的数据通常在拼写、缩写、数字格式和引用样式等方面缺乏一致性。这可能会导致相同的概念被视为不同的实体,并且模型匹配度较低。应用规范化规则来标准化拼写、语法、测量和一般命名法对于最大限度地利用文本数据至关重要。
  • 分块策略:按照上述步骤,需要将文档拆分成较短的“块”或段落,以便检索组件将其与查询匹配并传递给语言模型。目标是将文档拆分成可检索的单元,以保持关键信息的完整、相关上下文。常用方法包括固定大小分块、基于文档的分块和语义分块。一般来说,人类对数据是否应放在现有块中或形成新块的评估仍然被认为是黄金标准,一种称为“代理分块”的新兴、更先进的方法试图模仿这种人类行为。理想的块大小在具有足够的上下文和效率之间取得平衡,而总结或分层分块等方法也适用于长文档。
  • 实体识别和标记:虽然从知识库中派生出的区块构成了向量存储的核心,但使用元数据(如源详细信息、主题和数据中的关键实体)丰富这些区块可以显著提高 RAG 模型的准确性。针对人员、组织、产品、概念和实体链接的命名实体识别 (NER) 可以帮助模型连接段落并增强检索相关性。这可以使用具有自动化技术和人机验证的数据注释平台系统地完成,以确保注释的准确性和一致性,并在必要时包括领域专家。

查询流程

  • 段落排名:检索组件显示与查询匹配的候选段落后,在将它们传递给语言模型之前,按相关性对其进行排名和筛选至关重要。这可以避免从相关性较低的段落生成响应。排名可以利用相似度得分、上下文推理、元数据属性和查询段落对齐。
  • 提示工程与设计: RAG 模型的有效性很大程度上取决于通过在内容(查询 + 上下文)中添加相关检索数据来增强用户输入。这些提示必须经过精心设计,才能有效获取和利用检索到的上下文,同时与输出响应所需的风格和语气保持一致。

持续评估和优化

上述数据考虑因素对于 RAG 的成功都至关重要。然而,由于存在许多变动因素,因此在整个训练过程中,可能很难了解其有效性和影响。

持续的测试、评估和优化对于有效识别和监控性能差距至关重要。组件评估对于解决特定问题非常有用,例如,评估检索是否来自向量存储中的最佳来源。端到端评估可用于根据目标用例评估整个系统的质量,最终目标是生成对人类最终用户有价值的响应。

利用 Appen 的专业知识

用于训练 RAG 模型的数据可能很复杂,对于希望部署 LLM 的企业来说仍然是一个挑战。Appen 的 AI 数据注释平台可让您无缝增强和集成专有数据,帮助提高以数据为核心的 RAG 实施的成功率。

立即联系 Appen,了解我们的专业知识和先进平台如何帮助您加速 RAG 之旅。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/17557.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

5V升压充电8.4V芯片4A输出电流-AH3330

AH3330-5V升压充电8.4V芯片,采用SSOP-10封装,配备外挂的MOS管,可支持4.5V到32V的输入电压范围,输出功率高达40W。该芯片广泛应用于多节电池充电控制领域,尤其适用于锂电池、磷酸铁锂电池和铅酸电池等不同类型的充电控制…

什么是erp仓储管理系统?ERP系统的价值体现在哪些方面?

ERP仓储管理系统是一个帮助企业管理仓库的工具。想象一下,如果你是一个仓库管理员,里面堆满了各种各样的产品和货物,如何确保这些产品数量准确、摆放有序,以及快速找到自己需要的产品呢? 这时,如果企业引用…

【MySQL数据库】 MySQL主从复制

MySQL主从复制 MySQL主从复制主从复制与读写分离的意义主从数据库实现同步(主从复制)三台mysql服务器搭建主从复制,要求不可以用root帐号同步,要求第三台服务器在测试过1、2的主从复制之后进行主从复制配置 MySQL主从复制 主从复…

conda 环境找不到 libnsl.so.1

安装prokka后运行报错 perl: error while loading shared libraries: libnsl.so.1: cannot open shared object file: No such file or directory 通过conda list 可以看到 有libsnl 2.00版本,通过修改软链接方式进行欺骗

代码随想录算法训练营Day2|977.有序数组的平方、59.螺旋矩阵||、 209.长度最小的子数组

977.有序数组的平方 这道题给出的原数组有两个特点: 1、由小到大 2、有负数有正数 因此,这个数组平方后的数应该是从两头向中间的0减小的,但是两头的大小需要我们用两个指针便历之后去判断大小。在遍历的同时left指针向右走,righ…

详谈 Java中的list.forEach()和list.stream().forEach() 异同点

涉及的文章链接:ArrayList 循环Remove遇到的坑 一、想总结本篇博客的原因 在日常开发中,需要对集合数据进行或多或少的赋值修改,那么循环赋值或者做一些处理就是最常见的一种操作了,但是用习惯了stream流,所以在循环的…

USST新生训练赛div2+div3题解

目录 前言题解部分B Ichihime and Triangle(800)题目大意题解代码实现 C Kana and Dragon Quest game(900)题目大意题解代码实现 J Squares and Cubes(800)题目大意题解代码实现 F Double Sort(1200)题目大意题解代码实现 I Minimize the Thickness(1100)题目大意题解代码实现 …

分布式事务解决方案(最终一致性【可靠消息解决方案】)

可靠消息最终一致性解决方案 可靠消息最终一致性分布式事务解决方案指的是事务的发起方执行完本地事务之后,发出一条消息,事务的参与方,也就是消息的消费者一定能够接收到这条消息并且处理完成,这个方案强调的是只要事务发起方将消…

自适应感兴趣区域的级联多尺度残差注意力CNN用于自动脑肿瘤分割| 文献速递-深度学习肿瘤自动分割

Title 题目 Cascade multiscale residual attention CNNs with adaptive ROI for automatic brain tumor segmentation 自适应感兴趣区域的级联多尺度残差注意力CNN用于自动脑肿瘤分割 01 文献速递介绍 脑肿瘤是大脑细胞异常和不受控制的增长,被认为是神经系统…

监控员工电脑的软件有哪些,不得不说这几款电脑监控软件太好用了

监控员工电脑的软件在市场上种类繁多,以下是几款备受好评的电脑监控软件,它们各自具有独特的功能和优势,选择前必须了解一下才能做成正确决定。 1.安企神: 这款软件支持7天试用测试,获取测试版请移驾 ↓↓↓ 安企神…

Transformer模型的简单学习

前言 Transformer 来源于一篇论文:Attention is all you need TRM在做一件什么事情呢?其实一开始它是被用于机器翻译的: 更详细的: 更详细的: 从上图可以看出,一个Encoders 下面包含了 n 个 Encoder&…

如何将 Langfuse 链接到自有 PostgreSQL 数据库并升级 PostgreSQL 版本

在本文中,我们将介绍如何将 Langfuse 应用程序链接到自有的 PostgreSQL 数据库,并升级 PostgreSQL 以支持 jsonb 类型。 前提条件 运行 CentOS 7 的服务器已安装的 PostgreSQL 9.2 或更低版本需要将 Langfuse 连接到自有数据库,并升级 PostgreSQL 以支持 jsonb 类型1. 将 La…

五款局域网监控软件良心推荐

五款局域网监控软件良心推荐 有人问我,能不能推荐几款好用的局域网监控软件。 我说,当然可以了,凭良心说,这几款软件在实用性、用户体验、隐私保护以及性价比上,绝对是当前最强监控软件。 1. 安企神 这款软件支持7天…

vue3(一):Vue3简介、创建vue3工程、Vue3中的响应式

目录 一.Vue3简介 1.性能提升 2.源码升级 3.拥抱ts 4.新特性 (1)Composition API(组合API): (2)新的内置组件: (3)其他改变: 二.创建vue…

Postman实现批量发送json请求

最近有一个场景,需要本地批量调用某个接口,从文件中读取每次请求的请求体,实现方法记录一下。 1.读取请求体 在 Postman 中,如果你想在 Pre-request Script 阶段读取文件内容,比如为了将文件内容作为请求的一部分发送…

聊天宝使用技巧揭秘让您快捷回复效率翻倍

聊天宝快捷回复软件,推出大量实用工具,帮助客服能更加高效的实现快捷发送,一键发送,效果翻倍! ​ 前言 聊天宝作为一款快捷回复工具,让客服免去了打字回复之苦。所以很受广大客服欢迎,真是一旦…

什么是“SQL注入攻击”?如何预防和应对?

一、SQL注入攻击的概念 SQL注入攻击是一种针对数据库驱动的应用程序的攻击技术,其中攻击者通过在应用程序的输入字段中插入或“注入”恶意的SQL代码,试图非法访问、操作或破坏后端数据库。当应用程序不正确地处理用户输入,并将其直接拼接到SQ…

废品回收小程序:回收市场下的商业机遇

随着当下大众环保意识的提升,回收行业收到了大众的重视,行业快速发展。在互联网信息技术的支持下,“互联网废品回收”得到了发展,依靠各种技术搭建互联网回收平台,连接到居民与商家,让回收变得更加简单高效…

深度解析Nginx配置文件:从全局块到upstream块的探索之旅

粉丝福利:微信搜索「万猫学社」,关注后回复「电子书」,免费获取12本Java必读技术书籍。 Nginx配置文件的简介 在浩瀚的互联网世界中,Nginx就如同一座大型交通枢纽,将访问者的请求精准地引导到正确的服务终点。而这一切…

【会议征稿,SPIE独立出版】第五届计算机视觉和数据挖掘国际学术会议(ICCVDM 2024)

第五届计算机视觉与数据挖掘国际学术会议(ICCVDM 2024)将于2024年7月19-21日在中国长春举行。此前,ICCVDM系列会议于2020年在中国西安、2021年在中国长沙(线上)、2022年在中国呼伦贝尔(线上线下&#xff09…