【Spring AI】09. ETL 管道

文章目录

  • ETL Pipeline
    • API 概述
    • 入门指南
    • ETL 接口和实现
      • DocumentReader
        • JsonReader
        • TextReader
        • PagePdfDocumentReader
        • ParagraphPdfDocumentReader
        • TikaDocumentReader
      • DocumentTransformer
        • TextSplitter
        • TokenTextSplitter
        • ContentFormatTransformer
        • KeywordMetadataEnricher
        • SummaryMetadataEnricher
      • DocumentWriter
        • FileDocumentWriter
        • VectorStore
        • ETL 类图

ETL Pipeline

提取转换加载(ETL)框架是检索增强生成(RAG)中数据处理的支柱。
ETL 管道编排了从原始数据源到结构化向量存储的流程,确保数据以最佳格式存储,以便 AI 模型检索。
RAG 用例是通过从数据体中检索相关信息来增强生成模型的能力,以提高生成输出的质量和相关性。

API 概述


ETL 管道的三个主要组件是

  • DocumentReader :实现Supplier<List>
  • DocumentTransformer :实现Function<List, List>
  • Consumer<List> :实现DocumentWriter
    Document类包含文本和元数据,使用DocumentReader可以基于 PDF、文本文件和其他文档类型创建 Document类。
    要构建一个简单的 ETL 管道,您可以将每种类型的实例链接在一起。
    在这里插入图片描述

假如我们有这三种 ETL 类型的实例对象

  • PagePdfDocumentReade: DocumentReader的一个实现
  • TokenTextSplitter:DocumentTransformer的一个实现
  • VectorStore: DocumentWriter的一个实现
    使用以下代码,可以结合检索增强生成模式,把基本的数据加载到矢量数据库中。
vectorStore.accept(tokenTextSplitter.apply(pdfReader.get()));

入门指南


要开始创建一个 Spring AI RAG 应用程序,请按照以下步骤进行:

  1. 下载最新的 Spring CLI Release,并按照 installation instructions 进行安装。
  2. 要创建一个简单的基于 OpenAI 的应用程序,请使用以下命令:
    spring boot new --from ai-rag --name myrag
    
  3. 查看生成的README.md文件,了解如何获取 OpenAI API 密钥并运行您的第一个 AI RAG 应用程序。

ETL 接口和实现

ETL 管道由以下接口和实现组成。详细的 ETL 类图在下面的 ETL 类图部分 中显示。

DocumentReader

提供来自不同来源的文档资源。

public interface DocumentReader extends Supplier<List<Document>> {}
JsonReader

JsonReader解析 JSON 格式的文档。
例子:

@Component
public class MyAiApp {@Value("classpath:bikes.json") // This is the json document to loadprivate Resource resource;List<Document> loadJsonAsDocuments() {JsonReader jsonReader = new JsonReader(resource, "description");return jsonReader.get();}
}
TextReader

该TextReader处理纯文本文档。
例子:

@Component
public class MyTextReader {@Value("classpath:text-source.txt") // This is the text document to loadprivate Resource resource;List<Document> loadText() {TextReader textReader = new TextReader(resource);textReader.getCustomMetadata().put("filename", "text-source.txt");return textReader.get();}
}
PagePdfDocumentReader

该PagePdfDocumentReader使用 Apache PdfBox 库来解析 PDF 文档
例子:

@Component
public class MyPagePdfDocumentReader {List<Document> getDocsFromPdf() {PagePdfDocumentReader pdfReader = new PagePdfDocumentReader("classpath:/sample1.pdf",PdfDocumentReaderConfig.builder().withPageTopMargin(0).withPageExtractedTextFormatter(ExtractedTextFormatter.builder().withNumberOfTopTextLinesToDelete(0).build()).withPagesPerDocument(1).build());return pdfReader.get();}}
ParagraphPdfDocumentReader

该ParagraphPdfDocumentReader使用 PDF 目录(例如 TOC)信息将输入的 PDF 拆分为文本段落,并为每个段落输出一个Document。注意:并非所有 PDF 文档都包含 PDF 目录。
例子:

@Component
public class MyPagePdfDocumentReader {List<Document> getDocsFromPdfwithCatalog() {new ParagraphPdfDocumentReader("classpath:/sample1.pdf",PdfDocumentReaderConfig.builder().withPageTopMargin(0).withPageExtractedTextFormatter(ExtractedTextFormatter.builder().withNumberOfTopTextLinesToDelete(0).build()).withPagesPerDocument(1).build());return pdfReader.get();}
}
TikaDocumentReader

TikaDocumentReader使用 Apache Tika 从各种文档格式中提取文本,如 PDF、DOC/DOCX、PPT/PPTX 和 HTML。有关支持的格式的详细列表,请参考 Tika documentation。
例子:

@Component
public class MyTikaDocumentReader {@Value("classpath:/word-sample.docx") // This is the word document to loadprivate Resource resource;List<Document> loadText() {TikaDocumentReader tikaDocumentReader = new TikaDocumentReader(resourceUri);return tikaDocumentReader.get();}
}

DocumentTransformer

作为处理工作流程的一部分,用于转换文档。

public interface DocumentTransformer extends Function<List<Document>, List<Document>> {
TextSplitter

TextSplitter是一个抽象基类,帮助将文档分割以适应 AI 模型的上下文窗口。

TokenTextSplitter

在保持标记级完整性的同时拆分文档。

ContentFormatTransformer

确保所有文档中的内容格式统一。

KeywordMetadataEnricher

关键元数据增强文档。

SummaryMetadataEnricher

为增强检索而为文档添加摘要元数据。

DocumentWriter

管理 ETL 过程的最后阶段,将文档进行存储。

public interface DocumentWriter extends Consumer<List<Document>> {}
FileDocumentWriter

将文档持久化到文件中。

VectorStore

与各种向量存储进行集成。请参阅 05. 向量数据库 章节以获取完整列表。

ETL 类图

以下类图展示了 ETL 接口和实现。
在这里插入图片描述


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/6103.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【通信中间件】Fdbus HelloWorld实例

Fdbus实例教程 Fdbus简介 Fdbus 全称 Fast Distributed Bus&#xff08;高速分布式总线&#xff09;&#xff0c;提供IPCRPC功能。适用于多种OS&#xff1a; LinuxQNXAnroidOSWindow Fdbus本质是Socket&#xff0c;IPC基于Unix domain socket&#xff0c;RPC基于TCP。使用G…

MathType打开的窗口太多 MathType说打开窗口太多无法复制怎么解决

在数学文档编辑中&#xff0c;MathType作为一款常用的数学公式编辑工具&#xff0c;使用过程中&#xff0c;我们常常会遇到一些问题&#xff0c;比如MathType打开的窗口过多导致软件运行缓慢甚至崩溃&#xff0c;以及在复制过程中出现“打开窗口太多&#xff0c;无法复制”的提…

241 基于matlab的Dijkstra算法进行路径规划

基于matlab的Dijkstra算法进行路径规划。可根据实际情况输入障碍物和起止点坐标信息&#xff1b; 输出避碰最短路径&#xff1b; 能够利用切线图算法对障碍物区域进行环境建模&#xff0c;设置障碍物的位置和区域。利用Dijkstra算法进行路径规划。程序已调通&#xff0c;可直接…

细说SVPWM原理及软件实现原理,关联PWM实现

细说SVPWM原理及软件实现原理&#xff0c;关联PWM实现 文章目录 细说SVPWM原理及软件实现原理&#xff0c;关联PWM实现1. 前言2. 基础控制原理回顾2.1 FOC 原理回顾2.2 细说 SVPWM2.2.1 矢量扇区计算2.2.2 矢量作用时间计算 2.2.3 如何理解 U4 U6 2/3Udc?2.2.4 如何理解 U4m…

文件传送协议

壹、文件传输协议FTP 一、FTP简介 文件传送协议FTP曾是互联网上使用最广泛的协议&#xff1b; 在互联网发展的早期阶段&#xff0c;用FTP传送文件约占整个互联网的通信量的三分之一&#xff1b;知道1995年&#xff0c;www的通信量才首次超过FTP。 FTP实现的是通过网络实现异…

GaussDB数据库事务管理

一、引言 事务管理是数据库系统中至关重要的一部分&#xff0c;它确保了数据库的一致性和可靠性。在GaussDB数据库中&#xff0c;事务管理不仅遵循传统的ACID特性&#xff0c;还提供了一些高级功能。本文将深入探讨GaussDB数据库事务管理的各个方面。 二、事务的基本概念 2.1…

机器学习:深入解析SVM的核心概念【四、软间隔与正则化】

软间隔与正则化 问题一&#xff1a;优化目标函数是如何得到的&#xff1f;得到的过程是怎样的&#xff1f;问题二&#xff1a;拉格朗日乘子法计算详细过程问题三&#xff1a;KKT条件求解过程问题四&#xff1a;结构风险最小化&#xff08;SRM&#xff09;的原理 在前面的讨论中…

Rust Turbofish 的由来

0x01 什么是 Turbofish 我们运行如下 Rust Snippet&#xff1a; fn main() {let numbers: Vec<i32> vec![1, 2, 3, 4, 5, 6, 7, 8, 9, 10];let even_numbers numbers.into_iter().filter(|n| n % 2 0).collect();println!("{:?}", even_numbers); }不出意…

Android 设置头像 - 相册拍照

Android开发在个人信息管理中&#xff0c;如果设置头像&#xff0c;一般都提供了从相册选择和拍照两种方式。下午将针对设置用户头像相册和拍照两种方式的具体实现进行详细说明。 在实际实现过程中需要使用到权限管理&#xff0c;新版本的Android需要动态申请权限&#xff0c;权…

React Context

Context https://juejin.cn/post/7244838033454727227?searchId202404012120436CD549D66BBD6C542177 context 提供了一个无需为每层组件手动添加 props, 就能在组件树间进行数据传递的方法 React 中数据通过 props 属性自上而下(由父及子)进行传递&#xff0c;但此种用法对…

Matlab|二阶锥松弛在配电网最优潮流计算中的应用

目录 一、主要内容 二、部分代码 三、程序代码 四、下载链接 一、主要内容 最优潮流计算是电网规划、优化运行的重要基础。首先建立了配电网全天有功损耗最小化的最优潮流计算模型&#xff1b;其次结合辐射型配电网潮流特点建立支路潮流约束&#xff0c;并考虑配电网中的可…

macOS sonoma 14.4.1编译JDK 12

macOS sonoma 14.4.1编译JDK 12 环境参考文档开始简述问题心路历程着手解决最终解决(前面有点啰嗦了&#xff0c;可以直接看这里) 记录一次靠自己看代码解决问题的经历(总之就是非常开心)。 首先&#xff0c;先diss一下bing&#xff0c;我差一点就放弃了。 环境 macOS sonom…

[力扣]——125.验证回文串

class Solution {public static boolean isValidChar(char ch){if((ch > a && ch < z) ||(ch > 0 && ch < 9)){return true;}return false;}public boolean isPalindrome(String s) {// 将大小写统一起来s s.toLowerCase();int left 0, right s…

vulnhub靶场之FunBox-2

一.环境搭建 1.靶场描述 Boot2Root ! This can be a real life scenario if rockies becomes admins. Easy going in round about 15 mins. Bit more, if you are find and stuck in the rabbit-hole first. This VM is created/tested with Virtualbox. Maybe it works with…

百面算法工程师 | 支持向量机——SVM

文章目录 15.1 SVM15.2 SVM原理15.3 SVM解决问题的类型15.4 核函数的作用以及特点15.5 核函数的表达式15.6 SVM为什么引入对偶问题15.7 SVM使用SGD及步骤15.8 为什么SVM对缺失数据敏感15.9 SVM怎么防止过拟合 欢迎大家订阅我的专栏一起学习共同进步 祝大家早日拿到offer&#x…

利用亚马逊云科技GenAI企业助手Amazon Q Business构建企业代码开发知识库

2024年五一节假日的前一天&#xff0c;亚马逊云科技正式重磅发布了云计算行业期待已久的服务——Amazon Q Business。Amazon Q Business是专为企业用户打造的一个开箱即用的完善而强大企业GenAI助手。企业用户只需要将Amazon Q Business连接到现有的企业内部数据源&#xff0c;…

小程序地理位置接口权限直接抄作业

小程序地理位置接口有什么功能&#xff1f; 随着小程序生态的发展&#xff0c;越来越多的小程序开发者会通过官方提供的自带接口来给用户提供便捷的服务。但是当涉及到地理位置接口时&#xff0c;却经常遇到申请驳回的问题&#xff0c;反复修改也无法通过&#xff0c;给的理由也…

【自研网关系列】过滤器链 -- 限流过滤器

&#x1f308;Yu-Gateway&#xff1a;&#xff1a;基于 Netty 构建的自研 API 网关&#xff0c;采用 Java 原生实现&#xff0c;整合 Nacos 作为注册配置中心。其设计目标是为微服务架构提供高性能、可扩展的统一入口和基础设施&#xff0c;承载请求路由、安全控制、流量治理等…

ESP32-C3模组上跑通MQTT(1)

本文内容参考&#xff1a; 《ESP32-C3 物联网工程开发实战》 特此致谢&#xff01; 一、远程控制的介绍 什么是远程控制&#xff1f;顾名思义&#xff0c;远程控制就是远距离控制&#xff0c;是指控制设备&#xff08;如智能手机、计算机等网络设备&#xff09;通过广域网控制…

FIFO Generate IP核使用——FIFO写操作详解及Status Flags页配置

本文介绍了FIFO的写操作及Status Flags页的配置信息。 1 FIFO 写入操作 当FIFO的写入使能&#xff08;write enable&#xff09;被置位&#xff0c;并且FIFO未满时&#xff0c;数据会从输入总线&#xff08;din&#xff09;被添加到FIFO中&#xff0c;并且写入确认&#xff0…