大模型RAG(一)文本分块

1. 文档分块策略

文档切分粒度不好把控,既担心噪声太多又担心语义信息丢失

文档索引构建常用思路:

  • 一级索引是关键信息,用于计算相似度
  • 二级索引是原始文本
  • 二者通过索引映射

2. RAG的5种文本分块策略

  1. 字符分割 - 简单的静态字符数据块
  2. 递归字符文本分割 - 基于分隔符列表的递归分块
  3. 特定文档分割 - 针对不同文档类型(PDF、Python、Markdown)的各种分块方法
  4. 语义分割 - 基于嵌入式遍历的分块
  5. LLM 分割 - 使用类似代理系统的实验性文本分割方法。如果您的GPT成本接近于0.00美元,这种方法很好。

3. 不同文本的分类策略(句子、段落、文章)

3.1 句子本身不长,不需要进行额外分割

3.2 语义段的切分及段落(句子)关键信息抽取:

  1. 利用NLP中的成分句法分析(constituency parsing)工具和命名实体识别(NER)工具提取,前者可以提取核心部分(名词短语、动词短语……),后者可以提取重要实体(货币名、人名、企业名……)。
  2. 可以用语义角色标注(Semantic Role Labeling)来分析句子的谓词论元结构,提取“谁对谁做了什么”的信息作为关键信息。
  3. 关键词提取工作(Keyphrase Extraction)。

3.3 文章的切分及关键信息抽取:

  1. nlp篇章分析,把所有包含主从关系的段落合并成一段。
  2. 训练一个bert模型实现语义分割

4. Langchain中的文本分块工具

langchain默认使用RecursiveCharacterTextSplitter

1. RecursiveCharacterTextSplitter():按不同的字符递归地分割文档,同时要兼顾被分割文本的长度和重叠字符,它的默认分割符是一个列表即[“\n\n”, “\n”, " ", “”],因此它会用分割符列表中从左至右的顺序的分割符依次去搜索目标文档中的分割符,然后再分割文档,比如先搜索目标文档中的双换行符\n\n,如果存在,则切割文档,然后依次搜索单分隔符\n,空格等
2. CharacterTextSplitter():按字符数来切割文档。
3. MarkdownHeaderTextSplitter():基于指定的标题来分割markdown 文件,将同一标题下的文本放在了同一个块(chunk)中,而文本对应的标题信息则被存储在块的元数据中。
4. TokenTextSplitter():按token来分割文本。
5. SentenceTransformersTokenTextSplitter() : 是专门用于句子转换模型的文本分割器。默认行为是将文本分割成合适的句子转换模型的标记窗口的块。
6. Language() - 用于 CPP、Python、Ruby、Markdown 等。
7. NLTKTextSplitter():使用 NLTK(自然语言工具包)按句子分割文本,而不仅仅是根据 “\n\n” 进行分割。
8. SpacyTextSplitter() - 使用 Spacy分词器按句子的切割文本。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/805425.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JVM调优-简介(一)

一、什么是JVM调优? JVM调优是指针对Java虚拟机(JVM)的配置和运行时环境进行优化和调整,以提高Java应用程序的性能、稳定性和可维护性的过程。JVM调优涉及多个方面,包括内存管理、垃圾回收、线程管理、类加载、运行时参…

【电控笔记5】pi参数整定

旋转坐标系下的电压方程,由id和iq计算出ud和uq 把常数项(上面两个红框)拿出来解耦合,作为前馈,如下 电流环传递函数 电流带宽 响应时间

使用I/O流将图片备份到指定目录

1.深度遍历指定目录rootPath中所有的子文件、子目录 2.将所有图片(后缀名为*.png\*.jpg)复制到指定目录backupPath 3.返回本次备份的图片数量 /* * 图片备份 */ public int backupImage(String rootPath,String backupPath){ return 0; } 实现思路: 1.定义主…

顺序表讲解

一.数据结构 在学习顺序表之前,我们先需要了解什么是数据结构。 1.什么是数据结构呢? 数据结构是由“数据”和结构两词组合而来。 什么是数据呢? 你的游戏账号,身份信息,网页里的信息(文字&#xff0c…

构造析构理解与拷贝函数初识

1. 6个默认成员函数 ----初始化和清理{ 1.构造 2.析构 } -----拷贝复制{ 1.拷贝构造 2.赋值重载 } ------取地址重载{ 1.普通对象 2.const对象取地址 } 注:构造函数的目的是初始…

torchvision transforms 的二十二个方法

一、 裁剪Crop 1.随机裁剪:transforms.RandomCrop class torchvision.transforms.RandomCrop(size, paddingNone, pad_if_neededFalse, fill0, padding_modeconstant) 功能:依据给定的size随机裁剪 参数: size- (sequence or int)&#xff0…

珠海华发实业股份有限公司副总毛冰清莅临天府锋巢直播产业基地考察调研

3月19日,珠海华发实业股份有限公司副总毛冰清拜访天府锋巢直播产业基地(以下简称天府锋巢),由产业招商总负责人姜国东进行接待。 基地建设情况 姜国东负责人介绍到,天府锋巢是由德商产投携手无锋科技于兴隆湖落地的成都…

Tmux 使用笔记

Tmux 是一个终端复用器(terminal multiplexer),非常有用,属于常用的开发工具。 本文记录个人使用 Tmux的命令。 1. tmux简介 命令行的典型使用方式是,打开一个终端窗口,连接计算机,在里面输入…

Docker功能简单学习及使用

Docker是什么 Docker是一个快速构建,运行,管理应用的工具 传统基于linux安装程序较为复杂繁琐,使用docker可以快速的进行项目部署和管理 镜像与容器 Docker进行安装应用时,会自动搜索并下载应用镜像(image)。镜像不仅包含应用本…

每日一题 — 最大连续 1 的个数III

解法一:暴力枚举 先定义left和right双指针,left先固定在起始位置,遍历right当值等于1的时候,直接跳过,等于0的时候,zero计数器加一当zero等于k的时候,就开始记录此时最大长度是多少然后left加一…

Severt基本使用

severt是让我们自己写一些类,然后把这些类给加载Tomcat中,后续Tomcat收到HTTP请求(来自于浏览器),就会执行到咱们上面写的代码.从而通过这些代码,完成一定的业务逻辑. 创建项目 此处创建的是一种新的项目的形式称为Maven项目,Maven是Java 中的一个的构建…

【Leetcode每日一题】模拟 - 数青蛙(难度⭐⭐)(51)

1. 题目解析 题目链接:1419. 数青蛙 这个问题的理解其实相当简单,只需看一下示例,基本就能明白其含义了。 2.算法原理 一、模拟青蛙叫声的基本逻辑 在模拟青蛙叫声的过程中,我们需要遵循一定的规则来判断何时青蛙会发出声音。…

每日一题(leetcode2529):正整数和负整数的最大计数--二分法

因为需要O(logn)的复杂度,所以考虑使用二分法,先找到负数里面的最大下标(初始值定为-1),再找到第一个正数的下标(初始值定为数组长度值)。最后求出个数并进行比较即可。 …

题目:学习使用按位与 。

题目:学习使用按位与 & 。   There is no nutrition in the blog content. After reading it, you will not only suffer from malnutrition, but also impotence. The blog content is all parallel goods. Those who are worried about being cheated shoul…

Netty 入门应用之Http服务WebSocket

Netty实现Http服务 主要的变化是在初始化器中引入了新的编解码器 一些创建的类作用和Netty HelloWorld的小demo一样我这里就不再次重复了 1、Http服务端代码 public class HttpServer {public static void main(String[] args) {// 创建Reactor// 用来管理channel 监听事件 …

Hot100【十一】:最大子数组和

// 定义dp:以i结尾的最大子数组和 dp[i] max(dp[i-1] nums[i],nums[i]) class Solution {public int maxSubArray(int[] nums) {// 1. 不需要特殊处理// 2. 定义dpint[] dp new int[nums.length];dp[0] nums[0];int maxResult nums[0];// 3. dp递推for (int i …

微服务面试题一

1.SOA、分布式、微服务之间有什么关系和区别? 分布式架构是指将单体架构中的各个部分拆分,然后部署不同的机器或进程中去,SOA和微服务基 本上都是分布式架构的SOA是⼀种⾯向服务的架构,系统的所有服务都注册在总线上,…

【leetcode面试经典150题】21. 反转字符串中的单词(C++)

【leetcode面试经典150题】专栏系列将为准备暑期实习生以及秋招的同学们提高在面试时的经典面试算法题的思路和想法。本专栏将以一题多解和精简算法思路为主,题解使用C语言。(若有使用其他语言的同学也可了解题解思路,本质上语法内容一致&…

TLF9471 - High-Speed CAN FD Transceiver

1 框图描述 2 功能描述 CAN收发器被设计用来承受汽车应用的恶劣条件,并支持12V应用。   SBC的控制器区域网络(CAN)收发器部分在汽车和工业应用中提供高速(HS)差分模式数据传输(最高可达2Mbaud&#xff09…

【Java基础】BigDecimal使用避坑规范

BigDecimal使用 解决浮点型运算时,出现结果失真的问题,比如0.10.2 —示例— public class ErrorCase {public static void main(String[] args) {// 0.30000000000000004System.out.println(0.1 0.2);} }构造方法 把string转成BigDecimal把double转B…