大模型Rag - 两大检索技术

一、稀疏检索:关键词匹配的经典代表

稀疏检索是一种基于关键词统计的传统检索方法。其基本思想是:通过词频和文档频率来衡量一个文档与查询的相关性。

核心原理

文档和查询都被表示为稀疏向量(如词袋模型),只有在词出现的位置才有非零值。
最常见的两种稀疏检索算法:

  • TF-IDF(Term Frequency-Inverse Document Frequency)
    由两个部分组成:
  • TF(词频):某个词在文档中出现的频率
    在这里插入图片描述
  • IDF(逆文档频率):某个词在所有文档中出现的稀有程度
    在这里插入图片描述
    df(t) 是包含词 𝑡 的文档数量

最终得分:TF-IDF(t,d)=TF(t,d)×IDF(t)

稀疏检索的局限性:

1. 不考虑词序和上下文语义
示例:

  • “男朋友送的礼物”
  • “送男朋友的礼物”
    在语义上完全不同,但关键词相同,稀疏检索会认为它们高度相似。

2. 对同义词不敏感

  • 例如“车”和“汽车”虽然含义一致,稀疏模型不会将它们归为同一语义。

二、稠密检索:理解语义的现代方法

稠密检索依赖于深度学习模型将文本转化为向量(embedding),这些向量可以捕捉语义信息、词序和上下文。

核心原理:
使用预训练模型(如 BERT、GTE、BGE)将文档和查询转化为稠密的向量表示(维度通常为768、1024等)

使用 向量相似度(如余弦相似度、点积)进行匹配和排序

优势:

  • 捕捉语义信息:能区分不同语义的句子
  • 支持同义词识别、上下文推理
  • 更适合处理自然语言表达丰富的用户提问

潜在问题:

  • 训练成本高:需要训练或微调 embedding 模型
  • 信息压缩:将高维文本语义压缩进一个定长向量,可能导致信息丢失
  • 可解释性差:不像关键词检索那样能清楚看到匹配逻辑

三、两者对比

项目稀疏检索(TF-IDF / BM25)稠密检索(Embedding)
原理基于关键词统计基于语义向量相似度
表达方式稀疏词袋向量稠密浮点向量
优势简单、高效、易解释理解语义、词序、上下文
缺点无法处理语义变化信息压缩、训练成本高
同义词识别
查询变化适应

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/77363.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LNA设计

设计目的 为后级提供足够的增益以克服后级电路噪声 尽可能小的噪声和信号失真 确保输入和输出端的阻抗匹配 确保信号线性度 评价标准 噪声系数 功率增益 工作频率和带宽 输入信号功率动态范围 端口电压驻波比 稳定性 基于SP模型的LNA设计 直流分析 S参数分析 设计指标 &#xf…

Vue 常见组件及使用方式全解析

一、引言 在 Vue 开发中,组件是构建复杂用户界面的基石。通过使用各种常见组件,我们可以快速搭建出功能丰富、交互性强的应用程序。本文将详细介绍 Vue 开发中一些常见组件及其使用方式。 二、基础 UI 组件 (一)按钮组件&#…

设计测试用例模板

面试时问你一个场景,要你设计测试用例,你会怎么回答? 面试官让你设计一个功能的测试用例,比如“上传文件功能”,其实就是想考你: 思维是否全面能不能抓住重点会不会分类和使用测试方法有没有考虑异常情况…

Git 解决“Filename too long”问题

在 Windows 系统中使用 Git 时,遇到 Filename too long 错误通常是由于系统默认的路径长度限制(260 字符)导致的。以下是综合多种场景的解决方案: 一、快速解决方法 启用 Git 长路径支持 通过 Git 配置命令允许处理超长文件名&am…

Spring Boot 3 + SpringDoc:打造接口文档

1、背景公司 新项目使用SpringBoot3.0以上构建,其中需要对外输出接口文档。接口文档一方面给到前端调试,另一方面给到测试使用。 2、SpringDoc 是什么? SpringDoc 是一个基于 Spring Boot 项目的库,能够自动根据项目中的配置、…

Swagger2Refit

把swagger相关接口转成refit格式,以便其他服务调用 使用工具Refitter. Refitter 项目使用教程 Refit Client API Generator for OpenAPI 项目地址: github.com GitCode - 全球开发者的开源社区,开源代码托管平台 安装 Refitter CLI 工具 首先,通过…

【java 13天进阶Day05】数据结构,List,Set ,TreeSet集合,Collections工具类

常见的数据结构种类 集合是基于数据结构做出来的,不同的集合底层会采用不同的数据结构。不同的数据结构,功能和作用是不一样的。数据结构: 数据结构指的是数据以什么方式组织在一起。不同的数据结构,增删查的性能是不一样的。不同…

systemctl管理指令

今天我们来继续学习服务管理指令,接下来才是重头戏-systemctl,那么话不多说,直接开始吧. systemctl管理指令 1.基本语法: systemctl [start | stop | restart | status]服务 注:systemctl指令管理的服务在/usr/lib/ systemd/system查看 2.systemctl设置服务的自…

STM32单片机教程:从零开始打造智能天气时钟

STM32单片机教程:从零开始打造智能天气时钟 大家好!今天我想为大家详细介绍一下我们的STM32课程,以及如何从零基础逐步掌握单片机开发技能,最终实现一个完整的智能天气时钟项目。 课程面向人群 本课程主要面向那些已经通过野火…

Neovim插件深度解析:mcphub.nvim如何用MCP协议重构开发体验

在AI与工具链深度融合的今天,Neovim 作为现代开发者的生产力工具,正通过插件生态不断突破边界。mcphub.nvim 作为一款基于 MCP(Model Context Protocol) 协议的插件,重新定义了Neovim与智能工具的交互方式。它不仅简化了MCP服务器的集成与管理,更通过直观的UI和生态整合,…

第33讲|遥感大模型在地学分类中的初探与实战

目录 🧠 一、什么是“遥感大模型”? 📚 二、遥感大模型在地学分类中的优势 📍三、案例:使用 Segment Anything Model (SAM) 进行遥感地物分割 📦 1. 安装与依赖配置(PyTorch) 🖼 2. 读取遥感图像(可用 Sentinel-2 伪彩色图) 🔧 3. SAM 模型载入 💡 …

MATLAB - 小车倒立摆的非线性模型预测控制(NMPC)

系列文章目录 目录 系列文章目录 前言 一、摆锤/小车组件 二、系统方程 三、控制目标 四、控制结构 五、创建非线性 MPC 控制器 六、指定非线性设备模型 七、定义成本和约束 八、验证非线性 MPC 控制器 九、状态估计 十、MATLAB 中的闭环仿真 十一、使用 MATLAB 中…

JAVA文件I/O

目录 一、三种路径的分类: 1、绝对路径: 2、相对路径: 3、基准目录: 二、文件的种类: 三、利用JAVA操作文件: 1、File类的构造方法: 2、File 类方法的使用: 使用例子&#…

焊接机器人的设计

一、引言 随着制造业的发展,焊接工艺在各个领域得到广泛应用。焊接机器人具有焊接质量高、效率高、劳动强度低等优点,能够满足现代制造业对焊接生产的要求。设计一款性能优良的焊接机器人,对于提高焊接生产的自动化水平和产品质量具有重要意…

Thymeleaf简介

在Java中,模板引擎可以帮助生成文本输出。常见的模板引擎包括FreeMarker、Velocity和Thymeleaf等 Thymeleaf是一个适用于Web和独立环境的现代服务器端Java模板引擎。 Thymeleaf 和 JSP比较: Thymeleaf目前所作的工作和JSP有相似之处,Thyme…

(论文阅读)RNNoise 基于递归神经网络的噪声抑制库

RNNoise 是一个基于递归神经网络的噪声抑制库。 有关该算法的描述见以下论文: J.-M. Valin, A Hybrid DSP/Deep Learning Approach to Real-Time Full-Band Speech Enhancement, Proceedings of IEEE Multimedia Signal Processing (MMSP) Workshop, arXiv:1709.08…

DevOps-文章目录

01什么是DevOps 02DevOps基础环境准备 03-DevOps-安装并初始化Gitlab 04-DevOps-安装并初始化Jenkins 05-DevOps-Jenkins自动拉取构建代码1 05-DevOps-Jenkins自动拉取构建代码2 06-DevOps-自动构建Docker镜像 07-DevOps-安装部署Harbor镜像仓库 08-DevOps-向Harbor上传自定义镜…

UML 状态图:以网络媒体教学系统为例解析

目录 一、系统概述 二、状态图分析 (一)登录认证模块 (二)课程选择模块 (三)视频播放模块 (四)退出登录状态 三、UML状态图绘画 四、总结 UML状态图是一种行为图&#xff0c…

交易模式革新:Eagle Trader APP上线,助力自营交易考试效率提升

近年来,金融行业随着投资者需求的日益多样化,衍生出了众多不同的交易方式。例如,为了帮助新手小白建立交易基础,诞生了各类跟单社区;而与此同时,一种备受瞩目的交易方式 —— 自营交易模式,正吸…

Elasticsearch BBQ 与 OpenSearch FAISS:向量搜索性能对比

作者:来自 Elastic Ugo Sangiorgi Elasticsearch BBQ 与 OpenSearch FAISS 的性能对比。 带有二值量化的向量搜索:使用 BBQ 的 Elasticsearch 比使用 FAISS 的 OpenSearch 快 5 倍。Elastic 收到了来自社区的请求,希望澄清 Elasticsearch 与 …