RAG系统分类、评估方法与未来方向

分享一篇RAG综述:Retrieval-Augmented Generation for Large Language Models: A Survey,主要想了解一下RAG的评估方法,分享给大家。

文章目录

  • 一、RAG分类
  • 二、评估方法
  • 三、未来方向

一、RAG分类

RAG分类:Navie RAG、Advanced RAG 、Modular RAG

  • Navie RAG是一个最简单的RAG系统,包括检索模块和生成模块。
  • Advance RAG主要在Navie RAG的pre-trievalpost-trieval上做改进,pre-trieval上的改进比如query改写,子query查询,query扩展(CoVE Chian-of-Verifiation拓展之后的查询经过LLM的验证,达到减少幻觉的作用),query路由(是否使用RAG,以及使用哪个RAG)等。post-trieval上的改进包括reranker,context压缩等。
  • Modular RAG是基于Navie RAG和Advance RAG的一种进阶的RAG,太相较于前两个RAG更加自由和灵活性。他通过引入新的模块和新的模式,实现多功能性。引入模块包括查询模块,记忆模块等,新的检索模式包括采用迭代检索、递归检索以及自适应检索。
    在这里插入图片描述

二、评估方法

  • Retrieval Quality:Metrics such as Hit Rate, MRR, and NDCG are commonly utilized for this purpose
    • MMR( Mean Reciprocal Rank 平均倒排率)是一个用于评估推荐系统排序性能的指标。它考虑了用户实际点击的推荐项在推荐列表中的位置。MRR 的计算方式是取用户的每个查询(或推荐请求)的倒(1/x)数排名的平均值。这个指标更加关注推荐项的排名,越靠前的推荐项影响越大。
    • Hits Rate(命中率)前k项中,包含正确信息的项的数目占比;
    • NDCG( Normalized Discounted Cumulative Gain 归一化折损累积增益)评估推荐系统排序性能的指标,但相比于 MRR,NDCG考虑了推荐项的相关性。它通过考虑推荐列表中每个位置上的推荐项的相关性分数,以及位置权重,计算一个归一化的累积增益。
  • Generation Quality:unlabeled and labeled content.
    • unlabeled content:faithfulness, relevance, and non-harmfulness(忠诚性,相关性,无害性)
    • labeled content:accuracy

检索和生成的各项指标都可以通过手动或者自动的方式进行评估。

  • 人工评估:人工评审员检查模型生成的文本是否与输入内容或知识库相符,确保没有显著的事实错误。
  • 自动化验证
    • 对于忠诚性,使用事实核查工具或外部数据库(如维基百科、新闻源)来验证模型的输出。
    • 对于相关性,将相关性问题转化为分类问题来自动评估。例如,可以训练一个二分类模型(相关/不相关)或多分类模型(非常相关/中等相关/不相关),然后使用该模型对模型输出进行评估。
    • 对于无害性, 使用自然语言处理(NLP)技术或训练的分类模型来检测模型输出是否包含有害内容。可以基于情感分析、恶意内容分类等进行自动评测。
      在这里插入图片描述

三、未来方向

  1. RAG仍然是需要的,有大模型的地方就会有RAG
  2. RAG的稳健性是一个未来方向==》错误的信息比没有信息更糟糕,RAG系统应该能有对反事实或者矛盾信息产生抵抗力。
  3. 面向生产的RAG:信息源泄露,信息安全,面向用户的低代码RAG。
  4. 多模态RAG:利用RAG检索图片、音视频和代码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/888834.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

美国大选后,用HMM模型做特斯拉股价波动解析

作者:老余捞鱼 原创不易,转载请标明出处及原作者。 写在前面的话:本文主要探讨如何利用高斯隐马尔可夫模型(HMM)预测股票价格,我们将分步进行说明:包括数据准备、特征选择、训练 HMM 模型、最后…

VSCode(四)CMake调试

1. 工具准备 1.1 C环境插件 1.2 CMake插件 2. Cmake工程 2.1 创建项目文件夹 ex:CMAKE_TEST 2.2 创建CMake工程 (shift ctl P), 选择"CMAKE: Quick Start": 2.3 填写project name: (ex: test_cmake) 2.4 选择”Executable“ 项目文件内会自动…

从 HTML 到 CSS:开启网页样式之旅(七)—— CSS浮动

从 HTML 到 CSS:开启网页样式之旅(七)—— CSS浮动 前言一、浮动的简介1.没有浮动的代码和效果2.加入浮动的代码和效果 二、元素浮动后的特点1. 脱离文档流2.宽高特性:3.共用一行:4.margin 特性:5.区别于行…

微信小程序实现图片拖拽调换位置效果 -- 开箱即用

在编写类似发布朋友圈功能的功能时,需要实现图片的拖拽排序,删除图片等功能。 一、效果展示 **博主的小程序首页也采用了该示例代码,可以在威信中搜索:我的百宝工具箱 二、示例代码 1.1、在自己的小程序中创建组件 1.2、组件…

通过 FRP 实现 P2P 通信:控制端与被控制端配置指南

本文介绍了如何通过 FRP 实现 P2P 通信。FRP(Fast Reverse Proxy)是一款高效的内网穿透工具,能够帮助用户突破 NAT 和防火墙的限制,将内网服务暴露到公网。通过 P2P 通信方式,FRP 提供了更加高效、低延迟的网络传输方式…

php7.4安装pg扩展-contos7

今天接到一个需求,就是需要用thinkphp6链接pg(postgresql)数据库。废话不多说,直接上操作步骤 一、安装依赖 yum install -y sqlite-devel libxml2 libxml2-devel openssl openssl-devel bzip2 bzip2-devel libcurl libcurl-devel libjpeg libjpeg-dev…

CentOS7.X 安装RustDesk自建服务器实现远程桌面控制

参照文章CentOS安装RustDesk自建服务器中间总有几个位置出错,经实践做个记录防止遗忘 一 环境&工具准备 1.1 阿里云轻量服务器、Centos7系统、目前最高1.1.11版本rustdesk-server-linux-amd64.zip 1.2 阿里云轻量服务器–安全组–开放端口:TCP(21…

TCP Analysis Flags 之 TCP Spurious Retransmission

前言 默认情况下,Wireshark 的 TCP 解析器会跟踪每个 TCP 会话的状态,并在检测到问题或潜在问题时提供额外的信息。在第一次打开捕获文件时,会对每个 TCP 数据包进行一次分析,数据包按照它们在数据包列表中出现的顺序进行处理。可…

Java线程的interrupt中断、wait-notify/all(源码级分析)

实例方法: interrupt()方法是设置结束阻塞(sleep、wait等),并且设置中断标记true isInterrupted()判断当前是否中断 静态方法: Thread.interrupted():调用这个方法的线程中断标记位还原为false 那么好,既然上面的方法作用是清…

Burp Suite 实战指南:Proxy 捕获与修改流量、HTTP History 筛选与分析

声明! 学习视频来自B站up主 **泷羽sec** 有兴趣的师傅可以关注一下,如涉及侵权马上删除文章,笔记只是方便各位师傅的学习和探讨,文章所提到的网站以及内容,只做学习交流,其他均与本人以及泷羽sec团队无关&a…

12月第1周AI资讯

阅读时间:3-4min 更新时间:2024.12.2-2024.12.6 目录 OpenAI CEO Sam Altman 预告“12天OpenAI”系列活动 腾讯HunyuanVideo:130亿参数的开源视频生成模型 李飞飞的World Labs发布空间智能技术预览版 中科院联手腾讯打造“AI带货王”AnchorCrafter OpenAI CEO Sam Alt…

从零开始学TiDB(1) 核心组件架构概述

首先TiDB深度兼容MySQL 5.7 1. TiDB Server SQL语句的解析与编译:首先一条SQL语句最先到达的地方是TiDB Server集群,TiDB Server是无状态的,不存储数据,SQL 发过来之后TiDB Server 负责 解析,优化,编译 这…

记录一次使用git无权限的问题排查

正常的配置了公私钥之后,在gitlab中也存储了配对的公钥,但当使用git clone 时,总是报无权限 由于在这台机器中添加了多个公私钥,有点复杂,我们可以使用命令 ssh -vvvT 调试一下 ssh -vvvT yourGitlabAddr

python调用GPT-4o实时音频 Azure OpenAI GPT-4o Audio and /realtime

发现这块网上信息很少,记录一下 微软azure入口 https://learn.microsoft.com/zh-cn/azure/ai-services/openai/realtime-audio-quickstart?pivotsprogramming-language-ai-studio sdk文档 https://github.com/azure-samples/aoai-realtime-audio-sdk?tabread…

fastadmin 后台插件制作方法

目录 一:开发流程 二:开发过程 (一):后台功能开发 (二):功能打包到插件目录 (三):打包插件 (四):安装插件…

Kafka单机及集群部署及基础命令

目录 一、 Kafka介绍1、kafka定义2、传统消息队列应用场景3、kafka特点和优势4、kafka角色介绍5、分区和副本的优势6、kafka 写入消息的流程 二、Kafka单机部署1、基础环境2、iptables -L -n配置3、下载并解压kafka部署包至/usr/local/目录4、修改server.properties5、修改/etc…

Docker部署的gitlab升级的详细步骤(升级到17.6.1版本)

文章目录 一、Gitlab提示升级信息二、老版本的docker运行gitlab命令三、备份老版本Gitlab数据四、确定升级路线五、升级(共分3个版本升级)5.1 升级第一步(17.1.2 > 17.3.7)5.2 升级第二步(17.3.7 > 17.5.3)5.3 升级第三步(17.5.3 > 17.6.1) 六、web端访问gitlab服务 一…

在Java的xml的sql语句里面的某一个参数是list集合的时候

经常在Java里面,遇到这样的问题,sql的一个查询语句,它的某一个参数是一个List集合,然而,在xml.mapper文件里面的时候,不知道如何去组成这个查询语句,不知道兄弟们是否经常忘记如何去写这个语句&…

前端技术(23) : 聊天页面

来源: GPT生成之后微调 效果图 HTML代码 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>聊天</t…

内存图及其画法

所有的文件都存在硬盘上&#xff0c;首次使用的时候才会进入内存 进程&#xff1a;有自己的Main方法&#xff0c;并且依赖自己Main运行起来的程序。独占一块内存区域&#xff0c;互不干扰。内存中有一个一个的进程。 操作系统只认识c语言。操作系统调度驱动管理硬件&#xff0…