Query Rewrite —— 基于大模型的query扩展改写,如何减少LLM的幻觉问题,召回提升15%(北大论文)

北大论文,关于使用模型进行query扩展,提升召回率。并且合理解决模型的幻觉问题。

论文地址:SYNERGISTIC INTERPLAY BETWEEN SEARCH AND LARGE LANGUAGE MODELS FOR INFORMATION RETRIEVAL

一、论文的核心思想

如何有效的丰富扩展query,是一个提升召回率的关键问题。在大模型时代到来后,大家都开始使用LLM来扩展query。尽管LLM具有显著的文本生成能力,但它也容易产生幻觉,仍然难以代表其训练语料库中包含的完整的长尾知识。

在北大的论文中,介绍了通过检索和大模型的结果,提升召回率的方法。论文提出:为了缓解上述模型的幻觉问题,方案是由原始query检索到的文档D,将D提供给模型,作为辅助材料,再让模型生成新的query。先进行一次普通检索,召回数据有可能帮助llm做出更好的预测。相比较由原始query生成假设性回答,是一个不一样的思路。在论文中,看到此方法提示了15%的top10的召回率(但是我个人认为这样做也有问题,如果在第一次召回的文档和query的内容不相关怎么?)

二、如何使用LLM来扩展query

论文中的流程图如下图所示,其中红框的部分是我标记的,我个人认为这部分是不执行的。否则和论文中描述的思路就不一样了。应该是先拿原始query做召回(可以做BM25召回和稀疏向量的召回),然后只取top1的结果,送给模型,让模型基于召回的内容,以及原始query重新生成一个query,然后再用新生成的query再执行一次普通查询。最后将结果给召回。

 为此,我去看了源代码(源码地址:https://github.com/Cyril-JZ/InteR/blob/master/main.py)。的确和上述的图的流程是一样的。它第一次就拿着query,去生成一个假设性回答。

Prompt是这样构建的:

Please write a passage to answer the question\nQuestion: {}\nPassage:

 也就是走了红框的逻辑,之后拿着模型的输出结果,去执行Bm25的查询。

上述提到过,把搜索召回的结果,作为依据,来让模型重新生成假设性回答。在如下的prompt中,query就是原始的query,passage就是第一次query召回的内容。

Give a question {query} and its possible answering passages {passages}
Please write a correct answering passage:

然后再拿着模型生成的query去做BM25检索。召回的结果作为最终的响应结果,结束整个流程

三、细节问题

在论文中,GTP模型下,第一次BM25召回top15。Vicuna-33B-v1.3模型下,召回top5。对于召回的数据,只取256个token。并且让模型输出的结果的最大token数为256。

论文中,还讨论的循环迭代的次数。最终的结果和上图一样。循环两次效果是最好的。也就是过两次模型,做两次检索。

论文中还讨论了召回是使用Bm25稀疏召回还是稠密向量召回,稠密向量召回的方式,效果会更好一些。虽然稠密向量召回效果更好,但是还是要考虑到效率的问题。组中均采用BM25 的召回。

四、效果如何

在论文中对比了开源的LLM  Vicuna-33B-v1.3,已经chatGPT的 Vicuna-33B-v1.3。论文中的效果相比较BM25,还是有非常明显的提升效果。基本上大于15%,其中开源的模型和chatGPT相差不大。

 

 测试数据说明

采用了广泛使用的网络搜索查询集TREC深度学习2019(DL‘19)(克拉斯维尔等人,2020)和TREC深度学习2020(DL’20)(克拉斯维尔等人,2021),它们基于MS-MARCO(Bajaj等人,2016)。此外,我们还使用了来自BEIR基准(Thakur等人,2021)的6个不同的低资源检索数据集,符合(高等人,2023),包括SciFact(事实核查)、ArguAna(参数检索)、TREC-covid(生物医学IR)、FiQA(财务问题回答)、DBPedia(实体检索)和TREC-NEWS(新闻检索)。值得指出的是,我们没有使用任何训练查询-文档对,因为我们在零镜头设置中进行检索,并在这些测试集上直接评估我们提出的方法。与之前的工作一致,我们报告了TREC DL‘19和DL’20数据的MAP、nDCG@10和Recall@1000(R@1k),并且在BEIR基准测试中的所有数据集都使用了nDCG@10。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/691684.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Datawhale零基础入门金融风控Task1 赛题理解

Task1 赛题理解 Tip:本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第四场 —— 零基础入门金融风控之贷款违约预测挑战赛。 赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项…

qt QTableWidget 表头没有间隔

使用时,发现表头没有间隔线 表头样式表设置为: /*设置表格整体样式*/ QTableView{border:1px solid #A1B7CF;background-color:#FFFFFF; /*注意:设置下面值时不要再设置background-color,不然会被覆,不信你试试看!*/alternate-bac…

RHEL8提示需要注册才可以yum解决办法

关闭注册以及修改更新远(已注册的RHEL8忽略本步骤) 原因:因为没注册的红帽子是无法连接到官方的Yum源的 箭头所指的改成0 vi /etc/yum/pluginconf.d/subscription-manager.conf 箭头所指的改成0 cd /etc/yum.repos.d/ wget https://mirro…

DP读书:《openEuler操作系统》(十)套接字 Socket 数据传输的基本模型

10min速通Socket 套接字简介数据传输基本模型1.TCP/IP模型2.UDP模型 套接字类型套接字(Socket)编程Socket 的连接1.连接概述(1)基本概念(2)连接状态(3)连接队列 2.建立连接3.关闭连接 socket 编程接口介绍数据的传输1. 阻塞与非阻塞2. I/O复用 数据的传输…

虹科方案丨低负载ECU老化检测解决方案:CANCAN FD总线“一拖n”

来源:虹科汽车智能互联 虹科方案丨低负载ECU老化检测解决方案:CANCAN FD总线“一拖n” 原文链接:https://mp.weixin.qq.com/s/4tmhyE5hxeLFCiaeoRhlSg 欢迎关注虹科,为您提供最新资讯! #汽车总线 #ECU #CAN卡 导读 …

Linix与Windows上使用nc命令测试某一个服务器端口网络是否正常可访问详细安装及测试步骤

一、windows 1、下载nc安装包 https://nszyf.lanzoum.com/ihtqS0v0lwwh 2、下载后解压放置在自己电脑合适的位置,并且配置到环境变量中 3、配置成功环境变量,winr打开运行,输入cmd,回车,打开一个终端测试 测试成功…

【9-1】实验——Neo4j实战操作

目录 一、Neo4j操作——CQL 1、常用CQL命令 2.常用CQL函数 3.图数据的形式 二、实战代码1.create命令 2. MATCH命令 三、使用neo4j工具导入知识图谱 1、工具:neo4j-admin 2、图谱导入: 3、更新图谱: 一、Neo4j操作——CQL 1、常用…

JAVA高并发——锁的优化

文章目录 1、减少锁持有时间2、减小锁粒度3、用读写分离锁来替换独占锁4、锁分离5、锁粗化 锁是最常用的同步方法之一。在高并发的环境下,激烈的锁竞争会导致程序的性能下降,因此我们有必要讨论一些有关锁的性能的问题,以及一些注意事项&…

CSS-基础-MDN文档学习笔记

CSS构建基础 查看更多学习笔记:GitHub:LoveEmiliaForever MDN中文官网 CSS选择器 选择器是什么 CSS 选择器是 CSS 规则的第一部分,它用来选择HTML元素,选择器所选择的元素,叫做选择器的对象 选择器列表 如果有多…

Android轻量级进程间通信Messenger源码分析

一. 概述 Android中比较有代表性的两大通信机制:1. 线程间Handler通信 2. 进程间Binder通信,本篇文章中我们在理解AIDL原理的基础上来解读一下Messenger的源代码, 并结合示例Demo加深理解。 在看本篇文章前,建议先查阅一下笔者的…

举例说明什么是人机耦合

在呼叫中心行业,人机耦合是指将计算机自动化技术与人工服务相结合,以提高呼叫中心的效率和服务质量。具体来说,它包括通过智能语音识别、自然语言处理、机器学习等技术实现自动应答、自动导航、自动响应等功能,以及将人工客服与智…

【C++】类与对象(构造函数、析构函数、拷贝构造函数、常引用)

🌈个人主页:秦jh__https://blog.csdn.net/qinjh_?spm1010.2135.3001.5343🔥 系列专栏:http://t.csdnimg.cn/eCa5z 目录 类的6个默认成员函数 构造函数 特性 析构函数 特性 析构的顺序 拷贝构造函数 特性 常引用 前言 &…

力扣94 二叉树的中序遍历 (Java版本) 递归、非递归

文章目录 题目描述递归解法非递归解法 题目描述 给定一个二叉树的根节点 root ,返回 它的 中序 遍历 。 示例 1: 输入:root [1,null,2,3] 输出:[1,3,2] 示例 2: 输入:root [] 输出:[] 示…

微信小程序-绑定数据并在后台获取它

如图 遍历列表的过程中需要绑定数据&#xff0c;点击时候需要绑定数据 这里是源代码 <block wx:for"{{productList}}" wx:key"productId"><view class"product-item" bindtap"handleProductClick" data-product-id"{{i…

Vue3实现带动画效果的tab栏切换

效果图如下所示&#xff1a; 实现思路&#xff1a; 其实很简单 1、首先切换tab栏时tab标签激活下标与对应显示内容下标要一致。 2、其次点击tab栏切换时更新下标 3、最后就是css添加动画效果 这样就了&#xff01;&#xff01;&#xff01; 上全部代码 <template><…

Profibus转ModbusRS485网关在空调系统应用

随着我国工业自动化整体水平的不断提高&#xff0c;企业中的控制系统和控制设备的种类越来越多&#xff1b;同时随着市场经济的发展&#xff0c;各个企业也对DCS系统能将控制系统的各个运行参数实时传送到上位机的系统中进行加工处理&#xff0c;这对DCS系统提出了通讯问题。开…

《Solidity 简易速速上手小册》第5章:智能合约的安全性(2024 最新版)

文章目录 5.1 安全性的重要性5.1.1 基础知识解析深入理解安全性的多维度影响智能合约安全的关键要素 5.1.2 重点案例&#xff1a;防止重入攻击案例 Demo&#xff1a;构建一个防重入的提款合约案例代码WithdrawContract.sol 测试和验证拓展功能 5.1.3 拓展案例 1&#xff1a;预防…

Day50 739每日温度 496下一个更大元素I 503下一个更大元素II

739 每日温度 请根据每日 气温 列表&#xff0c;重新生成一个列表。对应位置的输出为&#xff1a;要想观测到更高的气温&#xff0c;至少需要等待的天数。如果气温在这之后都不会升高&#xff0c;请在该位置用 0 来代替。 例如&#xff0c;给定一个列表 temperatures [73, 7…

面试经典150题——生命游戏

​"Push yourself, because no one else is going to do it for you." - Unknown 1. 题目描述 2. 题目分析与解析 2.1 思路一——暴力求解 之所以先暴力求解&#xff0c;是因为我开始也没什么更好的思路&#xff0c;所以就先写一种解决方案&#xff0c;没准写着写…

22-k8s中pod的调度-亲和性affinity

一、概述 在k8s当中&#xff0c;“亲和性”分为三种&#xff0c;节点亲和性、pod亲和性、pod反亲和性&#xff1b; 亲和性分类名称解释说明nodeAffinity节点亲和性通过【节点】标签匹配&#xff0c;用于控制pod调度到哪些node节点上&#xff0c;以及不能调度到哪些node节点上&…