LiT and Lean: Distilling Listwise Rerankers intoEncoder-Decoder Models

LiT and Lean: Distilling Listwise Rerankers intoEncoder-Decoder Models

diannao/2025/4/8 9:24:42/文章来源:https://blog.csdn.net/qq_38423732/article/details/147050148

文章：ECIR 2025会议

一、动机

背景：利用LLMs强大的能力，将一个查询（query）和一组候选段落作为输入，整体考虑这些段落的相关性，并对它们进行排序。

先前的研究基础上进行扩展 [14,15]，这些研究使用 RankGPT 作为教师模型，将排序结果蒸馏到 listwise 学生重排序模型中。其中一个代表性模型是 RankZephyr [15]，它在排序效果上缩小了与 GPT-4 的差距，甚至在某些情况下超过了这个闭源的教师模型。

大型语言模型（LLMs）推动了listwise重排序研究的发展，并取得了令人印象深刻的最先进成果。然而，这些模型庞大的参数数量和有限的上下文长度限制了其在重排序任务中的效率。

二、解决方法

LiT5模型架构：

模型遵循 FiD 架构，编码器会将每个段落与查询（query）逐对分别编码。对于每个查询–段落对，输入提示（prompt）的格式如下：

以 Search Query: 开头，接着是查询内容；
然后是 Passage:，后面带有一个唯一的编号（例如 [1]、[2]）；
最后是该段落的文本；
提示的结尾是 Relevance Ranking:，用于引导模型生成排序结果。

解码器随后会对所有段落的编码表示进行处理，根据与查询的相关性，生成一个按编号排序的结果（从最相关到最不相关），例如：“3 1 2 ...”。

LiT5 模型的设计和创新，它通过采用 RankZephyr 作为教师模型，利用 FiD 架构 和 蒸馏技术，有效地训练了一个能够处理更多段落（最多100个段落）的高效排序模型，突破了传统模型在处理段落数量上的限制，并且能够节省计算成本。

三、训练模型

数据集：

MS MARCO v1 passage ranking 数据集中随机抽取了 20K 个查询，对于每个查询，我们从 MS MARCO v1 和 v2 数据集中各自检索了 100 个段落。

实验结果：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/77026.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Python高级爬虫之JS逆向+安卓逆向1.2节: 变量与对象

Python高级爬虫之JS逆向+安卓逆向1.2节: 变量与对象

目录引言： 1.2.1 Python中的变量 1.2.2 变量的命名与可读性 1.2.3 Python中的对象 1.2.4 跟大神学高级爬虫安卓逆向引言： 大神薯条老师的高级爬虫安卓逆向教程： 这套爬虫教程会系统讲解爬虫的初级，中级，高级知…

阅读更多...

可发1区的超级创新思路（python 实现）：一种轻量化的动态稀疏门控网络

可发1区的超级创新思路（python 实现）：一种轻量化的动态稀疏门控网络

首先声明，该模型为原创！原创！原创！且该思路还未有成果发表，感兴趣的小伙伴可以借鉴！一、应用领域视频异常检测、生成视频检测。二、模型解析该模型由1.关键帧动态选择机制、2.关键帧动态选择机制以及3.关键帧动态选择机制三大核心组件构成，形成端到端的视频异常…

阅读更多...

使用NVM下载Node.js管理多版本

使用NVM下载Node.js管理多版本

提示：我解决这个bug跟别人思路可能不太一样，因为我是之前好用，换个项目就不好使了，倦了文章目录前言项目场景一项目场景二解决方案：下载 nvm安装 nvm重新下载所需Node 版本nvm常用命令项目结构说明前言提示&…

阅读更多...

MySQL数据库经典面试题解析

MySQL数据库经典面试题解析

1. MySQL 索引使用有哪些注意事项呢？可以从三个维度回答这个问题：索引哪些情况会失效，索引不适合哪些场景，索引规则索引哪些情况会失效查询条件包含or，可能导致索引失效如何字段类型是字符串，where时一定用引号括起来，否则索引失效like通配符可能导致索引失效。联合…

阅读更多...

C#结合SQLite数据库使用方法

C#结合SQLite数据库使用方法

一、关于SQLite SQLite 是一个轻量级的嵌入式关系型数据库管理系统（RDBMS）。与传统的数据库管理系统（如 MySQL、PostgreSQL 或 SQL Server）不同，SQLite 并不需要运行单独的服务器进程，它的数据库存储在一个…

阅读更多...

深入解析 MySQL 中的日期时间函数：DATE_FORMAT 与时间查询优化

深入解析 MySQL 中的日期时间函数：DATE_FORMAT 与时间查询优化

深入解析 MySQL 中的日期时间函数：DATE_FORMAT 与时间查询优化在数据库管理和应用开发中，日期和时间的处理是不可或缺的一部分。MySQL 提供了多种日期和时间函数来满足不同的需求，其中DATE_FORMAT函数以其强大的日期格式化能力，…

阅读更多...

如何深刻理解Reactor和Proactor

如何深刻理解Reactor和Proactor

前言： 网络框架的设计离不开 I/O 线程模型，线程模型的优劣直接决定了系统的吞吐量、可扩展性、安全性等。目前主流的网络框架，在网络 IO 处理层面几乎都采用了I/O 多路复用方案(又以epoll为主)，这是服务端应对高并发的性能利器。 …

阅读更多...

笔试专题（七）

笔试专题（七）

文章目录乒乓球筐（哈希）题解代码组队竞赛题解代码删除相邻数字的最大分数（线性dp）题解代码乒乓球筐（哈希） 题目链接题解 1. 两个哈希表先统计第一个字符串中的字符个数，再统计第二个字…

阅读更多...

清晰易懂的 Flutter 卸载和清理教程

清晰易懂的 Flutter 卸载和清理教程

以下是为 Flutter 彻底卸载与清理教程，覆盖 Windows、macOS、Linux 系统，步骤清晰无残留，确保完全删除 Flutter SDK、依赖工具及 IDE 配置。一、通用步骤：确认 Flutter 安装方式 Flutter 通常通过以下方式安装： 手动…

阅读更多...

关于反卷积

关于反卷积

🧠 什么是反卷积？ 反卷积（Deconvolution），通常也称为转置卷积（Transpose Convolution），是一种用于扩展输入特征图的操作，通常用于生成图像或上采样任务中。与标准卷积操…

阅读更多...

【机器学习】ROC 曲线与 PR 曲线

【机器学习】ROC 曲线与 PR 曲线

目录一、混淆矩阵：分类评估的基础二. ROC 曲线 (Receiver Operating Characteristic Curve) 三. PR 曲线 (Precision-Recall Curve) 3.1 核心思想 4. 何时使用 ROC 曲线和 PR 曲线？ 实验结果 6. 总结在机器学习的分类任务中，我们训…

阅读更多...

Python高阶函数-map

Python高阶函数-map

map() 是 Python 内置的一个高阶函数，它接收一个函数和一个可迭代对象作为参数，将函数依次作用在可迭代对象的每个元素上，并返回一个迭代器（Python 3.x 中）。基本语法 map(function, iterable, ...)function: 应用于…

阅读更多...

上海餐饮市场数据分析与可视化

上海餐饮市场数据分析与可视化

上海作为中国的经济中心和国际化大都市，其餐饮市场具有高度的多样性和竞争性。随着消费者需求的不断变化，餐饮行业的从业者和投资者需要深入了解市场现状和趋势，以便制定更有效的商业策略。本文将通过数据分析和可视化技术，深入探讨上海餐饮市场的现状和趋势，为餐饮从业者…

阅读更多...

MySQL基础 [五] - 表的增删查改

MySQL基础 [五] - 表的增删查改

目录 Create（insert） Retrieve（select） where条件编辑 NULL的查询结果排序(order by) 筛选分页结果 (limit) Update Delete 删除表截断表（truncate） 插入查询结果（insertselect&…

阅读更多...

SQL：Primary Key（主键）和Foreign Key（外键）

SQL：Primary Key（主键）和Foreign Key（外键）

目录 1. Key（键） 2. Index（索引） 3.Key和Index的区别 4. Primary Key（主键） 5. Foreign Key（外键） 6.主键和外键的关系温馨提示： 闪电按钮不同的执行功能首先&…

阅读更多...

2025年- H1-Lc109-160. 相交列表--java版

2025年- H1-Lc109-160. 相交列表--java版

1.题目描述 2.思路 “双指针切换链表头” 思路一：双指针路径对齐 while (pA ! pB) { pA (pA null) ? headB : pA.next; pB (pB null) ? headA : pB.next; } 让两个指针走相同的总路径长度！ 设： 链表 A 独有部分长度是 lenA 链表 B …

阅读更多...

PyTorch 深度学习 || 6. Transformer | Ch6.3 Transformer 简单案例

PyTorch 深度学习 || 6. Transformer | Ch6.3 Transformer 简单案例

1. 简单案例这个代码是一个简单的 Transformer 模型的实现，这个例子展示了一个基本的序列到序列（seq2seq）任务，比如将一个数字序列转换为另一个数字序列。可以用于学习和理解 Transformer 的基本结构和工作原理。 import torch import torch.nn as nn import math# 位置…

阅读更多...

基础算法篇(4)(蓝桥杯常考点)—数据结构（进阶）

基础算法篇(4)(蓝桥杯常考点)—数据结构（进阶）

前言这期将会讲到基础算法篇里面的数据结构（进阶），主要包括单调栈，单调队列，并查集，扩展域并查集，带权并查集，字符串哈希，Trie树。数据结构(进阶）正文单…

阅读更多...

【AI学习】初步了解Gradio

【AI学习】初步了解Gradio

Gradio 是一个开源的 Python 库，专注于快速构建交互式 Web 界面，特别适用于机器学习模型、数据科学项目或任意 Python 函数的演示与部署。它通过极简的代码实现前后端一体化，无需前端开发经验即可创建功能丰富的应用。以下是 Gradio 的核心特…

阅读更多...

Overleaf 论文提交 Arxiv

Overleaf 论文提交 Arxiv

Contents References 清除 Overleaf 中所有编译 error，并且保证 main.tex 文件在 project 最上层参考文件 .bib 转 .bbl. project 编译成功后可以在 Overleaf 的 Recompile 按钮右侧找到 “Logs and output files”，点进去之后右下角可以点开 “Other lo…

阅读更多...

最新文章