大语言模型-文本检索任务基准 BEIR

BEIR

(A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models)
文本检索任务的基准,使用18 个数据集为检索系统的零样本评估提出了一个标准化基准, BEIR 基准上在9个不同领域的检索任务评估 10 种不同的检索方法

九个不同领域的检索任务,如下:

  • 1、事实核查(Fact checking)
  • 2、引文预测(Citation prediction)
  • 3、重复问题检索(Duplicate question retrieval)
  • 4、论据检索(Argument retrieval)
  • 5、新闻检索(News retrieval)
  • 6、问题回答(Question Answering)
  • 7、推文检索(Tweet retrieval)
  • 8、生物医学检索(Bio-Medical IR)
  • 9、实体检索(Entity retrieval)
    在这里插入图片描述

BEIR来评估来自五大架构的十种不同的检索方法,其中的五大架构如下:

  • 1、词法(lexical)
  • 2、稀疏(sparse)
  • 3、密集(dense)
  • 4、后期交互(late interaction)
  • 5、重排序(re-ranking)

BEIR来评估的十种不同的检索方法,如下:

  1. BM25 (Anserini) https://github.com/castorini/anserini
  2. DeepCT http://boston.lti.cs.cmu.edu/appendices/arXiv2019-DeepCT-Zhuyun-Dai/
  3. SPARTA https://huggingface.co/BeIR/sparta-msmarco-distilbert-base-v1
  4. DocT5query https://huggingface.co/BeIR/query-gen-msmarco-t5-base-v1
  5. DPR (Query) https://huggingface.co/sentence-transformers/facebook-dpr-question_encoder-multiset-base
  6. DPR (Context) https://huggingface.co/sentence-transformers/facebook-dpr-ctx_encoder-multiset-base
  7. ANCE https://huggingface.co/sentence-transformers/msmarco-roberta-base-ance-firstp
  8. TAS-B https://huggingface.co/sentence-transformers/msmarco-distilbert-base-tas-b
  9. ColBERT https://public.ukp.informatik.tu-darmstadt.de/thakur/BEIR/models/ColBERT/msmarco.psg.l2.zip
  10. MiniLM-L6 (CE) https://huggingface.co/cross-encoder/ms-marco-MiniLM-L-6-v2
(1)BEIR基准的十种不同的检索方法在领域上数据集上的表现:

在这里插入图片描述

(1)BEIR基准的十种不同的检索方法的性能开销

在这里插入图片描述

结论:

1、发现没有任何一种方法在所有的数据集上都能持续胜过其他方法。
2、一个模型的领域内性能与它的泛化能力并不相关:用相同的训练数据进行微调的模型可能会有不同的泛化能力。
3、发现性能和计算成本之间的权衡:计算成本高的模型,如重排模型和后期交互模型表现最好。更有效的方法,如基于密集或稀疏嵌入的方法,可以大大低于传统的词汇模型,如BM25的表现。
4、未来的工作需要更好的无偏见的数据集,允许对所有类型的检索系统进行公平的比较。

参考

BEIR: A Heterogeneous Benchmark for Zero-shot
Evaluation of Information Retrieval Models

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/48391.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

义务外贸wordpress独立站主题

健身器材wordpress网站模板 跑步机、椭圆机、划船机、动感单车、健身车、深蹲架、龙门架、健身器材wordpress网站模板。 https://www.jianzhanpress.com/?p4251 农业机械wordpress网站模板 植保机械、畜牧养殖机械、农机配件、土壤耕整机械、农业机械wordpress网站模板。 …

解决前端开发中的浏览器兼容性问题

在前端开发中,浏览器兼容性问题是一个常见且挑战性的课题。不同的浏览器对HTML、CSS和JavaScript的解析和支持程度各有不同,这可能导致网站或应用在不同浏览器上展现出不一致的效果,甚至功能上的错误。本文将讨论如何识别和解决这些浏览器兼容…

1.关于linux的命令

1.关于文件安装的问题 镜像站点服务器:cat /etc/apt/sources.list 索引文件:cd /var/lib/apt/lists 下载文件包存在的路径:cd /etc/cache/apt/archives/2.关于dpkg文件安装管理器的应用: 安装文件:sudo dpkg -i 文件名; 查找文件目录:sudo …

【Linux】vim编辑器使用详解

目录 一、vim编辑器简介二、 vim编辑器使用指南1.基本操作1.进入与退出2.模式切换 2.命令模式1.移动光标2.选择文本(可视模式)3.删除文字4.复制粘贴5.替换6.撤销 3.底行模式1.列出每行的行号2.跳转到某行3.查找字符4.保存文件5.退出vim 三、vim总结 一、…

oracle 11G long类型如何转换 CLOB

oracle 11G long类型如何转换 CLOB oracle 11G long类型如何转换 CLOBStep 1: 创建示例表并插入数据Step 2: 创建一个临时 CLOB 列,并将 LONG 数据复制到 CLOB 列.Step 3: 创建一个新表,将 CLOB 数据转换为 VARCHAR2(假设数据长度允许&#x…

Perl中的设计模式革新:命令模式的实现与应用

Perl中的设计模式革新:命令模式的实现与应用 在面向对象编程中,设计模式是解决特定问题的成熟模板。命令模式作为行为设计模式之一,它将请求封装为对象,从而允许用户根据不同的请求对客户进行参数化。本文将深入探讨如何在Perl中…

2.1.卷积层

卷积 ​ 用MLP处理图片的问题:假设一张图片有12M像素,那么RGB图片就有36M元素,使用大小为100的单隐藏层,模型有3.6B元素,这个数量非常大。 识别模式的两个原则: 平移不变性(translation inva…

K8S 部署jaeger-operator,与其演示项目hotrod

最近在研究observabilty在K8S环境的onboard,查阅了一些资料,发现现在网上Prometheus/Metrics相关的资源,是比较全面的,而Trace相关的部分不是很全面,所以写下这篇博文,以做备忘和分享。 组件介绍 我这里选…

Excel的操作

Excel的操作 一、Excel的作用 Excel是一款功能强大的电子表格软件,主要用于数据处理和分析。 二、Excel的基础操作 新建文档 一般情况下,就在桌面空白处,点击鼠标右键,即可新建 三、页面布局 1、快速访问工具栏 主要包含&am…

为 android编译 luajit库、 交叉编译

时间:20200719 本机环境:iMac2017 macOS11.4 参考: 官方的文档:Use the NDK with other build systems 写在前边:交叉编译跟普通编译类似,无非是利用特殊的编译器、链接器生成动态或静态库; make 本质上是按照 Make…

ssm 学习 ---(spring)

一、spring框架 1、基本框架 2、Beanfactory快速入门 配置清单:xml文件 (1) 导入jar包或者maven坐标 (2) 定义UserService接口以及UserService实现类 (3) 创建bean.xml配置文件,将UserService信息配置到该xml文件中; (4)编写测试代码,创…

ubuntu lxqt触摸屏旋转校准(usb触摸屏、lxqt、ubuntu23.10)

参考文章:https://www.codetd.com/article/5651388 1.查看触摸屏驱动 rootxyy:~# xinput list ⎡ Virtual core pointer id2 [master pointer (3)] ⎜ ↳ Virtual core XTEST pointer id4 [slave pointer (2)…

JVM 在什么情况下会触发垃圾回收?

垃圾回收在JVM中自动进行,通常在以下几种情况下触发: 1. 年轻代满了(Young Generation Full) 当年轻代的Eden区满了时,会触发Minor GC(也称为Young GC)。这是因为新创建的对象首先分配在Eden区…

【音视频】AAC编码器与ffmpeg生成AAC数据

文章目录 前言为什么使用AAC?AAC规格常见的AAC规格规格之间的区别 ffmpeg生成AAC数据 总结 前言 在音频压缩技术不断发展的过程中,AAC(Advanced Audio Coding)编码器因其出色的音质和压缩效率,逐渐成为数字音频领域的…

牛客周赛51:小红走矩阵(二分+bfs)

链接:登录—专业IT笔试面试备考平台_牛客网 来源:牛客网 题目描述 给定nnn \times nnn的矩阵,矩阵中的每个元素都是正整数,小红能当前位于左上角(1,1)(1,1)(1,1),每次可以从 (x,y)(x, y)(x,y) 走到 (x1,y)(x1, y)(…

为了实现接口缓存,专门写了个缓存库 f-cache-memory

问题起因 起因是某次发版之后,服务器接口压力过大,当场宕机,排查之后发现有个接口在首页被调十来次(六七年的老项目了,都是泪呀),后端反馈这个接口的sql很复杂,很耗性能&#xff0c…

如何根据同一行的ID利用R语言对值进行求和

需求:将属于同一分组的对应的值进行求和或者求平均值 #设置工作目录 > getwd() [1] "C:/Users/86150/Documents" > setwd("C:/Users/86150/Desktop/AA2024/RUF") > list.files() #读取文件 >install.packages("readxl")…

基于NeRF的路面重建算法——RoME / EMIE-MAP / RoGS

基于NeRF的路面重建算法——RoME / EMIE-MAP / RoGS 1. RoMe1.1 Mesh Initialization / Waypoint Sampling1.2 Optimization1.3 Experiments 2. EMIE-MAP2.1 Road Surface Representation based on Explicit mesh and Implicit Encoding2.2 Optimizing Strategies2.3 Experimen…

python报错RuntimeError: Numpy is not available

–> 141 audio torch.from_numpy(audio) 143 if device is not None: 144 audio audio.to(device) RuntimeError: Numpy is not available 使用python3.9和torch时,自动安装了Numpy2.0,一直报错, 解决方法:pip install nump…

如何在 Linux 中解压 ZIP 文件

ZIP 是一种常用的压缩文件格式,用于存储和传输多个文件。在 Linux 系统中,解压 ZIP 文件非常简单。 使用 unzip 命令 unzip 是一个专用于解压 ZIP 文件的命令行工具。要使用它,请打开终端并输入以下命令: 例如,要解…