大语言模型-文本检索任务基准 BEIR

BEIR

(A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models)
文本检索任务的基准,使用18 个数据集为检索系统的零样本评估提出了一个标准化基准, BEIR 基准上在9个不同领域的检索任务评估 10 种不同的检索方法

九个不同领域的检索任务,如下:

  • 1、事实核查(Fact checking)
  • 2、引文预测(Citation prediction)
  • 3、重复问题检索(Duplicate question retrieval)
  • 4、论据检索(Argument retrieval)
  • 5、新闻检索(News retrieval)
  • 6、问题回答(Question Answering)
  • 7、推文检索(Tweet retrieval)
  • 8、生物医学检索(Bio-Medical IR)
  • 9、实体检索(Entity retrieval)
    在这里插入图片描述

BEIR来评估来自五大架构的十种不同的检索方法,其中的五大架构如下:

  • 1、词法(lexical)
  • 2、稀疏(sparse)
  • 3、密集(dense)
  • 4、后期交互(late interaction)
  • 5、重排序(re-ranking)

BEIR来评估的十种不同的检索方法,如下:

  1. BM25 (Anserini) https://github.com/castorini/anserini
  2. DeepCT http://boston.lti.cs.cmu.edu/appendices/arXiv2019-DeepCT-Zhuyun-Dai/
  3. SPARTA https://huggingface.co/BeIR/sparta-msmarco-distilbert-base-v1
  4. DocT5query https://huggingface.co/BeIR/query-gen-msmarco-t5-base-v1
  5. DPR (Query) https://huggingface.co/sentence-transformers/facebook-dpr-question_encoder-multiset-base
  6. DPR (Context) https://huggingface.co/sentence-transformers/facebook-dpr-ctx_encoder-multiset-base
  7. ANCE https://huggingface.co/sentence-transformers/msmarco-roberta-base-ance-firstp
  8. TAS-B https://huggingface.co/sentence-transformers/msmarco-distilbert-base-tas-b
  9. ColBERT https://public.ukp.informatik.tu-darmstadt.de/thakur/BEIR/models/ColBERT/msmarco.psg.l2.zip
  10. MiniLM-L6 (CE) https://huggingface.co/cross-encoder/ms-marco-MiniLM-L-6-v2
(1)BEIR基准的十种不同的检索方法在领域上数据集上的表现:

在这里插入图片描述

(1)BEIR基准的十种不同的检索方法的性能开销

在这里插入图片描述

结论:

1、发现没有任何一种方法在所有的数据集上都能持续胜过其他方法。
2、一个模型的领域内性能与它的泛化能力并不相关:用相同的训练数据进行微调的模型可能会有不同的泛化能力。
3、发现性能和计算成本之间的权衡:计算成本高的模型,如重排模型和后期交互模型表现最好。更有效的方法,如基于密集或稀疏嵌入的方法,可以大大低于传统的词汇模型,如BM25的表现。
4、未来的工作需要更好的无偏见的数据集,允许对所有类型的检索系统进行公平的比较。

参考

BEIR: A Heterogeneous Benchmark for Zero-shot
Evaluation of Information Retrieval Models

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/48391.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

义务外贸wordpress独立站主题

健身器材wordpress网站模板 跑步机、椭圆机、划船机、动感单车、健身车、深蹲架、龙门架、健身器材wordpress网站模板。 https://www.jianzhanpress.com/?p4251 农业机械wordpress网站模板 植保机械、畜牧养殖机械、农机配件、土壤耕整机械、农业机械wordpress网站模板。 …

2.1.卷积层

卷积 ​ 用MLP处理图片的问题:假设一张图片有12M像素,那么RGB图片就有36M元素,使用大小为100的单隐藏层,模型有3.6B元素,这个数量非常大。 识别模式的两个原则: 平移不变性(translation inva…

K8S 部署jaeger-operator,与其演示项目hotrod

最近在研究observabilty在K8S环境的onboard,查阅了一些资料,发现现在网上Prometheus/Metrics相关的资源,是比较全面的,而Trace相关的部分不是很全面,所以写下这篇博文,以做备忘和分享。 组件介绍 我这里选…

Excel的操作

Excel的操作 一、Excel的作用 Excel是一款功能强大的电子表格软件,主要用于数据处理和分析。 二、Excel的基础操作 新建文档 一般情况下,就在桌面空白处,点击鼠标右键,即可新建 三、页面布局 1、快速访问工具栏 主要包含&am…

为 android编译 luajit库、 交叉编译

时间:20200719 本机环境:iMac2017 macOS11.4 参考: 官方的文档:Use the NDK with other build systems 写在前边:交叉编译跟普通编译类似,无非是利用特殊的编译器、链接器生成动态或静态库; make 本质上是按照 Make…

ssm 学习 ---(spring)

一、spring框架 1、基本框架 2、Beanfactory快速入门 配置清单:xml文件 (1) 导入jar包或者maven坐标 (2) 定义UserService接口以及UserService实现类 (3) 创建bean.xml配置文件,将UserService信息配置到该xml文件中; (4)编写测试代码,创…

ubuntu lxqt触摸屏旋转校准(usb触摸屏、lxqt、ubuntu23.10)

参考文章:https://www.codetd.com/article/5651388 1.查看触摸屏驱动 rootxyy:~# xinput list ⎡ Virtual core pointer id2 [master pointer (3)] ⎜ ↳ Virtual core XTEST pointer id4 [slave pointer (2)…

如何根据同一行的ID利用R语言对值进行求和

需求:将属于同一分组的对应的值进行求和或者求平均值 #设置工作目录 > getwd() [1] "C:/Users/86150/Documents" > setwd("C:/Users/86150/Desktop/AA2024/RUF") > list.files() #读取文件 >install.packages("readxl")…

基于NeRF的路面重建算法——RoME / EMIE-MAP / RoGS

基于NeRF的路面重建算法——RoME / EMIE-MAP / RoGS 1. RoMe1.1 Mesh Initialization / Waypoint Sampling1.2 Optimization1.3 Experiments 2. EMIE-MAP2.1 Road Surface Representation based on Explicit mesh and Implicit Encoding2.2 Optimizing Strategies2.3 Experimen…

在 CI/CD Pipeline 中实施持续测试的最佳实践!

随着软件开发周期的不断加快,持续集成(CI)和持续交付/部署(CD)已经成为现代软件开发的重要组成部分。在这一过程中,持续测试的实施对于确保代码质量、提高发布效率至关重要。本文将详细介绍在CI/CD流水线中…

JVM:JavaAgent技术

文章目录 一、Java工具的介绍二、Java Agent技术1、介绍2、静态加载模式3、动态加载模式 三、搭建java agent静态加载模式环境1、创建maven项目2、编写类和premain方法3、编写MANIFEST.MF文件4、使用maven-assembly-plugin进行打包5、创建Spring Boot应用 一、Java工具的介绍 …

mac数据恢复软件哪个好用 macbook数据恢复专业软件下载 mac数据恢复概率大吗 苹果电脑数据恢复软件哪个好

作为办公的必需品,mac的普及率虽然比不上其他品牌的windows操作系统,但是使用人群也一致居高不下,因此,mac数据丢失的问题也时常发生。当数据丢失以后,如何找回数据成了一大难题。 一、Mac数据恢复概率大吗 一般情况下…

配置mysql8.0.21版本docker-compose启动容器

1. 总览 2 docker-compose.xml配置 version: 3 services:mysql:image: 192.168.188.131:8000/mysqlrestart: alwaysvolumes:- ./data:/var/lib/mysql- ./my.cnf:/etc/mysql/my.cnf- ./mysql-files:/var/lib/mysql-files- ./log/mysql:/var/log/mysqlenvironment:MYSQL_ROOT_PA…

huawei USG6001v1学习----NAT和智能选路

目录 1.NAT的分类 2.智能选路 1.就近选路 2.策略路由 3.智能选路 NAT:(Network Address Translation,网络地址转换) 指网络地址转换,1994年提出的。NAT是用于在本地网络中使用私有地址,在连接互联网时转而使用全局…

【MySQL】一些业务场景常见的查询,比如实现多表字段同步,递归查询等

目录 快速加注释多表关联查询更新多个字段循环查询子级方法1:递归查询方法2:循环查询 快速加注释 使用ALTER TABLE语句可以修改表结构,包括添加注释。以下是添加注释的语法: ALTER TABLE 表名 MODIFY COLUMN 列名 列类型 COMMEN…

【数据结构初阶】顺序表三道经典算法题(详解+图例)

Hello!很高兴又见到你了~~~ 看看今天要学点什么来充实大脑吧—— 目录 1、移除元素 【思路图解】 【总结】 2、删除有序数组中的重复项 【思路图解】 【总结】 3、合并两个有序数组 【思路图解】 【总结】 至此结束,Show Time! 1、…

TCP/IP协议,以及对等网络通信原理!

TCP/IP模型协议分层 应用层: HTTP:超文本传输协议(网站访问WEB)(Apache、nginx)(IIS) FTP:文件传输协议(网络文件传输) TFTP:简单文件传输协议&#xff0…

神经网络理论(机器学习)

motivation 如果逻辑回归的特征有很多,会造出现一些列问题,比如: 线性假设的限制: 逻辑回归是基于线性假设的分类模型,即认为特征与输出之间的关系是线性的。如果特征非常多或者特征与输出之间的关系是非线性的&#…

【云原生】Kubernetes微服务Istio:介绍、原理、应用及实战案例

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,…

数据恢复篇:适用于 Android 视频恢复的 6 个工具

在智能手机这个动态的世界里,每一刻都被捕捉并以数字方式存储,丢失珍贵的视频可能是一种令人心碎的经历。不必担心,因为 Android 生态系统提供了大量旨在挽救这些珍贵回忆的视频恢复应用程序。 这些应用程序是强大的工具,旨在挽救…