自然语言处理:第三十五章Embedding 测评榜单MTEB

文章链接: [2210.07316] MTEB: Massive Text Embedding Benchmark (arxiv.org)

项目地址: mteb:MTEB: Massive Text Embedding Benchmark - GitCode

github地址: FlagEmbedding/C_MTEB at master · FlagOpen/FlagEmbedding (github.com)

Hugging Face Leadboard: MTEB Leaderboard - a Hugging Face Space by mteb



NLP的应用中,有一个最关键的步骤就是将文字/其他多模态的模型转换成词嵌入/向量化,而对应的这个模型便称之为Embedding模型。那么在这么多embedding模型里,如何评价好坏呢?本文就会介绍,MTEB(Massive Text Embedding Benchmark)是目前评测文本向量很重要的一个参考,其榜单也是各大文本向量模型用来展示与其他向量模型强弱的一个竞技台。C-MTEB则是专门针对中文文本向量的评测基准。本文介绍了 Massive Text Embedding Benchmark (MTEB),这是一个大规模的文本嵌入基准测试,旨在全面评估文本嵌入方法的性能。MTEB 覆盖了 8 种嵌入任务,包含 58 个数据集和 112 种语言。通过对 33 种模型的基准测试,MTEB 建立了迄今为止最全面的文本嵌入基准。研究发现,没有单一的文本嵌入方法能够在所有任务上都占据优势,这表明该领域尚未就通用文本嵌入方法达成共识,并且尚未将其扩展到足以在所有嵌入任务上提供最先进的结果。




MTEB

背景

随着人工智能和自然语言处理技术的飞速发展,文本嵌入技术已成为推动这些领域进步的重要工具。文本嵌入是将文本转换为密集向量表示的过程,这些向量能够捕捉文本中的语义信息,并使得文本之间的相似性和差异性可以通过向量之间的距离来度量。这种技术已被广泛应用于各种NLP任务中,如文本分类、聚类、搜索、问答等。

然而,文本嵌入模型的评估一直是一个挑战。传统的评估方法通常基于有限的数据集和单一的任务,这无法全面反映模型在真实世界应用中的泛化能力。此外,随着新的文本嵌入模型不断涌现,如何公平地比较不同模型之间的性能也变得越来越困难。

为了解决这些问题,研究人员提出了各种基准测试,以更全面地评估文本嵌入技术的性能。然而,这些基准测试往往存在局限性,例如涵盖的任务和数据集数量有限,或者仅关注于特定的应用场景。因此,需要一个更加全面、更加广泛的基准测试来评估文本嵌入技术的性能。




任务

MTEB 包含以下 8 种任务类型:

  1. Bitext Mining :寻找两种语言句子集之间的最佳匹配。输入是来自两种不同语言的两个句子集,对于来自第一个句子集的句子,找到在第二个子集中最匹配的句子。模型将句子编码成向量后用余弦相似度来寻找最相似的句子对。F1是主要的评估指标、Accuracy、precision、recall也一并计算了。
  2. Classification :使用嵌入模型训练逻辑回归分类器。训练集和测试集通过给定模型编码,测试集向量被用来训练一个LR分类器(最多100次迭代),然后使用测试集来打分,主要评估指标是accuracy with average precision,同时包括F1。
  3. Clustering :将句子或段落分组为有意义的簇。给定句子集或段落集,将其分组为有意义的簇。在编码后的文档上训练一个 mini-batch k-means 模型(batch size为32, k是不同标签的个数),然后使用v-meature为模型打分。
  4. Pair Classification :为一对文本输入分配标签,通常是二元变量,表示重复或释义对。输入是一对带标签的文本,两个文本被编码后计算多种距离:cosine similarity, dot product, euclidean distance, manhattan distance。接着使用最佳阈值来计算accuracy, average precision, f1, precision, recall。基于余弦相似度的平均精度是主要指标。
  5. Reranking :根据与查询的相关性对结果进行重新排序。输入是一个查询语句以及一个包含相关和不相关文本的列表。模型编码文本后比较与查询语句的余弦相似性。每个查询语句的分数都被计算并平均所有查询语句的分数。指标有平均 M R R @ k MRR@kMRR@k和MAP(主要指标)
  6. Retrieval :找到相关文档。每个数据集包括一个语料集,查询语句及其与语料中的相关文档的映射。模型编码所有查询语句和语料文档之后计算余弦相似度,对每一个查询语句的结果排序后计算k的多个取值所对应的nDCG@k, MRR@k, MAP@k, precision@k , recall@k。使用BEIR相同的设置,nDCG@10是主要指标。
  7. Semantic Textual Similarity (STS) :确定句子对的相似性。给定句子对计算它们的相似度,标签是连续得分(越大相似度越高)。模型编码句子后计算使用不同的距离指标计算它们的相似性,计算好的距离与标签相似度基准比较Pearson和Spearman相关性。主要指标是基于余弦相似度的Spearma
  8. Summarization :评估机器生成的摘要。包括一个手写摘要和机器生成摘要数据集,目标是给机器生成摘要打分。模型编码所有摘要,然后对于每一个机器生成摘要向量,计算其与所有手写摘要向量的距离,将相似度最大的分数作为单个机器生成摘要的分数,接下来与基准比较计算Pearson和Spearman相关性。主要指标是基于余弦相似度的Spearman相关性。


在 MTEB 上评估了超过 30 种模型,包括开源模型和通过 API 访问的模型,如 OpenAI Embeddings 端点。结果显示,不同的模型在不同的任务上表现各异,没有单一的最佳解决方案。例如,SimCSE 在 STS 上表现强劲,但在聚类和检索任务上表现不佳

在这里插入图片描述



MTEB中的数据集可以归为三类:

  • Sentence to sentence(S2S)
  • Paragraph to paragraph (P2P)
  • Sentence to paragraph (S2P)

MTEB基于如下需求构建:

  • 多样性Diversity,涵盖不同的任务、不同的语言、句子级别和篇章级别的数据集
  • 简单易用Simpilicity, 提供一个API可以应用于不同的模型
  • 可扩展性Extensibility,新数据集很容易加入到基准中
  • 可复现性Reproducibility,给数据集和软件添加版本使得很容易复现评测结果



C-MTEB

C-MTEB是为了评估中文文本向量,共收集了如上图所示的35个公共数据集,一共分为6类的评估任务:

  • retrieval,包括查询语句和语料库,对于每个查询,从语料库中查询最相似的top-k个文档,使用BEIR相同的设置,nDCG@10是主要指标。
  • re-ranking,包括查询语句和候选文档集(一个正样本和N个负样本),基于向量相似性来重排序,MAP是主要指标。
  • STS (semantic textual similarity),基于向量相似度比较两个句子的相关性,计算了Spearman 相关性并作为主要指标。
  • classification,与MTEB一样。
  • pair classification,比较一对句子的相似性,使用平均精度作为主要指标。
  • clustering,评测方法与MTEB一样。向量在每个任务上的表现是对应任务下所有数据集的平均指标来决定,而向量整体性能是所有数据集的平均值决定的。

在这里插入图片描述



使用方法代码

MTEB 的软件是开源的,允许通过添加不到 10 行代码来评估任何嵌入模型。下面简单的说一下使用方法:

安装

pip install mteb

使用

  • 使用python脚本(参考 scripts/run_mteb_english.py 和 mteb/mtebscripts):
  • import mteb
    from sentence_transformers import SentenceTransformer# 定义 sentence-transformers 模型名
    model_name = "average_word_embeddings_komninos"
    # 或直接从 Hugging Face 加载:
    # model_name = "sentence-transformers/all-MiniLM-L6-v2"model = SentenceTransformer(model_name)
    tasks = mteb.get_tasks(tasks=["Banking77Classification"])
    evaluation = mteb.MTEB(tasks=tasks)
    results = evaluation.run(model, output_folder=f"results/{model_name}")
    
  • 使用CLI命令行
mteb --available_tasksmteb -m sentence-transformers/all-MiniLM-L6-v2 \-t Banking77Classification  \--verbosity 3# 如果没有指定,默认将结果保存在 results/{model_name} 文件夹中
  • 并行使用多个 GPU 可以通过自定义编码函数实现,例如 此处 或 此处。
  • 其他高级用法可以参考官网mteb:MTEB: Massive Text Embedding Benchmark - GitCode


Leadboard

截至到本榜单更新时间: 24/06/05,MTEB Leaderboard - a Hugging Face Space by mteb 中文top10如下。

在这里插入图片描述



本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/27492.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

移动端超超超详细知识点总结(Part3)

flex布局体验 1. 传统布局与flex布局 传统布局: 兼容性好布局繁琐局限性,不能再移动端很好的布局flex 弹性布局: 操作方便,布局极为简单,移动端应用很广泛PC 端浏览器支持情况较差IE 11或更低版本,不支持…

Android开发AndroidStudio中创建Activity两种方法

本文讲解Android Studio中如何创建Activity。 目录 一、手动创建 二、自动创建 创建Activity分为手动和自动创建两种方法。 一、手动创建 创建步骤 1、在Layout目录下创建XML文件 Layout-New-Layout Resource file 打开对话框,编辑布局文件的名字&#xff0c…

JavaScript 进阶 - 第1天

文章目录 前言一、作用域1. 局部作用域1.1 函数作用域1.2 块作用域 2. 全局作用域3. 作用域链4. 闭包5. 变量提升 二、函数1. 函数提升2. 函数参数2.1 默认值2.2 动态参数2.3 剩余参数 3. 箭头函数 三、解构赋值1. 数组解构2. 对象解构 四、综合案例1. forEach遍历数组2. filte…

Capto2024软件怎么下载安装? 【详细安装图文教程】

Capto 2024是一款专为Mac用户设计的屏幕录制编辑软件。无论是想要制作教育视频、工作演示、游戏录制,还是进行简单的屏幕捕捉,Capto 2024都能满足您的需求。接下来,我将详细介绍其主要功能、特点以及使用场景,并为您评价这款软件。…

安装multisim14.0

前言 文件准备 软件安装 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 13、 14、汉化 15、在软件安装路径下打开”stringfiles“文件夹, Circuit Design Suite 14.0\stringfiles 16、 17、 18、 19、 20、运行multisim14.0

try-with-resources 工作原理

概述 try-with-resources 是 Java 7 引入的一种语法糖,用于简化资源管理,确保在使用资源后自动关闭它们。它是 try 语句的增强形式,可以在资源使用完毕后自动调用它们的 close() 方法,从而避免资源泄漏。 但这有个前提&#xff1…

Java多线程面试重点-2

16.Synchronized关键字加在静态方法和实例方法的区别? 修饰静态方法,是对类进行加锁(Class对象),如果该类中有methodA和methodB都是被Synch修饰的静态方法,此时有两个线程T1、T2分别调用methodA()和methodB()&#x…

对于千兆变压器(Gigabit Transformer)的设计

对于千兆变压器(Gigabit Transformer)的设计,以下是一些关键方面的详细说明: 1. **频率特性:** 千兆变压器需要能够在高频率下工作,通常在1 GHz以上。为了确保良好的性能,设计中需要选择合适的…

热门开源项目推荐:智谱GLM-4-9B和ChatGLM3-6B

目录 热门开源项目推荐:智谱GLM-4-9B和ChatGLM3-6B 1.引言 1.1 开源文化简介 1.2 开源项目的重要性 1.3 博客目的和读者价值 2.什么是开源项目? 2.1 开源定义 2.2 开源许可证类型 2.3 开源社区的作用 3.为什么程序员应该关注开源项目&#xff…

如何在Ubuntu 22.04中还原默认终端:解决无法打开终端的问题

我之前安装了xterm和新的Python,无法打开ubuntu自带的gnome-terminalle 。 终端应用崩溃: 试着通过其他方式打开终端,例如按下 CtrlAltT。 尝试使用其他终端模拟器,例如 xterm、konsole 或 gnome-terminal。可以通过 AltF2 然后…

IDM究竟有哪些优势?一探究竟,揭开下载利器的神秘面纱

在当今互联网信息爆炸的时代,下载工具已经成为我们日常生活中不可或缺的一部分。Internet Download Manager(IDM)以其强大的功能和高效的性能,赢得了广大用户的青睐。那么,IDM究竟有哪些优势使其在众多下载工具中脱颖而…

整蛊软件/插件使用方法与配置步骤~

今天出一期整蛊软件的使用方法与配置步骤 很多人在使用整蛊软件的时候 想自己添加更多的玩法内容 但是还不知道如何去配置 这期给大家出一下图文教程步骤 基本上也是软件的功能介绍使用方式~ 案例可扫码查看 第一步:打开软件输入卡密登录: 卡密费用&…

最经济实惠的通配符SSL证书是哪款?

网络安全已成为企业和个人网站运营者关注的焦点。SSL证书作为确保数据传输安全的关键工具,其重要性不言而喻。特别是通配符SSL证书,因其能够为一个主域名及其所有子域名提供统一的安全保护,而受到广泛欢迎。但面对市场上众多的SSL证书品牌和价…

[大模型]Qwen2-7B-Instruct 接入 LangChain 搭建知识库助手

环境准备 在 autodl 平台中租赁一个 3090 等 24G 显存的显卡机器,如下图所示镜像选择 PyTorch–>2.1.0–>3.10(ubuntu20.04)–>12.1 接下来打开刚刚租用服务器的 JupyterLab,并且打开其中的终端开始环境配置、模型下载和运行 demo。 pip 换源…

mysql中社区版如何杀死锁

在MySQL中,特别是社区版,当遇到锁问题时,你可能需要杀死锁定资源的进程来解决问题。以下是一些步骤和相关信息,用于在MySQL中杀死锁定的进程: 查看当前进程: 首先,你需要查看当前MySQL中的所有…

One能聊天接入百度千帆AppBuilder

One能聊天介绍:基于ChatGPT实现的微信小程序,适配H5和WEB端。包含前后端,支持打字效果输出流式输出,支持AI聊天次数限制,支持分享增加次数等功能One能聊天开源地址:https://github.com/oldinaction/ChatGPT-MPOne能聊天演示环境:可关注【阿壹族】公众号,并回复【One能聊…

MySQL复制机制详解:主从复制与GTID复制的配置与管理

引言: MySQL复制是MySQL数据库的一项重要功能,它允许数据从一个MySQL数据库服务器(被称为主服务器)复制到一个或多个MySQL数据库服务器(被称为从服务器)。主要目的是为了实现数据冗余和备份,提高数据的可用性和读取性能。 主从复制(Master-Slave Replication)是最常…

12_YouOnlyLookOnce(YOLOv3)新一代实时目标检测技术

1.1 回顾V1和V2 V1:05_YouOnlyLookOnce(YOLOV1)目标检测领域的革命性突破-CSDN博客 V2:07_YouOnlyLookOnce(YOLOv2)Better,Faster,Stronger-CSDN博客 1.2 简介 YOLOv3(You Only Look Once version 3)是…

spring boot jwt 实现用户登录完整java

spring boot jwt 实现用户登录完整java 登录校验逻辑 用户登录的校验逻辑分为三个主要步骤,分别是校验验证码,校验用户状态和校验密码,具体逻辑如下 前端发送username、password、captchaKey、captchaCode请求登录。判断captchaCode是否为…

ubuntu 20.04禁止自动更新内核驱动、显卡驱动(使用命令行)

本文目录 一、禁止更新内核1.1 查看当前内核1.2 查看安装的内核1.3 根据需求,使用hold参数禁止固定内核1.4 查询被锁定不更新软件包的状态 二、禁止更新显卡驱动2.1 查看安装的显卡驱动2.2 查看详细的详细的显卡信息2.3 禁止显卡驱动更新2.4 查询显卡是否设置成功 前…