自然语言处理:第三十五章Embedding 测评榜单MTEB

文章链接: [2210.07316] MTEB: Massive Text Embedding Benchmark (arxiv.org)

项目地址: mteb:MTEB: Massive Text Embedding Benchmark - GitCode

github地址: FlagEmbedding/C_MTEB at master · FlagOpen/FlagEmbedding (github.com)

Hugging Face Leadboard: MTEB Leaderboard - a Hugging Face Space by mteb



NLP的应用中,有一个最关键的步骤就是将文字/其他多模态的模型转换成词嵌入/向量化,而对应的这个模型便称之为Embedding模型。那么在这么多embedding模型里,如何评价好坏呢?本文就会介绍,MTEB(Massive Text Embedding Benchmark)是目前评测文本向量很重要的一个参考,其榜单也是各大文本向量模型用来展示与其他向量模型强弱的一个竞技台。C-MTEB则是专门针对中文文本向量的评测基准。本文介绍了 Massive Text Embedding Benchmark (MTEB),这是一个大规模的文本嵌入基准测试,旨在全面评估文本嵌入方法的性能。MTEB 覆盖了 8 种嵌入任务,包含 58 个数据集和 112 种语言。通过对 33 种模型的基准测试,MTEB 建立了迄今为止最全面的文本嵌入基准。研究发现,没有单一的文本嵌入方法能够在所有任务上都占据优势,这表明该领域尚未就通用文本嵌入方法达成共识,并且尚未将其扩展到足以在所有嵌入任务上提供最先进的结果。




MTEB

背景

随着人工智能和自然语言处理技术的飞速发展,文本嵌入技术已成为推动这些领域进步的重要工具。文本嵌入是将文本转换为密集向量表示的过程,这些向量能够捕捉文本中的语义信息,并使得文本之间的相似性和差异性可以通过向量之间的距离来度量。这种技术已被广泛应用于各种NLP任务中,如文本分类、聚类、搜索、问答等。

然而,文本嵌入模型的评估一直是一个挑战。传统的评估方法通常基于有限的数据集和单一的任务,这无法全面反映模型在真实世界应用中的泛化能力。此外,随着新的文本嵌入模型不断涌现,如何公平地比较不同模型之间的性能也变得越来越困难。

为了解决这些问题,研究人员提出了各种基准测试,以更全面地评估文本嵌入技术的性能。然而,这些基准测试往往存在局限性,例如涵盖的任务和数据集数量有限,或者仅关注于特定的应用场景。因此,需要一个更加全面、更加广泛的基准测试来评估文本嵌入技术的性能。




任务

MTEB 包含以下 8 种任务类型:

  1. Bitext Mining :寻找两种语言句子集之间的最佳匹配。输入是来自两种不同语言的两个句子集,对于来自第一个句子集的句子,找到在第二个子集中最匹配的句子。模型将句子编码成向量后用余弦相似度来寻找最相似的句子对。F1是主要的评估指标、Accuracy、precision、recall也一并计算了。
  2. Classification :使用嵌入模型训练逻辑回归分类器。训练集和测试集通过给定模型编码,测试集向量被用来训练一个LR分类器(最多100次迭代),然后使用测试集来打分,主要评估指标是accuracy with average precision,同时包括F1。
  3. Clustering :将句子或段落分组为有意义的簇。给定句子集或段落集,将其分组为有意义的簇。在编码后的文档上训练一个 mini-batch k-means 模型(batch size为32, k是不同标签的个数),然后使用v-meature为模型打分。
  4. Pair Classification :为一对文本输入分配标签,通常是二元变量,表示重复或释义对。输入是一对带标签的文本,两个文本被编码后计算多种距离:cosine similarity, dot product, euclidean distance, manhattan distance。接着使用最佳阈值来计算accuracy, average precision, f1, precision, recall。基于余弦相似度的平均精度是主要指标。
  5. Reranking :根据与查询的相关性对结果进行重新排序。输入是一个查询语句以及一个包含相关和不相关文本的列表。模型编码文本后比较与查询语句的余弦相似性。每个查询语句的分数都被计算并平均所有查询语句的分数。指标有平均 M R R @ k MRR@kMRR@k和MAP(主要指标)
  6. Retrieval :找到相关文档。每个数据集包括一个语料集,查询语句及其与语料中的相关文档的映射。模型编码所有查询语句和语料文档之后计算余弦相似度,对每一个查询语句的结果排序后计算k的多个取值所对应的nDCG@k, MRR@k, MAP@k, precision@k , recall@k。使用BEIR相同的设置,nDCG@10是主要指标。
  7. Semantic Textual Similarity (STS) :确定句子对的相似性。给定句子对计算它们的相似度,标签是连续得分(越大相似度越高)。模型编码句子后计算使用不同的距离指标计算它们的相似性,计算好的距离与标签相似度基准比较Pearson和Spearman相关性。主要指标是基于余弦相似度的Spearma
  8. Summarization :评估机器生成的摘要。包括一个手写摘要和机器生成摘要数据集,目标是给机器生成摘要打分。模型编码所有摘要,然后对于每一个机器生成摘要向量,计算其与所有手写摘要向量的距离,将相似度最大的分数作为单个机器生成摘要的分数,接下来与基准比较计算Pearson和Spearman相关性。主要指标是基于余弦相似度的Spearman相关性。


在 MTEB 上评估了超过 30 种模型,包括开源模型和通过 API 访问的模型,如 OpenAI Embeddings 端点。结果显示,不同的模型在不同的任务上表现各异,没有单一的最佳解决方案。例如,SimCSE 在 STS 上表现强劲,但在聚类和检索任务上表现不佳

在这里插入图片描述



MTEB中的数据集可以归为三类:

  • Sentence to sentence(S2S)
  • Paragraph to paragraph (P2P)
  • Sentence to paragraph (S2P)

MTEB基于如下需求构建:

  • 多样性Diversity,涵盖不同的任务、不同的语言、句子级别和篇章级别的数据集
  • 简单易用Simpilicity, 提供一个API可以应用于不同的模型
  • 可扩展性Extensibility,新数据集很容易加入到基准中
  • 可复现性Reproducibility,给数据集和软件添加版本使得很容易复现评测结果



C-MTEB

C-MTEB是为了评估中文文本向量,共收集了如上图所示的35个公共数据集,一共分为6类的评估任务:

  • retrieval,包括查询语句和语料库,对于每个查询,从语料库中查询最相似的top-k个文档,使用BEIR相同的设置,nDCG@10是主要指标。
  • re-ranking,包括查询语句和候选文档集(一个正样本和N个负样本),基于向量相似性来重排序,MAP是主要指标。
  • STS (semantic textual similarity),基于向量相似度比较两个句子的相关性,计算了Spearman 相关性并作为主要指标。
  • classification,与MTEB一样。
  • pair classification,比较一对句子的相似性,使用平均精度作为主要指标。
  • clustering,评测方法与MTEB一样。向量在每个任务上的表现是对应任务下所有数据集的平均指标来决定,而向量整体性能是所有数据集的平均值决定的。

在这里插入图片描述



使用方法代码

MTEB 的软件是开源的,允许通过添加不到 10 行代码来评估任何嵌入模型。下面简单的说一下使用方法:

安装

pip install mteb

使用

  • 使用python脚本(参考 scripts/run_mteb_english.py 和 mteb/mtebscripts):
  • import mteb
    from sentence_transformers import SentenceTransformer# 定义 sentence-transformers 模型名
    model_name = "average_word_embeddings_komninos"
    # 或直接从 Hugging Face 加载:
    # model_name = "sentence-transformers/all-MiniLM-L6-v2"model = SentenceTransformer(model_name)
    tasks = mteb.get_tasks(tasks=["Banking77Classification"])
    evaluation = mteb.MTEB(tasks=tasks)
    results = evaluation.run(model, output_folder=f"results/{model_name}")
    
  • 使用CLI命令行
mteb --available_tasksmteb -m sentence-transformers/all-MiniLM-L6-v2 \-t Banking77Classification  \--verbosity 3# 如果没有指定,默认将结果保存在 results/{model_name} 文件夹中
  • 并行使用多个 GPU 可以通过自定义编码函数实现,例如 此处 或 此处。
  • 其他高级用法可以参考官网mteb:MTEB: Massive Text Embedding Benchmark - GitCode


Leadboard

截至到本榜单更新时间: 24/06/05,MTEB Leaderboard - a Hugging Face Space by mteb 中文top10如下。

在这里插入图片描述



本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/27492.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

移动端超超超详细知识点总结(Part3)

flex布局体验 1. 传统布局与flex布局 传统布局: 兼容性好布局繁琐局限性,不能再移动端很好的布局flex 弹性布局: 操作方便,布局极为简单,移动端应用很广泛PC 端浏览器支持情况较差IE 11或更低版本,不支持…

Android开发AndroidStudio中创建Activity两种方法

本文讲解Android Studio中如何创建Activity。 目录 一、手动创建 二、自动创建 创建Activity分为手动和自动创建两种方法。 一、手动创建 创建步骤 1、在Layout目录下创建XML文件 Layout-New-Layout Resource file 打开对话框,编辑布局文件的名字&#xff0c…

Capto2024软件怎么下载安装? 【详细安装图文教程】

Capto 2024是一款专为Mac用户设计的屏幕录制编辑软件。无论是想要制作教育视频、工作演示、游戏录制,还是进行简单的屏幕捕捉,Capto 2024都能满足您的需求。接下来,我将详细介绍其主要功能、特点以及使用场景,并为您评价这款软件。…

安装multisim14.0

前言 文件准备 软件安装 1、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 13、 14、汉化 15、在软件安装路径下打开”stringfiles“文件夹, Circuit Design Suite 14.0\stringfiles 16、 17、 18、 19、 20、运行multisim14.0

Java多线程面试重点-2

16.Synchronized关键字加在静态方法和实例方法的区别? 修饰静态方法,是对类进行加锁(Class对象),如果该类中有methodA和methodB都是被Synch修饰的静态方法,此时有两个线程T1、T2分别调用methodA()和methodB()&#x…

热门开源项目推荐:智谱GLM-4-9B和ChatGLM3-6B

目录 热门开源项目推荐:智谱GLM-4-9B和ChatGLM3-6B 1.引言 1.1 开源文化简介 1.2 开源项目的重要性 1.3 博客目的和读者价值 2.什么是开源项目? 2.1 开源定义 2.2 开源许可证类型 2.3 开源社区的作用 3.为什么程序员应该关注开源项目&#xff…

整蛊软件/插件使用方法与配置步骤~

今天出一期整蛊软件的使用方法与配置步骤 很多人在使用整蛊软件的时候 想自己添加更多的玩法内容 但是还不知道如何去配置 这期给大家出一下图文教程步骤 基本上也是软件的功能介绍使用方式~ 案例可扫码查看 第一步:打开软件输入卡密登录: 卡密费用&…

最经济实惠的通配符SSL证书是哪款?

网络安全已成为企业和个人网站运营者关注的焦点。SSL证书作为确保数据传输安全的关键工具,其重要性不言而喻。特别是通配符SSL证书,因其能够为一个主域名及其所有子域名提供统一的安全保护,而受到广泛欢迎。但面对市场上众多的SSL证书品牌和价…

[大模型]Qwen2-7B-Instruct 接入 LangChain 搭建知识库助手

环境准备 在 autodl 平台中租赁一个 3090 等 24G 显存的显卡机器,如下图所示镜像选择 PyTorch–>2.1.0–>3.10(ubuntu20.04)–>12.1 接下来打开刚刚租用服务器的 JupyterLab,并且打开其中的终端开始环境配置、模型下载和运行 demo。 pip 换源…

One能聊天接入百度千帆AppBuilder

One能聊天介绍:基于ChatGPT实现的微信小程序,适配H5和WEB端。包含前后端,支持打字效果输出流式输出,支持AI聊天次数限制,支持分享增加次数等功能One能聊天开源地址:https://github.com/oldinaction/ChatGPT-MPOne能聊天演示环境:可关注【阿壹族】公众号,并回复【One能聊…

12_YouOnlyLookOnce(YOLOv3)新一代实时目标检测技术

1.1 回顾V1和V2 V1:05_YouOnlyLookOnce(YOLOV1)目标检测领域的革命性突破-CSDN博客 V2:07_YouOnlyLookOnce(YOLOv2)Better,Faster,Stronger-CSDN博客 1.2 简介 YOLOv3(You Only Look Once version 3)是…

ubuntu 20.04禁止自动更新内核驱动、显卡驱动(使用命令行)

本文目录 一、禁止更新内核1.1 查看当前内核1.2 查看安装的内核1.3 根据需求,使用hold参数禁止固定内核1.4 查询被锁定不更新软件包的状态 二、禁止更新显卡驱动2.1 查看安装的显卡驱动2.2 查看详细的详细的显卡信息2.3 禁止显卡驱动更新2.4 查询显卡是否设置成功 前…

618网络机顶盒哪个牌子好?内行盘点网络机顶盒排行榜

因工作原因每天都在跟各种类型的网络机顶盒打交道,最近超多朋友问我网络机顶盒哪个牌子好,不知道如何挑选网络机顶盒,我将要分享目前最值得入手的网络机顶盒排行榜,想买网络机顶盒可以看看以下这些品牌: ★泰捷WEBOX 6…

变压器绕组内部故障的Simulink仿真

​利用变压器纵联差动保护的Simulink仿真模型是无法进行变压器绕组内部故障仿真的。为了解决这一问题,可将图中的三相变压器模型改变为三个单相变压器 , 在变压器属性框中选中 “三绕组变压器” (Three windings Transformer), 从而构造出一个一次绕组, 两个二次绕组…

《Windows API每日一练》4.2 设备环境

在第三章我们已经使用设备环境句柄在窗口客户区绘图了。在图形输出设备(比如屏幕或者打印机)上绘制图形,必须首先获取设备环境,即DC的句柄。当 Windows把这个句柄交给你的程序,Windows同时也就给予你使用这个设备的权限…

LogicFlow 学习笔记——8. LogicFlow 基础 事件 Event

事件 Event 当我们使用鼠标或其他方式与画布交互时,会触发对应的事件。通过监听这些事件,可以获取其在触发时所产生的数据,根据这些数据来实现需要的功能。详细可监听事件见事件API。 监听事件 lf实例上提供on方法支持监听事件。 lf.on(&…

fs.1.10 ON rockeylinux8 dockerfile模式

概述 freeswitch是一款简单好用的VOIP开源软交换平台。 rockeylinux8 docker上编译安装fs.1.10的流程记录,本文使用dockerfile模式。 环境 docker engine:Version 24.0.6 rockylinux docker:8 freeswitch:v1.10.7 dockerfi…

有没有硅基生命?AGI在哪里?

摘要 随着科技的飞速发展,人工智能(AI)和生命科学的探索逐渐成为人们关注的焦点。其中,关于硅基生命的可能性与AGI(Artificial General Intelligence,即人工通用智能)的实现,更是引…

VisionOS的未来愿景:苹果VisionPro创业者的愿望清单

随着苹果公司在增强现实(AR)领域的不断探索,VisionPro作为其前沿产品,已经开始展现出改变我们与数字世界互动方式的潜力。作为一名VisionPro创业者,对未来VisionOS的更新充满了期待,并提出了一系列愿望清单,这些愿望不仅代表了个人的需求,也反映了用户社区对苹果AR生态的…

服务器如何远程桌面连接不上,服务器远程桌面连接不上解决办法

服务器远程桌面连接不上,是IT运维中常见的挑战之一。针对这一问题,专业的解决方法通常涉及以下几个方面的排查与操作: 首先,我们需要检查网络连接是否正常。远程桌面连接依赖于稳定的网络连接,因此,确认服务…