自然语言处理: RAG优化之Embedding模型选型重要依据:mteb/leaderboard榜

本人项目地址大全:Victor94-king/NLP__ManVictor: CSDN of ManVictor

git地址:https://github.com/opendatalab/MinerU


写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!

写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!

写在前面: 笔者更新不易,希望走过路过点个关注和赞,笔芯!!!



近期RAG 应用不断涌现,它们的性能表现各具特色。尽管我们可以通过多个方面(例如查询改写、图像数据处理、分块策略、元数据管理、密集检索、稀疏检索、结果重排、排序融合、提示词优化以及上下文压缩等)逐步优化这些应用,但在选择 SOTA(State-of-the-Art)模型时,参考开源排行榜依然是必不可少的步骤。mteb/leaderboard 是一个极为有用的资源,它能帮助您了解并选择符合您需求的多语言文本生成模型。例如,在RAG系统中,无论是中文还是英文的向量化模型、重排模型或摘要模型的选择,都可以通过该榜单获得直观且量化的参考依据。

图片

MTEB Leaderboard

MTEB(Multilingual Text-to-Text Evaluation Benchmark)是一个多语言文本嵌入的评估基准,旨在评估和比较不同多语言文本生成模型的性能。排行榜页面展示了各种模型在多个任务上的表现,这些任务可能包括但不限于翻译、摘要、问答等。

  • https://huggingface.co/spaces/mteb/leaderboard

  • C-MTEB(Chinese Massive Text Embedding Benchmark)中文语义向量评测基准

  • 评测任务:包括涵盖112种语言的58个数据集

    图片

在 MTEB 的排行榜页面上,可以看到:

  • 不同模型的名称 :列出参与评估的各种模型。
  • 各项任务的得分 :每个模型在不同任务上的性能评分。
  • 综合排名 :根据各项任务的得分对模型进行综合排名。

这个排行榜页面对于研究人员和开发者非常有用,因为它提供了:

  • 模型性能的直观对比 :帮助选择最适合特定任务的模型。
  • 最新进展的跟踪 :了解当前多语言文本生成领域的最新进展和技术趋势。
  • 基准测试的参考 :为新模型的开发和评估提供基准。
如何使用
  • 查看模型性能 :浏览排行榜,了解不同模型在各个任务上的表现。
  • 获取模型信息 :点击模型名称或链接,可以跳转到模型的详细页面,获取更多信息和使用方法。
  • 参与评估 :如果你有自己的模型,可以按照 MTEB 的评估标准提交模型进行测试,加入排行榜。

了解任务相关概念

TASK CATEGORY(任务类别)

枚举值中文翻译含义解释
s2s句子到句子任务涉及将单个句子转换或处理成另一个句子。
s2p句子到段落任务涉及将单个句子转换或处理成段落。
p2p段落到段落任务涉及将段落转换或处理成另一个段落。

TASK TYPE(任务类型)

枚举值中文翻译含义解释
Retrieval检索从大量数据中检索出相关信息。
Reranking重排根据某种标准重新排序数据。
STS语义文本相似度评估两个文本之间的语义相似度。
Summarization摘要生成文本的简短摘要。
InstructionRetrieval指令检索检索与特定指令相关的信息。
Speed速度评估处理或响应的速度。
BitextMining双语文本挖掘从双语文本中挖掘信息。
Classification分类将数据分配到预定义的类别中。
MultilabelClassification多标签分类为数据分配多个类别标签。
Clustering聚类将数据分组,使得同一组内的数据点相似度高。
PairClassification配对分类对成对的数据进行分类。

TASK SUBTYPE(任务子类型)

枚举值中文翻译含义解释
Article retrieval文章检索从大量文章中检索出与查询相关的文档。
Conversational retrieval对话检索检索与对话上下文相关的信息或回复。
Dialect pairing方言配对识别和匹配不同方言之间的对应关系。
Dialog Systems对话系统构建能够与用户进行自然对话的系统。
Discourse coherence话语连贯性评估或生成连贯、逻辑一致的长篇话语。
Language identification语言识别识别文本所使用的语言。
Linguistic acceptability语言可接受性评估文本是否符合语言学的规范。
Political classification政治分类根据政治倾向对信息进行分类。
Question answering问答回答用户提出的问题。
Sentiment/Hate speech情感/仇恨言论识别文本中的情感倾向或仇恨言论。
Thematic clustering主题聚类将文本根据主题进行分组。
Scientific Reranking科学重排对科学文献或信息进行重新排序。
Claim verification事实核查验证声明或信息的真实性。
Topic classification主题分类将文本按照主题进行分类。
Code retrieval代码检索检索与编程问题相关的代码片段。
Cross-Lingual Semantic Discrimination跨语言语义区分区分不同语言中相似词汇的语义差异。
Textual Entailment文本蕴含判断一个句子是否能够从另一个句子逻辑上推导出来。
Counterfactual Detection反事实检测识别和处理反事实或假设性陈述。
Emotion classification情感分类对文本中表达的情感进行分类。
Reasoning as Retrieval推理检索通过检索相关信息来辅助推理过程。
Duplicate Detection重复检测识别和处理重复或相似的内容。

C-MTEB(Chinese Massive Text Embedding Benchmark)榜单是专门用来评估中文Embedding模型的多任务混合评测榜单,包含了Classification、Clustering、Pair Classification、Reranking、Retrieval、STS六种任务类型,共35个公开数据集。

其中, Retrieval作为检索场景下最常用、最重要的测试任务 ,被广泛应用与大模型应用的落地场景,Retrieval任务包括查询语句和语料库,对于每个查询,从语料库中查询最相似的top-k个文档,使用BEIR相同的设置,nDCG@10是主要指标。

Retrieval是C-MTEB中的一个任务方向,共包含8个 中文文本数据集 ,涉及医疗、政策、电商、娱乐等各个方面。数据集主要有三部分组成:query、corpus、dev,其中query为中文问题,corpus为中文文档,包括了query的回答,该任务主要就是从海量corpus中检索出与query最为相关的内容。

Retrieval任务的8个子任务

  • Ecom:中文电商领域检索任务;
  • Medical:中文医疗领域检索任务;
  • Covid:中文政策文件类检索任务;
  • Video:中文娱乐视频领域检索任务;
  • T2:来源于搜索引擎的段落排序中文基准测试;
  • Dureader:来源于百度搜索引擎的段落检索任务;
  • Mmarco:中文微软问答文摘检索测试;
  • Cmedqa2:中文社区医疗问答测试

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/61957.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《生成式 AI》课程 作业6 大语言模型(LLM)的训练微调 Fine Tuning -- part1

资料来自李宏毅老师《生成式 AI》课程,如有侵权请通知下线 Introduction to Generative AI 2024 Spring 该文档主要介绍了国立台湾大学(NTU)2024 年春季 “生成式人工智能(GenAI)” 课程的作业 5(GenAI HW…

LSA详情与特殊区域

LSA是构成LSDB的重要原材料,在OSPF中发挥很大作用。 报文 通用头部 LS age:LSA寿命,0-3600s Options:可选项 LS type:LSA类型,三要素之一 Link State ID:LSAID 三要素之一 Advertising Ro…

网安瞭望台第4期:nuclei最新poc分享

国内外要闻 多款 D-Link 停产路由器漏洞:攻击者可远程执行代码 近日,知名网络硬件制造商 D-Link 发布重要安全公告。由于存在严重的远程代码执行(RCE)漏洞,其敦促用户淘汰并更换多款已停产的 VPN 路由器型号。 此次…

面试经典 150 题:205,55

205. 同构字符串 【解题思路】 来自大佬Krahets 【参考代码】 class Solution { public:bool isIsomorphic(string s, string t) {map<char, char> Smap, Tmap;for(int i0; i<s.size(); i){char a s[i], b t[i];//map容器存在该字符&#xff0c;且不等于之前映射…

IEC61850读服务器目录命令——GetServerDirectory介绍

IEC61850标准中的GetServerDirectory命令是变电站自动化系统中非常重要的一个功能&#xff0c;它主要用于读取服务器的目录信息&#xff0c;特别是服务器的逻辑设备节点&#xff08;LDevice&#xff09;信息。以下是对GetServerDirectory命令的详细介绍。 目录 一、命令功能 …

【PHP】 环境以及插件的配置,自学笔记(一)

文章目录 环境的准备安装 XAMPPWindowMacOS 配置开发环境Vscode 关于 PHP 的插件推荐Vscode 配置 php 环境Apache 启动Hello php配置热更新 参考 环境的准备 下载 XAMPP , 可以从 官网下载 https://www.apachefriends.org/download.html 安装 XAMPP XAMPP 是一个跨平台的集成开…

Jenkins-Git Parameter 插件实现指定版本的发布和回滚

在上一篇文章的基础设置上进行 1. 机器准备 开发10.0.0.204gitlab10.0.0.201jenkins10.0.0.200web10.0.0.202 2. 开发主机 在开发机器上修改不同版本的前端页面&#xff0c;并打上标签 第一次修改 [rootdev wheel]#vim index.html [rootdev wheel]#git commit -am "1…

vue11.22

数据代理Object.defineproperty ler person { name:张三, sex:男, age:18 } console.log(Object.keys(person)) Object.keys是把对象的属性变成数组 let person { name: 张三, sex: 男, // age: 18 } Object.defineProperty(person, age, { value: 18 }) console.log(Obj…

1、HCIP之RSTP协议与STP相关安全配置

目录 RSTP—快速生成树协议 STP STP的缺点&#xff1a; STP的选举&#xff08;Listening状态中&#xff09;&#xff1a; RSTP P/A&#xff08;提议/同意&#xff09;机制 同步机制&#xff1a; 边缘端口的配置&#xff1a; RSTP的端口角色划分&#xff1a; ensp模拟…

新160个crackme - 102-haggar-keyme1

运行分析 用win7或win xp系统可以运行输入Serial&#xff0c;点击Check无反应 PE分析 ASM程序&#xff0c;32位&#xff0c;无壳 静态分析&动态调试 ida找到关键字符串 在sub_401E6B处按x&#xff0c;返回上一步函数 来到关键函数&#xff0c;静态分析逻辑如下&#xff1a;…

LCR-003比特位计数

一.题目&#xff1a; . - 力扣&#xff08;LeetCode&#xff09; 二.我的原始解法-一次性通过的python内置bin函数解法&#xff1a; 思路和题目描述一致&#xff0c;就是把0-n的每个数字转为二进制&#xff0c;计算这个二进制中1的个数添加到返回数组中&#xff0c;掌握基础函…

动态求连续区间和(线段树 树状数组)

向上更新&#xff0c;建树&#xff0c;求区间和&#xff0c;修改节点值 向上更新&#xff1a; 返回左右节点值的和 建树&#xff1a; 如果是叶子节点&#xff0c;赋值结构体的左区间&#xff0c;右区间&#xff0c;值 如果不是叶子节点&#xff0c;那么先求中点&#xff0c…

聊聊Flink:这次把Flink的window分类(滚动、滑动、会话、全局)、窗口函数讲透

一、窗口 窗口&#xff08;Window&#xff09;是处理无界流的关键所在。窗口将流分成有限大小的“桶”&#xff0c;我们可以在其上应用算子计算。Flink可以使用window()和windowAll()定义一个窗口&#xff0c;二者都需要传入一个窗口分配器WindowAssigner&#xff0c;WindowAs…

友思特新闻 | 友思特荣获广州科技创新创业大赛智能装备行业赛初创组优胜企业!

2024年11月19日&#xff0c;第十三届中国创新创业大赛&#xff08;广东广州赛区&#xff09;暨2024年广州科技创新创业大赛智能装备行业赛颁奖典礼隆重举行。 赛事奖项介绍&#xff1a;广州科技创新创业大赛智能装备行业赛 第十三届“中国创新创业大赛&#xff08;广东广州赛区…

2024强网拟态决赛-eBeepf

漏洞分析与利用 分析后面看情况吧&#xff0c;有时间再写吧&#xff0c;先贴个利用脚本&#xff1a; #ifndef _GNU_SOURCE #define _GNU_SOURCE #endif#include <stdio.h> #include <unistd.h> #include <stdlib.h> #include <fcntl.h> #include <…

Kotlin Multiplatform 未来将采用基于 JetBrains Fleet 定制的独立 IDE

近期 Jetbrains 可以说是动作不断&#xff0c;我们刚介绍了 IntelliJ IDEA 2024.3 K2 模式发布了稳定版支持 &#xff0c;而在官方最近刚调整过的 Kotlin Multiplatform Roadmap 优先关键事项里&#xff0c;可以看到其中就包含了「独立的 Kotlin Multiplatform IDE&#xff0c;…

38_转置卷积

转置卷积也被称为&#xff08;Transposed Convolution&#xff09;&#xff0c;也被称为fractionally_strided convolution、deconvolution。 转置卷积不是卷积的逆运算。 转置卷积也是卷积 转置卷积的作用是上采样。 1. 基础概念 转置卷积&#xff08;Transposed Convolution…

【Linux】内核的编译和加载

Linux内核是操作系统的核心&#xff0c;负责管理系统的硬件资源&#xff0c;并为用户空间的应用程序提供必要的服务。内核的编译和加载是操作系统开发和维护的重要环节。本文将详细介绍Linux内核的编译过程以及如何加载内核到系统中。 1. 引言 Linux内核的编译是一个复杂的过…

Qt桌面应用开发 第七天(绘图事件 绘图设备)

目录 1.绘图事件paintEvent 2.高级绘图 3.图片绘制 4.绘图设备 4.1QPixmap 4.2QBitmap 4.3QImage 4.4QPicture 1.绘图事件paintEvent paintEvent——绘图事件 需求&#xff1a;利用QPainter绘制点、线、圆、矩形、文字&#xff1b;设置画笔改为红色&#xff0c;宽度为…

使用IDEA构建springboot项目+整合Mybatis

目录 目录 1.Springboot简介 2.SpringBoot的工作流程 3.SpringBoot框架的搭建和配置 4.用Springboot实现一个基本的select操作 5.SpringBoot项目部署非常简单&#xff0c;springBoot内嵌了 Tomcat、Jetty、Undertow 三种容器&#xff0c;其默认嵌入的容器是 Tomcat&#xff0c;…