三大知名向量化模型比较分析——m3e,bge,bce

先聊聊出处。

M3E 是 Moka Massive Mixed Embedding 的缩写

  • Moka,此模型由 MokaAI 训练,开源和评测,训练脚本使用 uniem ,评测 BenchMark 使用 MTEB-zh
  • Massive,此模型通过千万级 (2200w+) 的中文句对数据集进行训练
  • Mixed,此模型支持中英双语的同质文本相似度计算,异质文本检索等功能,未来还会支持代码检索Embedding,此模型是文本嵌入模型,可以将自然语言转换成稠密的向量。HuggingFace地址:https://huggingface.co/moka-ai
    在这里插入图片描述

BGE是由北京智源人工智能研究院提出的新的embedding模型。 源码地址:https://github.com/FlagOpen/FlagEmbedding在这里插入图片描述

BCE来源网易有道,BCEmbedding模型的GitHub官网 https://github.com/netease-youdao/BCEmbedding,
在这里插入图片描述

在比较m3e、bge和bce向量化模型时,我们需要从多个方面进行分析,包括模型的多语言支持能力、文本处理能力、检索精度以及资源使用情况等。

1. 多语言支持能力

BGE

  • BGE-M3支持超过100种语言,并且能够高效实现不同粒度的检索任务。
  • BGE系列模型包括中英文模型和多语言模型,其跨语言能力全面领先。

M3E

  • M3E主要针对中文文本进行向量化处理,但也有一定的双语处理能力。

BCE

  • BCE的具体多语言支持能力未明确提及,但其被用于RAG应用中,表明其可能具有一定的多语言处理能力。

2. 文本处理能力

BGE

  • BGE可以将任意文本映射到低维的稠密向量,在文本向量化任务中得到了广泛的应用。
  • BGE系列模型在C-MTEB中文排行榜中名列前茅,显示了其强大的文本处理和语义表征能力。

M3E

  • M3E采用大规模混合嵌入技术,旨在提高词向量的表达能力和泛化能力。
  • M3E在训练过程中使用千万级的中文句对数据集进行训练,表现出色的向量编码能力。

BCE

  • BCE模型主要用于提升RAG应用的准确度,具体细节较少,但其作为开源大模型的一部分,应具备较强的文本处理能力。

3. 检索精度与整体语义表征能力

BGE

  • BGE在中英文语义检索精度与整体语义表征能力方面均超越了社区所有同类模型,如OpenAI的text embedding 002等。
  • 其保持了同等参数量级模型中的最小向量维度,使用成本更低。

M3E

  • M3E在私有部署和大规模文本处理方面表现出色,适用于需要私有化和资源节约的场景。
  • 它通过大规模混合嵌入技术提高了词向量的表达能力和泛化能力,适用于各种文本处理任务。

BCE

  • BCE的具体检索精度和语义表征能力未详细说明,但其在RAG应用中的表现表明其具有较高的准确性。

4. 资源使用情况

BGE

  • BGE系列模型在全球下载量超过1500万,位居国内开源AI模型首位,表明其资源使用高效且受欢迎。

M3E

  • M3E属于小模型,资源使用不高,CPU也可以运行,适合私有化部署和资源受限的环境。

BCE

  • BCE的具体资源使用情况未明确提及,但作为开源大模型的一部分,其资源使用可能相对较高。

总结

  • BGE:在多语言支持、文本处理能力和检索精度方面表现优异,尤其适合需要高精度和高效率的场景。同时,其资源使用较为经济。
  • M3E:专注于中文文本处理,具有强大的文本处理能力和灵活的部署选项,适合资源受限或需要私有化的应用场景。
  • BCE:虽然具体细节较少,但其在RAG应用中的表现表明其具备一定的优势,可能适合特定的高精度需求场景。

根据不同的应用需求和资源条件选择合适的模型会更加有效。

BGE模型列表

BAAI/bge-large-en-v1.5
BAAI/bge-base-en-v1.5
BAAI/bge-small-en-v1.5
BAAI/bge-large-zh-v1.5
BAAI/bge-base-zh-v1.5
BAAI/bge-small-zh-v1.5
BAAI/bge-large-en
BAAI/bge-base-en
BAAI/bge-small-en
BAAI/bge-large-zh
BAAI/bge-base-zh
BAAI/bge-small-zh

M3E模型列表

m3e-small
m3e-base
m3e-large

BCE模型列表

bce-embedding-base_v1
bce-reranker-base_v1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/46840.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

智慧电子班牌系统,智慧班牌源码,为校园提供了便捷、高效、智能的信息管理和服务方式

智慧班牌在实现智慧校园的数字化建设中扮演着重要角色,它通过集成多种技术和功能,为校园提供了便捷、高效、智能的信息管理和服务方式。以下是智慧班牌如何实现智慧校园的数字化建设的具体方式: 一、信息集成与展示 基础信息展示&#xff1a…

海外媒体发稿:葡萄牙-实现高效媒体软文发稿计划-大舍传媒

一、葡萄牙媒体环境概述 葡萄牙,位于欧洲大陆西南端的国家,拥有丰富的文化和历史。在这个国家,媒体行业也有着相当大的影响力。葡萄牙的媒体环境多元化,包括电视、广播、报纸、杂志和互联网等各个领域。 二、葡萄牙媒体发稿的重…

如何恢复电脑上删除的文件?快速恢复被删除文件的技巧【5个实用方法】

如何恢复电脑上删除的文件?电脑误删文件的情况很经常发生,删除文件后第一时间可以按下组合键CtrlZ撤销,这样能挽回99%以上的文件。当然,如果已经彻底删除,那么可以了解下本文整理的方法找回。 (一&#xff…

【计算机网络】学习指南及导论

个人主页:【😊个人主页】 系列专栏:【❤️计算机网络】 文章目录 前言我们为什么要学计算机网络?计算机网络概述计算机网络的分类按交换技术分类按使用者分类按传输介质分类按覆盖网络分类按覆盖网络分类 局域网的连接方式有线连接…

【HarmonyOS学习】动画

页面分类动画 显示动画 function animateTo(value: AnimateParam, event: () > void): void;代码如下:(实现属性变化引发的动画) Entry Component struct Animate_Page1 {State boxWidth: number 100;State boxHeight: number 100;Sta…

第一节Linux常见指令

目录 1.Linux下基本指令 ls指令 pwd 命令 cd 指令 知识点:理解树形结构 touch 指令 mkdir指令(重要) rmdir指令 && rm指令(重要) 知识点:ls file* 可以找到当前目录下任何以file开头的文件​编辑 知识点:热键 man指令()重要 补充知识点:nano cp…

前端程序员应该往全栈方向发展吗?还是坚守前端?

作者:寒蝉(知乎) 顺便吆喝一声,技术大厂,内推捞人,前/后端or测试←感兴趣 要求学历:全日制统招本科(非学院派即可): --加班偶尔较多,但周末加班两…

Android NDK开发之震动服务客户端编写程序(C++)

一、背景 最近有个小伙伴问我可不可以写一个可执行程序(C/C) 来实现Android设备的震动的功能。 作为一个多年的Android开发者,我觉得这是可以实现的。 但是由于过去我一直做App开发,也就把这个实现过程想简单了。 经过了几天的折腾,终于算是…

港股指数实时行情API接口

港股 指数 实时 行情 API接口 # Restful API https://tsanghi.com/api/fin/index/HKG/realtime?token{token}&ticker{ticker}指定指数代码,获取该指数的实时行情(开、高、低、收、量)。 更新周期:实时。 请求方式&#xff1a…

vue router 切换路由的时候,页面的动画效果,使页面切换好看,以及控制有的页面使用切换路由特效,有的页面不用

一、使用切换效果 在router文件中 useTransition: true代表需要动画 meta: { title: “新开卡预填表单”, keepAlive: true, useTransition: true }, [{path: "/",name: "Home",meta: {title: "首页",keepAlive: true,useTransition: false},c…

给你的博客添加数据统计功能

20.数据统计 我们可以给博客添加统计功能,这里以百度统计和谷歌统计为例。 ‍ 百度统计 ‍ 添加网站 登陆百度统计后台:百度统计——一站式智能数据分析与应用平台,并登录,然后进入产品: ‍ 在使用设置–网站列…

图解KMP算法,带你彻底吃透KMP

模式串匹配——KMP算法 KMP算法一直是一个比较难以理解的算法,本篇文章主要根据《大话数据结构》中关于KMP算法的讲解,结合自己的思考,对于KMP算法进行一个比较详细的解释。 由于博主本人水平有限,难免会出现一些错误。如果发现…

C语言课程回顾:十、C语言之 指针

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 C语言之 指针 10 指针10.1 地址指针的基本概念10.2 变量的指针和指向变量的指针变量10.2.1 定义一个指针变量10.2.2 指针变量的引用10.2.3 指针变量作为函数参数10.2.4 指针变…

电脑远程开关机

1. 远程开机 参考:https://post.smzdm.com/p/664774/ 1.1 Wake On LAN - 局域网唤醒(需要主板支持,一般都支持) 要使用远程唤醒,有几种方式:使用类似向日葵开机棒(很贵)、公网ip&…

MongoDB教程(六):mongoDB复制副本集

💝💝💝首先,欢迎各位来到我的博客,很高兴能够在这里和您见面!希望您在这里不仅可以有所收获,同时也能感受到一份轻松欢乐的氛围,祝你生活愉快! 文章目录 引言一、MongoD…

使用Bind提供的域名解析服务

前言:本博客仅作记录学习使用,部分图片出自网络,如有侵犯您的权益,请联系删除 目录 一、DNS域名解析服务 二、安装Bind服务程序 1、正向解析 2、反向解析 三、部署从服务器 四、安全的加密传输 五、部署缓存服务器 六、分…

浅析班组建设在企业发展中的重要作用

众所周知,企业的成功与否往往取决于其内部管理的精细化和团队的高效协作。而班组作为企业最基层的管理单元,其建设质量直接关系到企业的整体运营效率和竞争力。今天,深圳天行健企业管理咨询公司将从多个维度分析班组建设在企业发展中的重要作…

【Python】深入了解 defaultdict:轻松处理默认值与复杂数据结构

文章目录 1. 深入理解 Python 中的 defaultdict:简化数据结构处理的利器2. defaultdict 基础概念3. 创建 defaultdict 实例3.1 基本用法3.2 使用其他工厂函数 4. defaultdict 的应用场景4.1 计数器4.2 分组数据 5. defaultdict 的高级用法5.1 嵌套 defaultdict5.2 自…

为什么流程图在项目管理中如此重要?

在我们的日常学习生活中,是不是感觉工作复杂繁琐,知识杂乱无章呢?那么流程图能够完美的解决这个问题,本文将会用一篇文章告诉你什么是流程图,流程图简单来说就是一种以图形方式表示算法、工作流程或过程的图表&#xf…

云服务器重置密码后,xshell远程连接不上,重新启用密码登录方式

云服务器重置密码后 ,xshell连接出现不能使用密码登录 解决方案:以下来自阿里云重新启用密码登录方式帮助文档 为轻量应用服务器创建密钥且重启服务器使密钥生效后,服务器会自动禁止使用root用户及密码登录。如果您需要重新启用密码登录方式&…