拿下SOTA!最强中文Embedding模型对标OpenAI,技术路线公开

国产大模型「日日新 5.0」已经在权威主流评测中鲨疯了。变强的背后原因竟是,来自商汤自研中文Embedding模型——Piccolo2。这是首个对标OpenAI向量长度的模型。

国产大模型最近在权威主流评测中「杀」疯了!

商汤「日日新 5.0」在中文大模型测评基准SuperCLUE中,成为首个超越GPT-4 Turbo的国产大模型;在OpenCompass的基准表现中,客观评测超过GPT-4 Turbo,主观评测已超过GPT-4o位列第一。

在这里插入图片描述

这次「又双叒叕变强」背后是算法、算力、数据的全面「buff」叠加,其中最重要的技术之一、也是解决LLM幻觉问题的关键——商汤自研的通用Embedding模型Piccolo2

Piccolo2日前已突破SOTA,在由北京智源研究院发布的中文语义向量评测基准C-MTEB评测中名列第一,这是当前最大规模、最为全面的中文语义向量表征能力评测基准,包含分类、聚类、句对分类、重排、检索和句子相似度六大类评测任务和31个数据集。

图片

如今,商汤公开了技术路线。

Piccolo2目前支持512/2K/8K三种向量长度,其中8K模型是目前中文Embedding中能够实现对标OpenAI向量长度的模型。

图片

论文地址:https://arxiv.org/abs/2405.06932

Hugging Face地址:https://huggingface.co/sensenova/piccolo-large-zh-v2

要读的论文又增加了!

模型幻觉「退退退」,长文本「准准准」!商汤全新嵌入模型性能大幅提升

正式读论文之前先聊聊Embedding对于大语言模型的重要性:

检索的准确度、可解释性、易操作的知识外挂……这些都是源于与LLM基于知识库的问答场景息息相关的Embedding模型性能。

嵌入(Embedding)就是将内容(如文字或代码)中的概念转化为一串数字序列。通过这种方式,机器学习模型和其他算法可以轻松理解不同内容之间的关系,执行聚类、检索等操作。

无论是应对幻觉和可解释性,还是应对长文,Piccolo2加持的商汤日日新5.0都完美地完成了从长文中处理和获取信息的任务。

图片

在整个检索增强生成(RAG)pipeline中,Embedding的性能决定了检索的准确性,也间接决定了LLM输出的可信度,而RAG在私有化部署方面的优势也为其开辟了更多可能性。

RAG的一大优点就在于知识库可以通过文档的形式进行外挂,这使得知识能够更频繁地更新,而无需耗时耗力再通过二次预训练向LLM灌入这些知识,并且RAG的检索步骤能够提供上下文给模型作为参考依据,让大模型回答更加准确。

这些也催生了另一个优势——私有化,RAG可以帮助小企业轻松完成大模型的私有化部署,而无需暴露私有数据。

在这里插入图片描述

核心技术详解:对标OpenAI向量长度,精度位列MTEB中文榜单榜首

在这个LLM落地应用中必不可少的一环里,商汤已经将这项技术实现了SOTA,相比之前同量级的SOTA模型acge-embedding,Piccolo2模型综合评分提升了约1.9个点。

到了读论文环节,这背后用了什么方法?依然是算法、数据的双重发力。

与上一代(Piccolo)相比, Piccolo2 主要利用高效的多任务混合损失训练方法,有效地利用来自不同下游任务的文本数据和标签。

同时,Piccolo2 扩大了嵌入维度,并使用 MRL 训练来支持更灵活的向量维度。除了训练方法之外,Piccolo2 还利用了一个数据合成框架和难负挖掘方法,以不断扩充数据集的数量和质量。

多任务混合损失训练:适用不同下游任务

以往的Embedding模型训练过程主要依赖于的标准InfoNCE损失和批内负样本(in-batch negative),通常通过利用大量负样本来实现较好的性能。然而,标准 InfoNCE 并不适用当前Embedding模型所有的下游任务。

例如,句子相似度(STS)和句对分类任务(pair classification)这种具有细粒度标注的任务通常更适合用排序损失。

此外,分类任务和聚类任务在之前的工作中也没有被用于通用嵌入模型的训练。因此在Piccolo2中,商汤采用了多任务混合损失训练方法,针对不同的下游任务利用不同的训练损失,并证明了其优越的性能。

对于检索任务,Piccolo2采用标准的InfoNCE损失:

图片

对于句对分类、句对相似度任务,Piccolo2采用排序损失:

图片

对于分类、聚类任务,Piccolo2首先通过将文本的label视为正/负样本,把分类、聚类数据转换为三元组,然后采用不带批内负样本的InfoNCE损失进行训练:

图片

大维度和MRL训练

在今年1月OpenAI发布的两个新的文本嵌入模型text-embedding-3-small和 text-embedding-3-large ,当时引发了广发关注。

受到 OpenAI 的 text-embedding-v3的启发,商汤在研发Piccolo2时,也扩大了Embedding的维度尺寸,从1024 增加到1792。

除此之外,还引入了「套娃学习」(Matryoshka Representation Learning, MRL)来支持更灵活的Embedding推理维度,「套娃学习」通过以嵌套方式对 O (log (d)) 低维向量进行显式优化在同一个高维向量中学习不同容量的表征。

高质量数据加持精度

Piccolo2的微调数据主要来自于开源社区和GPT-4生成的合成数据。同时,对于检索任务,Piccolo2也应用了难负样本挖掘来扩充数据质量。数据配比如下图所示:

图片

实验介绍:

图片

通过多任务混合损失训练的方式,Piccolo2在C-MTEB上达到了70.95的平均精度,相比之前同量级的SOTA模型acge-embedding,综合评分提升了约1.9个点。

同时,得益于MRL技术的加持,Piccolo2在Embedding小维度上也有相当强的优势——从1792维度降到256维度,精度也仅仅下降了约1个点。

图片

如此,MRL算法让Embedding模型具备多粒度的表达能力,也为开发者们提供更加灵活的选择。

Piccolo2更多技术细节可以查看:

论文地址:https://arxiv.org/abs/2405.06932

Hugging Face地址:https://huggingface.co/sensenova/piccolo-large-zh-v2

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/26946.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一键安全体检!亚信安全携手鼎捷软件推出企业安全体检活动 正式上线

亚信安全联合鼎捷软件股份有限公司(以下简称“鼎捷软件”)正式推出“一键安全体检”服务。亚信安全网络安全专家将携手鼎捷软件数据安全专家,围绕企业的数智安全状况,进行问题探索与治愈、新问题预测与预警,在全面筛查…

公司面试题总结(六)

31.说一说 webpack 的构建流程是什么? ⚫ 初始化流程: ◼ 从配置文件和 Shell 语句中读取与合并参数 ◼ 初始化需要使用的插件和配置插件等执行环境所需要的参数 ⚫ 编译构建流程: ◼ 从 Entry 发出,针对每个 Module 串行…

MySQL数据库初识

目录 一.数据库相关概述 1.数据库概念 数据(Data) 表 数据库系统 2.数据库系统发展史 当今主流数据库介绍 3.数据库分类 3.1.关系数据库 3.2.非关系型数据库 二.MySQL数据库安装 1.源码编译安装mysql 2.yum安装mysql 一.数据库相关概述 1.…

Clearedge3d EdgeWise 5.8 强大的自动化建模软件

EdgeWise是功能强大的建模软件,提供领先的建模功能和先进的技术,让您的整个过程更快更准确!您可以获得使用自动特征提取和对象识别的 3D 建模,ClearEdge3D 自动建模和对象识别软件通过创建竣工文档和施工验证完成该过程。拓普康和…

Ajax的应用

1. Ajax Ajax是Asynchronous Javascript And XML(异步JavaScript和XML)的缩写。 Ajax技术描述了使用脚本操纵HTTP和Web服务器进行数据交换,在页面不刷新的情况下,实现页面的局部更新。 重点: Ajax 是一种在无需重新加…

气膜结构的使用寿命及其优势—轻空间

气膜结构以其独特的构造方式和显著的优势,在体育馆、展览馆、临时建筑等领域越来越受欢迎。尽管气膜结构的使用寿命与传统钢结构相比可能较短,但其在成本、建造速度、灵活性等方面的优势使其成为许多应用场景中的理想选择。本文将详细探讨气膜结构的使用…

如何基于Excel文件图形化从零建表并导入数据(以MySQL和SQLynx为例)

目录 1. 准备Excel数据 2. 导入Excel数据 a. 登录SQLynx b. 导入Excel文件 3. 验证数据 4. 使用和管理表 5. 总结 在实际的业务过程中,我们经常会有很多数据存储在Excel中,但在Excel中的数据分析不如使用SQL和数据库方便,数据量大些的…

location.href = ‘welcome.html‘;报错 - Completed 406 NOT_ACCEPTABLE

巧妙解决方案,使用服务端进行redirect即可 。 package com.aliyun.controller;import org.springframework.stereotype.Controller; import org.springframework.web.bind.annotation.GetMapping;Controller public class RedirectController {GetMapping("/r…

盲盒App开发时有哪些技术框架可以借鉴

在开发盲盒App时,技术框架的选择对于应用的性能、稳定性和用户体验都至关重要。以下是几个可以借鉴的技术框架,它们在不同方面提供了优势,并且结合了参考文章中的相关信息: 前端技术框架 微信小程序框架: 优点&#…

Interlinks Manager评测:WordPress 的最佳内部链接插件?

在这篇Interlinks Manager评测中,我们将彻底查看它是否真的是 WordPress 最佳内部链接插件!我们还将检查它是否值得您尝试。现在就开始吧 快速浏览一下插件,你就会对其提供的功能有一个基本的了解。 Interlinks Manager是一款 SEO 插件&…

加速“芯”动力 | 2024集成电路测试工程师研修班(苏州场)报名通知

6月19日—20日,加速“芯”动力——2024集成电路测试工程师研修班正式开课。本次培训课程内容包括芯片设计测试技术分享、解决方案分享、ATE编程接口介绍、ATE向量微指令、ATE量产界面介绍、测试开发基础培训、程序开发实训等内容,感兴趣的小伙伴&#xf…

建议收藏!亚马逊卖家必须知道的37个常用术语解释

运营亚马逊,经常会看到很多个专业术语,想必大部分新手卖家都比较陌生,熟悉这些常用术语的含义有助于你更好地运营亚马逊。下面为各位整理了37个在亚马逊跨境电商中常见的术语及其解释,建议收藏! 1、SKU Stock Keeping…

Go基础编程 - 05 - 数组与切片

目录 1. 数组2. 切片2.1. slice 声明、初始化2.2. slice 操作2.3. append() 追加切片、扩容2.4. 字符串和切片 3. Copy4. Array、Slice 内存布局 上一篇:基本类型、常量和变量 下一篇:指针 1. 数组 数组是同一种类型固定长度的序列(有长度、…

工业 web4.0 的 UI 风格,独树一帜

工业 web4.0 的 UI 风格,独树一帜

[深度学习]基于C++和onnxruntime部署yolov10的onnx模型

基于C和ONNX Runtime部署YOLOv10的ONNX模型,可以遵循以下步骤: 准备环境:首先,确保已经下载后指定版本opencv和onnruntime的C库。 模型转换:按照官方源码:https://github.com/THU-MIG/yolov10 安装好yolov…

【计算机网络】TCP报文详解

认识TCP报头 其实协议的形式都是一个结构化的数据,TCP协议也不例外。一起来看看TCP协议的报头是怎么样的。 以上就是TCP报头,实际上是一个结构化的数据,也就是一个结构体。例如: struct tcp_hdr {unsigned int stc_port : 16;un…

光储充一体化,开启绿色出行新篇章

一、追光逐梦,绿色能源点亮未来 在蔚蓝的天空下,光伏发电板如同一片片金色的叶子,静静地捕捉着太阳的光芒。它们不仅为大地带来光明,更是绿色出行的强大后盾。光储充一体化充电站,以光伏为源,储能为桥&…

Kubernetes集群部署Prometheus和Grafana

目录 一、部署Node-Exporter 二、Prometheus安装和配置 1.创建账号并予以授权 2.创建存储卷存储Prometheus配置信息 3.通过Deployment方式部署Prometheus 4.创建Service 三、Prometheus配置热加载 四、Grafana安装 五、K8s部署Kube-State-Metrics 1.创建Kube-State-M…

C#开发-集合使用和技巧(一)常用集合和方法介绍

C#开发-集合使用和技巧 &#xff08;一&#xff09;常用集合和方法介绍常用集合和方法介绍 C#开发-集合使用和技巧1. 集合基础集合介绍集合跟数组对比 2.我们常用的集合类型列表List<T>键值对集合Dictionary<TKey,TValue>队列Queue<T>其他一些集合类型堆栈St…

架构设计 - MySQL 插入数据性能优化策略

mysql 数据库提高数据插入效率主要可以考虑以下方面&#xff1a; 使用批量插入数据的 SQL 语句&#xff0c;避免使用 for 循环逐条记录插入。 所有插入语句共用一个事务&#xff0c;避免1条SQL语句开1个事务&#xff0c;所有操作都完成后再提交事务。 尽量按照索引递增顺序插入…