NV-Embed详细技术解析

NV-Embed详细技术解析

1. 方法论

1.1 双向注意力

  • 背景:解码器块中的因果掩码原本用于防止自回归文本生成时的信息泄露
  • 创新:在对比学习过程中移除因果注意力掩码
  • 优势:提升模型的表示能力,允许双向信息流动

1.2 潜在注意力层

  • 动机:
    • 均值池化可能稀释关键短语的重要信息
    • 最后标记嵌入可能存在近因偏差
  • 结构设计:
    • 输入:解码器最后层隐藏状态(Q)和可训练字典(K=V)
    • 处理流程:潜在注意力计算 → MLP(双线性变换+GELU) → 均值池化
  • 参数配置:
    • 512个潜在向量
    • 4096维隐藏层
    • 8头多头注意力

1.3 两阶段指令调优

第一阶段(检索聚焦):

  • 数据:多样化检索数据集
  • 策略:
    • 使用对比学习
    • 采用批内负样本
    • 使用精选难负例
  • 目标:提升检索能力

第二阶段(任务泛化):

  • 数据:混合检索和非检索数据集
  • 策略:不使用批内负样本
  • 目标:增强模型对不同任务的适应性

2. 实验细节

2.1 模型配置

  • 基础模型:Mistral 7B
  • 训练方法:
    • LoRA微调(rank=16, alpha=32)
    • dropout率0.1
  • 指令模板处理:
    • 评估时屏蔽指令标记
    • 文档不添加指令前缀

2.2 训练数据集

检索数据集:

  • 问答类:MS MARCO, HotpotQA, Natural Question, PAQ
  • 专业领域:Stackexchange, BioASQ, FiQA
  • 推理验证:Natural language inference, FEVER
  • 其他:SQuAD, ArguAna

非检索数据集:

  1. 分类任务:

    • 情感分析:AmazonReviews, IMDB
    • 意图分类:Banking77, MTOPIntent
    • 其他:情绪分类、毒性对话分类
  2. 聚类任务:

    • 学术文献:raw_arxiv, raw_biorxiv, raw_medrxiv
    • 新闻组:TwentyNewsgroups
  3. 语义相似度:

    • 数据集:STS12, STS22, STS-Benchmark
    • 采样策略:相关度≥4作为正样本
    • 负样本:使用BM25挖掘(rank≥2且相关度<2.5)

3. 评估结果

3.1 MTEB基准性能

  • 总体得分:69.32 (56个任务新记录)
  • BEIR检索任务:59.36 (15个任务最高分)

3.2 消融研究

注意力机制比较:

  • 双向注意力在所有池化方式下均优于因果注意力
  • 均值池化优于标记嵌入
  • 自注意力未带来显著提升

池化方法对比:

  • 测试方法:末尾、均值、潜在注意力、自注意力
  • 结论:潜在注意力层展现最佳整体性能

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/65451.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

jdk版本介绍

1.JDK版本编号 • 主版本号&#xff1a;表示JDK的主要版本&#xff0c;如JDK 8、JDK 11中的8和11。主版本号的提升通常意味着引入了重大的新特性或变更。 • 次版本号&#xff1a;在主版本号之后&#xff0c;有时会跟随一个或多个次版本号&#xff08;如JDK 11.0.2中的0.2&…

低代码开源项目Joget的研究——基本概念和Joget7社区版应用

大纲 1. 基本概念1.1 Form1.1.1 Form1.1.1.1 概述1.1.1.2 主要特点和用途1.1.1.3 创建和使用 Form1.1.1.4 示例 1.1.2 Section1.1.2.1 概述1.1.2.2 主要特点和用途1.1.2.3 示例 1.1.3 Column1.1.4 Field1.1.5 示例 1.2 Datalist1.2.1 Datalist1.2.1.1 主要特点和用途1.2.1.2 创…

【LeetCode 04】 209. 长度最小的子数组

暴力解法&#xff1a; 测试通过✅提交超时❌ class Solution {public int minSubArrayLen(int target, int[] nums) {//暴力解法int sum0;int subLength0;int resultInteger.MAX_VALUE;int lennums.length;for(int i0;i<len;i){//起始位置sum0;for(int ji;j<len;j){//终…

【已解决】图片png转ico格式

起因&#xff1a; pyinstaller 打包时需要 ico 格式图片&#xff0c;但是通常手上只有png格式的图片&#xff0c;为了将png转为ico&#xff0c;直接改后缀会报错“struct.error: unpack requires a buffer of 16 bytes”&#xff0c;我就上网搜了一下&#xff0c;发现都是一些…

Java 中 Stream 流的使用详解

Java 中 Stream 流的使用详解 什么是 Stream&#xff1f; Stream 是 Java 8 引入的一种全新的操作集合的方式。它支持通过声明性方式对集合进行复杂的数据操作&#xff08;如过滤、排序、聚合等&#xff09;&#xff0c;避免使用大量的 for 循环&#xff0c;提高代码的可读性…

AMD | GPU | 深度学习 | 如何使用

问题&#xff1a;我在复现代码的时候&#xff0c;发现自己只拥有AMD的GPU&#xff0c;对于一个硬件小白来说&#xff0c;怎么办呢&#xff1f;我想看看怎么使用&#xff1b;解决&#xff1a; 首先要安装支持AMD的GPU的pytorch&#xff0c;pytorch&#xff1b; 使程序在安装了支…

Blender高效优化工作流程快捷小功能插件 Haggis Tools V1.1.5

Haggis Tools V1.1.5 是一款专为Blender设计的插件&#xff0c;旨在优化工作流程、减少单调和重复的任务&#xff0c;从而为艺术家节省时间。这款插件适用于多个版本的Blender&#xff0c;能够有效提升工作效率。 Blender插件特点&#xff1a; 工作流程优化&#xff1a;专门设…

用 Unity 引擎,了解其核心概念、组件、资源、脚本、编辑器等功能,能够独立开发多平台的游戏或应用

在 Unity 引擎 中开发多平台游戏或应用&#xff0c;掌握其 核心概念、组件、资源管理、脚本编写、编辑器功能 是必不可少的。接下来&#xff0c;我将逐个分析 Unity 引擎的这些内容&#xff0c;详细介绍涉及到的知识&#xff0c;并附上相关代码示例&#xff0c;帮助你更好地理解…

windows C#-显式接口实现

如果一个类实现的两个接口包含签名相同的成员&#xff0c;则在该类上实现此成员会导致这两个接口将此成员用作其实现。 如下示例中&#xff0c;所有对 Paint 的调用皆调用同一方法。 第一个示例定义类型&#xff1a; public interface IControl {void Paint(); } public inter…

数据采集背后的效率革命:如何优化你的爬虫性能

在爬虫技术日益发展的今天&#xff0c;性能优化成为提升数据采集效率的关键。面对日益复杂的网页结构和庞大的数据量&#xff0c;高效的爬虫能够显著降低运行时间和资源成本。本文将围绕爬虫性能优化的核心方法展开讨论&#xff0c;并通过实例对比多进程、多线程以及普通爬取的…

OpenHarmony-5.PM 子系统(2)

电池服务组件OpenHarmony-4.1-Release 1.电池服务组件 Battery Manager 提供了电池信息查询的接口&#xff0c;同时开发者也可以通过公共事件监听电池状态和充放电状态的变化。电池服务组件提供如下功能&#xff1a; 电池信息查询。充放电状态查询。关机充电。 电池服务组件架…

测试冰淇淋模型

测试领域的冰淇淋模型&#xff08;Ice Cream Cone Model&#xff09;是一个相对于传统的测试金字塔模型的反转&#xff0c;是一种与经典金字塔模型相对的测试策略。在这种模型中&#xff0c;测试的分布和重点与传统金字塔模型相反。以下是冰淇淋模型的主要特点和原因&#xff1…

短视频矩阵账号管理技术源码搭建详解,支持OEM

一、引言 在短视频矩阵系统中&#xff0c;账号管理是至关重要的一环&#xff0c;它涉及到多平台账号的接入、用户信息的安全存储与高效管理、权限的精准控制以及账号数据的同步与更新等关键功能。一个健壮、灵活且安全的账号管理技术架构&#xff0c;能够为整个短视频矩阵系统的…

【如何安全删除Windows和Windows.old备份文件夹】

如何安全删除Windows和Windows.old备份文件夹 如何安全删除Windows和Windows.old备份文件夹 - 完整指南方法一&#xff1a;使用PowerShell&#xff08;推荐&#xff09;步骤1&#xff1a;启动管理员权限的PowerShell步骤2&#xff1a;执行删除命令 方法二&#xff1a;使用系统自…

【驱动开发】设备分类、设备号申请和注销,注册和移除字符设备,以及一个基本的内核驱动程序框架代码

一、Linux内核对设备的分类 Linux的文件种类 序号符号类型文件内容文件名原信息1-普通文件√√√2d目录文件√√√3p管道文件√√4s本地socket文件√√5l链接文件软链接有;硬链接相当于别名√√6c字符设备√√7b块设备√√设备类型 Linux内核按驱动程序实现模型框架的不同,…

黑马Java面试教程_P2_MySQL

系列博客目录 文章目录 系列博客目录前言1. 优化1.1 MySQL中&#xff0c;如何定位慢查询&#xff1f;面试文稿 1.2 面试官接着问&#xff1a;那这个SQL语句执行很慢,如何分析 ( 如何优化&#xff09;呢?面试文稿 1.3 了解过索引吗?(什么是索引)1.4 继续问 索引的底层数据结构…

Learning Multi-Scale Photo Exposure Correction

Abstract 用错误的曝光捕捉照片仍然是相机成像的主要错误来源。曝光问题可分为以下两类:(i)曝光过度&#xff0c;即相机曝光时间过长&#xff0c;导致图像区域明亮和褪色;(ii)曝光不足&#xff0c;即曝光时间过短&#xff0c;导致图像区域变暗。曝光不足和曝光过度都会大大降低…

湖南引力:低代码助力实现智慧养老管理系统

“低代码开发宛如一座神奇的桥梁&#xff0c;它以简洁高效的方式连接起创意与应用&#xff0c;降低了开发门槛&#xff0c;为企业和开发者带来前所未有的便捷与可能&#xff0c;开启了快速实现软件梦想的新征程。” ——王港&#xff0c;湖南引力科技有限公司 湖南引力科技有…

5-pandas常用操作2

前言 一、df.max() 计算每列最大值 二、df.apply() 1.可以传函数 代码如下&#xff08;示例&#xff09;&#xff1a; # lambda 匿名函数自定义 f lambda x:x.max()-x.min() # x参数 冒号后是返回值 df.apply(f) # 默认axis0,所以这里是按列求最大值-最小值2.可以直…

全局webSocket 单个页面进行监听并移除单页面监听

之前全局封装的 webSocket 在某些特定的页面中使用会直接去调用 webSocket 的 onMessage 方法 已进入页面就会调&#xff0c;如果退出页面移除整个监听的话全局监听就会被移除 这是修改后的 全局封装 let token uni.getStorageSync(token) const HEARTBEAT_INTERVAL 1 *…