NV-Embed详细技术解析

NV-Embed详细技术解析

bicheng/2025/7/16 3:18:30/文章来源:https://blog.csdn.net/XianxinMao/article/details/144793244

NV-Embed详细技术解析

1. 方法论

1.1 双向注意力

背景：解码器块中的因果掩码原本用于防止自回归文本生成时的信息泄露
创新：在对比学习过程中移除因果注意力掩码
优势：提升模型的表示能力,允许双向信息流动

1.2 潜在注意力层

动机：
- 均值池化可能稀释关键短语的重要信息
- 最后标记嵌入可能存在近因偏差
结构设计：
- 输入：解码器最后层隐藏状态(Q)和可训练字典(K=V)
- 处理流程：潜在注意力计算 → MLP(双线性变换+GELU) → 均值池化
参数配置：
- 512个潜在向量
- 4096维隐藏层
- 8头多头注意力

1.3 两阶段指令调优

第一阶段(检索聚焦)：

数据：多样化检索数据集
策略：
- 使用对比学习
- 采用批内负样本
- 使用精选难负例
目标：提升检索能力

第二阶段(任务泛化)：

数据：混合检索和非检索数据集
策略：不使用批内负样本
目标：增强模型对不同任务的适应性

2. 实验细节

2.1 模型配置

基础模型：Mistral 7B
训练方法：
- LoRA微调(rank=16, alpha=32)
- dropout率0.1
指令模板处理：
- 评估时屏蔽指令标记
- 文档不添加指令前缀

2.2 训练数据集

检索数据集：

问答类：MS MARCO, HotpotQA, Natural Question, PAQ
专业领域：Stackexchange, BioASQ, FiQA
推理验证：Natural language inference, FEVER
其他：SQuAD, ArguAna

非检索数据集：

分类任务：
- 情感分析：AmazonReviews, IMDB
- 意图分类：Banking77, MTOPIntent
- 其他：情绪分类、毒性对话分类
聚类任务：
- 学术文献：raw_arxiv, raw_biorxiv, raw_medrxiv
- 新闻组：TwentyNewsgroups
语义相似度：
- 数据集：STS12, STS22, STS-Benchmark
- 采样策略：相关度≥4作为正样本
- 负样本：使用BM25挖掘(rank≥2且相关度<2.5)

3. 评估结果

3.1 MTEB基准性能

总体得分：69.32 (56个任务新记录)
BEIR检索任务：59.36 (15个任务最高分)

3.2 消融研究

注意力机制比较：

双向注意力在所有池化方式下均优于因果注意力
均值池化优于标记嵌入
自注意力未带来显著提升

池化方法对比：

测试方法：末尾、均值、潜在注意力、自注意力
结论：潜在注意力层展现最佳整体性能

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/bicheng/65451.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

jdk版本介绍

jdk版本介绍

1.JDK版本编号 • 主版本号：表示JDK的主要版本，如JDK 8、JDK 11中的8和11。主版本号的提升通常意味着引入了重大的新特性或变更。 • 次版本号：在主版本号之后，有时会跟随一个或多个次版本号（如JDK 11.0.2中的0.2&…

阅读更多...

低代码开源项目Joget的研究——基本概念和Joget7社区版应用

低代码开源项目Joget的研究——基本概念和Joget7社区版应用

大纲 1. 基本概念1.1 Form1.1.1 Form1.1.1.1 概述1.1.1.2 主要特点和用途1.1.1.3 创建和使用 Form1.1.1.4 示例 1.1.2 Section1.1.2.1 概述1.1.2.2 主要特点和用途1.1.2.3 示例 1.1.3 Column1.1.4 Field1.1.5 示例 1.2 Datalist1.2.1 Datalist1.2.1.1 主要特点和用途1.2.1.2 创…

阅读更多...

【LeetCode 04】 209. 长度最小的子数组

【LeetCode 04】 209. 长度最小的子数组

暴力解法： 测试通过✅提交超时❌ class Solution {public int minSubArrayLen(int target, int[] nums) {//暴力解法int sum0;int subLength0;int resultInteger.MAX_VALUE;int lennums.length;for(int i0;i<len;i){//起始位置sum0;for(int ji;j<len;j){//终…

阅读更多...

【已解决】图片png转ico格式

【已解决】图片png转ico格式

起因： pyinstaller 打包时需要 ico 格式图片，但是通常手上只有png格式的图片，为了将png转为ico，直接改后缀会报错“struct.error: unpack requires a buffer of 16 bytes”，我就上网搜了一下，发现都是一些…

阅读更多...

Java 中 Stream 流的使用详解

Java 中 Stream 流的使用详解

Java 中 Stream 流的使用详解什么是 Stream？ Stream 是 Java 8 引入的一种全新的操作集合的方式。它支持通过声明性方式对集合进行复杂的数据操作（如过滤、排序、聚合等），避免使用大量的 for 循环，提高代码的可读性…

阅读更多...

AMD ｜ GPU ｜深度学习｜如何使用

AMD ｜ GPU ｜深度学习｜如何使用

问题：我在复现代码的时候，发现自己只拥有AMD的GPU，对于一个硬件小白来说，怎么办呢？我想看看怎么使用；解决： 首先要安装支持AMD的GPU的pytorch，pytorch； 使程序在安装了支…

阅读更多...

Blender高效优化工作流程快捷小功能插件 Haggis Tools V1.1.5

Blender高效优化工作流程快捷小功能插件 Haggis Tools V1.1.5

Haggis Tools V1.1.5 是一款专为Blender设计的插件，旨在优化工作流程、减少单调和重复的任务，从而为艺术家节省时间。这款插件适用于多个版本的Blender，能够有效提升工作效率。 Blender插件特点： 工作流程优化：专门设…

阅读更多...

用 Unity 引擎，了解其核心概念、组件、资源、脚本、编辑器等功能，能够独立开发多平台的游戏或应用

用 Unity 引擎，了解其核心概念、组件、资源、脚本、编辑器等功能，能够独立开发多平台的游戏或应用

在 Unity 引擎中开发多平台游戏或应用，掌握其核心概念、组件、资源管理、脚本编写、编辑器功能是必不可少的。接下来，我将逐个分析 Unity 引擎的这些内容，详细介绍涉及到的知识，并附上相关代码示例，帮助你更好地理解…

阅读更多...

windows C#-显式接口实现

windows C#-显式接口实现

如果一个类实现的两个接口包含签名相同的成员，则在该类上实现此成员会导致这两个接口将此成员用作其实现。如下示例中，所有对 Paint 的调用皆调用同一方法。第一个示例定义类型： public interface IControl {void Paint(); } public inter…

阅读更多...

数据采集背后的效率革命：如何优化你的爬虫性能

数据采集背后的效率革命：如何优化你的爬虫性能

在爬虫技术日益发展的今天，性能优化成为提升数据采集效率的关键。面对日益复杂的网页结构和庞大的数据量，高效的爬虫能够显著降低运行时间和资源成本。本文将围绕爬虫性能优化的核心方法展开讨论，并通过实例对比多进程、多线程以及普通爬取的…

阅读更多...

OpenHarmony-5.PM 子系统（2）

OpenHarmony-5.PM 子系统（2）

电池服务组件OpenHarmony-4.1-Release 1.电池服务组件 Battery Manager 提供了电池信息查询的接口，同时开发者也可以通过公共事件监听电池状态和充放电状态的变化。电池服务组件提供如下功能： 电池信息查询。充放电状态查询。关机充电。电池服务组件架…

阅读更多...

测试冰淇淋模型

测试冰淇淋模型

测试领域的冰淇淋模型（Ice Cream Cone Model）是一个相对于传统的测试金字塔模型的反转，是一种与经典金字塔模型相对的测试策略。在这种模型中，测试的分布和重点与传统金字塔模型相反。以下是冰淇淋模型的主要特点和原因&#xff1…

阅读更多...

短视频矩阵账号管理技术源码搭建详解，支持OEM

短视频矩阵账号管理技术源码搭建详解，支持OEM

一、引言在短视频矩阵系统中，账号管理是至关重要的一环，它涉及到多平台账号的接入、用户信息的安全存储与高效管理、权限的精准控制以及账号数据的同步与更新等关键功能。一个健壮、灵活且安全的账号管理技术架构，能够为整个短视频矩阵系统的…

阅读更多...

【如何安全删除Windows和Windows.old备份文件夹】

【如何安全删除Windows和Windows.old备份文件夹】

如何安全删除Windows和Windows.old备份文件夹如何安全删除Windows和Windows.old备份文件夹 - 完整指南方法一：使用PowerShell（推荐）步骤1：启动管理员权限的PowerShell步骤2：执行删除命令方法二：使用系统自…

阅读更多...

【驱动开发】设备分类、设备号申请和注销，注册和移除字符设备，以及一个基本的内核驱动程序框架代码

【驱动开发】设备分类、设备号申请和注销，注册和移除字符设备，以及一个基本的内核驱动程序框架代码

一、Linux内核对设备的分类 Linux的文件种类序号符号类型文件内容文件名原信息1-普通文件√√√2d目录文件√√√3p管道文件√√4s本地socket文件√√5l链接文件软链接有；硬链接相当于别名√√6c字符设备√√7b块设备√√设备类型 Linux内核按驱动程序实现模型框架的不同，…

阅读更多...

黑马Java面试教程_P2_MySQL

黑马Java面试教程_P2_MySQL

系列博客目录文章目录系列博客目录前言1. 优化1.1 MySQL中，如何定位慢查询？面试文稿 1.2 面试官接着问：那这个SQL语句执行很慢,如何分析 ( 如何优化）呢?面试文稿 1.3 了解过索引吗?(什么是索引)1.4 继续问索引的底层数据结构…

阅读更多...

Learning Multi-Scale Photo Exposure Correction

Learning Multi-Scale Photo Exposure Correction

Abstract 用错误的曝光捕捉照片仍然是相机成像的主要错误来源。曝光问题可分为以下两类:(i)曝光过度，即相机曝光时间过长，导致图像区域明亮和褪色;(ii)曝光不足，即曝光时间过短，导致图像区域变暗。曝光不足和曝光过度都会大大降低…

阅读更多...

湖南引力：低代码助力实现智慧养老管理系统

湖南引力：低代码助力实现智慧养老管理系统

“低代码开发宛如一座神奇的桥梁，它以简洁高效的方式连接起创意与应用，降低了开发门槛，为企业和开发者带来前所未有的便捷与可能，开启了快速实现软件梦想的新征程。” ——王港，湖南引力科技有限公司湖南引力科技有…

阅读更多...

5-pandas常用操作2

5-pandas常用操作2

前言一、df.max() 计算每列最大值二、df.apply() 1.可以传函数代码如下（示例）： # lambda 匿名函数自定义 f lambda x:x.max()-x.min() # x参数冒号后是返回值 df.apply(f) # 默认axis0,所以这里是按列求最大值-最小值2.可以直…

阅读更多...

全局webSocket 单个页面进行监听并移除单页面监听

全局webSocket 单个页面进行监听并移除单页面监听

之前全局封装的 webSocket 在某些特定的页面中使用会直接去调用 webSocket 的 onMessage 方法已进入页面就会调，如果退出页面移除整个监听的话全局监听就会被移除这是修改后的全局封装 let token uni.getStorageSync(token) const HEARTBEAT_INTERVAL 1 *…

阅读更多...

最新文章