NV-Embed论文阅读笔记

在这里插入图片描述

  • 这是NVIDIA的一篇论文,LLM通常使用的是GPT的decoder范式作为一个生成模型,文章探讨如何利用这样的decoder生成模型来实现BERT这样的encoder的功能,即提取有效的embedding。
  • 现有的方法提取embedding的方式无非是 1 mean pooling; 2 the last token embedding。前者是encoder-like的model用得多,后者是decoder-like的model用得多。然而这两者都有问题。
  • 文章提出的方法是,decoder模型正常是会通过循环的方式生成一段序列嘛,最后一个time step的一层的Q就是 l × d l\times d l×d的, l l l个token每个 d d d维,然后我预定义一个latent array,是 r × d r\times d r×d的,它作为 r r r个token的K和V,用来和Q算attention(实际上做的是多头注意力,这里简单起见按单头注意力讲解),得到 O O O l × d l\times d l×d的,再接MLP GELU MLP,再过一个mean pooling,得到最终的embedding。
  • 文章一边说train from scratch,又说用LoRA,就很奇怪。
  • 另外呢,文章把mask去掉了,之前的GPT,每个token做注意力只能看到前面的token,但文章发现直接全都看得到在提取embedding方面效果更好:
    在这里插入图片描述
  • 文章试验了bidirect attention/causal attention的对比,EOS Mean latent-attention self-attention的对比:
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/854898.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机相关专业是否仍是“万金油”的选择?

亲爱的朋友们: 2024 年高考已然落幕,数百万高三学子站在了人生的重要十字路口,面临着选择大学专业这一关键抉择。在这个节点上,计算机相关专业是否还能被称为“万金油”的选择呢? 相信大家都知道,在最近这几…

经典神经网络(11)VQ-VAE模型及其在MNIST数据集上的应用

经典神经网络(11)VQ-VAE模型及其在MNIST数据集上的应用 我们之前已经了解了PixelCNN模型。 经典神经网络(10)PixelCNN模型、Gated PixelCNN模型及其在MNIST数据集上的应用 今天,我们了解下DeepMind在2017年提出的一种基于离散隐变量(Discrete Latent va…

celery骚操作之把任务写在类中可能造成的问题

celery注册异步函数是模块级别的,也就是同个模块不能有同名函数,比如搞个骚操作,将celery任务写在类中如下(注意这个静态方法是个特殊的装饰器,他实际是个描述器,他必须写在最上面) 实际注册的任务是apps.business.tas…

java:sqlj2ava的静态字段保护

不论是Thrift RPC还是SpringWeb服务,服务方法的输入和输出参数都要通过网络在Server/Client之间传输。实现数据对象传输,发送端需要对数据对象进行序列化(JSON或二进制数据流),接收端需要对收到的数据反序列化还原为原始的数据对象。 从3.32.…

萤石视频接入api接口示例

api官方文档 文档概述 萤石开放平台API文档 (ys7.com) 方法层: @Value("${video.appKey}")private String appKey;@Value("${video.appSecret}")private String appSecret;@Overridepublic String getToken(String appKey, String appSecret) {OkHtt…

3D视觉引导机器人提升生产线的自动化水平和智能化程度

随着智能化技术的不断发展,汽车制造企业正积极寻求提升智能化水平的途径。富唯智能的3D视觉引导机器人抓取技术为汽车制造企业提供了一种高效、智能的自动化解决方案。 项目目标 某汽车制造企业希望通过引入智能化技术提升生产线的自动化水平和智能化程度。他们希望…

小抄 20240610

1 不要轻易主动帮人,你一主动,本来是他的事,现在成了你的事,你做的稍微有点不如愿,他还要反过来埋怨你。 2 网上经常炫富的有两种人, 一种是穷人,通过炫富来掩盖自己自卑的内心。 一种是靠炫富…

数字时代PLM系统的重要性

什么是 PLM(产品生命周期管理)? 从最基本的层面上讲,产品生命周期管理 (PLM)是管理产品从最初构思、开发、服务和处置的整个过程的战略流程。换句话说,PLM 意味着管理产品从诞生到消亡所涉及的一切。 什么是 PLM 软件…

43.139.152.26 P2315 分数计算

从键盘读入一个分数算式,为2个分数做加法或者减法,请输出分数算式的结果,结果也用分数表达,且约分到最简形式。(请注意:做减法可能得到负的分数,如果是负数要输出负号-,如1/15-4/15结…

python错题(3)

round四舍五入 title()把单词首字母大写 all() 函数用于判断给定的可迭代参数 iterable 中的所有元素是否都为 TRUE,如果是返回 True,否则返回 False。 元素除了是 0、空、None、False 外都算 True 。空元组、空列表返回值为True,这里要特…

2023数A题——WLAN网络信道接入机制建模

A题——WLAN网络信道接入机制建模 思路:该题主要考察的WLAN下退避机制建模仿真。 资料获取 问题1: 假设AP发送包的载荷长度为1500Bytes(1Bytes 8bits),PHY头时长为13.6μs,MAC头为30Bytes,MA…

是否可以外链代发?

当然是可以的,代发外链是一种有效的提升网站SEO排名和流量的方法。通过在高质量的网站上发布包含你网站链接的内容,可以提高你网站的权重和可信度。而在所有代发外链的方式中,GPB外链无疑是最好的选择。 GPB外链,每一条GPB外链都是…

【UE4】角色御剑飞行的蓝图实现

沉沉更鼓急,渐渐人声绝 吹灯窗更明,月照一天雪 UE4简单的实现御剑飞行的功能 契子✨ 所谓的御剑飞行的原理就跟 《御板》 飞行的原理差不多,不过是在人物脚上插把剑在飞行的时候显示出来罢了。简单来讲就是只要渲染做的足够牛,土鸡…

App上架和推广前的准备

众所周知,App推广的第一步是上架各大应用下载市场,然后才是其他推广渠道。所以本文主要分两部分,第一部分主要介绍的是上架各大应用市场方面的准备,第二部分主要介绍的是其他渠道推广方面的准备。 一、App上架前的准备 1.1 上架…

李光明从程序员到架构师的逆袭之路(二)

李光明是一名已经走过了两个年头的程序员,身处快节奏、高强度的IT行业,每天的生活几乎被996的工作模式所填满。他渐渐觉得,自己仿佛被无尽的代码海洋淹没,每一天都在重复着枯燥无味的编码工作,心灵上的疲惫让他对工作失…

程序员做电子书产品变现的复盘(5)

源码开发者是巴西人,只适配了英文和一些小语种,把中文epub电子书文件拖进去后经常会报错和程序崩溃(中文epub文件在制作时很多并没有按行业规范)。 通过邮箱找到开发者,当然先是赞扬这套源码超级无敌好用,顺…

CSP-J/S初赛02 计算机软件与操作系统

1 计算机软件 计算机软件可分为系统软件和应用软件两大类。 系统软件 用来支持应用软件的开发和运行的,主要是操作系统软件,如:DOS、Windows95/98/2000、Unix、Linux、WindowsNT; 应用软件 为了某个应用目的而编写的软件&…

Spring (65)什么是Spring Expression Language(SpEL)

Spring Expression Language(SpEL)是一个强大的表达式语言,允许在运行时查询和操作一个对象图。SpEL是Spring框架的一个组成部分,提供了丰富的表达式用于运行时逻辑和数据操作。 SpEL 的核心功能 Literal Expressions&#xff0…

Servlet基础(续集2)

HttpServletResponse web服务器接收到客户端的http的请求,针对这个请求,分别创建一个代表请求的HttpServletRequest对象,代表响应的一个HttpServletResponse 如果要获取客户端请求过来的参数:找HttpServletRequest如果要给客户端…

【前端面试】二叉树递归模板和题解

递归模板和步骤 递归题目的通用步骤递归模板总结1. 树的遍历(DFS)2. 二叉树的最大深度3. 二叉树的最近公共祖先 递归题目的记忆技巧 递归题目的通用步骤 明确递归函数的功能:确定递归函数的输入参数和返回值,明确函数的功能。基准…