LLM2Vec论文阅读笔记

在这里插入图片描述

  • 这是篇LLM论文,用decoder-like的LLM去提取embedding
  • 文章认为,decoder-like的LLM在text embedding task表现不优的一大原因就是其casual attention mechanism,其实就是mask的问题。所以只要对现有的decoder-only LLM进行如下三步改进,就将pre-trained decoder-only LLM into a universal text encoder:
    • 双向注意力,就是取消掉MSA的mask,用全1的mask 矩阵
    • masked next token prediction (MNTP),就是用类似BERT的预训练方式,给一个序列,挖掉中间某几个单词,让模型根据剩下的单词去预测这几个单词,但是些许不同的是,我要预测第i个单词并非使用第i个token的输出来算loss,而是用它前一个token的输出来算loss,也就是i-1.这就是next token。但是我感到奇怪的是,这样不是把模型变成encoder-like 了吗,那模型还能保持原来的性能吗。。
    • unsupervised contrastive learning。即使用了上述两部,模型离embedding模型还差一点,因为模型还是在学word-level的特征,相比encoding模型在next sentence prediction任务上学sentence-level的特征,decoder模型缺乏这样的训练。用的是这样的训练方式,就是在random drop out掉一个句子的一些单词,同一个句子,drop out 两次,forward 两次,得到两个embedding,然后这两个embedding 作为positive sample算相似度,不同句子之间的作为negative sample算相似度。
    • sentence embedding 的获得方式文章做了消融试验,一种是EOS pooling,一种是mean pooling,一种是weighted mean pooling,mean pooling效果比较好。weighted mean pooling用的是GPT sentence embeddings for semantic search这篇文章中的方法,EOS pooling就是直接用最后一个token作为从这个句子提取的embedding。也就是说,如果不特别设计提取embedding的方法,naive的使用EOS的token和对token进行average pooling这两种方法中,average pooling效果更好
      在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/32028.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

品牌价值超1592亿,九牧是如何炼成“六边形战士”?

作者 | 吉羽 来源 | 洞见新研社 经历了多年高速发展的中国市场开始慢慢减速,消费者正变得越来越“挑剔”,在信息爆炸的今天,企业面临“需求”与“流量”的双重考验。 市场凭什么记住你?选择你? 答案只有一个&#x…

关于飞浆文字识别技术的运用

飞桨PaddlePaddle-源于产业实践的开源深度学习平台,有关文章可以在此进行查询 飞桨(PaddlePaddle)是一个由百度开源的深度学习平台,它提供了丰富的机器学习算法库,支持多种深度学习模型的构建、训练和部署。飞桨平台具…

【漏洞复现】万户-ezOFFICE download_ftp.jsp 任意文件下载漏洞

免责声明: 本文内容旨在提供有关特定漏洞或安全漏洞的信息,以帮助用户更好地了解可能存在的风险。公布此类信息的目的在于促进网络安全意识和技术进步,并非出于任何恶意目的。阅读者应该明白,在利用本文提到的漏洞信息或进行相关测…

基于51单片机计步器—无线蓝牙APP上传

基于51单片机计步器设计 (程序+原理图+设计报告) 功能介绍 具体功能: 本设计由STC89C52单片机最小系统ADXL345加速度传感器lcd1602液晶电路蓝牙模块电路呼吸灯电路电源电路组成。 1.通过ADXL345检测步数&#xff0…

调试实战 | 记一次有教益的 vs2022 内存分配失败崩溃分析(续)

前言 前一阵子遇到了 vs2022 卡死的问题,在上一篇文章中重点分析了崩溃的原因 —— 当 vs2022 尝试分配 923MB 的内存时,物理内存页文件大小不足以满足这次分配请求,于是抛出异常。 本篇文章将重点挖掘一下 vs2022 在崩溃之前已经分配的内容…

HTML静态网页成品作业(HTML+CSS+JS)——动漫斗罗大陆介绍网页(3个页面)

🎉不定期分享源码,关注不丢失哦 文章目录 一、作品介绍二、作品演示三、代码目录四、网站代码HTML部分代码 五、源码获取 一、作品介绍 🏷️本套采用HTMLCSS,使用Javacsript代码实现图片轮播和tab切换,共有3个页面。 …

24年安克创新社招入职自适应能力cata测评真题分享北森测评高频题库

第一部分:安克创新自适应能力cata测评 感谢您关注安克创新社会招聘,期待与您一起弘扬中国智造之美。 为对您做出全面的评估,现诚邀您参加我们的在线测评。 测评名称:社招-安克创新自适应能力cata测评 第二部分:安克…

福建聚鼎:装饰画现在做起来难吗

在当代社会,艺术创作已经成为很多人表达自我、追求美学生活的方式之一。装饰画作为家居装饰的重要元素,也受到了越来越多人的喜爱。但做一个优质的装饰画真的容易吗? 从技术层面讲,随着科技的发展,制作装饰画的手段和材料都比以往…

【因果推断python】50_去偏/正交机器学习2

目录 Frisch-Waugh-Lovell on Steroids CATE Estimation with Double-ML Frisch-Waugh-Lovell on Steroids 双重/偏差 ML 其思想非常简单:在构建结果和治疗残差时使用 ML 模型: 是估计,是估计 我们的想法是,ML 模型具有超强的…

Red Hat Ansible Automation Platform架构

目录 示例架构:一、Ansible Automation Platform 实现流程详解1. 自动化控制器 (Automation Controller)2. 自动化网格 (Automation Mesh)3. 私有自动化中心 (Private Automation Hub)4. Event-Driven Ansible 控制器5. 数据存储 (PostgreSQL 数据库) 二、实现流程1…

力扣SQL 即时食物配送 II min函数 嵌套查询

Problem: 1174. 即时食物配送 II 👨‍🏫 参考题解 Code -- 计算立即配送的订单百分比 select round (-- 计算订单日期与客户偏好配送日期相同的订单数量sum(case when order_date customer_pref_delivery_date then 1 else 0 end) * 100 /-- 计算总订…

基于深度学习的图像识别技术与应用是如何?

基于深度学习的图像识别技术与应用在当今社会中扮演着越来越重要的角色。以下是对该技术与应用的详细解析: 一、技术原理 深度学习是一种模拟人脑处理和解析数据的方式的技术和方法论。在图像识别领域,深度学习主要通过深度神经网络(如卷积…

CentOS7在2024.6.30停止维护后,可替代的Linux操作系统

背景 Linux的发行版本可以大体分为两类,一类是商业公司维护的发行版本,一类是社区组织维护的发行版本,前者以著名的Redhat(RHEL)为代表,后者以Debian为代表。国内占有率最多的却是Centos,这是由…

最全信息收集工具集

吉祥学安全知识星球🔗除了包含技术干货:Java代码审计、web安全、应急响应等,还包含了安全中常见的售前护网案例、售前方案、ppt等,同时也有面向学生的网络安全面试、护网面试等。 所有的攻防、渗透第一步肯定是信息收集了&#xf…

CID引流电商助力3C产品销售腾飞的实践与思考

摘要:随着互联网技术的不断发展和普及,电商行业迎来了前所未有的发展机遇。其中,CID引流电商作为一种新兴的电商模式,为商家们提供了更加精准、高效的拓客之路。尤其在3C产品领域,CID引流电商更是助力其销售腾飞的重要…

云计算【第一阶段(18)】磁盘管理与文件系统

一、磁盘基础 磁盘(disk)是指利用磁记录技术存储数据的存储器。 磁盘是计算机主要的存储介质,可以存储大量的二进制数据,并且断电后也能保持数据不丢失。 早期计算机使用的磁盘是软磁盘(Floppy Disk,简称…

程序猿大战Python——面向对象——魔法方法

什么是魔法方法? 目标:了解什么是魔法方法? 魔法方法指的是:可以给Python类增加魔力的特殊方法。有两个特点: (1)总是被双下划线所包围; (2)在特殊时刻会被…

MURF3040CTR-ASEMI智能AI应用MURF3040CTR

编辑:ll MURF3040CTR-ASEMI智能AI应用MURF3040CTR 型号:MURF3040CTR 品牌:ASEMI 封装:TO-220F 恢复时间:35ns 最大平均正向电流(IF):30A 最大循环峰值反向电压(VR…

CSS详解

盒子模型&#xff08;box-sizing&#xff09; line-height与height CSS选择符和可继承属性 属性选择符&#xff1a; 示例&#xff1a;a[target"_blank"] { text-decoration: none; }&#xff08;选择所有target"_blank"的<a>元素&#xff09; /* 选…

嵌入式Linux驱动开研发流程详细解析

大家好,今天主要给大家分享一下,嵌入式linux中重要的内容详解。 一、驱动概念 驱动与底层硬件直接打交道,充当了硬件与应用软件中间的桥梁。 具体任务 读写设备寄存器(实现控制的方式) 完成设备的轮询、中断处理、DMA通信(CPU与外设通信的方式) 进行物理内存向虚拟内存…