LLM2Vec: 解锁大语言模型的隐藏能力

LLM

LLM2Vec:重新定义大语言模型在自然语言处理中的应用

一种名为 ** LLM2Vec ** 的新方法正在改变我们对大语言模型(LLMs)在自然语言处理(NLP)中的使用方式。

研究人员提出了一种创新方法,将通常仅用于生成文本的大型语言模型转化为更强大的文本理解和组织工具。这项技术有可能颠覆我们处理各种与文本相关任务的方式,并减少对诸如BERT等旧有模型的依赖。

以下是LLM2Vec的核心发现及其如何提升LLMs处理文本能力的详解。

研究动机

大型语言模型(如GPT-4)在生成多种任务的文本方面表现出色。但在需要深度理解的任务(例如 ** 信息检索、文本分组或理解单词间的关系 ** )中,这些模型的表现并不理想。问题主要出在其 ** 因果注意力机制(causal attention mechanism)**上。

因果注意力机制的特点是每个单词只能关注之前的单词,这限制了对整个句子意义的全面理解。而LLM2Vec正是为了解决这个问题。

它通过简单但强大的三步方法提升模型性能:

  1. 启用双向注意力(Bidirectional Attention)
  2. 掩码下一词预测(Masked Next Token Prediction,MNTP)
  3. 无监督对比学习(Unsupervised Contrastive Learning,SimCSE)

通过这些技术,LLM2Vec只需少量额外训练,即可让常规的LLM在文本理解和表示上表现得更加出色。

LLM2Vec原理

LLM2Vec的核心思想是重新思考大语言模型如何读取文本。它不再局限于只关注先前的单词,而是让模型能够同时关注整个句子或段落。这极大提升了模型的理解能力。

具体工作机制如下:

在这里插入图片描述

1. 启用双向注意力(Bidirectional Attention)

普通的LLM中,每个单词只能关注之前的单词,即因果注意力机制。这种机制虽然适合生成文本,但很难生成深度和细致的文本表示。

LLM2Vec通过将因果注意力掩码(causal attention mask)更改为全1掩码(all-ones attention mask),实现了双向注意力。

论文中的图1展示了LLM2Vec如何通过改变注意力掩码,将每个单词的注意力范围扩展到整个序列。这种方式允许每个单词同时考虑上下文中的所有其他单词,从而显著提升模型对语境的理解能力。

然而,仅启用双向注意力并不足以优化模型。因为原始模型的训练方式不同,仍需进一步调整才能充分利用双向注意力。这就是下一步的作用。

2. 掩码下一词预测(Masked Next Token Prediction, MNTP)

为了让模型适应双向注意力,LLM2Vec采用了一种名为**掩码下一词预测(MNTP)**的技术。MNTP类似于BERT的掩码机制,但针对这种模型进行了调整。

在此步骤中,模型会隐藏句子中的某些单词,然后通过查看其他所有单词(包括隐藏单词之前和之后的上下文)来预测这些单词。

上图展示了MNTP的工作原理。模型通过使用上下文信息预测隐藏的单词,增强了捕获单词间关系的能力。

这一步帮助模型习惯于同时关注前后文,从而更好地理解和表示文本。

3. 无监督对比学习(SimCSE)

最后一步是SimCSE,它帮助模型理解不同的文本序列。对比学习通过让模型区分相似句子和不同句子,提升了生成高质量句子或段落表示的能力。

图1还展示了SimCSE的流程,模型通过对比学习训练,能够更好地区分相似和不同的句子,从而提高句子表示的质量。

这三步让LLM2Vec能够将任何大型语言模型转化为一个在各种NLP任务中都非常实用的文本理解和表示工具。

LLM2Vec实验

在这里插入图片描述

研究人员使用从1.3亿到8亿参数不等的主流LLMs,测试了LLM2Vec的性能。他们在** 分块(chunking)** 、** 命名实体识别(NER)和词性标注(POS)** 等单词级和句子级任务中,对模型进行了评估。

同时,他们使用了著名的基准测试集,如CoNLL-2003和Massive Text Embeddings Benchmark (MTEB),以衡量模型性能。

上图展示了LLM2Vec改造后的模型(如S-LLaMA-1.3B、LLaMA-2–7B和Mistral-7B)在分块、NER和POS等任务上的表现,并与传统编码器模型进行了对比。结果显示,LLM2Vec模型在多个任务中显著优于传统的编码器模型。

尤其是加入SimCSE后,LLM2Vec在整个句子的理解方面表现更加优异,在MTEB无监督模型排行榜上取得了最高分。

为什么Mistral-7B表现突出

在这里插入图片描述

一个令人惊讶的发现是,Mistral-7B表现极为出色。开启双向注意力后,其性能几乎没有下降,且与原始设置的性能非常接近。这可能表明Mistral-7B在训练过程中已经使用了某些双向特性。

论文图8通过比较Mistral-7B与其他模型(如S-LLaMA-1.3B和LLaMA-2–7B)的因果注意力与双向注意力性能,进一步说明了Mistral-7B在无需额外训练情况下,天然适配双向学习的优势。

LLM2Vec与监督学习的结合

研究人员还测试了在监督对比学习下使用LLM2Vec的效果,使用了约150万样本的数据集。

结果显示,Meta-LLaMA-3–8B + LLM2Vec在仅使用公开数据训练的模型中,达到了最先进的性能,并在文本嵌入任务中创下了新记录。

在这里插入图片描述

在这里插入图片描述

上表汇总了MTEB排行榜的结果,比较了Meta-LLaMA-3–8B与其他模型的性能,进一步验证了LLM2Vec结合监督对比学习的强大能力。

LLM2Vec为何优于现有方法

LLM2Vec的主要优势之一是其高效性。相比于通过复制文本来解决注意力问题的Echo嵌入方法,LLM2Vec无需增加额外的文本长度。

Echo嵌入会使文本长度加倍,导致处理速度变慢;而LLM2Vec保持了原始文本长度,因而更加快速高效。

意义与未来方向

LLM2Vec在提升LLMs文本理解能力方面迈出了重要一步。它证明了仅解码器模型也可以通过小幅改动变成强大的文本理解工具。这为信息检索、文本分组以及其他NLP任务带来了新的可能性,同时无需大量额外数据或长时间训练。

未来,研究人员计划尝试将LLM2Vec模型微调到多语言环境,并应用于低资源环境中。

由于LLM2Vec所需的额外工作量较少,它在资源匮乏的环境中特别具有应用潜力,有望让高级NLP工具更广泛地被采用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/65921.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

人工智能安全与隐私——联邦遗忘学习(Federated Unlearning)

前言 在联邦学习(Federated Learning, FL)中,尽管用户不需要共享数据,但全局模型本身可以隐式地记住用户的本地数据。因此,有必要将目标用户的数据从FL的全局模型中有效去除,以降低隐私泄露的风险&#xf…

GAN对抗生成网络(一)——基本原理及数学推导

1 背景 GAN(Generative Adversarial Networks)对抗生成网络是一个很巧妙的模型,它可以用于文字、图像或视频的生成。 例如,以下就是GAN所生成的人脸图像。 2 算法思想 假如你是《古董局中局》的文物造假者(Generator,生成器)&a…

数字图像总复习

目录 一、第一章 二、第三章 三、第四章 四、第五章 五、第八章 六、第十章 作业一 作业二 一、第一章 1.图像文件格式由(文件头)及(图像数据)组成 2.常见的图像文件格式:(JPEG)、&…

使用Fn Connect之后,如何访问到其他程序页面?原来一直都可以!

前言 昨天小白讲过在飞牛上登录Fn Connect,就可以实现远程访问家里的NAS。 接着就有小伙伴咨询:如何远程访问到家里其他需要使用不同端口号才能访问到的软件,比如Jellyfin、Emby等。 这个小白在写文章的时候确实没有考虑到,因为…

(二)当人工智能是一个函数,函数形式怎么选择?ChatGPT的函数又是什么?

在上一篇文章中,我们通过二次函数的例子,讲解了如何训练人工智能。今天,让我们进一步探讨:面对不同的实际问题,应该如何选择合适的函数形式? 一、广告推荐系统中的函数选择 1. 业务目标 想象一下&#x…

利用3DGS中convert.py处理自采数据

前言 3DGS源码中convert.py提供对自采数据集的处理,需要预先安装Colmap和ImageMagick. ubuntu22.04安装colmap 点击进入NVIDIA官网,查看GPU的CMAKE_CUDA_ARCHITECTURES 1、克隆colmap源码,并进入colmap文件夹 git clone https://github.c…

硬件设计-关于ADS54J60的校准问题

目录 简介: 校准模分析: 交错的优势 交错挑战 S/2 fIN处产生杂散。失调不匹配杂散很容易识别,因为只有它位于fS/2处,并可轻松地进行补偿。增益、时序和带宽不匹配都会在输出频谱的fS/2 fIN 处产生杂散;因此,随之而来的问题是:如何确定它们各自的影响。图8以简单的…

什么是神经网络?神经网络的基本组成部分训练神经网络激活函数有哪些局限性和挑战

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默, 忍不住分享一下给大家。点击跳转到网站 学习总结 1、掌握 JAVA入门到进阶知识(持续写作中……) 2、学会Oracle数据库入门到入土用法(创作中……) 3、手把…

感恩相伴,蓝凌向新成长!一起拥抱数智2025

2024,数字中国,向新奔跑!千行百业拥抱数字化、人工智能,蓝凌继续践行“让组织更智慧”的使命,与客户、伙伴等共创共赢,引领中国数智化办公创新发展。感恩相伴24载,让我们一起拥抱数智2025&#…

【算法】模拟退火算法学习记录

写这篇博客的原因是博主本人在看某篇文章的时候,发现自己只是知道SGD这个东西,但是到底是个啥不清楚,所以百度了一下,然后在通过博客学习的时候看到了退火两个字,想到了本科做数模比赛的时候涉猎过,就上bil…

【0x0037】HCI_Write_Link_Supervision_Timeout命令详解

目录 一、命令概述 二、命令格式及参数说明 2.1. HCI_Write_Link_Supervision_Timeout 命令格式 2.2. Handle 2.3. Link_Supervision_Timeout 三、生成事件及参数 3.1. HCI_Command_Complete 事件 3.2. Status 3.3. Handle 四、命令执行流程 4.1. 命令准备阶段 4.…

【杂谈】-DeepSeek如何以560万美元突破成本障碍

DeepSeek如何以560万美元突破成本障碍 文章目录 DeepSeek如何以560万美元突破成本障碍1、高效人工智能的经济学2、实现不可能的工程3、人工智能生态系统的连锁反应 传统的人工智能观点认为,构建大型语言模型 (LLM)需要大量资金——通常需要数十亿美元的投资。但中国…

TIOBE 指数 12 月排行榜公布,VB.Net排行第九

IT之家 12 月 10 日消息,TIOBE 编程社区指数是一个衡量编程语言受欢迎程度的指标,评判的依据来自世界范围内的工程师、课程、供应商及搜索引擎,今天 TIOBE 官网公布了 2024 年 12 月的编程语言排行榜,IT之家整理如下: …

vs2022编译opencv 4.10.0

参考:Windosw下Visual Studio2022编译OpenCV与参考区别在于,没有用cmake GUI,也没有创建build目录,直接用vs2022打开了C:\code\opencv目录,即CMakeLists.txt所在根目录。没有修改默认下载地址,采用手动下载…

未来教育:AI知识库如何重塑学习体验

在科技日新月异的今天,教育领域正经历着前所未有的变革。人工智能(AI)技术的快速发展,特别是AI知识库的广泛应用,正在重塑我们的学习体验,使之变得更加高效、个性化和智能化。本文将深入探讨AI知识库如何影…

Android Camera压力测试工具

背景描述: 随着系统的复杂化和业务的积累,日常的功能性测试已不足以满足我们对Android Camera相机系统的测试需求。为了确保Android Camera系统在高负载和多任务情况下的稳定性和性能优化,需要对Android Camera应用进行全面的压测。 对于压…

JDK8源码分析Jdk动态代理底层原理

本文侧重分析JDK8中jdk动态代理的源码,若是想看JDK17源码分析可以看我的这一篇文章 JDK17源码分析Jdk动态代理底层原理-CSDN博客 两者之间有着略微的差别,JDK17在JDK8上改进了不少 目录 源码分析 过程 生成的代理类大致结构 本文侧重分析JDK8中jdk…

Spire.PDF for .NET【页面设置】演示:向 PDF 添加平铺背景图像

平铺背景通常是指用一个或多个小图像重复填充的背景。在本文中,您将学习如何在 PDF 中平铺图像,并使用 C# 和 VB.NET 为您的 PDF 创建平铺背景。 Spire.PDF for .NET 是一款独立 PDF 控件,用于 .NET 程序中创建、编辑和操作 PDF 文档。使用 …

ImageNet 2.0?自动驾驶数据集迎来自动标注新时代

引言: 3DGS因其渲染速度快和高质量的新视角合成而备受关注。一些研究人员尝试将3DGS应用于驾驶场景的重建。然而,这些方法通常依赖于多种数据类型,如深度图、3D框和移动物体的轨迹。此外,合成图像缺乏标注也限制了其在下游任务中的…

stm32 智能语音电梯系统

做了个stm32智能语音控制的电梯模型,总结一下功能,源码用ST的HAL库写的,整体流程分明。 实物图 这个是整个板子的图片,逻辑其实并不复杂,只是功能比较多,在我看来都是一些冗余的功能,但也可能是…