Bert模型输出:last_hidden_state转换为pooler_output

1. BERT模型的输出

在BERT模型中,last_hidden_statepooler_output是两个不同的输出。

(1) last_hidden_state:

    last_hidden_state是指BERT模型中最后一个隐藏层的隐藏状态。它是一个三维张量,其形状为[batch_size, sequence_length, hidden_size]。其中,batch_size是输入序列的批量大小,sequence_length是输入序列的长度,hidden_size是BERT模型的隐藏层大小(通常为768)。
 last_hidden_state保存了输入序列中每个token对应的隐藏状态,这些隐藏状态经过多层的Transformer编码器处理得到。在多数任务中,可以直接使用这个张量进行下游任务的训练或者特征提取。

(2) pooler_output:
     pooler_output是指BERT模型中经过一个特殊的池化层后得到的句子级别表示。它是一个二维张量,其形状为[batch_size, hidden_size]。
pooler_output是通过对BERT模型最后一个隐藏层的第一个token([CLS] token)的隐藏状态应用一个全连接层得到的。这个全连接层的参数在预训练过程中被学习得到。pooler_output可以看作是整个输入序列的压缩表示,通常用于句子级别的任务,如文本分类。

       总的来说,last_hidden_state提供了序列中每个token的隐藏状态信息,而pooler_output提供了整个句子的语义表示。

2. last_hidden_state转换为pooler_output

     在BERT模型中,last_hidden_state是最后一个隐藏层的隐藏状态,而pooler_output是通过应用一个全连接层(通常是一个线性变换加上激活函数)到last_hidden_state中的特殊token([CLS] token)得到的。

      首先从last_hidden_state中提取出每个样本的第一个token(即[CLS] token)的隐藏状态。然后,我们定义了一个线性层pooler_layer,将隐藏状态映射到与BERT模型的隐藏大小相同的空间。最后,我们应用了tanh激活函数,得到 pooler_output,这是整个句子的语义表示。这个pooler_output可以用于句子级别的任务,例如文本分类。

      请确保poor_layer的权重是正确初始化的。通常情况下,应该使用预训练的BERT模型的权重来初始化它。可以在实例化poor_layer时进行这样的初始化。如果使用的是transformers库,它提供了加载预训练BERT模型并提取pooler_output的方法。要使用预训练的BERT模型的权重来初始化线性层 pooler_layer,可以从预训练的BERT模型中加载权重,并将这些权重用作 pooler_layer的初始权重。通常情况下,会使用Hugging Face的 transformers库来加载预训练的BERT模型。

       以下是一个示例代码,演示如何使用transformers库来加载预训练的BERT模型,并使用其中的权重来初始化 pooler_layer:

from transformers import BertModel, BertTokenizer#加载预训练的Bert模型和tokenizer
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
extractor = BertModel.from_pretrained('bert-base-uncased')#text是原始文本数据
x = tokenizer(text, padding=True, truncation=True, max_length=256, return_tensors="pt").to(device)x = extractor(**x)#获取hidden_state
x1= x['last_hidden_state']# 定义一个线性层,将最后一个隐藏层的第一个token的隐藏状态映射到pooler_output
pooler_layer = nn.Linear(768, 768).to(device)# 使用BERT模型的权重来初始化pooler_layer的权重
with torch.no_grad():pooler_layer.weight.copy_(extractor.pooler.dense.weight)pooler_layer.bias.copy_(extractor.pooler.dense.bias)# 获取CLS token的隐藏状态(最后隐藏层的第一个token),取出每个样本的第一个token的隐藏状态
cls_token_state = x1[:, 0, :].to(device)## 应用线性层并使用激活函数
x1 = torch.tanh(pooler_layer(cls_token_state)).to(device)#直接获取pooler_output
x2=x['pooler_output'].to(device)

       在这个示例中,我们首先从预训练的BERT模型中加载了tokenizer和BERT模型。然后,我们创建了一个与BERT模型隐藏大小相同的线性层 pooler_layer。最后,我们使用`bert_model.pooler.dense`中的权重来初始化`pooler_layer`的权重。这样,`pooler_layer`就被正确初始化了,并可以用于将`last_hidden_state`变换为`pooler_output`。最后x1和x2的结果相同。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/758870.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

智慧水务:雨季山区水域水务智能化监控与监测管理方案

一、方案背景 雨季的水务管理对于各区县来说,无疑是一项至关重要的任务。夏季雨水充沛,江河湖泊水位上涨,山洪、上游排水等情况时有发生,给各地的水务设施和防汛工作带来了严峻的挑战。针对区县的各类水域监管场景,需…

免费的chatgpt网站(包含最新版4.0)

相信每个人在生活工作学习中都逃不过用chatgpt来解决一些问题,下面我长话短说,为大家简单介绍几款免费且好用的chatgpt网站 1、YesChat 网址:YesChat-ChatGPT4V Dalle3 Claude 3 All in One Free 第一个就给大家介绍一个狠角色,最…

C 语言中位取反操作符 ~ 和逻辑取反操作符 !

在 C 语言中,有两种取反操作符,分别是位取反操作符 ~ 和逻辑取反操作符 !。 位取反操作符 ~: 位取反操作符 ~ 是一个一元操作符,用于执行按位取反操作。它会将操作数的每个位取反,即将 0 变为 1,将 1 变为 …

c语言入门基础题-自己的解法c小白

编程2:企业发放奖金根据利润提成。利润不高于十万时,奖金可提10%,高于十万时,低于十万部分不变,高于十万部分可提7.5%,20万到40万时,高于20万部分可提5%,40万到六十万时高于四十万部分可提3%&am…

代码随想录算法训练营第五十二天|LeetCode300 最长递增子序列、LeetCode674 最长连续递增序列、LeetCode718 最长重复子数组

300.最长递增子序列 思路:确定dp数组及其下标含义,dp[i]表示以nums[i]为结尾的最长递增子序列长度。递推公式,遍历i以前的子序列, 如果nums[i]>nums[j],dp[i]就等于max(dp[i],dp[j]1),找到当前最长的递增序列长度。…

备战蓝桥杯Day29 - 拼接最大数字问题

问题描述 有n个非负整数,将其按照字符串拼接的方式拼接为一个整数如何拼接可以使得得到的整数最大? 例: 32,94,128,1286,6,71可以拼接除的最大整数为 94716321286128。 问题思路 1.比较两个字符串的第一个数字,数值大的在前面,数值小的在…

算法打卡day21|回溯法篇01|理论知识,Leetcode 77.组合

回溯法理论知识 回溯法也可以叫做回溯搜索法,它是一种搜索的方式。回溯是递归的副产品,只要有递归就会有回溯。所以回溯函数也就是递归函数,指的都是一个函数。 回溯法的效率 回溯法并不是什么高效的算法。因为回溯的本质是穷举,…

win提权第二弹服务提权

阅读须知: 探索者安全团队技术文章仅供参考,未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作,由于传播、利用本公众号所提供的技术和信息而造成的任何直接或者间接的后果及损失,均由使用者 本人负责,作者不为此承担任何责任,如…

python多进程调用class类遇到的坑

测试环境 Python 3.9.17 系统:macOS Ventura 13.0.1 测试1 多进程采用test.run方式调用函数。 发现,调用的test.run 函数没运行 def multiprocessing_get_slow_log():pool Pool(3)sp Spider()conn sp.mysql_conncur conn.cursor()sql "&qu…

使用STM32 再实现电动车防盗

项目需求 点击遥控器 A 按键,系统进入警戒模式,一旦检测到震动(小偷偷车),则喇叭发出声响报警, 吓退小偷。 点击遥控器 B 按键,系统退出警戒模式,再怎么摇晃系统都不会报警&…

Java并发编程-Java中的锁

1.简介 Java 中的锁是用于控制多线程对共享资源访问的一种机制,以防止数据的不一致性和脏读。Java 提供了多种锁机制,包括内置的同步机制(synchronized)和在 java.util.concurrent.locks 包中提供的显式锁(如 Reentra…

3an推客是什么?有哪些优势

商家如何提升站外流量的?站外推广营销工具3an推客,帮助大家提升站外流量,为新品破零,打造爆款。一起来了解这个工具吧。 一、什么是3an推客 3an推客是一种站长联盟合作推广,其中CPS模式按照实际成交额计费的站外广告投放工具&a…

python编程之黑洞文件

之前我们学习了Python的爬虫及反爬技术,今天我们就来了一个恶作剧程序! 这里主要涉及到Python的os,time,shutil这几个库 作用:它可以重复删除指定目录内的所有文件,千万不要小瞧这个功能,如果你指定的目录是像手机安…

3.6 条件判断语句cmp,je,ja,jb及adc、sbb指令

汇编语言 1. adc指令 adc是带进位加法指令,它利用了CF位上记录的进位值指令格式:adc 操作对象1,操作对象2功能:操作对象1 操作对象1 操作对象2 CF例如:adc ax,bx,实现的功能是:ax ax bx …

PyCharm中设置代码模版

前言 新创建一个.py文件后,我们总需要在开头写一些必要的代码,有什么方法能够一劳永逸,让这些代码自动生成呢? 有,它就是代码模版。 设置代码模版 这里先说说如何设置它。 步骤:首先打开PyCharm&#xff0…

隐私计算笔记(1)

一、可信流通体系 建立数据来源可确认、使用范围可界定、流通过程可追溯、安全风险可防范的数据可流通体系。 二、产生信任的基石 身份可确认利益可依赖能力有预期行为有后果 三、数据流通不可信风险 内循环:在内部循环中,数据持有方在其自身的运维…

MySQL介绍

一、MySQL数据库介绍 1、发展史 1996年 MySQL1.0 2008年1月16日 Sun公司收购了 MySQL 2009年4月20日 Oracle收购了Sun公司 MySQL是一种开放源代码的关系型数据库管理系统 使用最常用的数据库管理语言 SQL(结构化查询语言) MySQL是开放源代码的 因此所有…

c#使用onnxruntime调用yolo模型导出的onnx模型分割图片

1.今天写下c#中怎么使用yolo模型系列导出的onnx分割图片 2.yolo训练好后,把模型导出为onnx模式。 3.导出模型为onnx模式后,在window中要引用,可以使用 Microsoft.ML.OnnxRuntime库 4.window系统要求win10或者更高,vs用vs2022或更高…

【Kotlin】扩展属性、扩展函数

1 类的扩展 Kotlin 提供了扩展类或接口的操作,而无需通过类继承或使用装饰器等设计模式,来为某个类添加一些额外的属性或函数,我们只需要通过一个被称为扩展的特殊声明来完成。通过这种机制,我们可以将那些第三方类不具备的功能强…

C语言例3-35:长度运算的例子

长度运算符的表现形式: sizeof(数据类型符) 或 sizeof(变量) 长度运算符的优先级: 与单目算术运算符、单目逻辑运算符、自增和自减运算符的优先级相同。上述优先级相同的运算符的结合性都是从右至左。 长度运算的例子 代码如…