【NLP学习笔记】transformers中的tokenizer切词时是否返回token_type_ids

结论

先说结论:
是否返回token_type_ids,可以在切词时通过 return_token_type_ids=True/False指定,指定了True就肯定会返回,指定False,不一定就不返回。

分析

  • Doc地址
    https://huggingface.co/docs/transformers/main/en/internal/tokenization_utils#transformers.PreTrainedTokenizerBase.call
    在这里插入图片描述

  • 源码分析
    在这里插入图片描述
    由上图可以,transformers的tokenization_utils_base.py明确指出,是否返回由return_token_type_idsself.model_input_names两个属性控制
    在这里插入图片描述
    同时可见,如果return_token_type_ids是False,那么会判断model_input_names里有没有token_type_idsmodel_input_names顾名思义,就是当前的模型需要哪些输入。
    在这里插入图片描述
    默认值是有token_type_ids的,所以即使不指定,像Bert的tokenizer,切词时没有指定return_token_type_ids,并且transformers的Bert的切词源码里也没指定model_input_names相关,但是依旧可以返回token_type_ids
    在这里插入图片描述
    但是像GPT2的切词源码里,继承时重载了model_input_names这个变量,没有指定token_type_ids,所以默认情况下GPT2的切词方式是不返回token_type_ids

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/44110.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

springboot通江银耳销售管理系统-计算机毕业设计源码15998

摘要 随着人们健康意识的增强,银耳这种传统的中药食材备受关注。而通江银耳是四川省通江县特产,中国国家地理标志产品。四川省通江县是银耳的发源地,中国银耳之乡,通江银耳因主产于此而得名,以其独到的质厚、肉嫩、易炖…

C#的DllImport使用方法

1. 托管代码与非托管代码 托管代码:我们编写的C#代码(也包括.net平台上的其他语言,如VB,J#等),首先经过编译器把代码编译成中间语言(IL),当方法被调用时,公共…

【Python专栏】Python的历史及背景介绍

博客主页:Duck Bro 博客主页系列专栏:Python专栏关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ Python的背景介绍 关键词:Python、优缺点、领域 目录 …

借助Aspose.Email,在 C# 中将 EML 导入 PST

将 EML 消息导入 PST 文件是一项常见要求,尤其是对于在电子邮件客户端之间迁移或存档电子邮件以进行存储和备份的用户。 PST 格式保留了内容的结构、格式和附件,使其适合在 Outlook 应用程序中无缝集成和管理。 这种专有的 Microsoft 文件格式的主要优势…

自定义指令实现Element Plus分页组件内容样式修改

改之前是这样的 改之后是这样的 因为之前我也有写过文章讲解Vue2-ElementUI分页组件的样式修改。 ElementUI 分页组件内容样式修改https://blog.csdn.net/qq_54548545/article/details/139728064且通常情况下,一个项目若是大量使用到分页组件,咱们也不可…

linux vim编辑文件界面的所有命令

Vim 是一个高度可配置的文本编辑器,广泛用于 Unix、Linux 和 macOS 系统。它提供了一套丰富的命令和快捷键来高效地进行文本编辑。下面列举了一些 Vim 编辑文件界面中最常用和基础的命令和快捷键,但请注意 Vim 的命令集非常庞大,这里只涵盖了…

nginx配置反向代理404问题

使用Nginx进行反向代理,代码如下: server {listen 85;server_name _;charset utf-8;location /thirdServiceApi/ {proxy_pass https://www.test.net/thirdServiceApi/;proxy_set_header Host $http_ho

Mac怎么录屏带声音,学会这2种方法,轻松解决

在数字化时代,录屏已经成为我们工作、学习和娱乐中不可或缺的一部分。对于Mac用户来说,Mac怎么录屏带声音是一个非常实用又重要的操作,无论是为了保存会议内容、制作教学视频还是为了录制游戏视频,这一功能都能为我们提供极大的便…

会员运营体系设计及SOP梳理

一些做会员的经验和方法分享给大家,包括顶层思考、流程的梳理、组织的建立,后续会做成系列,最近几期主要围绕顶层策略方面,以下是核心内容的整理: 1、会员运营体系设计 顶层设计与关键业务定位:建立客户运营…

Web学习day03

maven&Mybatis 目录 maven&Mybatis 文章目录 一、maven 1.1作用 1.2仓库 1.3命令 1.4依赖范围 1.5生命周期 二、MyBatis 2.1简介 2.2API 2.3增删改的实现&案例 总结 一、maven 1.1作用 统一项目结构;项目构建:通过简单命令&a…

Java 枚举教程

Java 枚举是一种特殊的类,用于表示一组固定的常量值。枚举类使用 enum 关键字来定义,通常用于表示一组相关的常量,比如季节、月份、星期天等。本文将详细介绍 Java 枚举的基本概念、使用方法以及一些高级用法。 1. 定义枚举类 枚举类使用 e…

GitHub 站点打不开

遇到的问题 您是否遇到过GitHub网站打不开的情况,正如下图所示: 解决方案 以下是一些常见的解决方案: 1. 检查网络连接 确保你的设备已连接到互联网。尝试访问其他网站,确保不是你的网络问题。 C:\Vinca>ping github.…

Vue+SpringBoot实现仿网盘项目

目录 一、效果展示 二、前端代码 三、后端代码及核心解释 四、进阶开发与思路 一、效果展示 1.1读取文件夹内的文件 1.2删除功能 1.3 上传文件 1.4 文件下载 对应的网盘实际地址与对应下载内容: 二、前端代码 2.1 创建vue项目(需要有vuex与router&…

称重传感器有哪些种类

有关称重传感器的知识,称重传感器是众多传感器产品中的一种,也是很常用的传感器之一,那么称重传感器有哪些种类,称重传感器的分类方式是什么样的,一起来了解下。 称重传感器的分类 主要有六种称重传感器类型&#xf…

C++笔试真题

可变分区管理方案 最佳适应:空闲区按容量递增最坏适应:空闲区按容量递减首先适应:空闲区按地址递增 C的结构体中有构造函数。 Linux新建用户或组 useradd:命令用于建立用户账号usermod:修改用户账号groupadd&#…

【模块化与包管理】:解锁【Python】编程的高效之道

目录 1.什么是模块? 2. 模块的导入过程 3. 理解命名空间 4. import语句的多种形式 5. 模块的执行与重新导入 6. 包(Package) 7. sys模块和os模块 sys模块 常用属性 示例:使用sys模块 os模块 常用功能 示例&#xff1…

【鸿蒙学习笔记】使用动画

官方文档:使用动画 目录标题 属性动画:通用属性发生改变时而产生的属性渐变效果animationanimateTo自定义属性动画 AnimatableExtend 转场动画:是页面或组件的切换动画 , 显示/隐藏 切换时的动画出现/消失转场:实现一个组件出现或…

redis内存分析

阿里云redis集群对key进行hash后保存在对应的后端节点,使每个节点的key数量大致相同,但是如果存在大key,就会导致单个节点内存用满,可以使用redis-rdb-tools 或rdr来对内存进行分析。 redis-rdb-tools redis-rdb-tools通过对dum…

【Superset】dashboard 自定义URL

URL设置 在发布仪表盘(dashboard)后,可以通过修改看板属性中的SLUG等,生成url 举例: http://localhost:8090/superset/dashboard/test/ 参数设置 以下 URL 参数可用于修改仪表板的呈现方式:此处参考了官…

SolidWorks滚花螺栓制作-cnblog

目标 规划基准图形 确定尺寸,单位mm 我 对固定好的图形进行旋转 倒角 设置螺纹 注意改变深度为15mm 收尾位置补全 滚花 建立基准面 制作多边形 添加穿透 扫描切除 圆周阵列 成品完成