【NLP学习笔记】transformers中的tokenizer切词时是否返回token_type_ids

结论

先说结论:
是否返回token_type_ids,可以在切词时通过 return_token_type_ids=True/False指定,指定了True就肯定会返回,指定False,不一定就不返回。

分析

  • Doc地址
    https://huggingface.co/docs/transformers/main/en/internal/tokenization_utils#transformers.PreTrainedTokenizerBase.call
    在这里插入图片描述

  • 源码分析
    在这里插入图片描述
    由上图可以,transformers的tokenization_utils_base.py明确指出,是否返回由return_token_type_idsself.model_input_names两个属性控制
    在这里插入图片描述
    同时可见,如果return_token_type_ids是False,那么会判断model_input_names里有没有token_type_idsmodel_input_names顾名思义,就是当前的模型需要哪些输入。
    在这里插入图片描述
    默认值是有token_type_ids的,所以即使不指定,像Bert的tokenizer,切词时没有指定return_token_type_ids,并且transformers的Bert的切词源码里也没指定model_input_names相关,但是依旧可以返回token_type_ids
    在这里插入图片描述
    但是像GPT2的切词源码里,继承时重载了model_input_names这个变量,没有指定token_type_ids,所以默认情况下GPT2的切词方式是不返回token_type_ids

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/44110.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

springboot通江银耳销售管理系统-计算机毕业设计源码15998

摘要 随着人们健康意识的增强,银耳这种传统的中药食材备受关注。而通江银耳是四川省通江县特产,中国国家地理标志产品。四川省通江县是银耳的发源地,中国银耳之乡,通江银耳因主产于此而得名,以其独到的质厚、肉嫩、易炖…

【Python专栏】Python的历史及背景介绍

博客主页:Duck Bro 博客主页系列专栏:Python专栏关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ Python的背景介绍 关键词:Python、优缺点、领域 目录 …

自定义指令实现Element Plus分页组件内容样式修改

改之前是这样的 改之后是这样的 因为之前我也有写过文章讲解Vue2-ElementUI分页组件的样式修改。 ElementUI 分页组件内容样式修改https://blog.csdn.net/qq_54548545/article/details/139728064且通常情况下,一个项目若是大量使用到分页组件,咱们也不可…

Mac怎么录屏带声音,学会这2种方法,轻松解决

在数字化时代,录屏已经成为我们工作、学习和娱乐中不可或缺的一部分。对于Mac用户来说,Mac怎么录屏带声音是一个非常实用又重要的操作,无论是为了保存会议内容、制作教学视频还是为了录制游戏视频,这一功能都能为我们提供极大的便…

会员运营体系设计及SOP梳理

一些做会员的经验和方法分享给大家,包括顶层思考、流程的梳理、组织的建立,后续会做成系列,最近几期主要围绕顶层策略方面,以下是核心内容的整理: 1、会员运营体系设计 顶层设计与关键业务定位:建立客户运营…

Web学习day03

maven&Mybatis 目录 maven&Mybatis 文章目录 一、maven 1.1作用 1.2仓库 1.3命令 1.4依赖范围 1.5生命周期 二、MyBatis 2.1简介 2.2API 2.3增删改的实现&案例 总结 一、maven 1.1作用 统一项目结构;项目构建:通过简单命令&a…

GitHub 站点打不开

遇到的问题 您是否遇到过GitHub网站打不开的情况,正如下图所示: 解决方案 以下是一些常见的解决方案: 1. 检查网络连接 确保你的设备已连接到互联网。尝试访问其他网站,确保不是你的网络问题。 C:\Vinca>ping github.…

Vue+SpringBoot实现仿网盘项目

目录 一、效果展示 二、前端代码 三、后端代码及核心解释 四、进阶开发与思路 一、效果展示 1.1读取文件夹内的文件 1.2删除功能 1.3 上传文件 1.4 文件下载 对应的网盘实际地址与对应下载内容: 二、前端代码 2.1 创建vue项目(需要有vuex与router&…

C++笔试真题

可变分区管理方案 最佳适应:空闲区按容量递增最坏适应:空闲区按容量递减首先适应:空闲区按地址递增 C的结构体中有构造函数。 Linux新建用户或组 useradd:命令用于建立用户账号usermod:修改用户账号groupadd&#…

【模块化与包管理】:解锁【Python】编程的高效之道

目录 1.什么是模块? 2. 模块的导入过程 3. 理解命名空间 4. import语句的多种形式 5. 模块的执行与重新导入 6. 包(Package) 7. sys模块和os模块 sys模块 常用属性 示例:使用sys模块 os模块 常用功能 示例&#xff1…

【鸿蒙学习笔记】使用动画

官方文档:使用动画 目录标题 属性动画:通用属性发生改变时而产生的属性渐变效果animationanimateTo自定义属性动画 AnimatableExtend 转场动画:是页面或组件的切换动画 , 显示/隐藏 切换时的动画出现/消失转场:实现一个组件出现或…

【Superset】dashboard 自定义URL

URL设置 在发布仪表盘(dashboard)后,可以通过修改看板属性中的SLUG等,生成url 举例: http://localhost:8090/superset/dashboard/test/ 参数设置 以下 URL 参数可用于修改仪表板的呈现方式:此处参考了官…

SolidWorks滚花螺栓制作-cnblog

目标 规划基准图形 确定尺寸,单位mm 我 对固定好的图形进行旋转 倒角 设置螺纹 注意改变深度为15mm 收尾位置补全 滚花 建立基准面 制作多边形 添加穿透 扫描切除 圆周阵列 成品完成

【深度学习】手动完成线性回归!

🍊嗨,大家好,我是小森( ﹡ˆoˆ﹡ )! 易编橙终身成长社群创始团队嘉宾,橙似锦计划领衔成员、阿里云专家博主、腾讯云内容共创官、CSDN人工智能领域优质创作者 。 易编橙:一个帮助编程小…

现代码头装卸系统:技术创新与效率提升

引言 码头装卸系统在全球贸易和物流链中扮演着至关重要的角色。随着全球化进程的加快,国际贸易量不断增加,港口作为货物进出主要枢纽,其装卸效率直接影响到整个物流链的运作效率和成本。一个高效、现代化的码头装卸系统不仅能提高港口的货物处…

JVM是如何创建一个对象的?

哈喽,大家好🎉,我是世杰。 本文我为大家介绍面试官经常考察的**「Java对象创建流程」** 照例在开头留一些面试考察内容~~ 面试连环call Java对象创建的流程是什么样?JVM执行new关键字时都有哪些操作?JVM在频繁创建对象时,如何…

JVM垃圾回收器详解

垃圾回收器 JDK 默认垃圾收集器(使用 java -XX:PrintCommandLineFlags -version 命令查看): JDK 8:Parallel Scavenge(新生代) Parallel Old(老年代) JDK 9 ~ JDK20: G1 堆内存中…

CVE-2024-6387Open SSH漏洞彻底解决举措(含踩坑内容)

一、漏洞名称 OpenSSH 远程代码执行漏洞(CVE-2024-6387) 二、漏洞概述 Open SSH是基于SSH协议的安全网络通信工具,广泛应用于远程服务器管理、加密文件传输、端口转发、远程控制等多个领域。近日被爆出存在一个远程代码执行漏洞,由于Open SSH服务器端…

2024年夏季德旺杯数学素养水平测试

此为小高组的测试,不过德旺杯主要看获奖情况,选择学员入营

基于考研题库小程序V2.0实现倒计时功能板块和超时判错功能

V2.0 需求沟通 需求分析 计时模块 3.1.1、功能描述←计时模块用于做题过程中对每一题的作答进行30秒倒计时,超时直接判错,同时将总用时显示在界面上;记录每次做题的总用时。 3.1.2、接口描述←与判定模块的接口为超时判定,若单题用时超过 …