【深度学习】sdxl中的 tokenizer tokenizer_2 区别

代码仓库:

https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/tree/main

截图:

代码截图

为什么有两个分词器 tokenizertokenizer_2

在仔细阅读这些代码后,我们了解到 tokenizer_2 主要是用于 refiner 模型的。

# Load text tokenizer(s)
if not self.pipeline_type.is_sd_xl_refiner():self.tokenizer = make_tokenizer(self.version, self.pipeline_type, self.hf_token, framework_model_dir)
if self.pipeline_type.is_sd_xl():self.tokenizer2 = make_tokenizer(self.version, self.pipeline_type, self.hf_token, framework_model_dir, subfolder='tokenizer_2')

代码片段:

elif version == 'xl-1.0':if pipeline.is_sd_xl_base():return "stabilityai/stable-diffusion-xl-base-1.0"elif pipeline.is_sd_xl_refiner():return "stabilityai/stable-diffusion-xl-refiner-1.0"else:raise ValueError(f"Unsupported SDXL 1.0 pipeline {pipeline.name}")

什么是分词器?

分词器(Tokenizer)是自然语言处理(NLP)中的一种工具,其主要任务是将文本划分成更小的单元,通常是词语或子词。这些小单元被称为标记(tokens)。分词器在NLP任务中扮演着关键角色,其主要应用包括:

  1. 文本预处理: 在将文本输入NLP模型之前,通常需要对文本进行预处理。分词器负责将连续的文本转换成离散的标记序列,以便模型更好地理解和处理文本。

  2. 特征提取: 在一些NLP任务中,模型需要将文本表示为数值向量,以进行机器学习任务。分词器的作用是将文本转换成模型能理解的标记序列,然后进行嵌入(embedding)等操作,最终得到文本的数值向量表示。

  3. 语言模型训练: 在训练语言模型时,分词器帮助模型理解文本结构,学习单词或子词之间的关系,以及捕捉语法和语义信息。

  4. 机器翻译: 在机器翻译任务中,分词器有助于将源语言和目标语言的文本分别转换成标记序列,使模型能更好地理解和转换语言之间的对应关系。

  5. 信息检索: 在信息检索任务中,分词器有助于将用户查询或文档文本转换成可检索的标记序列,以便进行文本匹配和检索相关信息。

在NLP领域中,分词器的选择通常取决于任务的性质和语言的特点。不同的语言和任务可能需要不同类型的分词策略,包括基于词典的方法、统计方法、基于深度学习的方法等。一些流行的分词器包括基于深度学习的BERT Tokenizer、基于规则的NLTK分词器、基于统计的Stanford分词器等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/650498.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

12000 份发财红包封面免费送

发财红包封面又来啦 寓意新年加薪发财 两个红包封面,各6000份,共12000份 剩余额度全打光,够诚意吧 附送原图(阿里通义万相生成) 祝大家 春节快乐,新年涨薪发财 龙年行大运,万事皆如愿 使用说明 …

微信小程序(十七)自定义组件生命周期(根据状态栏自适配)

注释很详细,直接上代码 上一篇 新增内容: 1.获取手机状态栏的高度 2.验证attached可以修改数据 3.动态绑定样式数值 源码: myNav.js Component({lifetimes:{//相当于vue的created,因为无法更新数据被打入冷宫created(){},//相当于vue的mount…

Redis学习——入门篇④

Redis学习——入门篇④ 6. Redis集群(cluster)6.1 Redis集群是什么,能干什么6.2 Redis集群的槽位-分片6.2.1 槽位6.2.2 分片6.2.3 优点 6.3 slot槽位映射 分区,一般业界有 3 种解决方案6.3.1 哈希取余分区算法6.3.1.1 哈希取余分区…

JVM篇:垃圾回收

如何判断对象可以被回收 Java中对象能否被回收,是根据兑现是否被引用来决定的。如果对象被引用了,说明该对象还在使用,不允许被回收 main栈帧中demo变量存储着Demo实例对象的地址,与Demo实例对象建立了连接关系此时Demo实例对象可…

HTML/JS实现漂亮的时钟效果(附带源码)

实例代码如下&#xff1a; <!DOCTYPE html> <html lang"en"> <head> <meta charset"UTF-8"> <meta name"viewport" content"widthdevice-width, initial-scale1.0"> <title>漂亮的时钟效果</…

wsl下安装ros2问题: Unable to locate package ros-humble-desktop 解决方案

❗ 问题 在wsl&#xff08;Ubuntu 22.04版本&#xff09;下安装ros的过程中&#xff0c;在执行命令 $ sudo apt install ros-humble-desktop一直弹出报错&#xff1a;Unable to locate package ros-humble-desktop 前面设置编码和添加源的过程中一直没有出现其他问题&#…

react mui textfield marquee 跑马灯效果实现

网上找了一圈包括stackoverflow, 也没有找到mui textfield marquee的实现方式&#xff0c;结合gpt实现了下&#xff0c;效果是&#xff0c;如果这个文字不超过textfield本身&#xff0c;则不滚动&#xff0c;否则在鼠标悬浮的时候滚动&#xff0c;并且滚动的距离应该是比较恰到…

C++ transform算法中toupper的使用

C transform算法中toupper的使用 前言 用到这样一个函数&#xff0c;将小写字符串转为大写。 // 一开始个人是这样写的&#xff0c;这样没问题 std::transform(res.begin(), res.end(), res.begin(),[](unsigned char c) { return std::toupper(c); }); // 然后&#xff0c;…

游泳耳机入耳式好,还是骨传导好?游泳听音乐最好的耳机推荐

在游泳馆或海边&#xff0c;热爱游泳的人们在水中尽情畅游&#xff0c;享受着清凉的水流和游动的乐趣。为了让游泳体验更上一层楼&#xff0c;戴上专为游泳设计的耳机成为不可或缺的一环。游泳耳机不仅防水&#xff0c;还能让你在畅游的同时&#xff0c;尽情享受高质量的音乐&a…

Android Studio离线开发环境搭建

Android Studio离线开发环境搭建 1.下载离线和解压包2.创建工程3.创建虚拟机tips 1.下载离线和解压包 下载地址 百度网盘&#xff1a;https://pan.baidu.com/s/1XBPESFOB79EMBqOhFTX7eQ?pwdx2ek 天翼网盘&#xff1a;https://cloud.189.cn/web/share?code6BJZf2uUFJ3a&#…

VMware虚拟机部署Linux Ubuntu系统

本文介绍基于VMware Workstation Pro虚拟机软件&#xff0c;配置Linux Ubuntu操作系统环境的方法。 首先&#xff0c;我们需要进行VMware Workstation Pro虚拟机软件的下载与安装。需要注意的是&#xff0c;VMware Workstation Pro软件是一个收费软件&#xff0c;而互联网中有很…

[GYCTF2020]Ezsqli1

打开环境&#xff0c;下面有个提交表单 提交1&#xff0c;2有正确的查询结果&#xff0c;3以后都显示Error Occured When Fetch Result. 题目是sql&#xff0c;应该考察的是sql注入 简单fuzz一下 发现information_schema被过滤了&#xff0c;猜测是盲注了。 测试发现只要有东…

vbs脚本(清空桌面)

VBScript是Visual Basic Script的简称&#xff0c;即 Visual Basic脚本语言&#xff0c;有时也被缩写为VBS。它是一种微软环境下的轻量级的解释型语言&#xff0c;它使用COM组件、WMI、WSH、ADSI访问系统中的元素&#xff0c;对系统进行管理。同时它又是asp动态网页默认的编程语…

OSI七层模型 | TCP/IP模型 | 网络和操作系统的联系 | 网络通信的宏观流程

文章目录 1.OSI七层模型2.TCP/IP五层(或四层)模型3.网络通信的宏观流程3.1.同网段通信3.2.跨网段通信 1.OSI七层模型 在计算机通信诞生之初&#xff0c;不同的厂商都生产自己的设备&#xff0c;都有自己的网络通讯标准&#xff0c;导致了不同厂家之间各种协议不兼容&#xff0…

(大众金融)SQL server面试题(1)-总销售量最少的3个型号的车及其总销售量

今天&#xff0c;面试了一家公司&#xff0c;什么也不说先来三道面试题做做&#xff0c;第一题。 那么&#xff0c;我们就开始做题吧&#xff0c;谁叫我们是打工人呢。 题目是这样的&#xff1a; 统计除豪车外&#xff0c;销售最差的车 车辆按批销售&#xff0c;每次销售若干…

通俗易懂理解MobileNet网络模型

温故而知新&#xff0c;可以为师矣&#xff01; 一、参考资料 详细且通俗讲解轻量级神经网络——MobileNets【V1、V2、V3】 MobileNet v1 和 MobileNet v2 二、MobileNet v1 原始论文&#xff1a;[1] MobileNet网络详解 【深度学习】轻量化CNN网络MobileNet系列详解 Mo…

RLHF学习

整体流程 三个步骤分解&#xff1a; 预训练一个语言模型 (LM) &#xff1b;聚合问答数据并训练一个奖励模型 (Reward Model&#xff0c;RM) &#xff1b;用强化学习 (RL) 方式微调 LM。 RW RM 的训练是 RLHF 区别于旧范式的开端。这一模型接收一系列文本并返回一个标量奖励&…

springboot2.2.9整合kafka之KafkaListener实现原理

1、开启kafka的注解EnableKafka 通过开启kafka注解可以看到Import的类KafkaListenerConfigurationSelector加载一个配置类KafkaBootstrapConfiguration&#xff0c;而此类中有两个重要的类: KafkaListenerAnnotationBeanPostProcessor、KafkaListenerEndpointRegistry 2、Kaf…

力扣hot100 最小栈 变种栈

Problem: 155. 最小栈 文章目录 思路&#x1f496; Stack 自定义 Node&#x1f37b; Code 思路 &#x1f469;‍&#x1f3eb; 甜姨 &#x1f496; Stack 自定义 Node 时间复杂度: O ( 1 ) O(1) O(1) 空间复杂度: O ( n ) O(n) O(n) &#x1f37b; Code class MinS…

轻松打卡:使用Spring Boot和Redis Bitmap构建高效签到系统【redis实战 四】

欢迎来到我的博客&#xff0c;代码的世界里&#xff0c;每一行都是一个故事 轻松打卡&#xff1a;使用Spring Boot和Redis Bitmap构建高效签到系统【redis实战 四】 引言(redis实战)前言回顾bitmap基本概念核心特性使用场景 为什么使用redis中的bitmap实现&#xff1f;1. 存储效…