tokenization（一）概述

tokenization（一）概述

bicheng/2025/7/1 15:53:53/文章来源:https://blog.csdn.net/wuzqChom/article/details/139577489

文章目录

- 背景
- 基于词（Word-based）
- 基于字符（Character-based）
- 子词词元化（Subword tokenization）

背景

tokenization是包括大语言模型在内所有自然语言处理的任务的基础步骤，其目标是将文本数据转化为数值。完成这一步骤的组件称之为tokenizer。该过程可以用以下图表示：

基于词（Word-based）

基于词的方法仅通过一些简单的规则来完成这一步骤。比如，在英文中可以使用空格作为分隔符：

tokenized_text = "This is a test".split()
print(tokenized_text)

输出：

['This', 'is', 'a', 'test']

每个单词对应一个ID，可以设置词表为 $N$ ，然后取最高频的 $N$ 个词作为词表（这里未考虑特殊字符），这个方法简单直接，但是有以下问题：

相似的词有着截然不同的意思，如：“dog”和“dogs”
词表会非常大
OOV（Out-Of-Vocabulary）情况会很多，而这些词都会统一用一个token表示，如：“<UNK>”，这使得很多词都会使用同一个token表表示，原来的语义会丢失。

基于字符（Character-based）

更加进一步，我们可以将切分的力度更细一点，使用字符来切分文本，这有2个好处：

词表很小，单词也就26个字母，常用的汉字也就几千。
OOV的情况很少，因为切分的力度更小，所以相比基于词的方法，很少会出现OOV。

但同时缺点也显而易见：

相对于词而言，每个token能表示的语义信息更少
文本转为token之后会很长

为了兼顾两者的优势，现在用的比较多的方法称之为：子词词元化（subword tokenization）。

备注：熟悉的味道，计算机领域经常会出现这种，在两个极端中取一个平衡。

子词词元化（Subword tokenization）

子词词元化的目标有2个：

常见词不应该切分为更小的单元
罕见词应该被分解为有意义的子词

比如：Let’s do tokenization!，可以被切分为：

其中，“</w>”表示单词的结尾。

这样子词的表示会有更多的语义信息，同时也可以使在小的词表情况下，尽可能减少<UNK>token的出现。

子词词元化有很多种方法，比较典型的包括：

GPT-2中的Byte-level BPE
BERT中的WordPiece
T5中的Unigram

每一种方法的具体介绍将在之后的博客中进行分享（很快）。

参考资料：

Huggingface NLP course
大规模语言模型：从理论到实践 – 张奇、桂韬、郑锐、黄萱菁

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/bicheng/26061.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【面试干货】聚集索引和非聚集索引区别?

【面试干货】聚集索引和非聚集索引区别?

【面试干货】聚集索引和非聚集索引区别? 1、聚集索引（Clustered Index）1.1 特点1.2 例子 2、非聚集索引（Nonclustered Index）2.1 特点2.2 例子 3、根本区别 💖The Begin💖点点关注，收藏不迷路&…

阅读更多...

Sklearn的安装和用法

Sklearn的安装和用法

安装sklearn相对简单，因为它是一个Python库，可以通过Python的包管理器pip来安装。 Windows、macOS和Linux通用步骤： 确保Python已安装： sklearn是基于Python的，所以首先确保你的计算机上安装了Python。推荐使用Pytho…

阅读更多...

NLP——电影评论情感分析

NLP——电影评论情感分析

python-tensorflow2.0 numpy 1.19.1 tensorflow 2.0.0 导入库数据加载数据处理构建模型训练评估预测 1.基于2层dropout神经网络 2.基于LSTM的网络 #导入需要用到的库 import os import tarfile import urllib. request import tensorflow as tf import numpy a…

阅读更多...

5W-35W-150W-300W-500W铝壳功率电阻器

5W-35W-150W-300W-500W铝壳功率电阻器

带铝制外壳的电阻器 EAK采用铝型材的导线电阻器将久经考验的导线材料的高脉冲稳定性与优化的导热和高度保护相结合。安装在导热表面上可进一步改善散热并提高稳定性。连接线有各种长度和材料可供选择。可选配集成温度开关。也可根据客户要求提供定制组件。该产品有多种版本…

阅读更多...

【代码随想录训练营】【Day 46】【动态规划-6】| Leetcode 518, 377

【代码随想录训练营】【Day 46】【动态规划-6】| Leetcode 518, 377

【代码随想录训练营】【Day 46】【动态规划-6】| Leetcode 518, 377 需强化知识点完全背包基础（遍历重量时正序，保证物品可重复加入）完全背包：组合问题，先物品后重量，排列问题，先重量后物品…

阅读更多...

CVE-2023-37474（目录遍历）

CVE-2023-37474（目录遍历）

靶场简介 Copyparty是一个可移植的文件服务器。在1.8.2版本之前的版本存在一个CTF技巧，该漏洞位于.cpr子文件夹中。路径遍历攻击技术允许攻击者访问位于Web文档根目录之外的文件、目录. 靶场进入靶场根据简介访问.cpr目录使用curl命令访问etc/passwd文件确定…

阅读更多...

Vim 快捷键

Vim 快捷键

本文翻译自：https://devhints.io/vim 文章目录 1、BasicExitingExiting insert mode 2、编辑编辑剪切板Visual 模式在可视模式下查找和替换 3、导航方向单词线性格文件窗口搜索 4、操作符用法操作符列表例子 5、文本对象用法文本对象例子差异 6、杂项标签页折叠导航…

阅读更多...

kettle_Hbase

kettle_Hbase

kettle_Hbase ☀Hbase学习笔记读取hdfs文件并将sal大于1000的数据保存到hbase中前置说明： 1.需要配置HadoopConnect 将集群中的/usr/local/soft/hbase-1.4.6/conf/hbase-site.xml复制至Kettle中的 Kettle\pdi-ce-8.2.0.0-342\data-integration\plugins\pentah…

阅读更多...

8.1 基本打印功能

8.1 基本打印功能

本文仅供学习交流，严禁用于商业用途，如本文涉及侵权请及时联系本人将于及时删除在使用“MFC应用”项目模板生成应用程序的过程中，如果在“高级功能”窗口中不取消对打印和打印预览的设置，那么应用程序就已经具备了简单的打印和打…

阅读更多...

MySQL—多表查询—练习（2）

MySQL—多表查询—练习（2）

一、引言接着上篇博客《 MySQL多表查询——练习（1）》继续完成剩下的案例需求。二、案例 （0）三张表（员工表、部门表、薪资等级表） 员工表：emp 部门表：dept 薪资等级表：…

阅读更多...

让GNSSRTK不再难【第二天-第7部分2】

让GNSSRTK不再难【第二天-第7部分2】

状态更新计算过程： 计算卡尔曼增益： 根据预测的误差协方差矩阵 P k − P_k^- Pk− 和观测噪声协方差矩阵 R R R 计算卡尔曼增益 K k K_k Kk： K k P k − H T ( H P k − H T R ) − 1 K_k P_k^- H^T (H P_k^- H^T R)^{-1} KkPk…

阅读更多...

使用 PlatformIO 将文件上传到 ESP32-S3 的 SPIFFS 文件系统

使用 PlatformIO 将文件上传到 ESP32-S3 的 SPIFFS 文件系统

PlatformIO环境将文件上传到 ESP32-S3 的 SPIFFS 文件系统介绍： PlatformIO 是一个流行的开发平台，用于编写、构建和上传嵌入式项目。ESP32-S3 是 Espressif 推出的一款功能强大的嵌入式开发板，具有丰富的外设和通信接口。本文将介绍如何…

阅读更多...

前端 JS 经典：动态执行 JS

前端 JS 经典：动态执行 JS

前言：怎么将字符串当代码执行。有 4 中方式实现 eval、setTimeout、创建 script 标签、new Function 1. eval 特点：同步执行，当前作用域 var name "yq"; function exec(string) {var name "yqcoder";eval(string); …

阅读更多...

「C系列」C 数组

「C系列」C 数组

文章目录一、C 数组1. 声明数组2. 初始化数组3. 访问数组元素4. 数组越界5. 多维数组二、C 操作数组的方法有哪些三、C 数组-应用场景1. 存储固定数量的数据2. 实现算法（如排序）3. 处理数据集合四、相关链接一、C 数组在C语言中，数组是…

阅读更多...

Java 类与对象 -- Java 语言的类与对象、构造器、static、final、包和 JAR

Java 类与对象 -- Java 语言的类与对象、构造器、static、final、包和 JAR

大家好，我是栗筝i，这篇文章是我的 “栗筝i 的 Java 技术栈” 专栏的第 006 篇文章，在 “栗筝i 的 Java 技术栈” 这个专栏中我会持续为大家更新 Java 技术相关全套技术栈内容。专栏的主要目标是已经有一定 Java 开发经验，并希望进一步完善自己对整个 Java 技术体系来充实自…

阅读更多...

认识Spring中的BeanFactoryPostProcessor

认识Spring中的BeanFactoryPostProcessor

先看下AI的介绍在Spring 5.3.x中，BeanFactoryPostProcessor是一个重要的接口，用于在Spring IoC容器实例化任何bean之前，读取bean的定义（配置元数据），并可能对其进行修改。以下是关于BeanFactoryPostProce…

阅读更多...

【学习笔记】finalshell上传文件夹、上传文件失败或速度为0

【学习笔记】finalshell上传文件夹、上传文件失败或速度为0

出现标题所述的情况，大概率是finalshell上传文件的过程中的权限不够。可参照：Finalshell上传文件失败或者进度总为百分之零解决方法如果不成功，建议关闭客户端重试。同时建议在设置finalshell的ssh连接时根据不同用户设置多个连接&#xf…

阅读更多...

OJ刷题——2086.AI=？、2087.剪花布条、KPM算法

OJ刷题——2086.AI=？、2087.剪花布条、KPM算法

2086.AI？ 题目描述 Problem - 2086 运行代码 #include <iostream> #include <cstdio> using namespace std; const int N 3005; int main() {int n;double Ao, An;double num[N];while (cin>>n) {cin >> Ao>>An;for (int i 1; i…

阅读更多...

java技术专家面试指南100问【java学习+面试宝典】（二）

java技术专家面试指南100问【java学习+面试宝典】（二）

适配器模式是什么？什么时候使用？ 适配器模式（Adapter Pattern）是作为两个不兼容的接口之间的桥梁。这种类型的设计模式属于结构型模式，它结合了两个独立接口的功能。适配器模式提供对接口的转换。如果你的客户端使用某…

阅读更多...

kubernetes（k8s）集群部署（2）

kubernetes（k8s）集群部署（2）

目录 k8s集群类型 k8s集群规划： 1.基础环境准备： （1）保证可以连接外网 （2）关闭禁用防火墙和selinux （3）同步阿里云服务器时间（达到集群之间时间同步） &…

阅读更多...

最新文章