【Token系列】01 | Token不是词：GPT如何切分语言的最小单元

【Token系列】01 | Token不是词：GPT如何切分语言的最小单元

diannao/2025/4/27 5:55:27/文章来源:https://blog.csdn.net/qingdaoyin/article/details/147530152

文章目录

01 | Token不是词：GPT如何切分语言的最小单元？
- 一、什么是 Token？
- 二、Token 是怎么来的？——BPE算法原理
- - BPE核心步骤：
- 三、为什么不直接用词或字符？
- 四、Token切分的实际影响
- 五、中文Token的特殊性
- 六、Token机制的未来方向
- 七、总结

01 | Token不是词：GPT如何切分语言的最小单元？

副标题：深入BPE算法，理解token的非线性结构意义

一、什么是 Token？

在 GPT 这类语言模型中，token 是模型处理语言的基本单位。它不是传统意义上的“词”或“字符”，而是更小的、基于统计规律和语义结构的子词片段。

示例：

文本内容	Token 切分
ChatGPT	Chat, G, PT
playing	play, ing
我爱你	我, 爱, 你

英文可能被分成多个片段；中文一般一个字一个 token。

二、Token 是怎么来的？——BPE算法原理

GPT采用的BPE（Byte Pair Encoding）是一种子词分词算法，原本用于压缩，现在被用来平衡词与字符的语义表达。

BPE核心步骤：

初始化：所有词拆为单字符；
统计频次：找出最常见的字符对；
合并字符对：变成新的token；
重复合并，直到构建出固定大小的词表（如GPT-3为50257个token）。

BPE最终形成的token词表中，高频词可整体保留，低频词被拆解重构。

三、为什么不直接用词或字符？

粒度	优点	缺点
字符	泛化强	语义弱
单词	语义强	新词不识别
子词（Token）	平衡泛化与语义	实现复杂

token 是字符和词之间的平衡结构，便于模型学习和泛化。

四、Token切分的实际影响

模型限制：如 GPT-3 最大支持 2048 token，不是 2048 字；
API计费：OpenAI 计费基于 token 数，而非字数；
上下文控制：token 越多，占用上下文窗口越快，需控制生成长度。

五、中文Token的特殊性

中文通常一字一 token，但模型会根据语料频率进行调整：

“清华大学” 可能为 [“清”, “华”, “大学”] 或 [“清华”, “大学”]；
“ChatGPT” 可被切为 [“Chat”, “G”, “PT”]，因非高频复合词。

六、Token机制的未来方向

Unigram分词（如T5）；
多语言共享词表（如mBERT）；
动态tokenization：模型运行时自适应切分。

七、总结

token 不是词，它是语言模型的语言单位，是语义压缩与泛化效率之间的产物。理解 token 的切分方式，是深入理解GPT系列语言模型结构的第一步。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/80546.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

如何快速高效学习Python？

如何快速高效学习Python？

如何快速高效学习Python？ How to Fastly and Effectively Learn Python Programming? By JacksonML 1. Python年轻吗？ Python自1991年诞生到现在，已经经历了三十四年或者更长时间了。毕竟，Python之父 – 吉多范罗苏姆先生(Gu…

阅读更多...

NAT穿透

NAT穿透

NAT是 Net Address Traslation的缩写，即网络地址转换 NAT部署在网络出口的位置。位于内网和公网之间，是连接内挖个主机和公网的桥梁，双向流量都必须经过NAT，装有NAT软件的路由器叫NAT路由器，NAT路由器拥有公网Ip NAT解…

阅读更多...

搜索引擎的高级语法

搜索引擎的高级语法

文章目录精确搜索：双引号站内搜索：site通配符搜索：*减号缩小范围：-文档搜索：filetypeURL搜索： inurl标题搜索：intitle正文搜索：intext参考链接精确搜索：双引号 “ ” …

阅读更多...

RAG vs 微调：大模型知识更新的最优解之争

RAG vs 微调：大模型知识更新的最优解之争

一、技术本质：知识注入的两条路径在大模型应用落地的实践中，RAG（检索增强生成）与微调（Fine-tuning）已成为知识更新的两大核心技术路径。二者的本质差异在于是否对模型参数进行修改： 维度RAG微…

阅读更多...

解释器体系结构风格-笔记

解释器体系结构风格-笔记

解释器（Interpreter）是一种软件设计模式或体系结构风格，主要用于为语言（或表达式）定义其语法、语义，并通过解释器来解析和执行语言中的表达式。解释器体系结构风格广泛应用于编程语言、脚本语言、规则引擎、…

阅读更多...

浏览器f12可以搜索接口的入参和返回内容

浏览器f12可以搜索接口的入参和返回内容

浏览器f12可以搜索接口的入参和返回内容

阅读更多...

vue3+element-push 实现input框粘贴图片或文本，图片上传。

vue3+element-push 实现input框粘贴图片或文本，图片上传。

vue3element-push 实现input框粘贴图片或文本，图片上传。 <el-inputstyle"height: 100px; width: 100%"paste.capture.prevent"pasting"v-model"textMsg"placeholder"请输入"/>// 展示上传的列表--可不要<divsty…

阅读更多...

高效使用DeepSeek对“情境+ 对象 +问题“型课题进行开题！

高效使用DeepSeek对“情境+ 对象 +问题“型课题进行开题！

目录思路"情境对象问题"型课题选题的类型有哪些呢？这要从课题题目的构成说起。通过对历年来国家社会科学基金立项项目进行分析，小编发现，课题选题类型非常丰富，但一般是围绕限定词、研究对象和研究问题进行不同的组…

阅读更多...

cursor改Goland操作习惯

cursor改Goland操作习惯

步骤1：设置主题步骤2：安装最新go插件步骤3：安装最新go版本需要使用最新版本go1.24.1,设置玩环境变量，需要关闭cursor进程再打开步骤4：安装go相关工具 Command Shift P安装完成后需要把go版本设置回自己项目合…

阅读更多...

4.1.1 类的序列化与反序列化（XmlSerializer）

4.1.1 类的序列化与反序列化（XmlSerializer）

本文介绍XML序列化和反序列化操作本例子中被序列化的类(Devices)中有一个List,其元素类型为：DigitalInputInfo. 序列化以及反序列化都很简单： 序列化：即把类的对象输出到文件中。 StreamWriter streamWriter new StreamWriter(filePath); …

阅读更多...

OpenCV中的图像旋转方法详解

OpenCV中的图像旋转方法详解

文章目录引言1. 简单的旋转：cv2.rotate()2. 任意角度旋转：cv2.getRotationMatrix2D() cv2.warpAffine()结论引言在计算机视觉和图像处理领域，图像旋转是一项基础而重要的操作。OpenCV作为最流行的计算机视觉库之一，提供了多种…

阅读更多...

C/C++ | 静态修饰符static

C/C++ | 静态修饰符static

文章目录概述一、定义介绍二、功能作用(一)static修饰全局变量(二)static修饰局部变量(三)static修饰成员变量(四)static修饰全局函数(五)static修饰成员函数三、代码实例（一）static初始化被多次调用概述本节详细介绍了static修饰符的原理及用法。包括在变量、函数、类内等…

阅读更多...

canvas画板！随意画！！

canvas画板！随意画！！

希望你天天开心代码： <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>绘画板</title…

阅读更多...

Elasticsearch 使用reindex进行数据同步或索引重构

Elasticsearch 使用reindex进行数据同步或索引重构

1、批量复制优化 POST _reindex {"source": {"index": "source","size": 5000},"dest": {"index": "dest"} }2、提高scroll的并行度优化 POST _reindex?slices5&refresh {"source": {…

阅读更多...

Debian 12.10 root 登录失败，两步解决！

Debian 12.10 root 登录失败，两步解决！

大家好，这里是 DBA学习之路，专注于提升数据库运维效率。前言今天看到 debian 正式发布 12.10，安装完成后发现无法登录 root 用户： 这里我一开始怀疑是 root 密码错了，所以改了一下 root 密码，忘记 root …

阅读更多...

systemctl 命令详解与常见问题解决

systemctl 命令详解与常见问题解决

在 Linux 系统中，service 命令和 chkconfig 命令一直用于管理服务，但随着 systemd 的引入，systemctl 命令逐渐成为主流。systemctl 命令不仅功能强大，而且使用简单。本文将详细介绍 systemctl 命令的作用以及常见问题的解决方法。…

阅读更多...

【爬虫】DrissionPage-获取douyim用户下的视频

【爬虫】DrissionPage-获取douyim用户下的视频

之前看过DrissionPage，觉得很厉害，比selenium简单，适合新手。因为盲目跟风逆向，今天看了一个DrissionPage案例直播，学习一下，真香哈。 DrissionPage官网：🛰️ 概述 | DrissionPage官…

阅读更多...

中国矿业大学iGMAS分析中心介绍

中国矿业大学iGMAS分析中心介绍

一、关于GNSS和iGMAS 在浩瀚的太空中，全球卫星导航系统（GNSS）构建起精准定位的时空基准。IGMAS——国际GNSS监测评估系统，是由中国倡导并主导建设的全球GNSS监测网络，旨在提供高精度、高可靠的导航、定位与授时服务。 …

阅读更多...

清理HiNas(海纳斯) Docker日志并限制日志大小

清理HiNas(海纳斯) Docker日志并限制日志大小

我在一个机顶盒的HiNas系统上跑Octoprint的docker版本，每隔一段时间盒子空间就被占完了，运行df -h之后，显示/dev/root Use 100%。 Filesystem Size Used Avail Use% Mounted on /dev/root 6.6G 6.6G 0 100% / devtmpfs …

阅读更多...

RK3588芯片NPU的使用：yolov8-pose例子图片检测在安卓系统部署与源码深度解析（rknn api）

RK3588芯片NPU的使用：yolov8-pose例子图片检测在安卓系统部署与源码深度解析（rknn api）

一、本文的目标将yolo8-pose例子适配安卓端，提供选择图片后进行姿态识别功能。通过项目学习源码和rknn api。二、开发环境说明主机系统：Windows 11目标设备：搭载RK3588芯片的安卓开发板核心工具：Android Studio Koala | 2024.1.1 Patch 2，NDK 27.0三、适配（迁移）安卓 …

阅读更多...

最新文章