【Token系列】01 | Token不是词:GPT如何切分语言的最小单元

文章目录

  • 01 | Token不是词:GPT如何切分语言的最小单元?
    • 一、什么是 Token?
    • 二、Token 是怎么来的?——BPE算法原理
      • BPE核心步骤:
    • 三、为什么不直接用词或字符?
    • 四、Token切分的实际影响
    • 五、中文Token的特殊性
    • 六、Token机制的未来方向
    • 七、总结

01 | Token不是词:GPT如何切分语言的最小单元?

副标题:深入BPE算法,理解token的非线性结构意义


一、什么是 Token?

在 GPT 这类语言模型中,token 是模型处理语言的基本单位。它不是传统意义上的“词”或“字符”,而是更小的、基于统计规律和语义结构的子词片段

示例:

文本内容Token 切分
ChatGPTChat, G, PT
playingplay, ing
我爱你我, 爱, 你

英文可能被分成多个片段;中文一般一个字一个 token。


二、Token 是怎么来的?——BPE算法原理

GPT采用的BPE(Byte Pair Encoding)是一种子词分词算法,原本用于压缩,现在被用来平衡词与字符的语义表达。

BPE核心步骤:

  1. 初始化:所有词拆为单字符;
  2. 统计频次:找出最常见的字符对;
  3. 合并字符对:变成新的token;
  4. 重复合并,直到构建出固定大小的词表(如GPT-3为50257个token)。

BPE最终形成的token词表中,高频词可整体保留,低频词被拆解重构。


三、为什么不直接用词或字符?

粒度优点缺点
字符泛化强语义弱
单词语义强新词不识别
子词(Token)平衡泛化与语义实现复杂

token 是字符和词之间的平衡结构,便于模型学习和泛化。


四、Token切分的实际影响

  • 模型限制:如 GPT-3 最大支持 2048 token,不是 2048 字;
  • API计费:OpenAI 计费基于 token 数,而非字数;
  • 上下文控制:token 越多,占用上下文窗口越快,需控制生成长度。

五、中文Token的特殊性

中文通常一字一 token,但模型会根据语料频率进行调整:

  • “清华大学” 可能为 [“清”, “华”, “大学”] 或 [“清华”, “大学”];
  • “ChatGPT” 可被切为 [“Chat”, “G”, “PT”],因非高频复合词。

六、Token机制的未来方向

  1. Unigram分词(如T5);
  2. 多语言共享词表(如mBERT);
  3. 动态tokenization:模型运行时自适应切分。

七、总结

token 不是词,它是语言模型的语言单位,是语义压缩与泛化效率之间的产物。理解 token 的切分方式,是深入理解GPT系列语言模型结构的第一步。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/80546.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何快速高效学习Python?

如何快速高效学习Python? How to Fastly and Effectively Learn Python Programming? By JacksonML 1. Python年轻吗? Python自1991年诞生到现在,已经经历了三十四年或者更长时间了。毕竟,Python之父 – 吉多范罗苏姆先生(Gu…

NAT穿透

NAT是 Net Address Traslation的缩写,即网络地址转换 NAT部署在网络出口的位置。位于内网和公网之间,是连接内挖个主机和公网的桥梁,双向流量都必须经过NAT,装有NAT软件的路由器叫NAT路由器,NAT路由器拥有公网Ip NAT解…

搜索引擎的高级语法

文章目录 精确搜索:双引号站内搜索:site通配符搜索:*减号缩小范围:-文档搜索:filetypeURL搜索: inurl标题搜索:intitle正文搜索:intext参考链接 精确搜索:双引号 “ ” …

RAG vs 微调:大模型知识更新的最优解之争

一、技术本质:知识注入的两条路径 在大模型应用落地的实践中,RAG(检索增强生成)与微调(Fine-tuning)已成为知识更新的两大核心技术路径。二者的本质差异在于是否对模型参数进行修改: 维度RAG微…

解释器体系结构风格-笔记

解释器(Interpreter)是一种软件设计模式或体系结构风格,主要用于为语言(或表达式)定义其语法、语义,并通过解释器来解析和执行语言中的表达式。解释器体系结构风格广泛应用于编程语言、脚本语言、规则引擎、…

浏览器f12可以搜索接口的入参 和返回内容

浏览器f12可以搜索接口的入参 和返回内容

vue3+element-push 实现input框粘贴图片或文本,图片上传。

vue3element-push 实现input框粘贴图片或文本&#xff0c;图片上传。 <el-inputstyle"height: 100px; width: 100%"paste.capture.prevent"pasting"v-model"textMsg"placeholder"请输入"/>// 展示上传的列表--可不要<divsty…

高效使用DeepSeek对“情境+ 对象 +问题“型课题进行开题!

目录 思路"情境 对象 问题"型 课题选题的类型有哪些呢&#xff1f;这要从课题题目的构成说起。通过对历年来国家社会科学基金立项项目进行分析&#xff0c;小编发现&#xff0c;课题选题类型非常丰富&#xff0c;但一般是围绕限定词、研究对象和研究问题进行不同的组…

cursor改Goland操作习惯

步骤1&#xff1a;设置主题 步骤2&#xff1a;安装最新go插件 步骤3&#xff1a;安装最新go版本 需要使用最新版本go1.24.1,设置玩环境变量&#xff0c;需要关闭cursor进程再打开 步骤4&#xff1a;安装go相关工具 Command Shift P安装完成后需要把go版本设置回自己项目合…

4.1.1 类的序列化与反序列化(XmlSerializer)

本文介绍XML序列化和反序列化操作 本例子中被序列化的类(Devices)中有一个List,其元素类型为&#xff1a;DigitalInputInfo. 序列化以及反序列化都很简单&#xff1a; 序列化&#xff1a;即把类的对象输出到文件中。 StreamWriter streamWriter new StreamWriter(filePath); …

OpenCV中的图像旋转方法详解

文章目录 引言1. 简单的旋转&#xff1a;cv2.rotate()2. 任意角度旋转&#xff1a;cv2.getRotationMatrix2D() cv2.warpAffine()结论 引言 在计算机视觉和图像处理领域&#xff0c;图像旋转是一项基础而重要的操作。OpenCV作为最流行的计算机视觉库之一&#xff0c;提供了多种…

C/C++ | 静态修饰符static

文章目录 概述一、定义介绍二、功能作用(一)static修饰全局变量(二)static修饰局部变量(三)static修饰成员变量(四)static修饰全局函数(五)static修饰成员函数三、代码实例(一)static初始化被多次调用概述 本节详细介绍了static修饰符的原理及用法。包括在变量、函数、类内等…

canvas画板!随意画!!

希望你天天开心 代码&#xff1a; <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>绘画板</title…

Elasticsearch 使用reindex进行数据同步或索引重构

1、批量复制优化 POST _reindex {"source": {"index": "source","size": 5000},"dest": {"index": "dest"} }2、提高scroll的并行度优化 POST _reindex?slices5&refresh {"source": {…

Debian 12.10 root 登录失败,两步解决!

大家好&#xff0c;这里是 DBA学习之路&#xff0c;专注于提升数据库运维效率。 前言 今天看到 debian 正式发布 12.10&#xff0c;安装完成后发现无法登录 root 用户&#xff1a; 这里我一开始怀疑是 root 密码错了&#xff0c;所以改了一下 root 密码&#xff0c;忘记 root …

systemctl 命令详解与常见问题解决

在 Linux 系统中&#xff0c;service 命令和 chkconfig 命令一直用于管理服务&#xff0c;但随着 systemd 的引入&#xff0c;systemctl 命令逐渐成为主流。systemctl 命令不仅功能强大&#xff0c;而且使用简单。本文将详细介绍 systemctl 命令的作用以及常见问题的解决方法。…

【爬虫】DrissionPage-获取douyim用户下的视频

之前看过DrissionPage&#xff0c;觉得很厉害&#xff0c;比selenium简单&#xff0c;适合新手。因为盲目跟风逆向&#xff0c;今天看了一个DrissionPage案例直播&#xff0c;学习一下&#xff0c;真香哈。 DrissionPage官网&#xff1a;&#x1f6f0;️ 概述 | DrissionPage官…

中国矿业大学iGMAS分析中心介绍

一、关于GNSS和iGMAS 在浩瀚的太空中&#xff0c;全球卫星导航系统&#xff08;GNSS&#xff09;构建起精准定位的时空基准。IGMAS——国际GNSS监测评估系统&#xff0c;是由中国倡导并主导建设的全球GNSS监测网络&#xff0c;旨在提供高精度、高可靠的导航、定位与授时服务。 …

清理HiNas(海纳斯) Docker日志并限制日志大小

我在一个机顶盒的HiNas系统上跑Octoprint的docker版本&#xff0c;每隔一段时间盒子空间就被占完了&#xff0c;运行df -h之后&#xff0c;显示/dev/root Use 100%。 Filesystem Size Used Avail Use% Mounted on /dev/root 6.6G 6.6G 0 100% / devtmpfs …

RK3588芯片NPU的使用:yolov8-pose例子图片检测在安卓系统部署与源码深度解析(rknn api)

一、本文的目标 将yolo8-pose例子适配安卓端,提供选择图片后进行姿态识别功能。通过项目学习源码和rknn api。二、开发环境说明 主机系统:Windows 11目标设备:搭载RK3588芯片的安卓开发板核心工具:Android Studio Koala | 2024.1.1 Patch 2,NDK 27.0三、适配(迁移)安卓 …