写在前面
大型语言模型(LLM)处理的是人类的自然语言,但计算机本质上只能理解数字。Tokenizer(分词器) 就是架在自然语言和计算机数字表示之间的一座至关重要的桥梁。它负责将我们输入的文本字符串分解成模型能够理解的最小单元——Token,并将这些 Token 转换成对应的数字 ID,反之亦然(将 ID 转换回文本)。
那么, LLM Tokenizer如何训练、评估呢?
1. Tokenizer 基础知识
在深入训练之前,我们先厘清几个核心概念:
- Tokenization(分词/标记化): 将原始文本字符串分解成一系列 Token 的过程。
- Token: 模型处理的基本单元。它可以是一个完整的词(
"apple"
)、一个词的一部分(子词,"token", "ization"
中的"ization"
)、一个字符("a"
)、或者一个特殊的标记(