大语言模型不能理解原始文本,所以需要把原始文本转换成大语言模型可以理解的数字表示形式,经过大模型处理以后,需要将该数字表示形式转换为人可以理解的文本。
原始文本到 token
原始文本转换为token序列的过程通常是在LLM的预处理阶段完成的。
在大型语言模型(LLM)中,token是指模型输入或输出序列中的基本单元。通常情况下,一个token可能是一个单词、一个字符或一个字节序列,这取决于模型的预处理方式。
Token在LLM中扮演着非常重要的角色,主要有以下几个原因:
-
输入表示 - LLM需要将原始文本转换为模型可以理解的数字序列。将文本分解为token序列是这个转换过程的第一步。
-
输出生成 - LLM生成文本时,也是通过预测下一个token的概率分布,然后采样或选择概率较高的token,循环这个过程直到达到终止条件。
-
上下文窗口 - 大多数LLM有最大输入长度的限制,通过将输入分解为token,模型可以处理比词或字符级别更长的上下文。
-
子词tokenization - 一些tokenizer采用基于字节对编码(BPE)等子词tokenization算法,可以更好地处理未见词并减小词表大小。
-
模型参数 - LLM通常以token为单位计算参数大小。更大的token数量通常意味着模型可以处理更长、更复杂的输入。
总的来说,token是LLM进行序列建模和生成的基本单位,对于输入理解、输出生成、上下文捕获和参数大小等都有重要影响。合理的token设计对于LLM的性能至关重要。
根据不同的Tokenization(分词)策略,Token可以是单词、子词或者字符等。
以下是一些常见Token的例子:
-
单词Token
- 句子: “The quick brown fox jumps over the lazy dog.”
- Tokens: “The”, “quick”, “brown”, “fox”, “jumps”, “over”, “the”, “lazy”, “dog”
-
子词Token
- 单词: “Unbelievable”
- BPE子词Tokens: “Unbeli”, “evable”
-
字符Token
- 单词: “Hello”
- 字符Tokens: “H”, “e”, “l”, “l”, “o”
-
SentencePiece Token
- 句子: “The student studies at university.”
- SentencePiece Tokens: “The”, " stu", “dent”, " studi", “es”, " at", " un", “ivers”, “ity”, “.”
不同Token粒度会影响模型的词汇表大小、输入长度等,需要根据具体任务和模型权衡选择。通常单词是最自然的Token单元,但对于特殊词或未见词,需使用子词或字符Token处理。
值得注意的是,不同NLP模型可能对同一个单词使用不同的Token划分方式,如BERT使用的是WordPiece子词Token。合理的Token设计对模型性能有很大影响。
https://platform.openai.com/tokenizer