生成式AI的短板在于“Token”的存在

生成式AI模型处理文本的方式与人类不同。理解它们基于“token”的内部环境，可能有助于解释一些奇怪行为和固有局限性。

从小型设备上的Gemma到OpenAI领先行业的GPT-4o，大多数模型都是基于一种称为Transformer的架构。由于Transformer在将文本与其他类型的数据关联时的独特方式，它们不能直接处理原始文本——至少在不消耗大量计算资源的情况下是不行的。WildCard平台支持订阅各类服务，包括GPT-4，OF，X，Overleaf等

因此，出于实用和技术原因，当前的Transformer模型都使用被分解为较小的、易处理的片段——称为“token”的文本，这一过程被称为分词。

Token可以是单词，比如“fantastic”（极好的）。也可以是音节，比如“fan”，“tas”和“tic”。根据分词器（进行分词的模型）的不同，它们甚至可能是单词中的单个字符（例如，“f”，“a”，“n”，“t”，“a”，“s”，“t”，“i”，“c”）。

通过这种方法，Transformer能够在达到称为上下文窗口的上限之前，吸收更多信息（从语义上讲）。但分词也可能引入偏差。

一些token的间距不规则，这可能会扰乱Transformer。例如，分词器可能将“once upon a time”编码为“once”，“upon”，“a”，“time”，而将“once upon a ”（带有尾随空格）编码为“once”，“upon”，“a”，“”。根据模型的提示方式——是“once upon a”还是“once upon a ，”——结果可能完全不同，因为模型并不理解（如人类那样）两者的意义相同。

分词器对大小写的处理也不同。“Hello”对模型来说不一定与“HELLO”相同；“hello”通常是一个token（取决于分词器），而“HELLO”可能多达三个（“HE”，“El”和“O”）。这也是许多Transformer未能通过大写字母测试的原因。

“要解决语言模型中‘单词’究竟应该是什么这个问题有点困难，即使我们让语言专家达成一致的完美token词汇表，模型可能仍然会发现将内容‘块化’进一步有用，”东北大学研究大型语言模型可解释性的博士生谢里丹·福伊希特（Sheridan Feucht）告诉TechCrunch。“我猜这种模糊性导致了不存在完美的分词器。”

这种“模糊性”在英语以外的语言中问题更为严重。

许多分词方法假设句子中的空格表示新词。这是因为它们是针对英语设计的。但并非所有语言都用空格来分隔单词。中文和日语没有——韩语、泰语和高棉语也没有。

2023年牛津大学的一项研究发现，由于非英语语言在分词方式上的差异，Transformer完成用非英语语言表达的任务所需时间可能是用英语表达的两倍。同一研究——以及另一项研究——发现，使用分词效率较低语言的用户可能会看到模型性能较差，但使用成本更高，因为许多AI供应商按token收费。

分词器通常将汉字系统中的每个字符（如中文）视为一个独立的token，从而导致token数量大幅增加。同样，处理黏着语（如土耳其语）——即由小的有意义词素构成单词的语言——的分词器往往将每个词素视为一个token，增加了整体token数量。（泰语中“你好”的等价词“สวัสดี”是六个token。）

2023年，谷歌DeepMind的AI研究员延妮·俊（Yennie Jun）进行了一项分析，比较了不同语言的分词及其下游影响。利用一个翻译成52种语言的平行文本数据集，俊展示了一些语言需要多达10倍的token来捕捉英语中的相同意义。

除了语言不平等，分词可能还解释了当今模型在数学上的糟糕表现。

数字很少被一致地分词。因为它们不真正知道数字是什么，分词器可能将“380”视为一个token，但将“381”表示为一对token（“38”和“1”），从而有效地破坏了数字与公式和方程结果之间的关系。结果是Transformer的混淆；最近一篇论文表明，模型难以理解重复的数字模式和上下文，特别是时间数据。（见：GPT-4认为7735大于7926。）

这也是模型不擅长解决字谜问题或倒转单词的原因。