生成式AI模型处理文本的方式与人类不同。理解它们基于“token”的内部环境,可能有助于解释一些奇怪行为和固有局限性。
从小型设备上的Gemma到OpenAI领先行业的GPT-4o,大多数模型都是基于一种称为Transformer的架构。由于Transformer在将文本与其他类型的数据关联时的独特方式,它们不能直接处理原始文本——至少在不消耗大量计算资源的情况下是不行的。WildCard平台支持订阅各类服务,包括GPT-4,OF,X,Overleaf等
因此,出于实用和技术原因,当前的Transformer模型都使用被分解为较小的、易处理的片段——称为“token”的文本,这一过程被称为分词。
Token可以是单词,比如“fantastic”(极好的)。也可以是音节,比如“fan”,“tas”和“tic”。根据分词器(进行分词的模型)的不同,它们甚至可能是单词中的单个字符(例如,“f”,“a”,“n”,“t”,“a”,“s”,“t”,“i”,“c”)。
通过这种方法,Transformer能够在达到称为上下文窗口的上限之前,吸收更多信息(从语义上讲)。但分词也可能引入偏差。
一些token的间距不规则,这可能会扰乱Transformer。例如,分词器可能将“once upon a time”编码为“once”,“upon”,“a”,“time”,而将“once upon a ”(带有尾随空格)编码为“once”,“upon”,“a”,“”。根据模型的提示方式——是“once upon a”还是“once upon a ,”——结果可能完全不同,因为模型并不理解(如人类那样)两者的意义相同。
分词器对大小写的处理也不同。“Hello”对模型来说不一定与“HELLO”相同;“hello”通常是一个token(取决于分词器),而“HELLO”可能多达三个(“HE”,“El”和“O”)。这也是许多Transformer未能通过大写字母测试的原因。
“要解决语言模型中‘单词’究竟应该是什么这个问题有点困难,即使我们让语言专家达成一致的完美token词汇表,模型可能仍然会发现将内容‘块化’进一步有用,”东北大学研究大型语言模型可解释性的博士生谢里丹·福伊希特(Sheridan Feucht)告诉TechCrunch。“我猜这种模糊性导致了不存在完美的分词器。”
这种“模糊性”在英语以外的语言中问题更为严重。
许多分词方法假设句子中的空格表示新词。这是因为它们是针对英语设计的。但并非所有语言都用空格来分隔单词。中文和日语没有——韩语、泰语和高棉语也没有。
2023年牛津大学的一项研究发现,由于非英语语言在分词方式上的差异,Transformer完成用非英语语言表达的任务所需时间可能是用英语表达的两倍。同一研究——以及另一项研究——发现,使用分词效率较低语言的用户可能会看到模型性能较差,但使用成本更高,因为许多AI供应商按token收费。
分词器通常将汉字系统中的每个字符(如中文)视为一个独立的token,从而导致token数量大幅增加。同样,处理黏着语(如土耳其语)——即由小的有意义词素构成单词的语言——的分词器往往将每个词素视为一个token,增加了整体token数量。(泰语中“你好”的等价词“สวัสดี”是六个token。)
2023年,谷歌DeepMind的AI研究员延妮·俊(Yennie Jun)进行了一项分析,比较了不同语言的分词及其下游影响。利用一个翻译成52种语言的平行文本数据集,俊展示了一些语言需要多达10倍的token来捕捉英语中的相同意义。
除了语言不平等,分词可能还解释了当今模型在数学上的糟糕表现。
数字很少被一致地分词。因为它们不真正知道数字是什么,分词器可能将“380”视为一个token,但将“381”表示为一对token(“38”和“1”),从而有效地破坏了数字与公式和方程结果之间的关系。结果是Transformer的混淆;最近一篇论文表明,模型难以理解重复的数字模式和上下文,特别是时间数据。(见:GPT-4认为7735大于7926。)
这也是模型不擅长解决字谜问题或倒转单词的原因。
那么,分词显然给生成式AI带来了挑战。这些挑战能解决吗?
也许可以。
福伊希特指出了“字节级”状态空间模型,如MambaByte,它可以直接处理表示文本和其他数据的原始字节,不使用分词,从而在不影响性能的情况下摄取更多数据。MambaByte在语言分析任务上与一些Transformer模型竞争,同时更好地处理“噪音”,如字符交换、间距和大写字符。
然而,像MambaByte这样的模型还处于早期研究阶段。
“让模型直接查看字符而不进行分词可能是最好的,但现在对于Transformer来说,这在计算上是不可行的,”福伊希特说。“对于Transformer模型,计算量随着序列长度成二次方增长,因此我们真的希望使用短文本表示。”
除非分词技术取得突破,否则新模型架构将是关键
阅读原文:生成式AI的短板在于“token”的存在