1.什么是Token
Token是GPT处理文本的基本单位。Token可以是一个字、一个词语或特定语言中的一个字符。它们负责将输入的文本数据转换为 GPT 可以处理的数据格式。每个 GPT 模型都有一个预设的最大 Tokens 数量,例如,GPT-3 每次调用允许处理的最大 Tokens 数量约为 4096;GPT4则允许处理3万多个Token, 这个数量包括用户输入和GPT输出的所有 Tokens。
- 当我们在使用大模型时,判断输入的内容是否会超过大模型的输入的最大tokens数量是非常重要的,以避免被截断
- 在调用大模型API时是以token为单位进行收费的,知道自己的输入大概所占的token数,能预算使用过程中产生的消费
2.计算
简单计算: 通常1k token ≈ 750个英文单词 ≈ 400~500个汉字
工具计算: OpenAI官网提供了一个文本与token长度的计算工具
- 链接: https://platform.openai.com/tokenizer
- 演示:
3.参考文献
- https://www.zhihu.com/question/594159910/answer/2996337752