Token 在 LLM

Token 在 LLM

news/2025/7/6 12:55:19/文章来源:https://blog.csdn.net/weixin_36441033/article/details/137964238

大语言模型不能理解原始文本，所以需要把原始文本转换成大语言模型可以理解的数字表示形式，经过大模型处理以后，需要将该数字表示形式转换为人可以理解的文本。

在这里插入图片描述

原始文本到 token

原始文本转换为token序列的过程通常是在LLM的预处理阶段完成的。

在大型语言模型(LLM)中,token是指模型输入或输出序列中的基本单元。通常情况下,一个token可能是一个单词、一个字符或一个字节序列,这取决于模型的预处理方式。
Token在LLM中扮演着非常重要的角色,主要有以下几个原因:

输入表示 - LLM需要将原始文本转换为模型可以理解的数字序列。将文本分解为token序列是这个转换过程的第一步。
输出生成 - LLM生成文本时,也是通过预测下一个token的概率分布,然后采样或选择概率较高的token,循环这个过程直到达到终止条件。
上下文窗口 - 大多数LLM有最大输入长度的限制,通过将输入分解为token,模型可以处理比词或字符级别更长的上下文。
子词tokenization - 一些tokenizer采用基于字节对编码(BPE)等子词tokenization算法,可以更好地处理未见词并减小词表大小。
模型参数 - LLM通常以token为单位计算参数大小。更大的token数量通常意味着模型可以处理更长、更复杂的输入。

总的来说,token是LLM进行序列建模和生成的基本单位,对于输入理解、输出生成、上下文捕获和参数大小等都有重要影响。合理的token设计对于LLM的性能至关重要。

根据不同的Tokenization(分词)策略,Token可以是单词、子词或者字符等。

以下是一些常见Token的例子:

单词Token
- 句子: “The quick brown fox jumps over the lazy dog.”
- Tokens: “The”, “quick”, “brown”, “fox”, “jumps”, “over”, “the”, “lazy”, “dog”
子词Token
- 单词: “Unbelievable”
- BPE子词Tokens: “Unbeli”, “evable”
字符Token
- 单词: “Hello”
- 字符Tokens: “H”, “e”, “l”, “l”, “o”
SentencePiece Token
- 句子: “The student studies at university.”
- SentencePiece Tokens: “The”, " stu", “dent”, " studi", “es”, " at", " un", “ivers”, “ity”, “.”

不同Token粒度会影响模型的词汇表大小、输入长度等,需要根据具体任务和模型权衡选择。通常单词是最自然的Token单元,但对于特殊词或未见词,需使用子词或字符Token处理。

值得注意的是,不同NLP模型可能对同一个单词使用不同的Token划分方式,如BERT使用的是WordPiece子词Token。合理的Token设计对模型性能有很大影响。

https://platform.openai.com/tokenizer

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/826394.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

力扣：LCR 022. 环形链表 II

力扣：LCR 022. 环形链表 II

力扣：LCR 022. 环形链表 II 给定一个链表，返回链表开始入环的第一个节点。从链表的头节点开始沿着 next 指针进入环的第一个节点为环的入口节点。如果链表无环，则返回 null。为了表示给定链表中的环，我们使用整数 pos 来表示链…

阅读更多...

docker配置项目镜像

docker配置项目镜像

1、Dockerfile构建redis镜像 redis_install.sh #!/bin/bash yum install -y gcc gcc-c make openssl openssl-devel cd /home/redis-6.2.6 make && make PREFIX/usr/local/redis install mkdir -p /usr/local/redis/conf/ cp /home/redis-6.2.6/redis.conf /usr/local/…

阅读更多...

学习java时候的笔记(十九)

学习java时候的笔记(十九)

正则表达式作用: 校验字符串是否满足规则在一段文本中查找满足要求的内容字符类(只匹配一个字符) 说明[abc]只能是a,b或c[^abc]除了a,b,c之外的任何字符[a-zA-Z]a 到 z, A 到 Z(范围)[a-d[m-p]]a 到 d, 或 m 到 p[a - z && [def]]a 到 z和def的交集。为: d, e, f…

阅读更多...

【树莓派学习】系统烧录及VNC连接、文件传输

【树莓派学习】系统烧录及VNC连接、文件传输

【树莓派学习】系统烧录及VNC连接、文件传输 Raspberry Pi is a series of small single-board computers (SBCs) developed in the United Kingdom by the Raspberry Pi Foundation in association with Broadcom. Since 2013, Raspberry Pi devices have been developed and…

阅读更多...

Ubuntu20.4版本安装ROS教程

Ubuntu20.4版本安装ROS教程

一、配置源安装成功的Ubuntu系统自带的工具下载速度慢，不太好用，所以我们可以使用国内稳定高速且免费的镜像网站。清华源：https://pypi.tuna.tsinghua.edu.cn/simple/ 阿里云：https://mirrors.aliyun.com/pypi/simple 中科大&…

阅读更多...

Comparable 和 Comparator

Comparable 和 Comparator

文章目录一.Comparable二. Comparator三.对比1. Comparable 接口2. Comparator 接口总结一.Comparable 源码： public interface Comparable<T> {int compareTo(T o); }返回值： 如果当前对象小于参数对象，则返回负整数。如果当前对象等…

阅读更多...

启动 UE4编辑器报加载 Plugin 失败

启动 UE4编辑器报加载 Plugin 失败

启动 UE4编辑器报加载 Plugin 失败，报如下错误： Plugin ‘SteamVR’ failer to load because module ‘SteamVR’ could not be found. Please ensure the plugin is properly installed, otherwise consider disabling the plugin for this project. …

阅读更多...

TorchEEG文档_学习笔记1【代码详解】

TorchEEG文档_学习笔记1【代码详解】

文章目录一、用户文档1.安装Pytorch2.安装TorchEEG3.安装与图算法的插件二、教程1.使用TorchEEG完成深度学习工作流程2datasets模块3.transforms模块4.models模块5.trainer模块6.使用Vanilla PyTorch训练模型一、用户文档 1.安装Pytorch TorchEEG依赖于PyTorch,根据系统、…

阅读更多...

MYSQL之增删改查（下）

MYSQL之增删改查（下）

前言： 以下是MySQL最基本的增删改查语句，很多IT工作者都必须要会的命令，也是IT行业面试最常考的知识点，由于是入门级基础命令，所有所有操作都建立在单表上，未涉及多表操作。 4.3 高级查询 4.3.1 聚合函…

阅读更多...

2024-简单点-假设我要让一个py功能文件变成服务，在网络启动后进行，并且开机自动启动。

2024-简单点-假设我要让一个py功能文件变成服务，在网络启动后进行，并且开机自动启动。

功能：假设我要让一个py功能文件变成服务，在网络启动后进行，并且开机自动启动。 cd /etc/systemd/system/ sudo nano xxxxxx.service[Unit] Descriptionwrite whatever you want Afternetwork.target [Service] Typesimple ExecStart/usr/bi…

阅读更多...

Navicat 干货 | 了解 PostgreSQL 规则

Navicat 干货 | 了解 PostgreSQL 规则

PostgreSQL 是一个强大的开源关系型数据库管理系统，为增强数据管理和操作提供了丰富的功能。这些功能中包含了规则，这是一种用于控制数据库内部查询和命令处理方式的机制。本文将探讨 PostgreSQL 规则的工作原理，以及它们与触发器的区别&…

阅读更多...

N名学生的成绩已在主函数中放入一个带头节点的链表结构中，h指向链表的头节点。请编写函数fun，它的功能是：找出学生的最高分，由函数值返回。

N名学生的成绩已在主函数中放入一个带头节点的链表结构中，h指向链表的头节点。请编写函数fun，它的功能是：找出学生的最高分，由函数值返回。

本文收录于专栏：算法之翼 https://blog.csdn.net/weixin_52908342/category_10943144.html 订阅后本专栏全部文章可见。本文含有题目的题干、解题思路、解题思路、解题代码、代码解析分别包含C语言、C++、Java、Python四种语言的解法和详细解析。题干 N名学生的成绩已在主…

阅读更多...

实验室三大常用仪器1---示波器的基本使用方法（笔记）

实验室三大常用仪器1---示波器的基本使用方法（笔记）

目录示波器的作用示波器的基础操作方法示波器测量突变脉冲示波器的作用示波器能帮助我们干什么？ 比如说某个电源用万用表测量是稳定的5V输出但是用示波器一看确实波涛汹涌这样的电源很可能回导致系统异常工作又比如电脑和单片机进行串口通信时&#xf…

阅读更多...

【C++干货基地】面向对象核心概念 const成员函数 | 初始化列表 | explicit关键字 | 取地址重载

【C++干货基地】面向对象核心概念 const成员函数 | 初始化列表 | explicit关键字 | 取地址重载

🎬 鸽芷咕：个人主页 🔥 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想，就是为了理想的生活! 引入哈喽各位铁汁们好啊，我是博主鸽芷咕《C干货基地》是由我的襄阳家乡零食基地有感而发，不知道各位的…

阅读更多...

sketchup创建3D打印机的模型

sketchup创建3D打印机的模型

查了一下，这玩意有几个版本，其中一个sketchup free是免费的，到官网上看看下载 SketchUp | 免费试用 3D 建模软件 | SketchUp 是个在线网页版，然后可以再这个网站上注册一个账号弄个邮箱试试看创建好进入后，里面就…

阅读更多...

js 遍历数据结构，使不符合条件的全部删除

js 遍历数据结构，使不符合条件的全部删除

js 遍历数据结构，使不符合条件的全部删除 let newSourceJSON.parse(JSON.stringify(state.treeData))state.expandedKeys[]checkedKeys.map((item:any)>{loop(newSource,{jsonPath:item.split(&)[1]},state.expandedKeys)})function removeUnwantedNodes(tre…

阅读更多...

LeetCode-最长递增子序列

LeetCode-最长递增子序列

每日一题今天继续来练习动态规划题目要求给你一个整数数组 nums ，找到其中最长严格递增子序列的长度。子序列是由数组派生而来的序列，删除（或不删除）数组中的元素而不改变其余元素的顺序。例如，[3,6,2,7] 是数…

阅读更多...

Java学习笔记：do_while循环

Java学习笔记：do_while循环

相关介绍： 在Java中，do-while循环是一种基本的控制流语句，它至少执行一次循环体，然后根据条件判断是否继续执行。这种循环结构的特点是先执行循环体，然后判断条件，如果条件为真，则继续执行循环…

阅读更多...

广东制造业企业图纸防泄密解决方案，广东图纸加密，深圳图纸加密软件安秉信息

广东制造业企业图纸防泄密解决方案，广东图纸加密，深圳图纸加密软件安秉信息

广东省制造业是我国国民经济的重要支柱产业，企业之间的竞争体现在公司的所有层面上，包括产品、技术、人员、管理等。而信息技术的应用更是提高了企业间竞争水平，随着文档电子化、办公自动化、设计数字化、存储集中化的不断普及，信…

阅读更多...

SpringCloud系列（7）--Eureka服务端的安装与配置

SpringCloud系列（7）--Eureka服务端的安装与配置

前言：上一章节我们介绍了Eureka的基础，本章节则介绍Eureka服务端的安装与配置 Eureka架构原理图 1、创建Eureka Server端服务注册中心模块 (1)在父工程下新建模块 (2)选择模块的项目类型为Maven并选择模块要使用的JDK版本 (3)填写子模块的名称&#xf…

阅读更多...

最新文章