Token 在 LLM

大语言模型不能理解原始文本,所以需要把原始文本转换成大语言模型可以理解的数字表示形式,经过大模型处理以后,需要将该数字表示形式转换为人可以理解的文本。

在这里插入图片描述

原始文本到 token

原始文本转换为token序列的过程通常是在LLM的预处理阶段完成的。

在大型语言模型(LLM)中,token是指模型输入或输出序列中的基本单元。通常情况下,一个token可能是一个单词、一个字符或一个字节序列,这取决于模型的预处理方式。
Token在LLM中扮演着非常重要的角色,主要有以下几个原因:

  1. 输入表示 - LLM需要将原始文本转换为模型可以理解的数字序列。将文本分解为token序列是这个转换过程的第一步。

  2. 输出生成 - LLM生成文本时,也是通过预测下一个token的概率分布,然后采样或选择概率较高的token,循环这个过程直到达到终止条件。

  3. 上下文窗口 - 大多数LLM有最大输入长度的限制,通过将输入分解为token,模型可以处理比词或字符级别更长的上下文。

  4. 子词tokenization - 一些tokenizer采用基于字节对编码(BPE)等子词tokenization算法,可以更好地处理未见词并减小词表大小。

  5. 模型参数 - LLM通常以token为单位计算参数大小。更大的token数量通常意味着模型可以处理更长、更复杂的输入。

总的来说,token是LLM进行序列建模和生成的基本单位,对于输入理解、输出生成、上下文捕获和参数大小等都有重要影响。合理的token设计对于LLM的性能至关重要。

根据不同的Tokenization(分词)策略,Token可以是单词、子词或者字符等。

以下是一些常见Token的例子:

  1. 单词Token

    • 句子: “The quick brown fox jumps over the lazy dog.”
    • Tokens: “The”, “quick”, “brown”, “fox”, “jumps”, “over”, “the”, “lazy”, “dog”
  2. 子词Token

    • 单词: “Unbelievable”
    • BPE子词Tokens: “Unbeli”, “evable”
  3. 字符Token

    • 单词: “Hello”
    • 字符Tokens: “H”, “e”, “l”, “l”, “o”
  4. SentencePiece Token

    • 句子: “The student studies at university.”
    • SentencePiece Tokens: “The”, " stu", “dent”, " studi", “es”, " at", " un", “ivers”, “ity”, “.”

不同Token粒度会影响模型的词汇表大小、输入长度等,需要根据具体任务和模型权衡选择。通常单词是最自然的Token单元,但对于特殊词或未见词,需使用子词或字符Token处理。

值得注意的是,不同NLP模型可能对同一个单词使用不同的Token划分方式,如BERT使用的是WordPiece子词Token。合理的Token设计对模型性能有很大影响。

https://platform.openai.com/tokenizer

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/826394.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

力扣:LCR 022. 环形链表 II

力扣:LCR 022. 环形链表 II 给定一个链表,返回链表开始入环的第一个节点。 从链表的头节点开始沿着 next 指针进入环的第一个节点为环的入口节点。如果链表无环,则返回 null。 为了表示给定链表中的环,我们使用整数 pos 来表示链…

docker配置项目镜像

1、Dockerfile构建redis镜像 redis_install.sh #!/bin/bash yum install -y gcc gcc-c make openssl openssl-devel cd /home/redis-6.2.6 make && make PREFIX/usr/local/redis install mkdir -p /usr/local/redis/conf/ cp /home/redis-6.2.6/redis.conf /usr/local/…

学习java时候的笔记(十九)

正则表达式 作用: 校验字符串是否满足规则在一段文本中查找满足要求的内容 字符类(只匹配一个字符) 说明[abc]只能是a,b或c[^abc]除了a,b,c之外的任何字符[a-zA-Z]a 到 z, A 到 Z(范围)[a-d[m-p]]a 到 d, 或 m 到 p[a - z && [def]]a 到 z和def的交集。为: d, e, f…

【树莓派学习】系统烧录及VNC连接、文件传输

【树莓派学习】系统烧录及VNC连接、文件传输 Raspberry Pi is a series of small single-board computers (SBCs) developed in the United Kingdom by the Raspberry Pi Foundation in association with Broadcom. Since 2013, Raspberry Pi devices have been developed and…

Ubuntu20.4版本安装ROS教程

一、配置源 安装成功的Ubuntu系统自带的工具下载速度慢,不太好用,所以我们可以使用国内稳定高速且免费的镜像网站。 清华源:https://pypi.tuna.tsinghua.edu.cn/simple/ 阿里云:https://mirrors.aliyun.com/pypi/simple 中科大&…

Comparable 和 Comparator

文章目录 一.Comparable二. Comparator三.对比1. Comparable 接口2. Comparator 接口总结 一.Comparable 源码&#xff1a; public interface Comparable<T> {int compareTo(T o); }返回值&#xff1a; 如果当前对象小于参数对象&#xff0c;则返回负整数。如果当前对象等…

启动 UE4编辑器报 加载 Plugin 失败

启动 UE4编辑器报 加载 Plugin 失败&#xff0c;报如下错误&#xff1a; Plugin ‘SteamVR’ failer to load because module ‘SteamVR’ could not be found. Please ensure the plugin is properly installed, otherwise consider disabling the plugin for this project. …

TorchEEG文档_学习笔记1【代码详解】

文章目录 一、用户文档1.安装Pytorch2.安装TorchEEG3.安装与图算法的插件 二、教程1.使用TorchEEG完成深度学习工作流程2datasets模块3.transforms模块4.models模块5.trainer模块6.使用Vanilla PyTorch训练模型 一、用户文档 1.安装Pytorch TorchEEG依赖于PyTorch,根据系统、…

MYSQL之增删改查(下)

前言&#xff1a; 以下是MySQL最基本的增删改查语句&#xff0c;很多IT工作者都必须要会的命令&#xff0c;也 是IT行业面试最常考的知识点&#xff0c;由于是入门级基础命令&#xff0c;所有所有操作都建立在单表 上&#xff0c;未涉及多表操作。 4.3 高级查询 4.3.1 聚合函…

2024-简单点-假设我要让一个py功能文件变成服务,在网络启动后进行,并且开机自动启动。

功能&#xff1a;假设我要让一个py功能文件变成服务&#xff0c;在网络启动后进行&#xff0c;并且开机自动启动。 cd /etc/systemd/system/ sudo nano xxxxxx.service[Unit] Descriptionwrite whatever you want Afternetwork.target [Service] Typesimple ExecStart/usr/bi…

Navicat 干货 | 了解 PostgreSQL 规则

PostgreSQL 是一个强大的开源关系型数据库管理系统&#xff0c;为增强数据管理和操作提供了丰富的功能。这些功能中包含了规则&#xff0c;这是一种用于控制数据库内部查询和命令处理方式的机制。本文将探讨 PostgreSQL 规则的工作原理&#xff0c;以及它们与触发器的区别&…

N名学生的成绩已在主函数中放入一个带头节点的链表结构中,h指向链表的头节点。请编写函数fun,它的功能是:找出学生的最高分,由函数值返回。

本文收录于专栏:算法之翼 https://blog.csdn.net/weixin_52908342/category_10943144.html 订阅后本专栏全部文章可见。 本文含有题目的题干、解题思路、解题思路、解题代码、代码解析 分别包含C语言、C++、Java、Python四种语言的解法和详细解析。 题干 N名学生的成绩已在主…

实验室三大常用仪器1---示波器的基本使用方法(笔记)

目录 示波器的作用 示波器的基础操作方法 示波器测量突变脉冲 示波器的作用 示波器能帮助我们干什么&#xff1f; 比如说某个电源用万用表测量是稳定的5V输出 但是用示波器一看确实波涛汹涌 这样的电源很可能回导致系统异常工作 又比如电脑和单片机进行串口通信时&#xf…

【C++干货基地】面向对象核心概念 const成员函数 | 初始化列表 | explicit关键字 | 取地址重载

&#x1f3ac; 鸽芷咕&#xff1a;个人主页 &#x1f525; 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想&#xff0c;就是为了理想的生活! 引入 哈喽各位铁汁们好啊&#xff0c;我是博主鸽芷咕《C干货基地》是由我的襄阳家乡零食基地有感而发&#xff0c;不知道各位的…

sketchup创建3D打印机的模型

查了一下&#xff0c;这玩意有几个版本&#xff0c;其中一个sketchup free是免费的&#xff0c;到官网上看看 下载 SketchUp | 免费试用 3D 建模软件 | SketchUp 是个在线网页版&#xff0c;然后可以再这个网站上注册一个账号 弄个邮箱试试看 创建好进入后&#xff0c;里面就…

js 遍历数据结构,使不符合条件的全部删除

js 遍历数据结构&#xff0c;使不符合条件的全部删除 let newSourceJSON.parse(JSON.stringify(state.treeData))state.expandedKeys[]checkedKeys.map((item:any)>{loop(newSource,{jsonPath:item.split(&)[1]},state.expandedKeys)})function removeUnwantedNodes(tre…

LeetCode-最长递增子序列

每日一题 今天继续来练习动态规划 题目要求 给你一个整数数组 nums &#xff0c;找到其中最长严格递增子序列的长度。 子序列 是由数组派生而来的序列&#xff0c;删除&#xff08;或不删除&#xff09;数组中的元素而不改变其余元素的顺序。例如&#xff0c;[3,6,2,7] 是数…

Java学习笔记:do_while循环

相关介绍&#xff1a; 在Java中&#xff0c;do-while循环是一种基本的控制流语句&#xff0c;它至少执行一次循环体&#xff0c;然后根据条件判断是否继续执行。这种循环结构的特点是先执行循环体&#xff0c;然后判断条件&#xff0c;如果条件为真&#xff0c;则继续执行循环…

广东制造业企业图纸防泄密解决方案,广东图纸加密,深圳图纸加密软件安秉信息

广东省制造业是我国国民经济的重要支柱产业&#xff0c;企业之间的竞争体现在公司的所有层面上&#xff0c;包括产品、技术、人员、管理等。而信息技术的应用更是提高了企业间竞争水平&#xff0c;随着文档电子化、办公自动化、设计数字化、存储集中化的不断普及&#xff0c;信…

SpringCloud系列(7)--Eureka服务端的安装与配置

前言&#xff1a;上一章节我们介绍了Eureka的基础&#xff0c;本章节则介绍Eureka服务端的安装与配置 Eureka架构原理图 1、创建Eureka Server端服务注册中心模块 (1)在父工程下新建模块 (2)选择模块的项目类型为Maven并选择模块要使用的JDK版本 (3)填写子模块的名称&#xf…