深圳专业网站建设产品运营之中的广度讲解/新闻今日头条最新消息

深圳专业网站建设产品运营之中的广度讲解,新闻今日头条最新消息,一个公司做两个网站有影响吗,90设计网账号主流大语言模型中Token的生成过程本质是串行的 flyfish 1. 串行生成 自回归模型的核心逻辑: 大模型(如GPT-2)采用自回归架构,每个Token的生成必须基于已生成的完整历史序列。例如,生成“今天天气很好”时&#xff1a…

主流大语言模型中Token的生成过程本质是串行的

flyfish

1. 串行生成

  • 自回归模型的核心逻辑
    大模型(如GPT-2)采用自回归架构,每个Token的生成必须基于已生成的完整历史序列。例如,生成“今天天气很好”时:

    输入:<start>
    输出1"今" → 输入更新:<start>今
    输出2"天" → 输入更新:<start>今天
    输出3"天" → 输入更新:<start>今天天
    ...(重复或乱码可能因模型困惑导致)
    

    每个Token的生成必须依赖前一步的结果,形成严格的链式依赖。

  • 计算与生成的分离
    虽然模型内部的矩阵运算(如注意力计算)通过GPU并行加速,但生成顺序必须严格串行。例如:

    • 第1步:计算第一个Token的概率分布(基于空输入)。
    • 第2步:将第一个Token加入输入,计算第二个Token的概率分布。
    • 依此类推,无法跳过或提前生成后续Token。

例如:

# 假设模型需生成 "ABC"
步骤1:生成A(依赖空输入)
步骤2:生成B(依赖A)
步骤3:生成C(依赖A+B)

即使步骤1和步骤2的计算在硬件层面并行,生成顺序仍必须是A→B→C。

2. 优化方法的局限性

Beam Search等算法通过维护多个候选序列提升效率,但本质仍是串行生成:

# Beam Search示例(Beam Size=2)
步骤1:生成2个候选("今", "天")
步骤2:基于每个候选生成下一个Token(如"今天""气""天天""气")
步骤3:依此类推,每次扩展候选序列的长度

每个候选序列的Token仍需按顺序生成,无法并行生成整个序列。

import torch
from transformers import GPT2LMHeadModel, GPT2Tokenizer# 加载 GPT-2 模型和分词器
model_path = r"gpt2"tokenizer = GPT2Tokenizer.from_pretrained(model_path)
model = GPT2LMHeadModel.from_pretrained(model_path)input_text = "Once upon a time"
input_ids = tokenizer.encode(input_text, return_tensors='pt')# 使用 top - k 采样生成文本
output = model.generate(input_ids,max_length=20,top_k=50,temperature=0.7
)generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print("生成的文本:", generated_text)

生成的文本: Once upon a time, the world was a place of great beauty and great danger. The world was

import torch
from transformers import GPT2LMHeadModel, GPT2Tokenizer# 加载 GPT-2 模型和分词器
model_path = r"gpt2"tokenizer = GPT2Tokenizer.from_pretrained(model_path)
model = GPT2LMHeadModel.from_pretrained(model_path)# 输入文本
input_text = "Once upon a time"
# 对输入文本进行分词
input_ids = tokenizer.encode(input_text, return_tensors='pt')# 初始化生成的序列
generated_sequence = input_ids# 定义最大生成长度
max_length = 20print("顺序生成的 token:")
for step in range(max_length):# 使用模型进行预测with torch.no_grad():outputs = model(generated_sequence)logits = outputs.logits[:, -1, :]  # 获取最后一个 token 的预测结果# 选择概率最大的 tokennext_token_id = torch.argmax(logits, dim=-1).unsqueeze(0)# 将生成的 token 添加到序列中generated_sequence = torch.cat([generated_sequence, next_token_id], dim=-1)# 解码并打印生成的 token 及其位置next_token = tokenizer.decode(next_token_id[0].item())print(f"步骤 {step + 1}: 生成 token '{next_token}',当前序列长度: {generated_sequence.shape[1]}")# 解码并打印完整的生成序列
generated_text = tokenizer.decode(generated_sequence[0], skip_special_tokens=True)
print("\n完整生成的文本:", generated_text)
顺序生成的 token:
步骤 1: 生成 token ',',当前序列长度: 5
步骤 2: 生成 token ' the',当前序列长度: 6
步骤 3: 生成 token ' world',当前序列长度: 7
步骤 4: 生成 token ' was',当前序列长度: 8
步骤 5: 生成 token ' a',当前序列长度: 9
步骤 6: 生成 token ' place',当前序列长度: 10
步骤 7: 生成 token ' of',当前序列长度: 11
步骤 8: 生成 token ' great',当前序列长度: 12
步骤 9: 生成 token ' beauty',当前序列长度: 13
步骤 10: 生成 token ' and',当前序列长度: 14
步骤 11: 生成 token ' great',当前序列长度: 15
步骤 12: 生成 token ' danger',当前序列长度: 16
步骤 13: 生成 token '.',当前序列长度: 17
步骤 14: 生成 token ' The',当前序列长度: 18
步骤 15: 生成 token ' world',当前序列长度: 19
步骤 16: 生成 token ' was',当前序列长度: 20
步骤 17: 生成 token ' a',当前序列长度: 21
步骤 18: 生成 token ' place',当前序列长度: 22
步骤 19: 生成 token ' of',当前序列长度: 23

自回归架构是许多大语言模型顺序生成Token的根本原因,并且其链式依赖特性确实有助于确保生成过程的逻辑连贯性。

自回归架构与Token生成

  1. 自回归机制

    • 在自回归模型中,比如GPT系列模型,生成下一个Token的过程依赖于前面已经生成的所有Token。具体来说,生成第 t t t个Token时,模型会基于前 t − 1 t-1 t1个Token来计算概率分布,然后从中采样或选择最有可能的下一个Token。
    • 这种链式依赖关系(即每个Token的生成依赖于之前的全部或部分Token)保证了文本生成的逻辑一致性和连贯性。
  2. 串行生成 vs 并行生成

    • 串行生成:传统的大语言模型如GPT系列,在推理阶段通常是逐个Token串行生成的。这是因为每个新Token的生成都需要利用到之前所有已生成的Token作为上下文输入,这种依赖关系限制了并行处理的可能性。
    • 尝试并行化:尽管存在一些研究和方法试图提高生成效率,例如通过投机解码(Speculative Decoding)或者使用多个模型同时预测不同位置的Token,但这些方法并没有完全改变基本的自回归生成机制。大多数情况下,核心的Token生成步骤仍然是串行进行的,因为当前Token的生成必须等待前面的Token确定下来才能开始。

3. 数学本质的"自相关性"

自回归(Autoregressive)模型中的"自",自回归的核心在于当前输出仅依赖于自身历史输出。用数学公式表示为:
x t = ϕ 1 x t − 1 + ϕ 2 x t − 2 + ⋯ + ϕ p x t − p + ϵ t x_t = \phi_1 x_{t-1} + \phi_2 x_{t-2} + \dots + \phi_p x_{t-p} + \epsilon_t xt=ϕ1xt1+ϕ2xt2++ϕpxtp+ϵt

  • 自相关性:模型通过自身序列的滞后项( x t − 1 , x t − 2 x_{t-1}, x_{t-2} xt1,xt2等)预测当前值
  • 内生性:所有变量均来自同一序列,区别于普通回归模型中的外生变量

例如,股票价格预测模型中, x t x_t xt(今日股价)仅依赖于过去5天的股价( x t − 1 x_{t-1} xt1 x t − 5 x_{t-5} xt5),而非外部因素如新闻、财报等。

4. 生成过程的"自我迭代"

在自然语言处理中,这种"自"特性体现为:

  1. 链式生成:每个Token的生成必须基于已生成的Token序列
  2. 因果掩码:Transformer架构中,每个位置i的注意力被限制在1到i-1的位置
  3. 动态更新:每生成一个Token,模型的内部状态(隐藏层激活值)会被更新

以GPT-2生成句子为例:

输入:"今天天气"
生成过程:
1. 预测第一个Token:"很"(基于"今天天气")
2. 预测第二个Token:"好"(基于"今天天气很")
3. 预测第三个Token:"啊"(基于"今天天气很好")

5. 与其他模型的对比

模型类型是否"自"依赖典型应用场景
自回归模型仅依赖自身历史文本生成、时间序列预测
非自回归模型不依赖自身历史图像超分辨率、语音识别
混合模型部分依赖自身历史对话系统(结合外部知识)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/71885.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于PySide6的CATIA零件自动化着色工具开发实践

引言 在汽车及航空制造领域&#xff0c;CATIA作为核心的CAD设计软件&#xff0c;其二次开发能力对提升设计效率具有重要意义。本文介绍一种基于Python的CATIA零件着色工具开发方案&#xff0c;通过PySide6实现GUI交互&#xff0c;结合COM接口操作实现零件着色自动化。该方案成…

Python——计算机网络

一.ip 1.ip的定义 IP是“Internet Protocol”的缩写&#xff0c;即“互联网协议”。它是用于计算机网络通信的基础协议之一&#xff0c;属于TCP/IP协议族中的网络层协议。IP协议的主要功能是负责将数据包从源主机传输到目标主机&#xff0c;并确保数据能够在复杂的网络环境中正…

Python实例:PyMuPDF实现PDF翻译,英文翻译为中文,并按段落创建中文PDF

基于PyMuPDF与百度翻译的PDF翻译处理系统开发:中文乱码解决方案与自动化排版实践 一 、功能预览:将英文翻译为中文后创建的PDF 二、完整代码 from reportlab.lib.pagesizes import letter from reportlab.lib.styles import getSampleStyleSheet, ParagraphStyle

复现 MODEST 机器人抓取透明物体 单目 ICRA 2025

MODEST 单目透明物体抓取算法&#xff0c;来自ICRA 2025&#xff0c;本文分享它的复现过程。 输入单个视角的RGB图像&#xff0c;模型需要同时处理深度和分割任务&#xff0c;输出透明物体的分割结果和场景深度预测。 论文地址&#xff1a;Monocular Depth Estimation and Se…

新手学习爬虫的案例

首先你的电脑上肯定已经安装了python,没安装的去官网安装,我使用的是Pycharm作为操作的IDE 环境准备 安装必要的库 爬虫需要用到requests和beautifulsoup4 使用命令行或者终端运行下面的命令 pip install requests beautifulsoup4 -i https://mirrors.aliyun.com/pypi/sim…

Octave3D 关卡设计插件

课程参考链接 这位大佬有在视频合集中有详细的讲解&#xff0c;个人体验过&#xff0c;感觉功能很强大 https://www.bilibili.com/video/BV1Kq4y1C72P/?share_sourcecopy_web&vd_source0a41d8122353e3e841ae0a39908c2181 Prefab资源管理 第一步 在场景中创建一个空物体…

SpringBoot(一)--搭建架构5种方法

目录 一、⭐Idea从spring官网下载打开 2021版本idea 1.打开创建项目 2.修改pom.xml文件里的版本号 2017版本idea 二、从spring官网下载再用idea打开 三、Idea从阿里云的官网下载打开 ​编辑 四、Maven项目改造成springboot项目 五、从阿里云官网下载再用idea打开 Spri…

Python爬虫实战:一键采集电商数据,掌握市场动态!

电商数据分析是个香饽饽&#xff0c;可市面上的数据采集工具要不贵得吓人&#xff0c;要不就是各种广告弹窗。干脆自己动手写个爬虫&#xff0c;想抓啥抓啥&#xff0c;还能学点技术。今天咱聊聊怎么用Python写个简单的电商数据爬虫。 打好基础&#xff1a;搞定请求头 别看爬虫…

乐鑫打造全球首款 PSA Certified Level 2 RISC-V 芯片

乐鑫科技 (688018.SH) 荣幸宣布 ESP32-C6 于 2025 年 2 月 20 日获得 PSA Certified Level 2 认证。这一重要突破使 ESP32-C6 成为全球首款基于 RISC-V 架构获此认证的芯片&#xff0c;体现了乐鑫致力于为全球客户提供安全可靠、性能卓越的物联网解决方案的坚定承诺。 PSA 安全…

图像滑块对比功能的开发记录

背景介绍 最近&#xff0c;公司需要开发一款在线图像压缩工具&#xff0c;其中的一个关键功能是让用户直观地比较压缩前后的图像效果。因此&#xff0c;我们设计了一个对比组件&#xff0c;它允许用户通过拖动滑块&#xff0c;动态调整两张图像的显示区域&#xff0c;从而清晰…

tcc编译器教程2 编译lua解释器

本文主要介绍了使用tcc编译器编译lua解释器源码。 1 介绍 lua是一门编程语言,开源且源码很容易编译,我平时用来测试C语言编程环境时经常使用。一般能编译成功就说明编程环境设置正常。下面用之前设置好的tcc编程环境进行测试。 2 获取源码 我一般有保留多个版本的lua源码进…

Unity DOTS从入门到精通之 自定义Authoring类

文章目录 前言安装 DOTS 包什么是Authoring1. 实体组件2. Authoring类 前言 DOTS&#xff08;面向数据的技术堆栈&#xff09;是一套由 Unity 提供支持的技术&#xff0c;用于提供高性能游戏开发解决方案&#xff0c;特别适合需要处理大量数据的游戏&#xff0c;例如大型开放世…

comctl32!ListView_OnSetItem函数分析LISTSUBITEM结构中的image表示图标位置

第一部分&#xff1a; BOOL ListView_SetSubItem(LV* plv, const LV_ITEM* plvi) { LISTSUBITEM lsi; BOOL fChanged FALSE; int i; int idpa; HDPA hdpa; if (plvi->mask & ~(LVIF_DI_SETITEM | LVIF_TEXT | LVIF_IMAGE | LVIF_STATE)) { …

【算法】大数据查重

大数据查重 哈希表 找出第一个出现重复的数字 || 找所有重复出现的数字 #include <iostream> #include <vector> #include <unordered_map> #include <unordered_set> #include <stdlib.h> #include <time.h> #include <string> …

模型微调-基于LLaMA-Factory进行微调的一个简单案例

模型微调-基于LLaMA-Factory进行微调的一个简单案例 1. 租用云计算资源2. 拉取 LLaMa-Factory3. 安装依赖环境4. 启动 LLaMa-Factory 界面5. 从 Huggingface 下载模型6. 模型验证7. 模型微调 1. 租用云计算资源 以下示例基于 AutoDL 云计算资源。 在云计算平台选择可用的云计…

【单片机】ARM 处理器简介

ARM 公司简介 ARM&#xff08;Advanced RISC Machine&#xff09; 是英国 ARM 公司&#xff08;原 Acorn RISC Machine&#xff09; 开发的一种精简指令集&#xff08;RISC&#xff09; 处理器架构。ARM 处理器因其低功耗、高性能、广泛适用性&#xff0c;成为嵌入式系统、移动…

vue3,Element Plus中隐藏树el-tree滚动条

el-tree&#xff0c;节点过多&#xff0c;默认会出现垂直滚动条&#xff0c;显得不美观 可以使用隐藏组件 el-scrollbar 将 el-tree 包裹&#xff0c;就可以隐藏垂直滚动条 <el-scrollbar> <el-tree> ... </el-tree> </el-scrollbar> /* 滚动条禁用鼠…

mysql练习

创建数据库db_ck&#xff0c;再创建表t_hero&#xff0c;将四大名著中的主要人物都插入这个表中&#xff0c;将实现过程中sql提交上上来 1、创建数据库db_ck mysql> create database db_ck; 2、创建表t_hero mysql> use db_ck Database changed mysql> create table …

svn删除所有隐藏.svn文件,文件夹脱离svn控制

新建一个文件&#xff0c;取名remove-svn-folders.reg&#xff0c;输入如下内容&#xff1a; Windows Registry Editor Version 5.00 [HKEY_LOCAL_MACHINE\SOFTWARE\Classes\Folder\shell\DeleteSVN] "Delete SVN Folders" [HKEY_LOCAL_MACHINE\SOFTWARE\Class…

Unity开发——CanvasGroup组件介绍和应用

CanvasGroup是Unity中用于控制UI的透明度、交互性和渲染顺序的组件。 一、常用属性的解释 1、alpha&#xff1a;控制UI的透明度 类型&#xff1a;float&#xff0c;0.0 ~1.0&#xff0c; 其中 0.0 完全透明&#xff0c;1.0 完全不透明。 通过调整alpha值可以实现UI的淡入淡…