翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习四

合集 ChatGPT 通过图形化的方式来理解 Transformer 架构

  1. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习一
  2. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习二
  3. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习三
  4. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习四
  5. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习五
  6. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习六
    在这里插入图片描述

同样,词的嵌入方式是通过数据学习的。
在这里插入图片描述

这个嵌入矩阵揭示了每个词的变化过程,
在这里插入图片描述

它是我们模型中的第一批权重,
在这里插入图片描述

根据GPT-3,其词汇量具体为50,257 tokens,
在这里插入图片描述

但请注意,它实际上并不指单词本身,而是指tokens。
在这里插入图片描述

嵌入维度为12,288。
在这里插入图片描述

将两者相乘,我们得到大约6.17亿个权重。
在这里插入图片描述

我们将这个数字添加到我们的累计计数中,最终,我们应该得到1750亿个权重。
在这里插入图片描述

当你谈论transformers时,你会想到这些嵌入在空间中的向量不仅代表单个单词。

它们还携带有关单词位置的信息,我们将在后面更详细地解释。
但更重要的是,这些向量吸收并反映上下文。
在这里插入图片描述

例如,一个最初代表"king"的向量可能会随着它与网络中各个点的交互而逐渐变化,所以最后,它指向一个更具体、更微妙的方向,
在这里插入图片描述

以某种方式编码了一个生活在苏格兰的国王,他在杀死前任国王后获得了这个位置,并以充满莎士比亚语言的方式被描绘。
在这里插入图片描述

想想你对一个词的理解通常是如何形成的。
在这里插入图片描述

这个词的意义在很大程度上取决于它所处的上下文,
在这里插入图片描述

有时甚至来自遥远的上下文。
在这里插入图片描述

因此,在构建预测下一个词的模型时,关键目标是使其能够有效地整合上下文信息。
在这里插入图片描述

需要明确的是,在第一步中,当我们根据输入文本创建一个向量数组时,每个向量都是直接从嵌入矩阵中挑选出来的。
在这里插入图片描述

这意味着,起初,每个向量只代表一个词的意义,并不涉及其周围的信息。
在这里插入图片描述

但我们的主要目标是让这些向量通过网络,
在这里插入图片描述

使每个向量获得比单个词更丰富、更具体的含义。
在这里插入图片描述

这个网络一次只能处理一定数量的向量,这被称为上下文大小(context size)。
在这里插入图片描述

对于GPT-3,它的训练上下文大小为2048,这意味着当数据流经网络时,它总是看起来像一个有2048列的数组,每列有12,288个维度。
在这里插入图片描述

这个上下文大小2048限制了Transformer在预测下一个词时可以包含的文本量。
在这里插入图片描述

这解释了为什么,如果你与某些聊天机器人(如早期版本的ChatGPT)进行长时间对话,你可能会感觉机器人在对话中迷失了方向,特别是如果对话持续时间过长。

我们将在适当的时候更详细地讨论注意力机制,但让我们简要地看一下最后阶段。
请记住,最终目标是生成一个概率分布,预测下一个可能的token。
在这里插入图片描述

例如,如果最后一个词是"professor",
在这里插入图片描述

并且上下文包含诸如"Harry Potter"之类的词,
在这里插入图片描述

后面跟着"least favorite teacher",如果我可以稍微玩一下的话,假设tokens是完整的单词。
在这里插入图片描述

那么,一个训练有素、了解哈利波特世界的网络很可能会给单词"Snape"一个很高的权重。

参考

https://youtu.be/wjZofJX0v4M?si=DujTHghH5dYM3KpZ

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/5704.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何讲好ppt演讲技巧(4篇)

如何讲好ppt演讲技巧(4篇) 如何讲好PPT演讲技巧(四篇) **篇:精心准备,奠定演讲基础 一个成功的PPT演讲,离不开精心的准备。首先,要确定演讲的主题和目标,确保演讲内容清…

时序分析之setup/hold时钟path requirement解疑

目录 一、前言 二、时钟边沿选取 2.1 setup和hold 2.2 path requirement 2.3 同频率同相位 2.4 同频率不同相 2.5 倍频或分频关系 2.5 异步时钟 2.6 无公共周期 一、前言 在时序报告中,任选一条时序分析结果查看路径详细延时,会看到在source pa…

Vue3管理系统-路由设置+表单校验

一、配置路由规则 1.在views 下创建文件夹分类,搭好架子 2.配置路由规则 在router下Index.js import { createRouter, createWebHistory } from vue-routerconst router createRouter({history: createWebHistory(import.meta.env.BASE_URL),routes: [//一级路由//这里可以…

浅谈 HTTPS

文章目录 HTTPS 简介HTTPS 特点与 HTTP 的区别HTTPS 工作流程1. 服务端生成密钥对2. 服务端申请数字证书3. 服务端发送数字证书4. 客户端验证数字证书5. 客户端解析证书内容6. 客户端传送加密信息7. 服务端解密信息8. 双方协商生成会话密钥并交换9. 使用会话密钥进行通信 总结 …

【Java】对象的实例化过程

0、前情 对于经常写代码的同学有没有思考这样一个问题:为什么成员变量有默认值?为什么局部变量必须手动赋值? 先不考虑变量类型,如果没有默认值会怎么样?变量存储的是内存地址对应的任意随机值,如果不对其…

Dom获取属性操作

目录 1. 基本认知 1.1 目的和内容 1.2 什么是DOM 1.3 DOM对象 1.4 DOM树 2. 获取DOM元素对象 2.1 选择匹配到的第一个元素 2.2 选择匹配到的多个元素 2.3 其他获取DOM元素方法 3. 操作元素内容 3.1 元素对象.innerText 属性 3.2 元素对象.innerHTML 属性 4. 操作元…

缓存分享(1)——Guava Cache原理及最佳实践

Guava Cache原理及最佳实践 1. Guava Cache是什么1.1 简介1.2 核心功能1.3 适用场景 2. Guava Cache的使用2.1 创建LoadingCache缓存2.2 创建CallableCache缓存 缓存的种类有很多,需要根据不同的应用场景来选择不同的cache,比如分布式缓存如redis、memca…

设计模式之装饰者模式DecoratorPattern(四)

一、概述 装饰者模式(Decorator Pattern)是一种用于动态地给一个对象添加一些额外的职责的设计模式。就增加功能来说,装饰者模式相比生成子类更为灵活。装饰者模式是一种对象结构型模式。 装饰者模式可以在不改变一个对象本身功能的基础上增…

linux dma的使用

设备树配置 驱动代码 static void bcm2835_dma_init(struct spi_master *master, struct device *dev) { struct dma_slave_config slave_config; const __be32 *addr; dma_addr_t dma_reg_base; int ret; /* base address in dma-space */ addr of_get_address(master->de…

基于 React 的图形验证码插件

react-captcha-code NPM 地址 : react-captcha-code - npm npm install react-captcha-code --save 如下我自己的封装: import Captcha from "react-captcha-code";type CaptchaType {captchaChange: (captchaInfo: string) > void;code…

目前全球各类遥感卫星详细介绍

一、高分一号 高分一号(GF-1)是中国高分辨率对地观测系统重大专项(简称高分专项)的第一颗卫星。“高分专项”于2010年5月全面启动,计划到2020年建成中国自主的陆地、大气和海洋观测系统。 高分一号(GF-1&…

React的useEffect

概念:useEffect是一个React Hook函数,组件渲染之后执行的函数 参数1是一个函数,可以把它叫做副作用函数,在函数内部可以放置要执行的操作参数2是一个数组(可选参),在数组里放置依赖项&#x…

Linux系统中搭建Mosquitto MQTT服务并实现远程访问本地消息代理进行通信

文章目录 1. Linux 搭建 Mosquitto2. Linux 安装Cpolar3. 创建MQTT服务公网连接地址4. 客户端远程连接MQTT服务5. 代码调用MQTT服务6. 固定连接TCP公网地址7. 固定地址连接测试 今天和大家分享一下如何在Linux系统中搭建Mosquitto MQTT协议消息服务端,并结合Cpolar内网穿透工具…

使用 Python 和 OpenCV 进行实时目标检测的详解

使用到的模型文件我已经上传了,但是不知道能否通过审核,无法通过审核的话,就只能 靠大家自己发挥实力了,^_^ 目录 简介 代码介绍 代码拆解讲解 1.首先,让我们导入需要用到的库: 2.然后,设…

【C语言】指针篇- 深度解析Sizeof和Strlen:热门面试题探究(5/5)

🌈个人主页:是店小二呀 🌈C语言笔记专栏:C语言笔记 🌈C笔记专栏: C笔记 🌈喜欢的诗句:无人扶我青云志 我自踏雪至山巅 文章目录 一、简单介绍Sizeof和Strlen1.1 Sizeof1.2 Strlen函数1.3 Sie…

快速建站介绍

随着在线业务和电子商务的规模不断扩大,初创公司、个人网站和小型企业都需要快速地搭建自己的网站,以便更好地展示自己、推广产品和服务,并实现在线交易。快速建站已成为在线业务发展的一种主流方式,因为它能够快速地创建一个响应…

uniapp 自定义 App启动图

由于uniapp默认的启动界面太过普通 所以需要自定义个启动图 普通的图片不可以过不了苹果的审核 所以使用storyboard启动图 生成 storyboard 的网站:初雪云-提供一站式App上传发布解决方案

Java学习第02天-类型转换、运算符

目录 类型转换 自动类型转换 表达式的自动类型转换 强制类型转换 运算符 基本运算符 案例解答 连接字符串 自增自减运算符 面试习题 赋值运算符 比较运算符 逻辑运算符 基本逻辑运算符 短路逻辑运算符 三元运算符 基础知识 拓展案例 运算符优先级 读取用户…

UNeXt: a Low-Dose CT denoising UNet model with the modified ConvNeXt block

UNeXt:采用改进的ConvNeXt块的低剂量CT去噪UNet模型 论文链接:https://ieeexplore.ieee.org/document/10095645 项目链接:没找到 Abstract 近几十年来,临床医生广泛使用计算机断层扫描(CT)进行医学诊断。医疗辐射有潜在危险&am…

77、贪心-买卖股票的最佳时机

思路 具体会导致全局最优,这里就可以使用贪心算法。方式如下: 遍历每一位元素找出当前元素最佳卖出是收益是多少。然后依次获取最大值,就是全局最大值。 这里可以做一个辅助数组:右侧最大数组,求右侧最大数组就要从…