翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习一

合集 ChatGPT 通过图形化的方式来理解 Transformer 架构

  1. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习一
  2. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习二
  3. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习三
  4. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习四
  5. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习五
  6. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习六

Generative Pre-trained Transformer (生成式预训练Transformer)

GPT 是 Generative Pre-trained Transformer 的缩写。

前面的词比较直白,它们是指能生成新文本的机器人。

"Pre-trained"指的是模型已经经历了从大量数据中学习的过程,暗示着模型在特定任务上还有进一步训练和微调的潜力。
在这里插入图片描述

然而,最后一个词才是真正重要的部分。

Transformer(Transformer)是一种特定类型的神经网络,一种机器学习模型,它是当今人工智能快速发展的核心。
在这里插入图片描述

通过这个视频和接下来的章节,我希望能以一种易于理解的方式解释Transformer内部究竟发生了什么。
在这里插入图片描述

我们将一步步探索其中的数据流。
在这里插入图片描述

你可以用Transformer构建许多不同类型的模型。
在这里插入图片描述

有些模型接受音频输入并生成文本。
在这里插入图片描述

这句话来自一个反向的模型,它只需要文本输入就能生成人工语音。
在这里插入图片描述

所有那些在2022年席卷全球的工具,例如DALL-E和MidJourney,它们能够将文本描述转换为图像,这些都是基于Transformer的。

即使我无法让它完全理解什么是"π生物",我仍然对这样的事情能够发生感到惊讶。
在这里插入图片描述

最初的Transformer由谷歌在2017年推出,
在这里插入图片描述

主要用于将文本从一种语言翻译成另一种语言。
在这里插入图片描述

但我们将重点关注的版本,也就是像ChatGPT这样的工具所依赖的类型,将是一个接受一段文本(可能伴随一些图像或声音)然后预测接下来会出现什么文章的模型。
在这里插入图片描述

这个预测以概率分布的形式呈现,涵盖了大量可能出现的下一个文本片段。

乍一看,你可能会认为预测下一个词似乎与生成新词相去甚远。

但当你有了这样一个预测模型,你就可以尝试通过给它一个初始片段,然后从你刚刚生成的概率分布中随机抽取一个样本,将该样本附加到文本中,然后再进行一轮预测,这次是基于所有新生成的文本。

我不知道你怎么想,但我真的不认为这种方法会很有效。
在这里插入图片描述

例如,在这个动画中,我在笔记本电脑上运行GPT-2,让它不断预测和抽样下一段文本,试图根据一个开始的文本片段生成一个故事。

结果是,这个故事基本上没有任何逻辑。
在这里插入图片描述

但如果我切换到GPT-3的API调用,这是相同的基本模型,只是规模大得多,突然之间就像魔术一样,我们不仅得到了一个有逻辑的故事,甚至还暗示了一个π生物如何栖息在一个充满数学和计算的世界里。
在这里插入图片描述

这个过程就是通过反复预测和选择来生成文本,这正是你在使用ChatGPT或其他大型语言模型时所体验到的,它们逐字生成文本。

实际上,我希望有一个功能,可以让我看到它为每个新选择的词所基于的潜在概率分布。
在这里插入图片描述

让我们从宏观层面看看数据如何在Transformer模型中流动。

接下来,我们将详细探索、解释和扩展每一步。

但总的来说,当聊天机器人生成一个特定的词时,它是这样工作的。
在这里插入图片描述

首先,输入被分割成许多小片段。这些小片段被称为标记(token)。

对于文本,这些标记通常是单词、单词的小部分或其他常见的字符组合。
在这里插入图片描述
在这里插入图片描述

如果是图像或声音,一个标记可能代表图像的一小块区域或声音的一小段片段。
在这里插入图片描述

然后,每个标记都对应一个向量,即一串数字,其目的是以某种方式传达该片段的含义。
在这里插入图片描述

如果你把这些向量看作高维空间中的坐标,那么具有相似含义的词往往位于彼此接近的向量上。
在这里插入图片描述
这些向量序列
在这里插入图片描述

然后经过一个称为"注意力块"(attention blocks)的过程,允许向量相互"交谈",并根据彼此的信息更新自己的值。
在这里插入图片描述

例如,"model"这个词在"fashion model"中的含义与在其他上下文中不同。
在这里插入图片描述

注意力模块的目的是确定上下文中的哪些词与更新其他词的含义相关,以及这些含义应该如何精确地更新。
在这里插入图片描述

每当我说"含义"这个词时,都是指向量中的数字。
在这里插入图片描述

之后,这些向量经过另一个过程,根据数据的不同,可能被称为多层感知器(multilayer perceptron)或前馈层(feedforward layer)。
在这里插入图片描述

在这个阶段,向量不再相互"交流",而是并行地经历相同的过程。
在这里插入图片描述

虽然这一步有点难以理解,我们稍后会讨论,它有点像为每个向量提出一系列问题,然后根据这些问题的答案更新向量。
在这里插入图片描述
在这里插入图片描述

这两个处理阶段本质上都是大量的矩阵乘法,我们要学习的是如何解释其背后的矩阵。
在这里插入图片描述

在解释中,我省略了一些中间步骤的归一化细节,毕竟这只是一个宏观概述。
在这里插入图片描述

接下来,这个过程基本上会重复。
在这里插入图片描述

你需要不断在注意力模块和多层感知器(MLP)模块之间切换,直到结束,我们期望以某种方式,文章的核心含义已经完全整合到序列的最后一个向量中。
在这里插入图片描述

然后,这个最后的向量经过一个特定的操作,产生一个概率分布,涵盖了所有可能出现的下一个标记,代表任何可能出现的小文本片段。
在这里插入图片描述

就像我说的,一旦你有了一个根据一小段文本预测下一步的工具,你就可以给它一些初始文本,让它不断预测下一步,从概率分布中抽样,添加到现有文本中,
在这里插入图片描述

然后一遍又一遍地重复这个过程。
在这里插入图片描述

了解这一点的人可能会回想起,早在ChatGPT出现之前,GPT-3的早期演示就是这样,根据一段起始文本自动完成故事和文章。
在这里插入图片描述

将这样一个工具转变为聊天机器人的一个简单方法是准备一段文本,
在这里插入图片描述

设定一个用户与有用的AI助手互动的场景,称为系统提示(system prompt)。
在这里插入图片描述

然后,你可以用用户的初始问题或提示开始对话,
在这里插入图片描述

然后让AI开始预测有用的AI助手将如何回应。

为了让这个过程更好地工作,还有额外的训练步骤,但总的来说,这就是基本思路。

参考

https://youtu.be/wjZofJX0v4M?si=DujTHghH5dYM3KpZ

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/6712.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于AT89C51单片机的温度上下限自动控制检报警设计

点击链接获取Keil源码与Project Backups仿真图: https://download.csdn.net/download/qq_64505944/89247694?spm=1001.2014.3001.5501 C 源码+仿真图+毕业设计+实物制作步骤+06 题 目 基于单片机的温度检测调节系统设计 姓 名 学 号 专业班级 指导教师 年 月 日 任务书 …

在Mac OS系统下查看CPU型号以及核心数量

1. 基础信息 一般点开mac的关于本机,显示的是下面的信息: 2. 当前电脑的处理器型号 找到并打开终端输入下面命令: sysctl machdep.cpu.brand_string结果如下图: 3. 当前处理器物理核心数量 找到并打开终端输入下面命令&am…

有没有适合制造企业用的研发项目管理软件?制造业选型案例必看!“追觅”上线奥博思项目管理软件,加速项目交付

智能清洁家电赛道的领军者:追觅科技(苏州)有限公司(以下简称“追觅”)成功上线奥博思 PowerProject 数字化项目管理系统。通过 PowerProject 系统,追觅公司能够实现项目全流程的覆盖,从预研阶段…

【电源专题】拿人体的循环系统与板级电源做个比较

一般人可能会觉得电源大概是电子设备里面比较容易搞定的门类。因为,只要线路没有接错,指示灯(如果有)能亮,电源都能工作。从这个方面说,好像是很容易。但是通过多年的经验和经历的坑,发现电源其实是一个很麻烦的东西,稍微有一点不完美就会有大问题出现。 如果将人体也当…

ue引擎游戏开发笔记(30)——对角色移动进行优化:实现人物转向

1.需求分析: 当前我们只实现了通过控制器可使角色进行前后左右的移动,但角色移动时与动画不匹配,并不会进行转向,实现角色随移动转向。 2.操作实现: 1思路:利用反转换函数inverse transform direction获取…

【busybox记录】【shell指令】md5sum

目录 内容来源: 【GUN】【md5sum】指令介绍 【busybox】【md5sum】指令介绍 【linux】【md5sum】指令介绍 使用示例: 128位MD5 - 默认输出 128位MD5 - 将每个文件当做二进制处理 128位MD5 - 从文件中读取MD5值并做检查 128位MD5 - 创建一个BSD风…

李廉洋:5.5-5.6现货黄金,WTI原油必看分析及策略。

美联储2024年5月议息会议将联邦基金利率的目标区间维持在5.25%-5.5%。本次会议声明发生较大变化,宣布6月开始放缓缩表。鲍威尔讲话总体中性偏鸽,指出美联储的下一步行动不太可能是加息。中信证券认为在美国失业率升至4%以上之前,美联储政策重…

【iOS】KVC

文章目录 前言一、KVC常用方法二、key与keypath区别key用法keypath用法 三、批量存值操作四、字典与模型相互转化五、KVC底层原理KVC设值底层原理KVC取值底层原理 前言 KVC的全称是Key-Value Coding,翻译成中文叫做键值编码 KVC提供了一种间接访问属性方法或成员变…

JavaScript中的DOM和BOM

个人主页:学习前端的小z 个人专栏:JavaScript 精粹 本专栏旨在分享记录每日学习的前端知识和学习笔记的归纳总结,欢迎大家在评论区交流讨论! 文章目录 💯Web API🍀1 API的概念🍀2 Web API的概念…

【C++ | 关键字】C++ 关键字介绍

😁博客主页😁:🚀https://blog.csdn.net/wkd_007🚀 🤑博客内容🤑:🍭嵌入式开发、Linux、C语言、C、数据结构、音视频🍭 ⏰发布时间⏰:2024-05-04 0…

手摸手,带你用vue撸后台

前言 说好的教程终于来了,第一篇文章主要来说一说在开始写实际业务代码之前的一些准备工作吧,但这里不会教你 webpack 的基础配置,热更新原理是什么,webpack速度优化等等,有需求的请自行 google,相关文章已…

【C++】详解STL的容器之一:list

目录 简介 初识list 模型 list容器的优缺点 list的迭代器 常用接口介绍 获取迭代器 begin end empty size front back insert push_front pop_front push_back pop_back clear 源代码思路 节点设计 迭代器的设计 list的设计 begin() end() 空构造 ins…

使用360绿色清理工具释放磁盘空间

缘起: 配置差的电脑,在尝试安装360安全卫士时,它变得非常卡顿,无法正常使用。我安装360的初衷其实是想定期清理C盘的空间,以优化电脑的性能。 经过一番探索,发现了一个方法,可以单独提取出360…

Docker镜像的创建和Dockerfile

一. Docker 镜像的创建: 1.基于现有镜像创建: (1)首先启动一个镜像,在容器里做修改docker run -it --name web3 centos:7 /bin/bash #启动容器​yum install -y epel-release #安装epel源yum install -y nginx #安…

物联网小demo

机智云生成代码 具体参考之前的文章 初始化 ADC用来使用光敏电阻 连续采样开启 采样的周期调高 定时器 定时器1用来实现延时 为了只用温湿度模块DHT11 定时器4用来和51进行交互 实现定时的发送和检测心跳信号 IIC 用来使用oled屏幕 USART 串口1和串口2是机智云自己…

ROS是什么

一、ROS通信机制--松耦合分布式通信 1、核心概念 ①节点(node)---软件模块 ②节点管理器(ROS master)---控制中心,提供参数管理 ③话题(topic)---异步通信机制,传输消息&#xf…

【设计模式】13、template 模板模式

文章目录 十三、template 模板模式13.1 ppl13.1.1 目录层级13.1.2 ppl_test.go13.1.3 ppl.go13.1.4 llm_ppl.go13.1.5 ocr_ppl.go 十三、template 模板模式 https://refactoringguru.cn/design-patterns/template-method 如果是一套标准流程, 但有多种实现, 可以用 template …

Py脚本_文件分类

最近发现通过Edge和chrome或者其他浏览器下载的文件都存放在一个地方就很繁琐,于是翻找以前的脚本来归纳这些文件,虽然有IDM下载独有会自动分类,但是相信很多同学都在一个文件里找文件,这次就写个Py脚本来实现这个功能。 # -*- c…

k8s集群安装

目录 部署步骤概览 1、基础环境部署 2、docker环境部署 3、配置k8s集群 4、集群初始化 5、安装dashboard软件 写在前面:本文安装单点master多node的k8s集群,主要用于k8s学习或k8s环境测试;部署的是1.23版本,在1.24版本起&am…

stm32单片机开发四、USART“串口通信“

串口的空闲状态时高电平,起始位是低电平,来打破空闲状态的高电平 必须要有停止位,停止位一般为一位高电平 串口常说的数据为8N1,其实就是8个数据位(固定的),N就是none,也就是0个校验…