翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习二

合集 ChatGPT 通过图形化的方式来理解 Transformer 架构

  1. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习一
  2. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习二
  3. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习三
  4. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习四
  5. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习五
  6. 翻译: 什么是ChatGPT 通过图形化的方式来理解 Transformer 架构 深度学习六
    在这里插入图片描述

在本章中,我们将深入探讨
在这里插入图片描述

网络的开始和
在这里插入图片描述

结束阶段发生的情况,
在这里插入图片描述

我将花大量时间回顾一些重要的背景知识,这些知识是熟悉Transformer的机器学习工程师的基础知识。
在这里插入图片描述

如果你已经熟悉背景知识,迫不及待地想了解更多,你可以跳到下一节,重点将放在Transformer的核心部分——注意力模块上。
在这里插入图片描述

之后,我将更详细地介绍多层感知器模块、训练过程以及之前省略的一些其他细节。

对于背景信息,这些视频是对我们深度学习课程系列的补充,你不一定要按顺序观看,
在这里插入图片描述

但在深入研究Transformer之前,我认为确保我们对深度学习的基本概念和架构有共同的理解很重要。
在这里插入图片描述

这里要明确的是,
在这里插入图片描述

机器学习是一种使用数据来指导模型行为模式的方法。
在这里插入图片描述

具体来说,你可能需要一个函数,它接受一个图像,输出一个词描述,
在这里插入图片描述

或者为给定的文本预测下一个词,
在这里插入图片描述

或者其他需要直觉和模式识别的任务,
在这里插入图片描述

虽然我们现在已经习惯了,但机器学习的核心思想是,我们不再试图编写固定的程序来完成这些任务,这是人们在人工智能最早期会做的事情。
在这里插入图片描述

相反,构建一个具有可调参数的灵活结构,就像一系列旋钮和调节器,
在这里插入图片描述

然后通过学习大量实例输入和期望输出来调整和微调参数值,从而模拟这种直觉行为。
在这里插入图片描述

例如,可能最直观的入门机器学习模型是线性回归,你将输入和输出视为单个数字,如房屋面积和价格,你要做的就是找到最适合这些数字的直线。这用于预测未来的房价。
在这里插入图片描述

这条线由两个连续的参数组成,即斜率和y截距。

线性回归的目标是确定这些参数以尽可能接近地匹配数据。

不用说,深度学习模型会更加复杂。
在这里插入图片描述

例如,GPT-3有1750亿个参数,而不仅仅是两个。
在这里插入图片描述

然而,重要的是要注意,你不能简单地构建一个具有许多参数的大型模型就能有效工作,这样做可能会导致模型严重过拟合训练数据,或者极难训练。
在这里插入图片描述

深度学习包括一系列在过去几十年中已被证明在扩展能力方面表现出色的模型类别。
在这里插入图片描述

它们成功的关键在于,它们都使用相同的训练算法:反向传播,我们在前面的章节中已经介绍过。
在这里插入图片描述

你需要理解的是,为了让这个训练算法在大规模应用中很好地工作,模型必须遵循特定的结构。

如果你了解这个结构的一些知识,你将更好地理解Transformer如何处理语言以及其背后的逻辑,否则某些设计选择可能看起来有点随意。
在这里插入图片描述

首先,无论你要构建什么样的模型,输入必须是一个实数数组。
在这里插入图片描述

这可能只是一个数字列表,或者是一个二维数组,或者更常见的是一个更高维的数组,这个通用术语叫做张量(tensor)。
在这里插入图片描述

这些输入通常通过多个不同的层逐步转换,每一层形成一个实数数组,直到最后一层,你可以将其视为输出层。
在这里插入图片描述

例如,我们文本处理模型的最终输出层是一个数字列表,表示所有可能的下一个词的概率分布。
在这里插入图片描述

在深度学习领域,这些模型的参数通常被称为权重(weight)。
在这里插入图片描述

这样称呼的原因是,这些模型的核心特征之一是,这些参数与正在处理的数据交互的唯一方式是通过加权求和。

虽然模型中穿插了一些非线性函数,但它们并不依赖于这些参数。
在这里插入图片描述

总的来说,我们不会直接以裸露的形式看到这些权重,而是看到它们被封装为矩阵向量乘积的不同部分。

在这里插入图片描述
如果你回想一下矩阵向量乘法的工作原理,输出的每个部分都像是权重的总和。
在这里插入图片描述

一种更直观的方式是将这些可调参数填充的矩阵,
在这里插入图片描述

视为对正在处理的数据进行向量变换的工具。

参考

https://youtu.be/wjZofJX0v4M?si=DujTHghH5dYM3KpZ

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/5614.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++人工智能01C版本

这次新增了个游戏功能 看代码 #include"bits/stdc.h" #include"Windows.h" #define KEY_DOWN(VK_NONAME) ((GetAsyncKeyState(VK_NONAME) & 0x8000) ? 1:0) using namespace std; bool memory[11]{false}; char z[1048576]{}; void calculator(char…

在 Python 开发中建议使用虚拟环境的原因

在 Python 开发中使用虚拟环境可以解决依赖冲突问题、方便管理和记录项目依赖库版本、提高代码的可移植性和可重现性、隔离不同项目的 Python 环境、方便切换不同项目的开发环境,无论是个人项目还是团队项目,使用虚拟环境已经成为 Python 开发的最佳实践…

Julia和Python蛛网图轨道图庞加莱截面曲面确定性非线性系统

🎯要点 🎯确定性混沌系统计算和视图:🖊庞加莱截面曲面,赫农-海尔斯系统和洛伦兹 63 系统。🎯零斜线演示可激发系统计算和视图:🖊 庞加莱-本迪克松定理求解二维连续系统常微分方程 |…

STM32中断之TIM定时器详解

系列文章目录 STM32单片机系列专栏 C语言术语和结构总结专栏 文章目录 1. TIM简述 2. 定时器类型 2.1 基本定时器 2.2 通用定时器 2.3 高级定时器 3. 定时中断 4. 代码示例1 5. 代码示例2 1. TIM简述 定时器的基本功能:定时器可以在预定的时间间隔内产生周…

谷歌研发“SEEDS”新型天气预报模型:更准确地报道极端事件

谷歌科技近日公布了一项震撼业界的天气预报研究成果,这一成果不仅标志着天气预测技术的重大突破,更是人工智能技术在传统领域应用的又一里程碑。他们成功研发了名为SEEDS(Scalable Ensemble Envelope Diffusion Sampler)的新型预报…

【AIGC】深入探索AIGC技术在文本生成与音频生成领域的应用

🚀文章标题 🚀AIGC之文本生成🚀应用型文本生成🚀创作型文本生成🚀文本辅助生成🚀重点关注场景 🚀音频及文字—音频生成🚀TTS(Text-to-speech)场景🚀乐曲/歌曲生成&#x…

访问jwt生成token404解决方法

背景: 1.在部署新的阿里云环境后发现调用jwt生成token的方法404,前端除了404,台不报任何错误 在本地好用,在老的阿里云环境好用, 2.缩短生成私钥的参数报错,以为私钥太长改了tomcat参数也无效&#xff0…

手撕C语言题典——合并两个有序数组(顺序表)

搭配食用更佳哦~~ 数据结构之顺顺顺——顺序表-CSDN博客 数据结构之顺序表的基本操作-CSDN博客 继续来做一下关于顺序表的经典算法题叭~ 前言 88. 合并两个有序数组 - 力扣(LeetCode) 合并数组也是力扣上关于顺序表的一道简单题,继续来加深…

YARN详解

YARN 简介 YARN 是Yet Another Resource Negotiator的缩写。 YARN是第二代MapReduce,即MRv2,是在第一代MapReduce基础上演变而来的,主要是为了解决原始Hadoop扩展性较差,不支持多计算框架而提出的;通俗讲就是资源管理器. YARN核心思想: 将 MR1 中资源管理和作业调度两个功能分…

【Docker学习】docker run的--annotation选项

--annotation选项 作用:这是在Docker的api1.43+提供的一个功能,向容器添加一个注解(传递给OCI运行时)。 官方网站的文档对--annotation选项惜墨如金,没有用例,也没有过多解释。因此想要学到这个选项的实际作用,还要自己来。 要想了解这个选项的用法,还要先了解OCI运行时…

安卓手机跑大模型

工具 一、F-Droid F-Droid是一个安卓平台上自由开源软件的目录,并提供下载安装支持。类似于Google Play 二、Termux F-Droid上有termux,并支持下载。但是由于termux的开发者并不负责维护F-Droid,因此往往F-Droid上的termux更新需要延迟几…

实验五 SJK触发器

实验五 SJK触发器 2023.4.19 实验地点 软件工程基础实验室 实验课时 2 ​通过实验加深对数据完整性的理解,学会理解、创建和使用触发器。 ​使用SQL语句熟悉触发器的创建和查看方法,熟悉触发器的修改和删除方法。 (1) 仍然使用自定义完整性…

自定义Application,获取全局的Context

在Android中,如果你想要获取全局的Context,并且希望在整个应用程序的生命周期内都可以访问它,你可以通过创建一个自定义的Application类来实现。这个类会继承自android.app.Application,并且你可以在其中存储一些全局数据或者实现…

数据结构:实验六:图的操作

一、 实验目的 (1)掌握图的邻接矩阵和邻接表存储结构。 (2)熟练图的邻接表的基本运算。 (3)加深图的深度优先遍历算法和广度优先遍历算法的理解 二、 实验要求 有下图所示的带权有向图及其对应的邻…

【工程记录】Python爬虫入门记录(Requests BeautifulSoup)

目录 写在前面1. 环境配置2. 获取网页数据3. 解析网页数据4. 提取所需数据4.1 简单提取4.2 多级索引提取 5. 常见问题 写在前面 仅作个人学习与记录用。主要整理使用Requests和BeautifulSoup库的简单爬虫方法。在进行数据爬取时,请确保遵守相关法律法规和网站的服务…

Ubuntu安装Neo4j

Ubuntu(在线版) 更新软件源 sudo apt-get update 添加Neo4j官方存储库 wget -O - https://debian.neo4j.com/neotechnology.gpg.key | sudo apt-key add - 将地址添加到系统的软件包源列表中 echo deb https://debian.neo4j.com stable latest | su…

在Spring中注入动态代理Bean

在Springboot中我们可以通过内置的注解如Service,Component,Repository来注册bean,也可以在配置类中通过Bean来注册bean。这些都是Spring内置的注解。 除此之外,还可以用WebFilter,WebServlet,WebListener…

二分图--判定以及最大匹配

水了个圈钱杯省一,不过估计国赛也拿不了奖,但还是小小挣扎一下。 什么是二分图:G(V,E)是一个无向图,若顶点V可以分为两个互不相交的子集A,B,并图中的每一条边(i,j)所关联的ij属于不同的顶点集,…

QT登录界面,(页面的切换)

以登陆界面为例,(QDialog) 1.主界面先构造login 的对话框类 int main(int argc, char *argv[]) {QApplication a(argc, argv);//先显示Login的界面Study_Login_Dialog login;............ }2.Login的类,可以用自定义的信号&#…

Java image-processing 包依赖错误

错误的信息为: [ERROR] Failed to execute goal on project image-processing: Could not resolve dependencies for project com.ossez:image-processing:jar:0.0.2-SNAPSHOT: Failed to collect dependencies at org.openimaj:core-image:jar:1.3.10 -> org.op…