【遇见Transformer】Transformer代码、原理全方位解析,相信我,看这一篇就够了!

目录

前言

预备知识

本章代码环境

关注我,不迷路 !

Transformer模型的结构​编辑

Transformer模型的基本原理

注意力机制

自注意力机制 

 两者的区别

多头注意力机制

Transformer模型的训练

Transformer模型的应用

论文地址


前言

预备知识

在开始本章节之前可能需要学习以下知识:
什么是自然语言处理(NLP)

什么是循环神经网络(RNN、LSTM【长短期记忆循环】、GRU【门控循环】)

什么是大模型(具有较大规模和复杂性的模型)

了解OpenAI、谷歌、等相关公司、企业

本章代码环境

操作系统:不限

python:3.8

框架:pytorch(torch==1.10.2)

是否需要GPU:无要求

关注我,不迷路 !

QQ:1757093754 

公众号:(搜“我叫人工智能”)


Transformer模型的结构

  1. 位置编码(Positional Encoding)

    • Transformer没有明确的序列结构概念,因此需要通过添加位置编码来为模型提供输入序列中单词的相对位置信息。位置编码是可学习的或预定义的。
    • Transformer中的位置编码的表示:(pos表示位置,i表示向量维度的索引)

  2. 多头自注意力机制(Multi-Head Attention)

    • 这是Transformer的核心机制之一。通过多个注意力头,模型能够在不同子空间中学习不同的关系。自注意力机制使模型能够对输入序列的不同位置分配不同的注意力权重。
    • 多头自注意力机制机制的步骤:
      • 输入变换(Input Transformation):对输入序列进行线性变换,分别产生多组投影矩阵,用于后续每个注意力头的计算。这个投影过程涉及三个权重矩阵:Query(查询): 将输入序列通过一个可学习的线性变换,得到Query矩阵。Key(键): 将输入序列通过另一个可学习的线性变换,得到Key矩阵。Value(值): 将输入序列通过第三个可学习的线性变换,得到Value矩阵。
      • 多头并行计算(Parallel Computation)对于每个注意力头,计算注意力权重。这是通过将Query和Key进行点积运算,然后应用缩放操作(为了稳定训练,一般会除以特征维度的平方根),最后使用Softmax函数得到的注意力分布来完成的。将每个头的注意力权重与对应的Value矩阵相乘,得到每个位置的加权和。这个过程实际上就是每个头对输入序列进行关注的结果。
      • 头的拼接(Concatenation of Heads):将多个注意力头的输出拼接在一起,形成一个更高维的输出向量。这样,模型能够同时捕捉多个不同方面的关系。

      • 输出变换(Output Transformation):将拼接后的结果通过一个可学习的线性变换(通常是矩阵乘法和加法),生成最终的多头自注意力机制的输出。

  3. 残差连接(ADD)(Residual Connection)

    • 在每个子层(如自注意力层和前馈神经网络层)之后都添加了残差连接,有助于缓解梯度消失问题,并使训练更加稳定。
    • 残差连接存在的原因(NEW!!!):
      • 梯度消失:在深度神经网络中,通过多个层传播的梯度可能会变得非常小,甚至趋近于零。这导致在训练较深的网络时,底层的权重更新几乎没有贡献,使得网络学习变得非常缓慢或停滞。残差连接通过提供跨层的捷径,允许梯度直接通过跳跃连接传播,从而减轻了梯度消失问题。
      • 梯度爆炸:另一方面,梯度也可能因为某些原因变得非常大,导致权重更新过大,网络不稳定。残差连接通过提供一个额外的路径,使得梯度能够绕过较深层,从而有助于缓解梯度爆炸问题。

  4. 层归一化(Norm)(Layer Normalization)

    • 在每个子层输出后应用层归一化,以规范化激活值,促进模型的稳定性。
    • LayerNorm:

  5. 前馈神经网络(Feedforward Neural Network)

    • 在每个编码器和解码器层中,都有一个前馈神经网络。它对每个位置的向量进行独立的变换,包括一个隐藏层和一个激活函数。
    • 这里的前馈神经网络通常使用的是基于全连接层的神经网络(Linear+Relu)
  6. 编码器(Encoder)和解码器(Decoder)

    • Transformer模型分为编码器和解码器两个部分。编码器用于处理输入序列,解码器用于生成输出序列。每个部分都包含多个相同的层。
    • 注意区分的是,编码器部分(Encoder)使用的是多头自注意力机制,而解码器部分(Decoder)使用的是多头掩码自注意力机制
  7. 注意力掩码(Attention Masking)

    • 在解码器的自注意力层中,为了防止信息泄漏,通常会使用注意力掩码来使模型只能关注到当前位置及其之前的位置。

Transformer模型的基本原理

注意力机制

1.QK相乘(通常情况下)得到S,求相似度

2.softmax归一化

3.SV相乘得到注意力

自注意力机制 

 两者的区别
  • 注意力机制:

    • Query 和 Key 来自不同的位置或序列。
    • 适用于一般的关系建模任务,可以处理输入序列和上下文之间的关系。
  • 自注意力机制:

    • Query、Key 和 Value 来自同一个序列。
    • 主要用于处理序列内部的关系,能够在序列内部不同位置之间建立关联。
多头注意力机制


Transformer模型的训练

显卡:8张 NVIDIA P100

训练时间:3.5天

数据集:WMT 2014 English-German dataset


Transformer模型的应用

  1. 机器翻译:

    • 利用 Transformer 模型的编码器-解码器结构,机器翻译系统能够在不同语言之间进行高质量的翻译。Transformer 在机器翻译任务上的性能远超传统方法。
  2. 语言建模和文本生成:

    • Transformer 模型在语言建模任务中表现出色,能够学习并生成高质量的文本。这种能力被广泛应用于自动摘要、文本生成、对话系统等领域。
  3. 问答系统:

    • Transformer 模型在问答任务中取得了显著的成功,包括阅读理解和开放域问答。模型能够从文本中提取信息并回答用户提出的问题。
  4. 图像处理:

    • Transformer 模型也被成功应用于计算机视觉任务,例如图像分类、目标检测、图像生成等。Vision Transformer(ViT)是一种将 Transformer 应用于图像处理的变种。
  5. 语音识别:

    • Transformer 模型在语音识别领域也有所应用,能够处理音频序列并提取关键信息。这对于自然语言处理和语音交互任务非常重要。
  6. 推荐系统:

    • Transformer 模型在推荐系统中被用于学习用户和物品之间的关系,从而提高推荐的准确性。它可以处理序列数据和用户行为序列。
  7. 化学和生物信息学:

    • Transformer 模型被用于分子生成、化合物性质预测等化学和生物信息学任务。它能够学习分子结构之间的复杂关系。

论文地址

[1706.03762] Attention Is All You Need (arxiv.org)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/622376.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Multi-View-Information-Bottleneck

encoder p θ ( z 1 ∣ v 1 ) _θ(z_1|v_1) θ​(z1​∣v1​),D S K L _{SKL} SKL​ represents the symmetrized KL divergence. I ˆ ξ ( z 1 ; z 2 ) \^I_ξ(z_1; z_2) Iˆξ​(z1​;z2​) refers to the sample-based parametric mutual information estimatio…

ES自动补全

安装IK分词器 要实现根据字母做补全,就必须对文档按照拼音分词。在GitHub上恰好有elasticsearch的拼音分词插件。地址:GitHub - medcl/elasticsearch-analysis-pinyin: This Pinyin Analysis plugin is used to do conversion between Chinese characte…

【Maven】009-Maven 简单父子工程搭建

【Maven】009-Maven 简单父子工程搭建 文章目录 【Maven】009-Maven 简单父子工程搭建一、需求说明1、结构2、第三方库 二、工程搭建1、父工程第一步:创建父工程第二步:引入公共依赖 lombok 和管理 hutool 依赖版本 2、公共子模块第一步:创建…

3.三极管和MOS管

3.三极管和MOS管 基础知识三极管是电流控制型器件MOS管是电压控制型器件 分类及引脚定义电流导通方向基础应用常用MOS管电平转换电路MOS管实现电平转换用MOS管实现的“I2C总线电平转换电路”,实现3.3V电压域与5V电压域间的双向通讯 基础知识 三极管是电流控制型器件…

Kotlin程序设计(二)面向对象

Kotlin程序设计中级篇 我们在前面已经学习了Kotlin程序设计的基础篇,本章我们将继续介绍更多Kotlin特性,以及面向对象编程。 函数 其实函数我们在一开始就在使用了: fun main() {println("Hello World") }我们程序的入口点就是…

NLP论文阅读记录 - 2021 | WOS 抽象文本摘要:使用词义消歧和语义内容泛化增强序列到序列模型

文章目录 前言0、论文摘要一、Introduction二.前提三.本文方法3.1 总结为两阶段学习3.1.1 基础系统 3.2 重构文本摘要 四 实验效果4.1数据集4.2 对比模型4.3实施细节4.4评估指标4.5 实验结果4.6 细粒度分析 五 总结思考 前言 Abstractive Text Summarization: Enhancing Sequen…

【JAVA】哪些集合类是线程安全的

🍎个人博客:个人主页 🏆个人专栏:JAVA ⛳️ 功不唐捐,玉汝于成 目录 前言 正文 Vector: HashTable: Collections.synchronizedList()、Collections.synchronizedSet()、Collections.syn…

【标准解读】物联网安全的系统回顾

1 引言 内容提要:物联网(IoT)包括嵌入传感器、软件和数据处理技术的物理对象网络,这些物理对象可以通过互联网与其他设备和系统建立连接并交换数据。物联网设备被融入到各种产品中,从普通的家庭用品到复杂的工业电器。…

基于Java SSM框架实现体育竞赛成绩管理系统项目【项目源码+论文说明】计算机毕业设计

基于java的SSM框架实现体育竞赛成绩管理系统演示 摘要 体育竞赛是各种体育体育项目比赛的总称。是在裁判员的主持下,按统一的规则要求,组织与实施的体育员个体或体育队之间的竞技较量,是竞技体育与社会发生关联,并作用于社会的媒…

解决AttributeError: module ‘cv2’ has no attribute ‘Stitcher_create’报错

这里其实就是opencv-python版本问题 图像拼接 stitch类的使用 OpenCV的函数为:cv2.createStitcher(OpenCV 3.x)和cv2.Stitcher_create(OpenCV 4)函数。 不同的opencv版本对应了不同的使用方法,否则会报错…

数据在AI任务中的决定性作用:以图像分类为例

人工智能的学习之路非常漫长,不少人因为学习路线不对或者学习内容不够专业而举步难行。不过别担心,我为大家整理了一份600多G的学习资源,基本上涵盖了人工智能学习的所有内容。点击下方链接,0元进群领取学习资源,让你的学习之路更加顺畅!记得…

LeetCode 589. N 叉树的前序遍历

589. N 叉树的前序遍历 给定一个 n 叉树的根节点 root ,返回 其节点值的 前序遍历 。 n 叉树 在输入中按层序遍历进行序列化表示,每组子节点由空值 null 分隔(请参见示例)。 示例 1: 输入:root [1,nul…

训练AI模型:寻找最优参数a和b

人工智能的学习之路非常漫长,不少人因为学习路线不对或者学习内容不够专业而举步难行。不过别担心,我为大家整理了一份600多G的学习资源,基本上涵盖了人工智能学习的所有内容。点击下方链接,0元进群领取学习资源,让你的学习之路更加顺畅!记得…

基于Java SSM框架实现企业车辆管理系统项目【项目源码】

基于java的SSM框架实现企业车辆管理系统演示 JSP技术 JSP技术本身是一种脚本语言,但它的功能是十分强大的,因为它可以使用所有的JAVA类。当它与JavaBeans 类进行结合时,它可以使显示逻辑和内容分开,这就极大的方便了运动员的需求…

centos下系统全局检测工具dstat使用

目录 一:没有需要安装 二:dstat命令参数 三、监测界面各参数含义(部分) 四、dstat的高级用法 一:没有需要安装 yum install dstat 二:dstat命令参数 有默认选项,执行dstat命令不加任何参数…

街机模拟游戏逆向工程(HACKROM)教程:[0]工具

街机hack,从早期的街霸-降龙版 到后期对各种街机的各种改动版本 这些成果,就是对街机游戏的代码进行逆向分析的结果。对于大部份街机游戏,是基于摩托罗拉68000的CPU,使用的是一套特别的汇编指令集。 一、MAME下载 我们想要对游戏…

宝塔面板安装MySQL8数据库

第一步:搜索mysql 第二步: 点击安装 我这里选择安装8版本 第三步:给宝塔配置mysql防火墙 第四步:修改数据库密码 第五步:想要使用navicat连接 需要修改root的权限 (1)使用secureCRT先登录mysql (2) 输入u…

【用法总结】无障碍AccessibilityService

一、背景 本文仅用于做学习总结,转换成自己的理解,方便需要时快速查阅,深入研究可以去官网了解更多:官网链接点这里 之前对接AI语音功能时,发现有些按钮(或文本)在我没有主动注册唤醒词场景…

Minio安装及整合SpringBoot

一. MinIO概述 官网地址:https://minio.org.cn MinIO是一款基于Apache License v2.0开源协议的分布式文件系统(或者叫对象存储服务),可以做为云存储的解决方案用来保存海量的图片、视频、文档等。由于采用Golang实现,服…

细说JavaScript语句详解

一、顺序结构 二、表达式语句 三、声明语句 四、条件语句 1、if语句 2、if…else语句 3、else if语句 4、switch语句 五、循环语句 1、while循环 2、do… while循环 3、for循环 4、for…in循环 六、跳出语句 1、label语句 2、break语句 3、continue语句