论文阅读 Attention is all u need - transformer

文章目录

  • 1 摘要
    • 1.1 核心
  • 2 模型架构
    • 2.1 概览
    • 2.2 理解encoder-decoder架构
      • 2.2.1 对比seq2seq,RNN
      • 2.2.2 我的理解
  • 3. Sublayer
    • 3.1 多头注意力 multi-head self-attention
      • 3.1.1 缩放点乘注意力 Scaled Dot-Product Attention
      • 3.1.2 QKV
      • 3.1.3 multi-head
      • 3.1.4 masked
    • 3.2 线性层 MLP
    • 3.3 embedding and softmax
    • 3.4 positional encoding
    • 3.5 dropout
  • 总结
    • [李沐b站 对该论文理解的一些题目和答案](https://zhuanlan.zhihu.com/p/496012402?utm_medium=social&utm_oi=629375409599549440)
    • 归一化,标准化,正则化

1 摘要

1.1 核心

提出一个仅需要self attention + linear组合成encoder+decoder的模型架构

2 模型架构

2.1 概览

在这里插入图片描述
在这里插入图片描述

2.2 理解encoder-decoder架构

2.2.1 对比seq2seq,RNN

Self Attention

  1. 输入token转为特征输入
  2. shape [n(序列长度), D(特征维度)] 输入
  3. 进入attention模块
  4. 输出 shape [n(序列长度), D1(特征维度)] 此时每个D1被N个D做了基于attention weight的加权求和
  5. 进入MLP
  6. 输出 shape [n(序列长度), D2(输出维度)] 此时每个D2被D2和MLP weight矩阵相乘
  7. 每个D2转换为输出token

RNN

  1. 34步去除,并将每次MLP的输入修改为前一个Kt-1组合Kt输入

在这里插入图片描述

2.2.2 我的理解

把卷积核的滑动窗口修改成了不用滑动的全局大小窗口,但同时能高效的进行(1次矩阵乘法)特征提取。
CNN可以多通道拓展(增加)特征表征方式(修改卷积核个数),自注意力需要增加多头机制。

3. Sublayer

3.1 多头注意力 multi-head self-attention

3.1.1 缩放点乘注意力 Scaled Dot-Product Attention

得到query和字典KV里的softmax相似度矩阵
在这里插入图片描述

3.1.2 QKV

Q: 描述特征
K: 特征编号
V: 特征值
Attention(Q,K): 表示Query和Key的匹配程度(系统中商品(Key)很多,其中符合我的描述(Query)的商品的匹配程度会高一点)
键是唯一标识 值是该positional input的隐式特征 query是一个新的positional input 找到和query比较相似的值 解放局部特征提取 实现全局特征提取 输出最后的query的最后一层特征向量 加上需要的head 构建模型
理解自注意力和QKV

3.1.3 multi-head

原因
1.attention可学习参数太少,增加线性层学习参数
2.类比CNN扩展通道数
使得输出的相似度矩阵是考虑了多种特征形式的。
在这里插入图片描述

3.1.4 masked

在这里插入图片描述

3.2 线性层 MLP

3.3 embedding and softmax

Label Smoothing

0 - 1 标签,softmax很难趋近为1。很soft,输出值很大,才会激活为1。

正确的词,softmax的输出为 0.1 即可,剩下的值是 0.9 / 字典大小

损失 perplexity,模型的困惑度(不确信度)、log(loss)做指数。因为正确的标签只需要给到 10 %。

模型不那么精确,可以提高 accuracy and BLEU score

3.4 positional encoding

输入的token在经过特征编码后,会和位置编码相加,我的理解是位置编码就是一种特征,是一种和特征编码等价的东西,所以直接做加法。
具体的加上了cos/sin函数,将值缩到0-1(?)之间,和特征编码的最大最小值相同,然后相加。
这个是对2D的位置编码,其中考虑的行列分别进行编码为2/d组合成d。
在这里插入图片描述

3.5 dropout

线性层用了大量dropout(0.1-0.3)

总结

从语言模型来说,通过全局注意力机制,优化掉RNN的短记忆缺点。
从模型架构来说,通过全局注意力机制,得到一个每个权重都考虑到所有输入特征的模型架构/特征提取机制/backbone。

李沐b站 对该论文理解的一些题目和答案

归一化,标准化,正则化

归一化(Normalization):
使用方法: 归一化通常指对输入数据进行缩放,使其值在特定的范围内,例如将输入归一到0,1范围或−1,1范围。
意义: 归一化有助于提高模型训练的稳定性,避免梯度爆炸或梯度消失问题。常见的归一化方式包括最小-最大归一化和Z分数归一化。

标准化(Standardization):
使用方法: 标准化是指对输入数据进行平移和缩放,使其均值为0,标准差为1。
意义: 标准化有助于使输入数据更易于训练,使得模型更容易收敛。在某些情况下,标准化也有助于降低不同特征的权重对模型训练的影响。

正则化(Regularization):
使用方法: 正则化是通过在模型的损失函数中引入附加项来减小模型的复杂度。L1正则化和L2正则化是两种常见的正则化方法。
意义: 正则化有助于防止过拟合,通过对模型参数的大小进行惩罚,避免模型过度依赖训练数据中的噪声或特定模式。L1正则化倾向于产生稀疏权重,而L2正则化倾向于产生较小且平滑的权重。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/609291.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

图像中部分RGB矩阵可视化

图像中部分RGB可视化 今天室友有个需求就是模仿下面这张图画个示意图: 大致就是把图像中的一小部分区域的RGB值可视化了一下。他居然不知道该怎么画,我寻思这不直接秒了。 import cv2 as cv import numpy as np import matplotlib.pyplot as pltclass …

书生·浦语大模型全链路开源体系 学习笔记 第三课

huggingface-cli: command not found 按照该文档解决即可 https://github.com/huggingface/huggingface_hub/issues/1079 具体如下: 1、确保环境已将安装huggingface-cli 2、版本需要旧版,pip install huggingface_hub0.20.1 3、再按如下执行 # T…

【Helm 及 Chart 快速入门】02、Helm 基本使用

目录 一、Helm 基本使⽤ 1.1 搜索 chart 应⽤ 1.2 部署 chart 应⽤ 1.3 删除 chart 应⽤ 1.4 定制参数部署应⽤ 1.5 chart 应⽤升级 1.6 chart 应⽤回滚 一、Helm 基本使⽤ 1.1 搜索 chart 应⽤ 使⽤ helm search repo 关键字可以查看相关 charts: […

基于SSM的在线电影票购买系统(有报告)。Javaee项目。ssm项目。

演示视频: 基于SSM的在线电影票购买系统(有报告)。Javaee项目。ssm项目。 项目介绍: 采用M(model)V(view)C(controller)三层体系结构,通过Spring…

mysql基础-常用函数汇总

目录 1. 查询技巧 2. 时间函数 2.1 now() 2.2 current_date() 2.3 时间差timestampdiff()与datediff() 2.4 其他时间函数 3. 字符函数 3.1 截取函数 3.2 分割函数 3.3 left与right函数 3.4 其他函数 4. 数字函数 5. …

Java web设计:在线微友圈网站

项目背景 微友圈是一个基于Java Web开发的社交网络平台,旨在为用户提供一个轻松互动、分享生活和交流观点的在线社区。随着社交网络的普及,人们更加渴望与朋友、家人以及其他志同道合的人保持联系并分享彼此的生活点滴。微友圈的目标是打造一个简洁、高…

string的模拟实现

string的模拟实现 msvc和g下的string内存比较成员变量构造函数与析构函数拷贝构造函数赋值拷贝c_str、size和capacity函数以及重载[]、clear、expand_capacity迭代器与遍历reservepush_back、append、insert字符串比较运算符erase<<流提取 >>流插入resizefindsubst…

RabbitMQ发布确认

1.单个确认 单个确认发布是一种同步确认发布方式&#xff0c;也就是发布一个消息后只有它被确认发布&#xff0c;后续的消息才能继续发布。 缺点:发布速度特别慢,因为若是没有确认发布的消息会阻塞所有后续消息的发布 package com.hong.rabbitmq5;import com.hong.utils.Rabb…

mac怎么拼图?Mac拼图技巧分享

mac怎么拼图&#xff1f;在Mac上拼图是一种令人愉悦的创意表达方式&#xff0c;可以让你将多张图片巧妙地融合在一起&#xff0c;创造出令人惊叹的艺术品。本文将向你介绍在Mac上进行拼图的几种方法&#xff0c;帮助你轻松实现这一目标。 一、使用Mac内置的预览功能进行拼图 M…

freeRTOS总结(三)任务挂起和恢复

1&#xff0c;任务的挂起与恢复的API函数&#xff08;熟悉&#xff09; 任务挂起和恢复的区别 挂起还能被恢复&#xff0c;删除任务后无法恢复。 带FromISR后缀是在中断函数中专用的API函数 1.1任务挂起函数介绍 void vTaskSuspend(TaskHandle_t xTaskToSuspend) xTaskToSusp…

在黑马程序员大学的2023年终总结

起笔 时间真快&#xff0c;转眼又是年末。是时候给2023做个年终总结了&#xff0c;为这一年的学习、生活以及成长画上一个圆满的句号。 这一年相比去年经历了很多事情&#xff0c;接下来我会一一说起 全文大概4000字&#xff0c;可能会占用你15分钟左右的时间 经历 先来给大…

Excel中快速隐藏中间四位手机号或者身份证号等

注意&#xff1a;以下方式必须再新增一列&#xff0c;配合旧的一列用来对比操作&#xff0c;即根据旧的一列的数据源&#xff0c;通过新的一列的操作逻辑来生成新的隐藏数据 1、快捷方式是使用CtrlE 新建一列&#xff1a;手动输入第一个手机号隐藏后的号码&#xff0c;即在N2单…

k8s的集群调度:

k8s的集群调度&#xff1a; Scheduler:负责调度资源&#xff0c;把pod调度到node节点 预算策略 优先策略 list-watch k8s集群当中&#xff0c;通过list-watch的机制进行每个组件的协作&#xff0c;保持数据同步&#xff0c;每个组件之间的解耦 Kubectl配置文件&#xff0c…

关于burpsuite对app(移动端)进行抓包的配置

可以使用手机模拟器&#xff0c;我这里以自己手机&#xff08;物理机&#xff09;演示配置过程 如果是使用的模拟器那么肯定和电脑是在同一局域网 如果使用物理机&#xff0c;那么可以通过连接同一WiFi确保在同一局域网环境下 查看电脑内网ip&#xff1a;192.168.1.105 &am…

人工智能会造成人类失业吗?

科技革命的目的是为了提高人们生活水平和质量&#xff0c;而人工智能却取代了越来越多的职业&#xff0c;造成了人们的失业&#xff0c;这和科技革命的宗旨不是相矛盾了吗&#xff1f;&#xff01;&#xff01; 人工智能通过融合“数据、算力和算法”的力量&#xff0c;对人类…

1879_什么是丝印

Grey 全部学习内容汇总&#xff1a; GitHub - GreyZhang/g_hardware_basic: You should learn some hardware design knowledge in case hardware engineer would ask you to prove your software is right when their hardware design is wrong! 1873_什么是丝印 丝印这个词…

基于springboot在线考试系统源码和论文

网络的广泛应用给生活带来了十分的便利。所以把在线考试管理与现在网络相结合&#xff0c;利用java技术建设在线考试系统&#xff0c;实现在线考试的信息化。则对于进一步提高在线考试管理发展&#xff0c;丰富在线考试管理经验能起到不少的促进作用。 在线考试系统能够通过互…

ChatGPT:让产品经理工作更高效的AI助手

近年来&#xff0c;人工智能技术在各个领域得到了广泛应用&#xff0c;其中包括产品经理日常工作中的自然语言处理&#xff08;NLP&#xff09;。而ChatGPT是一款最新的NLP模型&#xff0c;它已经成为产品经理在日常工作中的得力助手。本文将详细介绍ChatGPT在产品经理日常工作…

归并排序-排序算法

前言 如果一个数组的左右区间都有序&#xff0c;我们可以使用一种方法&#xff08;归并&#xff09;&#xff0c;使这个数组变得有序。 如下图&#xff1a; 过程也很简单&#xff0c;分别取左右区间中的最小元素&#xff0c;再把其中较小的元素放到临时数组中&#xff0c;例如…

Python书籍推荐,建议收藏

学习Python的书籍可太多了&#xff0c;从入门到放弃&#xff0c;应有尽有啊 入门书籍 根据豆瓣评分的高低&#xff0c;这里介绍了一些经典入门书籍&#xff0c;大家根据自身情况选择尝试 《Python编程&#xff1a;从入门到实践&#xff08;第二版&#xff09;》 非常经典且非…