【快速入门】Transformer: Attention Is All You Need

  • Transformer → \to 【知名应用】BERT (unsupervised trained Transformer)
    在这里插入图片描述
    • Transformer :seq2Seq model with self-attention, 后续会主要说明 self-attention
    • Transformer的组成:
      Self-attention是 Attention变体,擅长捕获数据/特征的内部相关性
      Self-attention 组成 Multi-head Self-attention
      Multi-head Self-attention 反复利用组成Transforme

  • 【Seq】Sequence:考虑分别用 RNN 和 CNN 处理

    .....
    • 【左图】RNN: hard to parallel (需要序列输入进去处理)
    • 【右图】CNN: replace RNN (单层覆盖范围有限,需要叠多层来扩展覆盖范围)
  • 【replace CNN】Self-attention Layer: 类似双向RNN的作用,但是可并行化

    • 【STEP-1】计算 qkv: q:query, k:key, v:value
      .....
    • 【STEP-2】每一个 q 对每一个 k 做 attention: 如 scaled dot-product attention
      α i , j = q i ⋅ k j / d , d is the dim of q and k \alpha_{i,j}=q^i \cdot k^j / \sqrt{d}, \text{d is the dim of q and k} αi,j=qikj/d ,d is the dim of q and k
    • 【STEP-3】经过 softmax layer:
      α ^ i , j = exp ⁡ α i , j ∑ k exp ⁡ α i , k \hat{\alpha}_{i, j}=\exp{\alpha_{i, j}}\sum_k \exp{\alpha_{i,k}} α^i,j=expαi,jkexpαi,k
    • 【STEP-4】计算输出 b:
      b i = ∑ j α ^ i , j v j b^i = \sum_j \hat{\alpha}_{i,j}v^j bi=jα^i,jvj

  • 矩阵计算版本总结
    在这里插入图片描述

  • 拓展:

    • multi-head Self-attention: 多组 qkv 来关注不同信息
    • positional encoding: α i \alpha^i αi += e i e^i ei, 可以引入位置信息 e i e^i ei

参考资料:

  • 李宏毅深度学习 B站 视频资料

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/860799.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【容器化】docker和docker-compose/dockerfile和docker-compose.yml

文章目录 docker和docker-composeDockerDocker Compose总结 dockerfile和docker-compose.ymlDockerfiledocker-compose.yml示例Dockerfile 示例docker-compose.yml 示例 docker和docker-compose Docker和Docker Compose是两个重要的工具,用于容器化应用程序的开发、…

完整代码Python爬取豆瓣电影详情数据

完整代码Python爬取豆瓣电影详情数据 引言 在数据科学和网络爬虫的世界里,豆瓣电影是一个丰富的数据源。在本文中,我们将探讨如何使用Python语言,结合requests和pyquery库来爬取豆瓣电影的详情页面数据。我们将通过一个具体的电影详情页面作…

JavaScript关于bind解析

在 JavaScript 中,bind() 方法用于创建一个新的函数,该函数的 this 值被绑定到调用 bind() 方法的对象。bind() 方法的主要目的是修改函数的 this 指向。 bind() 方法可以接受一个或多个参数,第一个参数是要绑定的 this 值,后续的…

oracle11.2.0.4 RAC 保姆级静默安装(一) GI集群软件

一、响应文件准备 我们直接使用软件解压后的response文件夹中的响应文件模板进行修改 选择当前服务器的主机名,产品目录是在已存在的/u01/app目录基础上自动创建的无需提前创建oraInventory 按需选择语言,具体语言配置参考表格 一般rac默认选择安装类型为CRS_CONFIG 对应正…

借助 NGINX Unit 在服务器端使用 WebAssembly

原文作者:Liam Crilly of F5 原文链接:借助 NGINX Unit 在服务器端使用 WebAssembly 转载来源:NGINX 中文官网 NGINX 唯一中文官方社区 ,尽在 nginx.org.cn WebAssembly(缩写为 Wasm)可为 Web 应用领域提供…

探索IPython的隐藏力量:精通%macro命令

探索IPython的隐藏力量:精通%macro命令 在IPython的强大世界中,存在着一些被称为“魔术命令”的特殊命令,它们扩展了Python的标准能力,让我们的交互式编程体验更加丰富和高效。其中,%macro命令是一个鲜为人知但极其有…

Vscode interaction window

python 代码关联到 jupyter 模式 在代码前添加: # %%print("hellow wolrd!") 参考文档链接: https://code.visualstudio.com/docs/python/jupyter-support-py

C++ 教程 - 06 类的封装、继承、多态

文章目录 封装继承多态 封装 在private/protected 模块放置数据或者底层算法实现&#xff1b;在public块提供对外接口&#xff0c;实现相应的功能调用&#xff1b;类的封装案例 #include <iostream> using namespace std;// 类的定义 一般放在头文件 class Stu {public…

3、广告-交易模式

一、交易模式种类&#xff08;Types of Transaction Models&#xff09; RTB实时竞价&#xff08;Real-Time Bidding, RTB&#xff09; RTB是程序化广告中最常见的交易模式之一。它通过实时竞价的方式&#xff0c;让广告主在广告展示前以竞拍的方式获取广告展示机会。每当有广告…

uniapp——上传图片获取到file对象而非临时地址——基础积累

最近在看uniapp的代码&#xff0c;遇到一个需求&#xff0c;就是要实现上传图片的功能 uniapp 官网地址&#xff1a;https://uniapp.dcloud.net.cn/ 上传图片有对应的API&#xff1a; uni.chooseImage方法&#xff1a;https://uniapp.dcloud.net.cn/api/media/image.html#choo…

筛斗数据:数据提取技术,构建智慧企业的基石

在信息化和数字化的浪潮下&#xff0c;企业面临着前所未有的机遇与挑战。为了在这场变革中立于不败之地&#xff0c;越来越多的企业开始转型为智慧企业&#xff0c;而数据提取技术正是构建智慧企业的关键基石。 一、数据提取技术的重要性 数据提取技术是指从各种数据源中自动…

零基础小白学习 Python,应该如何配置 Python 开发环境?(包含Windows、MacOS、Linux)

学习编程的第一步是配置一个良好的开发环境&#xff0c;尤其是对零基础的小白来说&#xff0c;一个简单而有效的开发环境能够帮助你快速上手&#xff0c;减少不必要的技术障碍。 1. 理解Python和开发环境 Python是一种高级编程语言&#xff0c;具有简单易学、功能强大的特点。…

LeetCode-数组/回溯-No40组合总和II

题目&#xff1a; 给定一个候选人编号的集合 candidates 和一个目标数 target &#xff0c;找出 candidates 中所有可以使数字和为 target 的组合。candidates 中的每个数字在每个组合中只能使用一次 。 注意&#xff1a;解集不能包含重复的组合。 示例 1: 输入: ca…

没有手机怎么办呐!高考成绩出来了:请不要吹灭别人的灯——早读(逆天打工人爬取热门微信文章解读)

结婚的时候红包随礼随多少呢 引言Python 代码第一篇 洞见 高考成绩出来了&#xff1a;请不要吹灭别人的灯第二篇结尾 为什么是这个标题呢&#xff1f; 是因为摸鱼看足球直播 主播好兄弟结婚 他老婆问他要红包 引言 今天早上停电了 大概是在3点多的时候 我本身一直都没有开空调…

Javac编译器

Java语言的编译器是一段不确定的操作过程&#xff0c;可能是讲Java文件转变为class文件的过程&#xff0c;也可能是指虚拟机的后端编译&#xff0c;讲字节码转换为机器码的过程&#xff0c;还肯是静态提前编译器直接讲Java文件编译为本地机器代码的过程。 前端编译器&#xff…

HTML5五十六个民族网站模板源码

文章目录 1.设计来源高山族1.1 登录界面演示1.2 注册界面演示1.3 首页界面演示1.4 中国民族界面演示1.5 关于高山族界面演示1.6 联系我们界面演示 2.效果和源码2.1 动态效果2.2 源代码2.3 源码目录 源码下载 作者&#xff1a;xcLeigh 文章地址&#xff1a;https://blog.csdn.ne…

TypeError: Object of type bytes is not JSON serializable

从您提供的错误跟踪信息来看&#xff0c;问题在于您尝试将一个bytes类型的对象作为JSON数据传递给requests.post方法的json参数。但是&#xff0c;json参数只接受可以被json.dumps序列化为JSON格式的Python数据类型&#xff08;如字典、列表、字符串、数字、None、True和False&…

FreeRTOS中任务控制块和任务句柄的作用

1. 任务控制块&#xff08;Task Control Block&#xff0c;TCB&#xff09; 任务控制块 是FreeRTOS内核用于管理任务的关键数据结构。它包含了任务执行所需的各种信息。每个任务对应一个唯一的TCB。 主要作用&#xff1a; 存储任务状态&#xff1a;TCB包含任务的当前状态信息…

数字化转型第三步:数字化业务创新与发展,提升收入和利润

引言&#xff1a;之前笔者的文章发布了企业数字化转型业务部分&#xff0c;如【开源节流】如何通过数字化转型增强盈利能力&#xff1f;企业供应链数字化转型如何做&#xff1f;让企业盈利能力增强再飞一会 【财务数字化转型之底座】集团企业财务数据中台系统建设方案 等文章&a…

java Object中有哪些方法

在Java中&#xff0c;java.lang.Object类是所有类的父类。每个类都直接或间接地继承自Object。以下是Object类中定义的主要方法&#xff1a; Object类的方法 public final Class<?> getClass() 返回一个表示对象运行时类的Class对象。 Object obj new Object(); Class…