各式各样神奇的注意力机制变型

当输入sequence N很大的时候,这个时候self-attention 占据了绝大部分算力

Local Attention / Truncated Attention

只需要关注附近的attention, local attention 和cnn 差不多,可以加速计算,但效果不一定好

Stride attention

空几格attention ,需要根据问题本身来定义

Global Attention

一种是在原来的token 里面 选几个作为special token

另外一种是,额外再做几个token ,其他所有的token 都要和这几个token 做attention

不同的head 做不同的attention

能不能 不要用人去规定哪个地方算attention , 哪些地方不算attention

大的attention 算,小的attention 的值不算

先做clustering 分类

Query 和key 进行分类

同一个clustering 里面计算attention, 不同的clustering 不计算attention

能不能把要不要计算attention 能不能用learn的方法计算出来

但是我们真的需要一个N*N的attention matrix 吗?

不需要一个N*N的matrix 很多的信息是重复的,我们可以拿掉重复的信息,只保留不重复的信息

N个key不需要全部用,只需要选几个比较具有代表性的key

为什么只选有代表性的key ,没有选择有代表性的query ??

会导致Output sequence 的长度减少, 长度的减少会对 不同的任务有不同的影响。

怎么选出有代表性的key呢

  1. 用cnn 处理

  2. 用矩阵相乘的形式处理

整个attention的过程用matrix 的形式表示:

通过改变矩阵的运算的顺序来降低计算的耗时

第一种方法的计算复杂度

第二种方法的计算复杂度

只要改变矩阵相乘的顺序

放回soft max 是怎样:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/34646.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[保姆级教程]uniapp自定义标签页切换组件

文章目录 导文样式改成动态列表切换点击效果加上点击自动滑动scroll-view加上切换组件效果 导文 unaipp自带的标签页和ui设计相差太大,直接修改组件比手写一个还麻烦,下面手写一个。 样式 先用scroll-view做一个滑动,不然多的话滑动不了。 &l…

神经网络学习8-反向传播

back propagation 拿到前面传回来的L对z的偏导,再分别算损失值对x和w的偏导 反向传播 前馈过程求局部梯度 反向传播 这里的loss(wxb-y)^2,第一个关于b的偏导为2(wxb-y),第二个关于w的为2w(wxb-y)

【机器学习300问】128、简述什么Word2Vec?

一、一句话说明Word2Vec是什么? Word2Vec是一种常见的词嵌入技术。Word2Vec的目标是将每个词表示为一个向量,使得这些向量能够反映出词语之间的相似性和关联性。 word2vec算法通过预测中心词和上下文词的共现概率来学习词向量,能够捕捉词语之…

SQLite 可以随可执行文件部署在用户机器吗

答案是:可以的。 sqlite 本身就是嵌入式的SQL数据库引擎,不需要单独的服务器进程。sqlite 直接读取和写入普通磁盘文件,sqlite 的整个数据库(所有表、索引、触发器等)都包含在单个磁盘文件中。所以 sqlite 很适合开发…

JAVA ZGC相关GC日志详情分析

可以通过设置 -Xlog:gc*:gc.log 选项以开启 ZGC 日志。其中 "gc*" 意为打印所有 tag 中以 "gc" 开头的日志,"gc.log" 为日志存储路径。 下面以 AutoMQ 在实际运行时的一次 GC 为例,按照不同的 log tag,解释 Z…

植物大战僵尸杂交版v2.1最新直装版,苹果+安卓+PC+防闪退工具+修改工具+高清工具+通关存档整合包更新

今天我要和各位聊聊一款让全网疯狂的游戏——《植物大战僵尸杂交版》。这可不是简单的游戏,它可是让B站的UP主“潜艇伟伟迷”一夜成名的大作,让无数玩家为之疯狂的魔改神作! 记得2009年,《植物大战僵尸》横空出世,那时…

LDO芯片手册,实例应用分析

在进行电路设计时LDO是经常用到的,尤其在为芯片,晶振等敏感电路进行供电时应用更多,下面选取一款比较常用的LDO芯片,一起进行更深入的学习。 SGM2036特点简介 SGM2036,圣邦微一款比较常用的LDO芯片手册 可以先大致看…

【ajax实战04】数据管理平台——富文本编辑器

一:富文本编辑器简介 富文本:带样式,多格式的文本,在前端一般使用标签配合内联样式实现。 富文本编辑器:用于编写富文本内容的容器 二:wangEditor插件 https://www.wangeditor.com/ 对于将富文本编辑器…

MySQL 连接的使用方法与技巧

MySQL 连接是使用 MySQL 数据库的关键步骤之一。它允许用户通过网络与 MySQL 服务器建立通信,并执行各种数据库操作,如查询、插入、更新和删除数据。在本文中,我们将深入探讨 MySQL 连接的使用,包括连接的建立、配置和常见问题的解…

CAN通信协议

文章目录 STM32-CAN1. CAN基础知识2. CAN协议2.1. CAN协议与ISO/OSI基本参照模型的关系2.2. CAN协议及标准规格2.3. CAN协议2.3.1. 帧的种类2.3.2. 数据帧2.3.3. 遥控帧2.3.4. 错误帧2.3.5. 过载帧2.3.6. 间隔帧 2.4. 优先级的决定2.5. 位填充2.6. 错误的种类2.7. 位时序 3. CA…

鸿蒙系统最简单安装谷歌服务及软件的方法

哈喽,各位小伙伴们好,我是给大家带来各类黑科技与前沿资讯的小武。 近日,华为开发者大会在东莞松山湖召开,发布了盘古大模型5.0和纯血版的鸿蒙 HarmonyOS NEXT 全场景智能操作系统,而根据研究机构 Counterpoint Resea…

【linux/shell案例实战】awk实现浮点数四舍五入

使用printf格式化输出,实现保留小数位数四舍五入的功能 awk {printf "%.2f",$0}

ITSG、COST-G、Tongji和WHU Level-2数据产品读取绘图(Matlab)

数据介绍: ICGEM International Center for Global Gravity Field Models (gfz-potsdam.de) ITSG 2018:Institute of Geodesy at Graz University of Technolog(格拉茨理工大学大地测量研究所) 2018版本,最高60阶球谐…

Java导出excel合并行功能

导出的excel需要上下行相同的数据进行行合并的功能。如图显示 这里我使用的是项目框架自带的导出模板代码,是在这套模板基础之上做的修改。 // 我主要演示的就是mergeRows方法的操作,dataList是导出数据的集合。 workbook ExcelTools.expData(workbook…

【Linux】性能分析器 perf 详解(二)

上一篇:【Linux】性能分析器 perf 详解(一) 1、perf命令列表 annotate 读取perf.data(由perf record生成)并结合源代码展示详细的性能分析结果,包括CPU执行热点、函数调用栈等信息。archive 使用perf.data文件中找到的带构建标识符的对象文件创建归档文件,便于后续对这…

大厂面试官问我:Redis中热key和大key是怎么解决的?【后端八股文五:Redis热key和大key八股文合集】

往期内容: 大厂面试官问我:Redis处理点赞,如果瞬时涌入大量用户点赞(千万级),应当如何进行处理?【后端八股文一:Redis点赞八股文合集】-CSDN博客 大厂面试官问我:布隆过滤…

【OceanBase诊断调优】—— 如何缩短OceanBase 数据库执行 count(*) 的时间

本文介绍影响 OceanBase 数据库执行 count(*) 时间的因素以及缩短 count(*) 执行时间的方法。 适用版本 OceanBase 数据库所有版本 执行 count(*) 的时间 OceanBase 数据库中,执行 count(*) 的时间不仅与选择的行数,还与行的长度相关。这是由于对主表…

振兴黄河新生力 打造文旅新地标——全国首家黄河会客厅在山东济南启幕

6月26日,由黄河文化发展工作站组织实施的全国首家黄河会客厅平台发布会暨山东基地启动仪式在济南成功召开。黄河会客厅以“民生黄河、生态动能、中华文明”为核心主题,融汇黄河智库、黄河文明、黄河产域、黄河金融、黄河科创、黄河物贸六大振兴赋能体系&…

计算机视觉:项目实战

目录 SSD1.安装ananconda2.安装cuda和cudnn3.配置Pytorch环境3.1 pytorch环境的配置与激活3.2 pytorch库的安装3.3 其它依赖库的安装 遇到的问题:1.EOFError: Ran out of input.2.No module named dlib. SSD 1.安装ananconda 见另一篇博文:https://blo…

【LeetCode】每日一题:LRU缓存

请你设计并实现一个满足 LRU (最近最少使用) 缓存 约束的数据结构。 实现 LRUCache 类: LRUCache(int capacity) 以 正整数 作为容量 capacity 初始化 LRU 缓存 int get(int key) 如果关键字 key 存在于缓存中,则返回关键字的值,否则返回 -1 …