【Transformer】深入浅出自注意力机制

        写在前面:博主本人也是刚接触计算机视觉领域不久,本篇文章是为了记录自己的学习,大家一起学习,有问题欢迎大家指出。(博主本人的习惯是看文章看到不懂的有立马去看不懂的那块,所以博文可能内容比较杂)

        本篇将详细讲解transfomer中的自注意力机制,自注意力机制使模型能够同时考虑输入序列中的所有位置(循环神经网络RNN和卷积神经网络CNN只能逐步处理,不了解RNN和CNN的同学可以看本篇的第三大点)。自注意力机制允许模型根据输入序列中的不同部分来赋予不同的注意权重,从而更好地捕捉语义关系。

论文链接:[1706.03762] Attention Is All You Needicon-default.png?t=O83Ahttps://arxiv.org/abs/1706.03762

目录

一、自注意力机制的输入

二、自注意力机制的计算方式

三、额外知识扩展


下图是原论文在中的自注意力机制的计算流程图:

一、自注意力机制的输入

        首先是从整个模型的最开始,输入一个句子(序列)X,然后从这个输入中生成三个向量,分别为查询向量(Q,Query)、键向量(K,Key)、值向量(V,Value)。这个时候,肯定会有同学疑惑,这三个向量是咋生成的嘞?这三个向量是通过输入序列与三个权重矩阵相乘(即线性变换)创建出来的,其实就是最简单的矩阵乘法。

下图是生成过程的直观表达:

二、自注意力机制的计算方式

        上图是原论文给出的计算公式——首先是将生成的Q和K进行点积,原论文中提到点积是计算两个矩阵相似度的方法,即为每个向量都计算了一个score分数,也就是相似度分数。然后,为了梯度的稳定(不出现梯度爆炸和梯度消失的情况),进行了score分数归一化,即将上一步得到的分数除以\sqrt{d_{x}}(输入向量的维度的平方根)。紧接着是将得到的分数放到softmax中,经过softmax后,所有分数的都是正值且总和为1。最后再将经过softmax后的输出与V进行点乘,这样就得到了加权的每个输入向量的评分,从而实现了筛选值得注意的部分。

        值得注意的一部分是,在最开始的流程图有一个Mask(opt.)模块,这个模块是将计算相似度分数之后的数转换为一个非常大的负数,这样经过softmax后就无限趋于0,也就是完全不需要关注了。

        可能有的同学看完上面一段感觉非常难理解,的确是,因为我语言组织能力有限,同学们可以根据自己的矩阵知识来理解这个公式,就是将得到的相似分数归一化后再加权得到注意力分数,大家不要把它想得过于复杂了。

三、额外知识扩展

        RNN主要用于语言处理,类似与耳朵和嘴巴,用于解析语言,RNN的假设——事物的发展是按照时间顺序展开的,即前一刻发生的事物会对未来的事情的发展产生影响通常用于自然语言处理中,可以用来处理时间序列数据,RNN的主要思想是把前面的信息传递到后面,这样网络可以利用之前的信息做出预测,能够处理序列中每个时间步的数据。(“时间步”通常指的是序列数据中一个观察点到下一个观察点之间的时间间隔。)

        CNN主要用于图像识别,类似眼睛,用于图像处理,CNN的假设——人的视觉总是会关注视线内特征最明显的点。通常用于计算机视觉中,CNN用于提取图像的空间特征,通过不断的卷积和池化操作实现特征提取和降维。

        Word2Vec是一种流行的词嵌入(word embedding)方法,将词汇映射到向量的技术,使得语义上相似的词在向量空间中彼此接近。

        我觉得我这篇博客写的好水啊,但是我还是得写,以后复习也能有参考,还能发现自己的漏洞,同学们,继续一起努力吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/64200.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HarmonyOS NEXT 实战之元服务:静态案例效果---教育培训服务

背景: 前几篇学习了元服务,后面几期就让我们开发简单的元服务吧,里面丰富的内容大家自己加,本期案例 仅供参考 先上本期效果图 ,里面图片自行替换 效果图1完整代码案例如下: import { authentication } …

互联网视频云平台EasyDSS无人机推流直播技术如何助力野生动植物保护工作?

在当今社会,随着科技的飞速发展,无人机技术已经广泛应用于各个领域,为我们的生活带来了诸多便利。而在动植物保护工作中,无人机的应用更是为这一领域注入了新的活力。EasyDSS,作为一款集视频处理、分发、存储于一体的综…

51c视觉~YOLO~合集8

我自己的原文哦~ https://blog.51cto.com/whaosoft/12897680 1、Yolo9 1.1、YOLOv9SAM实现动态目标检测和分割 主要介绍基于YOLOv9SAM实现动态目标检测和分割 背景介绍 在本文中,我们使用YOLOv9SAM在RF100 Construction-Safety-2 数据集上实现自定义对象检测模…

Docker Container 可观测性最佳实践

Docker Container 介绍 Docker Container( Docker 容器)是一种轻量级、可移植的、自给自足的软件运行环境,它在 Docker 引擎的宿主机上运行。容器在许多方面类似于虚拟机,但它们更轻量,因为它们不需要模拟整个操作系统…

气相色谱-质谱联用分析方法中的常用部件,分流平板更换

分流平板,是气相色谱-质谱联用分析方法中的一个常用部件,它可以实现气相色谱柱流与MS检测器流的分离和分流。常见的气质联用仪分流平板有很多种,如单层T型分流平板、双层T型分流平板、螺旋分流平板等等。 操作视频http://www.spcctech.com/v…

易基因: BS+ChIP-seq揭示DNA甲基化调控非编码RNA(VIM-AS1)抑制肿瘤侵袭性|Exp Mol Med

大家好,这里是专注表观组学十余年,领跑多组学科研服务的易基因。 肝细胞癌(hepatocellular carcinoma,HCC)早期复发仍然是一个具有挑战性的领域,其中涉及的机制尚未完全被理解。尽管微血管侵犯&#xff08…

鸿蒙系统文件管理基础服务的设计背景和设计目标

有一定经验的开发者通常对文件管理相关的api应用或者底层逻辑都比较熟悉,但是关于文件管理服务的设计背景和设计目标可能了解得不那么清楚,本文旨在分享文件管理服务的设计背景及目标,方便广大开发者更好地理解鸿蒙系统文件管理服务。 1 鸿蒙…

Doris 数据库外部表-JDBC 外表,Oracle to Doris

简介 提供了 Doris 通过数据库访问的标准接口 (JDBC) 来访问外部表,外部表省去了繁琐的数据导入工作,让 Doris 可以具有了访问各式数据库的能力,并借助 Doris 本身的 OLAP 的能力来解决外部表的数据分析问题: 支持各种数据源接入…

分布式 IO 模块助力冲压机械臂产线实现智能控制

在当今制造业蓬勃发展的浪潮中,冲压机械臂产线的智能化控制已然成为提升生产效率、保障产品质量以及增强企业竞争力的关键所在。而分布式 IO 模块的应用,正如同为这条产线注入了一股强大的智能动力,开启了全新的高效生产篇章。 传统挑战 冲压…

深度学习中的并行策略概述:4 Tensor Parallelism

深度学习中的并行策略概述:4 Tensor Parallelism 使用 PyTorch 实现 Tensor Parallelism 。首先定义了一个简单的模型 SimpleModel,它包含两个全连接层。然后,本文使用 torch.distributed.device_mesh 初始化了一个设备网格,这代…

企业销售人员培训系统|Java|SSM|VUE| 前后端分离

【技术栈】 1⃣️:架构: B/S、MVC 2⃣️:系统环境:Windowsh/Mac 3⃣️:开发环境:IDEA、JDK1.8、Maven、Mysql5.7 4⃣️:技术栈:Java、Mysql、SSM、Mybatis-Plus、VUE、jquery,html 5⃣️数据库…

自然语言处理与知识图谱的融合与应用

目录 前言1. 知识图谱与自然语言处理的关系1.1 知识图谱的定义与特点1.2 自然语言处理的核心任务1.3 二者的互补性 2. NLP在知识图谱构建中的应用2.1 信息抽取2.1.1 实体识别2.1.2 关系抽取2.1.3 属性抽取 2.2 知识融合2.3 知识推理 3. NLP与知识图谱融合的实际应用3.1 智能问答…

CSS(三)盒子模型

目录 Content Padding Border Margin 盒子模型计算方式 使用 box-sizing 属性控制盒子模型的计算 所有的HTML元素都可以看作像下图这样一个矩形盒子: 这个模型包括了四个区域:content(内容区域)、padding(内边距…

基于NodeMCU的物联网窗帘控制系统设计

最终效果 基于NodeMCU的物联网窗帘控制系统设计 项目介绍 该项目是“物联网实验室监测控制系统设计(仿智能家居)”项目中的“家电控制设计”中的“窗帘控制”子项目,最前者还包括“物联网设计”、“环境监测设计”、“门禁系统设计计”和“小…

有没有免费提取音频的软件?音频编辑软件介绍!

出于工作和生活娱乐等原因,有时候我们需要把音频单独提取出来(比如歌曲伴奏、人声清唱等、乐器独奏等)。要提取音频必须借助音频处理软件,那么有没有免费提取音频的软件呢?下面我们将为大家介绍几款免费软件&#xff0…

【保姆式】python调用api通过机器人发送文件到飞书指定群聊

当前飞书webhook机器人还不支持发送文件类型的群消息,它目前仅支持文本,富文本,卡片等文字类型的数据。 我们可以申请创建一个机器人应用来实现群发送文件消息。 创建飞书应用 创建飞书应用、配置权限、添加机器人 来到飞书开发者后台 创建…

GitLab 服务变更提醒:中国大陆、澳门和香港用户停止提供服务(GitLab 服务停止)

目录 前言 一. 变更详情 1. 停止服务区域 2. 邮件通知 3. 新的服务提供商 4. 关键日期 5. 行动建议 二. 迁移指南 三. 注意事项 四. 相关推荐 前言 近期,许多位于中国大陆、澳门和香港的 GitLab 用户收到了一封来自 GitLab 官方的重要通知。根据这封邮件…

【Agent】AutoGen Studio2.0开源框架-UI层环境安装+详细操作教程(从0到1带跑通智能体AutoGen Studio)

💥 欢迎来到我的博客!很高兴能在这里与您相遇! 首页:GPT-千鑫 – 热爱AI、热爱Python的天选打工人,活到老学到老!!!导航 - 人工智能系列:包含 OpenAI API Key教程, 50个…

三层交换机配置

一,三层交换 概念:三层交换技术就是:二层交换技术三层转发技术(路由器功能)。它解决了局域网中网段划分之后,网段中子网必须依赖路由器进行管理的局面,解决了传统路由器低速,复杂所造成的网络瓶颈问题。 …

连锁餐饮行业数据可视化分析方案

引言 随着连锁餐饮行业的迅速发展,市场竞争日益激烈。企业需要更加精准地把握运营状况、消费者需求和市场趋势,以制定科学合理的决策,提升竞争力和盈利能力。可视化数据分析可以帮助连锁餐饮企业整合多源数据,通过直观、动态的可…