attention and tell论文【无标题】

这个公式使用LaTeX语法表示为: ( i t f t o t c t ) = ( σ σ σ tanh ⁡ ) T D + m + n , n ( E y t − 1 h t − 1 x t ) \begin{pmatrix}i_t \\f_t \\o_t \\c_t\end{pmatrix} =\begin{pmatrix}\sigma \\\sigma \\\sigma \\\tanh\end{pmatrix}T_{D+m+n,n}\begin{pmatrix}Ey_{t-1} \\h_{t-1} \\{x}_t\end{pmatrix} itftotct = σσσtanh TD+m+n,n Eyt1ht1xt

( i t f t o t c t ) = ( σ σ σ tanh ⁡ ) T D + m + n , n ( E y t − 1 h t − 1 z ^ t ) \begin{pmatrix}i_t \\f_t \\o_t \\c_t\end{pmatrix} =\begin{pmatrix}\sigma \\\sigma \\\sigma \\\tanh\end{pmatrix}T_{D+m+n,n}\begin{pmatrix}Ey_{t-1} \\h_{t-1} \\\hat{z}_t\end{pmatrix} itftotct = σσσtanh TD+m+n,n Eyt1ht1z^t

这几个公式使用LaTeX语法表示为:

对于公式(4):
e t i = f a t t ( x i , h t − 1 ) ( 4 ) e_{ti} = f_{att}(x_i, h_{t-1}) \quad (4) eti=fatt(xi,ht1)(4)

对于公式(5):
α t i = e x p ( e t i ) ∑ k = 1 L e x p ( e t k ) ( 5 ) \alpha_{ti} = \frac{exp(e_{ti})}{\sum_{k=1}^{L} exp(e_{tk})} \quad (5) αti=k=1Lexp(etk)exp(eti)(5)

对于公式(6):
z ^ t = ϕ ( { a i } , { α i } ) ( 6 ) \hat{z}_t = \phi(\{a_i\}, \{\alpha_i\}) \quad (6) z^t=ϕ({ai},{αi})(6)

其中, e t i e_{ti} eti 是注意力得分, α t i \alpha_{ti} αti 是加权因子, z ^ t \hat{z}_t z^t 是上下文向量。

这个公式使用LaTeX语法表示为: [ i t f t o t g t ] = ( σ σ σ tanh ⁡ ) T D + m + n , n ( E y t − 1 h t − 1 z ^ t ) \begin{bmatrix} i_t \\ f_t \\ o_t \\ g_t \end{bmatrix} = \begin{pmatrix} \sigma \\ \sigma \\ \sigma \\ \tanh \end{pmatrix} T_{D+m+n,n} \begin{pmatrix} Ey_{t-1} \\ h_{t-1} \\ \hat{z}_t \end{pmatrix} itftotgt = σσσtanh TD+m+n,n Eyt1ht1z^t

以此类推来选择合适的区域特征参与生成下一个词的过程

公式 p ( s t , i = 1 ∣ s j < t , a ) = α t , i p(st,i = 1 | sj<t, a) = \alpha_{t,i} p(st,i=1∣sj<t,a)=αt,i 描述了在生成第t个词时,模型在已知之前生成的词序列sj<t和图像特征a的情况下,选定第i个位置作为当前关注位置的概率。其中st,i是一个离散随机变量,表示在时间步t时模型是否关注图像的第i个位置,取值为1表示关注,0表示不关注。

这里的αt,i是多项式分布的参数,它决定了位置i被选中的概率。换句话说,αt,i代表了在生成当前词时,图像第i个位置对于生成该词的重要性程度。

举例说明:
假设我们有一个图片描述生成系统,图片被分成四个区域(位置i=1,2,3,4),每个区域都有一个特征向量ai。在生成第三个词的时候,模型需要关注图片的某个区域来获取相关信息。此时,模型根据已生成的前两个词以及图片特征计算出了每个区域的注意力权重:αt,1=0.1, αt,2=0.3, αt,3=0.4, αt,4=0.2。这意味着在生成第三个词时,模型有40%的概率关注第三个区域(位置i=3),以此类推来选择合适的区域特征参与生成下一个词的过程。

变分下界

“变分下界”:在变分推断中,我们试图找到一个近似概率分布q(x)来逼近真实的概率分布p(x)。变分下界是一种用于评估近似概率分布质量的指标,通常用来求解最优的近似分布。它的计算涉及到对概率分布的积分或期望的估计

变分下界(Variational Lower Bound)是在统计推断尤其是变分推断(Variational Inference)框架下的一个重要概念。当处理复杂的概率模型时,直接计算模型的边际似然(marginal likelihood)或证据(evidence)通常是难以处理甚至不可行的,尤其是在潜在变量模型(latent variable model)中。这时,变分推断采用了一种间接的方法,即寻找一个较简单且易于处理的概率分布 q ( z ) q(z) q(z),使其尽可能接近真实的后验分布 p ( z ∣ x ) p(z|x) p(zx),其中 z z z是隐变量, x x x是可观测数据。

变分下界的目标函数通常指的是证据下界(Evidence Lower BOund, ELBO),它是模型证据的下界,记作 L ( q ) L(q) L(q) L ( q ) \mathcal{L}(q) L(q)。其表达形式如下:

L ( q ) = E q ( z ) [ log ⁡ p ( x , z ) ] − K L [ q ( z ) ∣ ∣ p ( z ) ] \mathcal{L}(q) = \mathbb{E}_{q(z)}[\log p(x,z)] - \mathbb{KL}[q(z)||p(z)] L(q)=Eq(z)[logp(x,z)]KL[q(z)∣∣p(z)]

在这个表达式中:
- E q ( z ) [ log ⁡ p ( x , z ) ] \mathbb{E}_{q(z)}[\log p(x,z)] Eq(z)[logp(x,z)]是在 q ( z ) q(z) q(z)下联合分布 p ( x , z ) p(x,z) p(x,z)的期望,它反映了模型解释数据的能力。
- K L [ q ( z ) ∣ ∣ p ( z ) ] \mathbb{KL}[q(z)||p(z)] KL[q(z)∣∣p(z)] q ( z ) q(z) q(z)和真实先验 p ( z ) p(z) p(z)之间的Kullback-Leibler散度(KL散度),衡量的是 q ( z ) q(z) q(z) p ( z ) p(z) p(z)的偏离程度。

由于KL散度总是非负的,我们可以得出 L ( q ) ≤ log ⁡ p ( x ) \mathcal{L}(q) \leq \log p(x) L(q)logp(x),其中 p ( x ) p(x) p(x)是我们想要最大化但难以直接计算的边际似然。

通过优化变分下界 L ( q ) \mathcal{L}(q) L(q)来最大化它,我们可以得到最优的近似分布 q ( z ) q(z) q(z),这个过程实际上是对原始问题的一种逼近解决方案。例如,在变分自动编码器(VAE)中,我们通过优化网络参数使得重构损失和KL散度之和最小化,这个和即为ELBO,最终达到学习数据分布并生成新样本的目的。

参数含义

这里的 y y y 是指句子中的一系列词语,也就是输出序列。在这个上下文中,我们希望我们的模型能够预测给定输入图像特征 a a a 下面最有可能出现的词语序列

k是词表大小,C是生成语句的长度
y1是k维的矢量vector,对应每个词出现的概率
Z t Z_t Zt t时刻,每个时刻产生一个单词,所有attention根据不同关注的权重,综合出一个image feature的vector

以前说过哪些话,生成过哪些词,取决于 h t h_t ht C t C_t Ct

LSTM 主要是更新 h t h_t ht,隐藏态,利用
上一时刻的输出 y t − 1 y_{t-1} yt1,
经过attention产生的?feature vector, Z t Z_t Zt
h t − 1 h_{t-1} ht1

a multilayer perceptron做attention处理,
14*14location,每个location 512维的feature vector,
flatten成一维的,再和 h t − 1 h_{t-1} ht1 concat在一起作为输入,经过a multilayer perceptron,不同attention的location_i, 不同location有不同的权重αi,不同的权重αi对不同location的feature vector做加权求和

根据位置做加权求和,最终得到 1*512的 context vector—— Z t Z_t Zt

a multilayer perceptron更新 Z t Z_t Zt
1、作为LSTM输入,更新ht状态
2、提供给翻译网络,产生t时刻要输出的单词

attetion multilayer perceptron权重不断调整,产生更好的权重αi,输出更准确的句子输出

最后的翻译网络也是multilayer perceptron
Z t Z_t Zt h t h_t ht y t − 1 y_t-1 yt1,feature vector a,输出最大可能的矢量 y t y_t yt

tanh变换,normalize到1到-1之间
放射变换T 里的系数 被调整好了,某一时刻那个位置的信息比较重要,让他溜进来,哪些状态需要遗忘

input产生不同位置的权重,点乘tan变幻出来的vector

不同的门控信号使用不同的激活函数
在这里插入图片描述

t这个时刻i这个位置 重要程度,权重大小
softmax归一化

E是词嵌入矩阵,它的每一列代表一个单词的嵌入向量。这里的“
∝”表示“正比于”,即真实的概率分布是这个表达式的归一化版本。
加权

求和,总体期望值

采一个attention的location位点,

得到关注区域的分布

14×14×512特征图,512是什么,是特征向量的维度

是的,14×14×512特征图中的512指的是特征向量的维度。在深度学习领域,特别是在卷积神经网络(CNN)中,特征图通常是由卷积层输出的,其中**每个位置(14×14)都有一个512维的特征向量(image feature vector)**与之对应。这些特征向量包含了经过卷积和非线性变换后提取出的抽象特征信息,可用于进一步的处理,例如分类、检测、定位等任务。在视觉任务中,特征图的每一个点可以视为对图像局部区域的一种高层次的表示。

要精确地计算一系列卷积层和最大池化层之后图像的尺寸变化,我们需要知道每次卷积层是否使用了填充(padding)以及步长(stride),同时要知道最大池化层的窗口大小和步长。假设没有提供具体的填充、步长以及池化窗口大小,我将以常见的配置为例来进行估算:

卷积层:对于一个3x3卷积核且没有明确说明填充和步长的情况下,如果我们假定使用的是“valid”卷积(即没有填充),并且步长(stride)为1,则每次卷积后图像尺寸会减小2(因为不包括边界像素时,每边都会损失1个像素)。如果有填充(比如“same”填充使得输出尺寸与输入尺寸相同),则不会改变高度和宽度。

最大池化层:通常,最大池化层的窗口大小是2x2,并且步长也为2。这样的话,每次池化操作后,图像的高和宽都会减半

假设每次卷积层都没有填充(padding),步长均为1,而最大池化层的窗口大小为2×2,步长也为2。在这种情况下,我们可以进行如下计算:

卷积层不会改变图像尺寸(如果步长为1且无填充)。
最大池化层会使图像尺寸减半

”卷积层均无填充且步长为1,则不会改变图像尺寸“和“假定使用的是“valid”卷积(即没有填充),并且步长(stride)为1,则每次卷积后图像尺寸会减小2(因为不包括边界像素时,每边都会损失1个像素)。如果有填充(比如“same”填充使得输出尺寸与输入尺寸相同),则不会改变高度和宽度。”两种说法哪个是对的

很抱歉造成了混淆,两种说法都是正确的,但它们描述的是不同的情景:

“卷积层均无填充且步长为1,则不会改变图像尺寸。”这句话是针对连续卷积层之间的情况,意思是当你连续应用多个步长为1且没有填充的卷积层时,只要输入图像的尺寸足够大,确保卷积核可以在不超出图像边界的情况下完成卷积操作,那么卷积层之间的传递不会导致图像尺寸的缩小。这是因为每个卷积层虽然会在边界处丢失一些像素,但如果下一个卷积层的输入恰好可以覆盖这些边界,则总体尺寸可以保持不变。

“假定使用的是“valid”卷积(即没有填充),并且步长为1,则每次卷积后图像尺寸会减小2(因为不包括边界像素时,每边都会损失1个像素)。如果有填充(比如“same”填充使得输出尺寸与输入尺寸相同),则不会改变高度和宽度。”这句话描述的是单个卷积层执行后图像尺寸的变化。在没有填充的情况下,一个3x3卷积核作用于一个尺寸较大的图像时,确实会让图像尺寸每边减小1个像素,总共减小2个像素。

综合来看,关键在于理解不同的上下文:

当讨论单个卷积层对输入图像尺寸的影响时,无填充(valid)的卷积会缩小图像尺寸。
当讨论连续卷积层时,如果确保所有卷积层都不超出边界(例如通过适当调整输入尺寸或在网络结构设计时考虑好各层之间的配合),即使步长为1且无填充,也能保持图像尺寸不变。如果输入尺寸较小,连续无填充卷积仍会造成尺寸缩小。而在实践中,为了维持尺寸,通常会采取“same”填充策略。

embedding matrix(嵌入矩阵)词向量矩阵

人话:嵌入矩阵(Embedding Matrix)在自然语言处理和其他机器学习任务中起到将离散的符号(如词语)转化为连续向量的作用。

额:embedding matrix(嵌入矩阵)是指在自然语言处理或其他机器学习任务中用来将离散的高维输入(如词汇表中的词语索引)映射到低维连续向量空间的矩阵

知乎有很多详细讲解

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/819559.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

内外网文件摆渡系统,如何贯通网络两侧被隔断的工作流?

随着业务范围不断扩大&#xff0c;产生的数据体量越来越多&#xff0c;企业会采取网络隔离&#xff0c;对核心数据进行保护。网络隔离主要目的是保护企业内部的敏感数据和系统不受外部网络攻击的风险&#xff0c;可以通过物理或逻辑方式实现&#xff0c;例如使用防火墙、网闸、…

Day13-Python基础学习之数据分析案例

数据分析案例 data_define.py # 数据定义的类 class Record:def __init__(self, date, order_id, money, province):self.date dateself.order_id order_idself.money moneyself.province province ​def __str__(self):return f"{self.date}, {self.order_id}, {se…

数学基础:深度学习的语言

数学基础&#xff1a;深度学习的语言 概述 在深度学习的世界里&#xff0c;数学不仅仅是一套工具&#xff0c;它是构建、理解和优化深度学习模型的基石。从向量空间的概念到复杂的优化算法&#xff0c;数学的每一个分支都在深度学习的发展中扮演着关键角色。本文的目标是通过深…

【前端面试3+1】17 伪类和伪元素的区别、CSS权重、图片显示优化、【二叉树最大深度】

一、伪类和伪元素的区别 1、伪类&#xff1a; 伪类是用来描述元素的特定状态的选择器&#xff0c;比如:hover、:active、:first-child等。伪类在选择器中以冒号&#xff08;:&#xff09;开头&#xff0c;用于匹配处于特定状态的元素。伪类可以用于选择DOM元素的特定状态&#…

zabbix解析以及安装

目录 目录 zabbix 是什么&#xff1f; 监控主要功能 zabbix 监控原理&#xff1a; zabbix运行机制 Zabbix的监控方式 Zabbix监控系统监控对象 Zabbix的优缺点 Zabbix的缺点 zabbix主要特点 zabbix 监控部署在系统中&#xff0c;包含常见的五个程序: 监控的架构 3.maste…

vscode和pycharm等idea编写protobuf文件格式化

想在pycharm或者goland等idea中开发protobuf文件的话&#xff0c;可以安装一个插件&#xff1a;protocol-buffers 安装之后&#xff0c;proto文件就会支持高亮和格式化了。 如果是vscode想要编写proto文件&#xff0c;可以安装另外一个插件&#xff1a;vscode-proto3 安装后&a…

“资深主食冻干品鉴家”认证!希喂CPMR2.0鲜肉主食冻干值得入!

作为一名养猫长达十二年的资深铲屎官&#xff0c;自从20年起&#xff0c;我家便步入了全冻干喂养的新纪元。请别误会&#xff0c;我并非什么拆二代&#xff0c;而是因为我找到了一款既让猫咪爱不释手&#xff0c;又在我预算之内的优质主食冻干。市面上的主流品牌&#xff0c;我…

如何解决线程池引发的future性能问题?

背景 在我们的日常开发中肯定会遇到线程池的使用&#xff0c;那么随着jdk8的使用发现&#xff0c;future.get&#xff08;&#xff09;这个API的使用也很普及了&#xff0c;当然重点不是这个api而是我们在设置线程池参数的时候如果使用自带的四种拒绝策略&#xff0c;那没什么…

网络安全赛事中开源威胁情报的妙用

写在前面 近期参与了一场网络安全赛事&#xff0c;一些题目的解法涉及到开源网络威胁情报&#xff0c;遂对相关题目及涉及到的知识点进行分析。 什么是OSCTI 开源网络威胁情报 (Open-Source Cyber Threat Intelligence,OSCTI)是详细描述针对某个组织网络安全威胁的数据。OSC…

【力扣 Hot100 | 第二天】4.11 无重复字符的最长子串

文章目录 2.无重复字符的最长子串2.1题目2.2解法一&#xff1a;滑动窗口2.2.1解题思路2.2.2代码实现 2.无重复字符的最长子串 2.1题目 给定一个字符串 s &#xff0c;请你找出其中不含有重复字符的 最长子串 的长度。 示例一&#xff1a; 输入: s "abcabcbb" 输…

从零开始写一个RTSP服务器(三)RTP传输H.264

目录 一、RTP封装1.1 RTP数据结构1.2 源码 二、H.264的RTP打包2.1 H.264格式2.2 H.264的RTP打包方式2.3 H.264 RTP包的时间戳计算2.4 源码 三、H.264 RTP打包的sdp描述四、测试 本篇文章目标&#xff0c;使用vlc打开sdp文件后&#xff0c;可以观看到视频数据 一、RTP封装 1.1 …

2024 CKA 基础操作教程(十三)

题目内容 考点相关内容分析 日志架构 虽然 Kubernetes 没有为集群级日志记录提供原生的解决方案&#xff0c;但是提供了以下几种方式收集容器日志&#xff1a; 使用在每个节点上运行的节点级日志记录代理。 在每个节点上部署一个日志代理&#xff0c;该代理负责收集节点上所有…

传奇 mir2韩国2005年原版代码

传奇 mir2韩国2005年原版代码 参考资料;传奇 mir2韩国2005年原版代码-感谢网虫大神分享_98999NET源码资源网

批量重命名文件名,支持取原文件名中间文字来进行重命名,实现文件重命名自由

在信息爆炸的时代&#xff0c;文件管理和命名显得尤为重要。你是否曾为文件命名而烦恼&#xff1f;是否曾经因为文件名过长、格式不统一、无法快速识别内容而浪费大量时间&#xff1f;今天&#xff0c;我要为大家介绍一款强大而灵活的批量文件重命名工具&#xff0c;它能够帮助…

ardupilot开发 --- 视觉伺服基础理论 篇

TOC 0.参考文献 https://zhuanlan.zhihu.com/p/422634446 基础

JetBrains CLion 2024.1 发布 - C 和 C++ 跨平台 IDE

JetBrains CLion 2024.1 发布 - C 和 C 跨平台 IDE 请访问原文链接&#xff1a;JetBrains CLion 2024.1 (macOS, Linux, Windows) - C 和 C 跨平台 IDE&#xff0c;查看最新版。原创作品&#xff0c;转载请保留出处。 作者主页&#xff1a;sysin.org JetBrains CLion - C 和 …

[ROS 系列学习教程] 建模与仿真 - URDF 语法介绍

ROS 系列学习教程(总目录) 本文目录 一、robot标签二、link标签三、joint标签 URDF文件中使用XML格式描述的机器人模型&#xff0c;下面介绍URDF的XML标签。 一、robot标签 机器人描述文件中的根元素必须是robot&#xff0c;所有其他元素必须封装在其中。 属性 name&#x…

postman接口测试(入门到精通)

下载&#xff1a; postman官方地址 测试外部接口&#xff1a;测试被测系统和外部系统之间的接口。&#xff08;只需要测试正例即可&#xff09; 测试内部接口&#xff1a; 1.内部接口只提供给内部系统使用。&#xff08;只需要测试正例即可&#xff09; 2.内部接口提供给外…

AI大模型探索之路-应用篇13:企业AI大模型选型指南

目录 前言 一、概述 二、有哪些主流模型&#xff1f; 三、模型参数怎么选&#xff1f; 四、参数有什么作用&#xff1f; 五、CPU和GPU怎么选&#xff1f; 六、GPU和显卡有什么关系&#xff1f; 七、GPU主流厂商有哪些&#xff1f; 1、NVIDIA芯片怎么选&#xff1f; 2、…

P8602蓝桥杯大臣找路

很久以前&#xff0c;T 王国空前繁荣。为了更好地管理国家&#xff0c;王国修建了大量的快速路&#xff0c;用于连接首都和王国内的各大城市。 为节省经费&#xff0c;T 国的大臣们经过思考&#xff0c;制定了一套优秀的修建方案&#xff0c;使得任何一个大城市都能从首都直接…