助你疯狂涨点!16种注意力机制魔改模型!

【注意力机制模型】是近年来在深度学习领域中备受关注的一项技术。它通过为输入数据中的重要部分分配更高的权重,从而增强模型对关键特征的识别能力。注意力机制在神经网络的不同层次上应用,可以动态调整注意力权重,从而提高模型的性能。该技术已经在图像处理、自然语言处理和语音识别等多个领域取得了显著成果,其独特的方法和有效的表现使其成为研究热点之一。

为了帮助大家全面掌握注意力机制模型的方法并寻找创新点,本文总结了最近两年注意力机制模型相关的16篇顶会顶刊的研究成果。这些论文的文章、来源以及代码都整理好了,希望能为各位的研究工作提供有价值的参考。

需要的同学扫码添加我

回复“注意力机制模型16”即可全部领取

图片

1、Attention Guided CAM: Visual Explanations of Vision Transformer Guided by Self-Attention

图片

-文章首先介绍了ViT作为计算机视觉领域中广泛使用的一种模型,因其在各种任务上的优秀表现而受到关注。然而,由于ViT独特的结构,如使用[class] token和自注意力机制,导致传统的基于CNN的可视化方法并不适用于ViT。为了在各种应用中充分利用基于ViT的架构,需要适当的可视化方法来提供合理的定位性能。

-作者提出了一种新的注意力引导的可视化方法,用于解释ViT的决策过程。该方法通过选择性聚合直接从分类输出传播到每个自注意力的梯度,收集输入图像中每个位置提取的图像特征的贡献。这些梯度由标准化的自注意力分数引导,这些分数是成对的patch相关性分数,用于有效补充自注意力机制检测到的patch级上下文信息。

-文章详细描述了如何生成类激活映射(CAM),这是一种高语义解释的可视化技术。具体来说,作者关注了从分类输出到每个编码器块的梯度,这些梯度通过跳跃连接的反向路径传播。此外,这些关键梯度由自注意力分数矩阵的新标准化特征图引导,这些特征图通过sigmoid操作进行归一化。文章还解释了为何选择自注意力块中的梯度和特征图,以及如何通过自注意力机制保持输入图像的空间位置信息。

-作者在ImageNet ILSVRC 2012、Pascal VOC 2012和Caltech-UCSD Birds-200-2011(CUB 200)数据集上进行了实验,与现有的ViT可解释性方法(如Attention Rollout和基于LRP的方法)进行了比较。结果表明,新方法在弱监督定位任务中的表现优于先前的方法,并且在捕获目标类别对象的全部实例方面展现出了强大的能力。此外,通过像素扰动实验,作者还展示了新方法在提高可视化可靠性方面的优势。

-文章最后总结了所提出方法的优势,即通过注意力引导的梯度分析,实现了更好的弱监督定位性能。新方法不仅提供了ViT的高语义解释,而且在捕获给定类别对象的多个实例方面表现出色,为模型提供了可靠的解释,并使ViT能够更好地适应涉及计算机视觉领域目标定位的多种任务。

2、Learning from Observer Gaze: Zero-Shot Attention Prediction Oriented by Human-Object Interaction Recognition

图片

文章的核心研究是关于人类视觉注意力的预测,特别是在人类观察者理解人与物体之间交互时产生的复杂交互导向注意力。这种注意力对于推动人机交互和以人为中心的人工智能发展至关重要,但目前尚未得到充分研究。

-为了填补这一空白,作者首先收集了一个名为IG(Interactive Gaze)的新注视点数据集,包含530,000个注视点,涵盖740种不同的交互类别,记录了人类观察者在认知交互过程中的视觉注意力。接着,作者引入了零样本交互导向注意力预测任务(ZeroIA),挑战模型在训练过程中未遇到的交互的视觉线索预测。此外,作者提出了一种交互注意力模型(IA),旨在模拟人类观察者的认知过程,解决ZeroIA问题。通过大量实验,证明所提出的IA模型在ZeroIA和全监督设置中的性能都超过了其他最先进的方法。

-最后,作者尝试将交互导向注意力应用于交互识别任务本身,进一步的实验结果显示,通过结合来自IG的真实人类注意力数据和IA生成的注意力标签,有潜力提升现有最先进HOI(Human-Object Interaction)模型的性能和可解释性。

-文章首先介绍了人类视觉注意力对理解人类如何感知、理解和与世界交互的重要性。然后,作者指出大多数现有的注意力预测研究都集中在显著的实例上,如人类和物体,而对由人类观察者理解实例间交互产生的更复杂的交互导向注意力的研究却很少。为了解决这个问题,作者创建了IG数据集,收集了32名人类观察者在740种交互类别中的注视点,这些类别包括80个物体和132个动作。IG数据集的创建,为视觉注意力和动作理解的研究提供了重要的桥梁。

-接着,文章介绍了交互注意力模型(IA)。该模型的设计灵感来源于人类观察者的认知过程,通过交互导向的提示块(PB)激活CLIP强大的知识表示能力,并通过两个小型可学习的适配器来模拟HOI认知任务,生成场景自适应的知识原型(KPs)和鲁棒的视觉特征。IA模型首先感知和理解单个实例,即人类和物体,然后进一步理解实例之间展开的交互,最终生成交互导向的注意力图。

-在实验部分,作者展示了IA模型在ZeroIA和全监督设置中的性能,并与其他10种最先进方法进行了比较。结果表明,IA模型在所有评估指标上均优于其他方法。此外,作者还探讨了如何将目标导向注意力反馈给目标本身,特别是建立了一个连接目标导向注意力和动作理解的双向路径,并提出了一种通用且有效的HOI训练策略。这种策略可以通过额外的交互导向注意力监督来补充大多数现有模型的损失,从而提升性能。

-文章最后总结了所提出的工作的贡献,包括引入ZeroIA问题和IG数据集,提出模拟人类认知过程预测高质量交互导向注意力的IA模型,以及引入一种通用简单的HOI训练策略,通过注意力对现有HOI模型进行增强。作者认为这项工作不仅对目标导向注意力的研究和应用具有启发性,而且在DNNs的可解释性评估、人工智能协作和价值观对齐研究等领域也具有潜在应用。

需要的同学扫码添加我

回复“注意力机制模型16”即可全部领取

图片

3、HPNet: Dynamic Trajectory Forecasting with Historical Prediction Attention

图片

-HPNet旨在提高自动驾驶系统中道路参与者轨迹预测的稳定性和准确性。与现有主流方法不同,HPNet采用了一种动态的轨迹预测范式,不仅利用历史帧信息,还考虑了历史预测。

-文章指出,先前的轨迹预测方法通常独立地在相邻时间步进行预测,这可能导致潜在的不稳定性问题和时间上的不一致性。为了解决这些问题,HPNet引入了一个名为Historical Prediction Attention(历史预测注意力)的模块,该模块能够自动编码连续预测之间的动态关系。此外,HPNet还将注意力范围扩展到当前可见窗口之外,利用历史预测信息。

-HPNet由三个主要部分组成:时空上下文编码、三因素分解注意力和多模态输出。首先,通过模式查询聚合时空上下文,形成初步的预测嵌入。然后,三因素分解注意力(包括代理注意力、历史预测注意力和模式注意力)分别对代理、预测和模式之间的交互进行建模,以获得更丰富的预测嵌入。最后,嵌入被解码为多模态未来轨迹。

-文章通过在Argoverse和INTERACTION数据集上的实验表明,HPNet实现了最先进的性能,生成了准确和稳定的未来轨迹。HPNet的代码已在GitHub上公开。

-具体来说,HPNet利用图神经网络对代理和地图的特征进行编码,并采用相对时空位置编码。它通过两层MLP对代理的独立于位置的特征进行编码,并使用类似的MLP对地图特征进行编码。HPNet还采用了时空注意力机制,包括时间注意力和空间注意力,分别聚合代理的历史嵌入和模拟代理-车道交互。

-在三因素分解注意力中,代理注意力模块通过自注意力机制在每个模式和时间步骤上跨代理进行操作,以模拟代理之间的交互。历史预测注意力模块则通过自注意力机制将当前预测嵌入与历史预测嵌入相结合,动态地建模连续预测之间的内在相关性。模式注意力进一步在不同模式之间应用自注意力,增强多模态输出。

-最后,预测嵌入通过两层MLP解码为多个未来位置,并通过整个流程再次输入以进一步细化预测轨迹。训练目标采用winner-takes-all策略,优化模型。

-文章还进行了消融研究,分析了三因素分解注意力中各个注意力模块的重要性,并探讨了历史预测注意力对预测准确性和稳定性的影响。此外,还研究了历史预测注意力对反应及时性的影响。

-总之,HPNet通过引入历史预测注意力,显著提高了轨迹预测的准确性和稳定性,对自动驾驶系统的决策和安全性具有重要意义。

需要的同学扫码添加我

回复“注意力机制模型16”即可全部领取

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/38798.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

快团团团长如何导出自提点订单?免费教程一学就会

快团团团长如何导出自提点订单? 一、xcx端如何导出自提点订单? 进入团购页面,在订单管理——订单导出中,可导出自提点商品汇总单和自提点订单 注意:只有自提团才能导出自提点商品汇总表 二、电脑端如何导出自提点订…

汇聚荣拼多多电商好不好?

拼多多电商好不好?这是一个值得探讨的问题。拼多多作为中国领先的电商平台之一,以其独特的商业模式和创新的营销策略吸引了大量用户。然而,对于这个问题的回答并不是简单的好或不好,而是需要从多个方面进行综合分析。 一、商品质量 来看拼多…

YOLOv8改进 | 主干网络 | C2f融合动态卷积模块ODConv

💡💡💡本专栏所有程序均经过测试,可成功执行💡💡💡 专栏目录 :《YOLOv8改进有效涨点》专栏介绍 & 专栏目录 | 目前已有40篇内容,内含各种Head检测头、损失函数Loss、…

C#中的时间数据格式化详解与应用示例

文章目录 1、基本概念基本格式化方法 2、实用的时间格式化方法格式化日期格式化时间格式化时间戳解析日期时间字符串 3、实际应用4、应用示例结论 在软件开发中,时间数据是无处不在的。无论是用户登录时间、数据备份时间,还是日志记录,都需要…

复兴社开展金融知识普及活动

复兴社自成立以来,始终致力于推动全国经济发展、实现共同富裕。金融知识的普及是实现这一目标的重要环节。为此,复兴社在全国范围内开展了一系列金融知识普及活动,旨在提升贫困地区人民的金融素养,助力他们实现经济自立和发展。 复…

【Emacs Verilog mode保姆级的使用指南】

🌈个人主页: 程序员不想敲代码啊 🏆CSDN优质创作者,CSDN实力新星,CSDN博客专家 👍点赞⭐评论⭐收藏 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共…

vision mamba-yolov8:结合Vmamba的yolov8目标检测改进实现

1.vision mamba结构与原理 Mamba成功的关键在于S6模型,该模型为NLP任务设计,通过选择性扫描空间状态序列模型,将二次复杂度降低至线性。但由于视觉信号(如图像)的无序性,Mamba的S6模型不能直接应用&#xf…

SQLAlchemy(alembic)和Flask-SQLAlchemy入门教程

SQLAlchemy 是 Python 生态中最流行的 ORM 类库,alembic 用来做 OMR 模型与数据库的迁移与映射,Flask-SQLAlchemy 是 Flask 的扩展,可为应用程序添加对 SQLAlchemy 的支持,简化 SQLAlchemy 与 Flask 的使用。 一.SQLAlchemy 和 a…

GraphPad Prism生物医学数据分析软件下载安装 GraphPad Prism轻松绘制各种图表

Prism软件作为一款功能强大的生物医学数据分析与可视化工具,其绘图功能尤为突出。该软件不仅支持绘制基础的图表类型,如直观明了的柱状图、展示数据分布的散点图,以及描绘变化趋势的曲线图,更能应对复杂的数据呈现需求&#xff0c…

Excel保存时弹出“请注意,您的文档的部分内容可能包含文档检查器无法删除的个人信息”

前言 Excel保存时弹出“请注意,您的文档的部分内容可能包含文档检查器无法删除的个人信息”,本节会介绍如何查看无法删除的个人信息是什么,以及如何关闭该提示窗口 一、关闭弹窗提醒 1、点击文件 – 选项 2、点击选择信任中心 – 信任中心…

高斯过程的数学理解

目录 一、说明 二、初步:多元高斯分布 三、 线性回归模型与维度的诅咒 四、高斯过程的数学背景 五、高斯过程的应用:高斯过程回归 5.1 如何拟合和推理高斯过程模型 5.2 示例:一维数据的高斯过程模型 5.3 示例:多维数据的高斯过程模…

C#——Property属性详情

属性 属性(Property)是类(class)、结构体(structure)和接口(interface)的成员,类或结构体中的成员变量称为字段,属性是字段的扩展,使用访问器&am…

【漏洞复现】Atlassian Confluence RCE(CVE-2023-22527)

产品简介 Atlassian Confluence 是一款由Atlassian开发的企业团队协作和知识管理软件,提供了一个集中化的平台,用于创建、组织和共享团队的文档、知识库、项目计划和协作内容。是面向大型企业和组织的高可用性、可扩展性和高性能版本。 0x02 漏洞概述 …

<电力行业> - 《第12课:配电(2)》

5 配网的指标 配电网与广大用户紧密联系,所以配电网是否合格还是十分重要的。 评判配电网的标准,主要有四个指标: 供电可靠性:供电可靠性是指针对用户连续供电的可靠程度。网损率:网损率可定义为电力网的电能损耗量与…

HarmonyOS Next开发学习手册——Native XComponent

场景介绍 Native XComponent是XComponent组件提供在Native层的实例,可作为JS层和Native层XComponent绑定的桥梁。XComponent所提供的NDK接口都依赖于该实例。接口能力包括获取Native Window实例、获取XComponent的布局/事件信息、注册XComponent的生命周期回调、注…

.net8 Syncfusion生成pdf/doc/xls/ppt最新版本

新建控制台程序 添加包Syncfusion.Pdf.Net.Core包&#xff0c;当前官方的版本号为26.1.39 直接上代码 Syncfusion.Pdf.PdfDocument pdfDocument new Syncfusion.Pdf.PdfDocument(); for (int i 1; i < 10; i) {var page pdfDocument.Pages.Add();PdfGraphics graphics…

销量位列第一!强力巨彩LED单元板成绩斐然

据全球知名科技研究机构Omdia《LED显示产品出货分析-中国-2023》报告显示&#xff0c;2023年强力巨彩LED显示屏销量与单元板产品销量均位列第一&#xff0c;其品牌和市场优势可见一斑。 厦门强力巨彩自2004年成立之初&#xff0c;便以技术创新和严格品控为核心竞争力&#xff0…

Redis慢查询

Redis慢查询 目录 Redis慢查询慢查询配置慢日志操作返回参数介绍 Redis的慢查询就是当命令执行时间超过预定的阈值后将这条命令记录下来&#xff0c;与MySQL的功能类似 慢查询配置 默认阈值是10毫秒&#xff0c;即10000微秒 临时修改阈值为20毫秒 127.0.0.1:6379> confi…

汽车零部件材料耐候性测试氙光太阳辐射系统试验箱

概述 汽车零部件等领域的材料耐候性测试是一项关键的质量控制环节&#xff0c;它关乎汽车部件在各种气候条件下的性能表现和寿命。塑料件光照老化实验箱&#xff0c;即氙灯老化试验箱&#xff0c;在其中扮演着至关重要的角色。通过模拟自然环境中的光照、温度、湿度等条件&…

哈希表(C++实现)

文章目录 写在前面1. 哈希概念2. 哈希冲突3. 哈希函数4.哈希冲突解决4.1 闭散列4.1.1 线性探测4.1.2 采用线性探测的方式解决哈希冲突实现哈希表4.1.3 二次探测 4.2 开散列4.2.2 采用链地址法的方式解决哈希冲突实现哈希表 写在前面 在我们之前实现的所有数据结构中(比如&…