【Spatial-Temporal Action Localization(七)】论文阅读2022年

文章目录

  • 1. TubeR: Tubelet Transformer for Video Action Detection
    • 摘要和结论
    • 引言:针对痛点和贡献
    • 模型框架
      • TubeR Encoder:
      • TubeR Decoder:
      • Task-Specific Heads:
  • 2. Holistic Interaction Transformer Network for Action Detection
    • 摘要和结论
    • 引言:针对痛点和贡献
    • 模型框架
    • 实验
    • 思考不足之处
  • 3. VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training
    • 摘要和结论
    • 视频数据的特性
    • 模型框架

1. TubeR: Tubelet Transformer for Video Action Detection

《TubeR: Tubelet Transformer for Video Action Detection》论文+代码分析

摘要和结论

1.提出了一种用于人体动作检测的Tubes Transformer的框架

2.基于tubelet-query和tubelet-attention能够生成任意位置和规模的Tubes

3.Classification Head能够聚合短期和长期的上下文信息

引言:针对痛点和贡献

在这里插入图片描述

模型框架

在这里插入图片描述

TubeR Encoder:

在这里插入图片描述

TubeR Decoder:

Tubelet query: 作者提出了一种通过学习一小组tubelet queries来代替手动设计3D anchors的方法,从而更好地表示tubelets的动态特性。其中,每个tubelet query包含了Tout个box query embeddings,用来预测tubelet在每个时间帧上的位置。

  • Tubelet attention: 为了对 tubelet query 中的关系进行建模,提出了一个 tubelet-attention (TA) 模块,其中包含两个自注意力层。self-attention layer:识别动作受益于参与者之间或同一帧中的参与者和对象之间的交互。temporal self-attention layer:这一层是为了方便TubeR查询跟踪演员并生成聚焦于单个演员而非固定区域的动作tubelet。利用TubeR查询来跟踪演员并生成聚焦于单个演员的动作tubelet,并且通过tubelet attention模块生成tubelet查询特征。
  • Decoder: 包含一个 tubelet-attention 模块和一个交叉注意(CA)层,用于从 Fen 和 Fq 解码 tubelet 特定特征 Ftub。
    在这里插入图片描述

Task-Specific Heads:

  • Context aware classification head:
    在这里插入图片描述
    在这里插入图片描述
    我们从骨干特征中查询动作特定特征 Ftub,然后从一些上下文特征 Fcontext 中获取其他信息来增强 Ftub,得到最终的分类特征 Fc。
    当我们将 Fcontext 设置为骨干特征 Fb 以利用短期上下文信息时,称其为短期上下文头。
    短期上下文头采用了自注意力层和交叉注意力层来处理上下文信息和动作特征。

  • Action switch regression head:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

2. Holistic Interaction Transformer Network for Action Detection

摘要和结论

  • 提出了多模态的整体的交互的Transformer网络(multi-modal Holistic InteractionTransformer Network (HIT) ),它利用了大部分被忽视但关键的手和姿势信息,这些信息对大多数人类行为至关重要。
  • 包含RGB流和姿态流的双模态框架。它们中的每一个都分别对人、对象和手的交互进行建模
  • 在每个子网络中,引入了一个模态内聚合模块(IMA,Intra-Modality Aggregation module)来选择性地合并单个交互单元。然后使用注意力融合机制(AFM,Attentive Fusion Mechanism)将每个模态的结果特征粘合在一起。最后,我们从时间上下文中提取线索,以便使用缓存内存更好地对发生的动作进行分类。

引言:针对痛点和贡献

痛点:
-首先,这些方法只依赖于检测置信度高的对象,可能会忽略一些重要的对象,这些对象可能太小而无法被检测,或者是检测模型无法识别的新对象。例如,在图1中,演员正在与一些未被检测到的对象互动。
其次,这些模型很难检测与当前帧中不存在的对象相关的动作。例如,考虑动作“指向(一个对象)”,演员指向的对象可能不在当前帧中。
在这里插入图片描述

贡献:

  • 我们提出了一种新颖的框架,结合了 RGB、姿势和手部特征来进行动作检测。combines RGB, pose and hand features
  • 我们介绍了一种双模整体交互转换器(bi-modal Holistic Interaction Transformer,HIT)网络,它以直观和有意义的方式结合了不同类型的交互。
  • 我们提出了一个注意力融合模块(AFM),它作为一个选择性过滤器,保留每个模态中信息最丰富的特征,以及一个模态内聚合器(IMA),用于学习模态内有用的动作表示。

模型框架

在这里插入图片描述

  • 我们使用 Detectron [9] 进行人体姿势检测,并创建一个包围人手位置的边界框。遵循最先进的方法[40]、[32]、[28],我们使用 Faster-RCNN [31] 来计算对象边界框建议。视频特征提取器是一个 3D CNN 主干网络 [5],姿势编码器是受 [51] 启发的轻量级空间变换器。我们应用 ROIAlign [12] 来修剪视频特征并提取人、手和物体特征。

  • The RGB Branch:
    RGB 分支包含三个主要组件,如图 2 所示。每个组件都执行一系列操作以了解有关目标人员的特定信息。
    人物交互模块学习当前帧中人与人之间的交互(或者当帧仅包含一个主体时的自我交互)。
    物体和手交互模块分别模拟人-物体和人-手交互。
    每个交互单元的核心是交叉注意力计算,其中查询是目标人(或前一个单元的输出),键和值来自对象或手特征,具体取决于哪个模块我们现在处于(见图 3)。
    在这里插入图片描述

  • The Pose Branch:
    在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

  • The Attentive Fusion Module (AFM):
    RGB 和姿势流需要先组合成一组特征,然后再馈送到动作分类器。为此,我们提出了一个注意力融合模块,该模块应用两个特征集的通道级联,然后进行自我关注以进行特征细化。
    然后,我们通过使用所使用的投影矩阵 θf 来减少输出特征的大小。我们的消融研究中的表 5a 验证了我们的融合机制与文献中使用的其他融合类型相比的优越性。
    在这里插入图片描述
    -Temporal Interaction Unit:

在这里插入图片描述

实验

Backbone: 我们采用 SlowFast 网络 [5] 作为我们的视频主干网。
Person and Object Detector: 我们从数据集中的每个视频中提取关键帧,并使用[16]中检测到的人物边界框进行推理。作为目标检测器,我们采用 Faster-RCNN [31] 和 ResNet-50-FPN [21, 47] 主干网络。
Keypoints Detection and Processing: 我们采用 Detectron [9] 的姿势模型。作者使用在 ImageNet 上预训练的 Resnet-50-FPN 主干网络进行对象检测。

思考不足之处

  • 我们的框架依赖于使用的现成检测器和姿态估计器,并且不考虑它们的失败。 AVA数据集的大量帧拥挤且质量低。因此,检测器和姿态估计器的准确性可能会影响我们的方法。
  • 通过分析 J-HMDB 数据集的结果,我们发现了两个主要原因。第一个涉及外观相似的类,例如“throw”和“catch”,它们在视觉上是相同的。
  • 二是部分遮挡。请参阅补充材料以获取有关限制的更深入讨论。然而,在这种情况下,对象被遮挡。因此,该模型很难区分“高尔夫”和“摇摆棒球”。那么我们应该如何着手解决这些问题呢?就我们而言,我们尝试汇总尽可能多的信息。然而,拥有如此多的信息是昂贵的。这些问题的最佳答案是更好的时间支持,但这会引发另一个问题:我们如何定义“更好的时间支持”?虽然有些人可能主张更扩展的时间支持,但它会增加计算开销,同时不一定会转化为更高的检测精度。有些行动需要长期的支持,有些需要很少的支持,有些则不需要;因此,决定保留多少内存是具有挑战性的。而如果我们保留更长的内存跨度,那么对特征进行压缩的需求就会更加迫切,而大多数现有的压缩方法都是有损的。

3. VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training

摘要和结论

VideoMAE的自监督视频预训练方法,其使用高比例的自定义视频管道遮罩video tube masking来进行视频重构,从而鼓励提取更有效的视频表示。
作者发现,高比例的遮罩仍然可以使VideoMAE表现良好,1)极高比例的掩蔽率(即 90% 到 95%)仍然对 VideoMAE 产生了良好的性能。时间冗余视频内容比图像具有更高的掩蔽率。
并且该方法可以在非常小的数据集上取得令人印象深刻的结果。
此外,作者还发现,数据质量比数据数量更重要,因为预训练数据集与目标数据集之间的领域转移是一个重要因素。

视频数据的特性

与图像数据相比,视频数据包含了更多的帧,也具有更加丰富的运动信息。
在这里插入图片描述
在这里插入图片描述
解决方法:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

模型框架

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/84333.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

stm32学习-芯片系列/选型/开发方式

【03】STM32HAL库开发-初识STM32 | STM概念、芯片分类、命名规则、选型 | STM32原理图设计、看数据手册、最小系统的组成 、STM32IO分配_小浪宝宝的博客-CSDN博客  STM32:ST是意法半导体,M是MCU/MPU,32是32位。  ST累计推出了&#xff1a…

七天学会C语言-第五天(函数)

1. 调用有参函数 有参函数是一种接受输入参数(参数值)并执行特定操作的函数。通过向函数传递参数,你可以将数据传递给函数,让函数处理这些数据并返回结果。 例1:编写一程序,要求用户输入4 个数字&#xf…

MYSQL存储引擎基础知识介绍

下面重点介绍几种常用的存储引擎,并对比各个存储引擎之间的区别,以帮助读者理解 不同存储引擎的使用方式。 MyISAM MyISAM是 MySQL的默认存储引擎。MyISAM不支持事务、也不支持外键,其优势是访 问的速度快,对事务完整性没有要求或者以 SEL…

Postman应用——接口请求和响应(Get和Post请求)

文章目录 新增Request请求Get请求Post请求 Request请求响应Postman响应界面说明请求响应另存为示例(模板)Postman显示的响应数据清空请求响应数据保存到本地文件 这里只讲用的比较多的Get和Post请求方式,也可以遵循restful api接口规范&#…

laravel-admin联动选择展示时ueditor样式错乱

问题 录入内容时,根据资源类型,展示不同的需要录入的内容,很常见的功能,但是在切换时,编辑器一直出不来,如图: 代码如下: $form->radio(type, 资源类型)->when(2, function…

Leetcode152. 连续子数组的最大乘积

力扣(LeetCode)官网 - 全球极客挚爱的技术成长平台 给你一个整数数组 nums ,请你找出数组中乘积最大的非空连续子数组(该子数组中至少包含一个数字),并返回该子数组所对应的乘积。 测试用例的答案是一个 32…

基于51单片机多路DTH11温湿度检测控制系统

一、系统方案 1、本设计采用51单片机作为主控器。 2、DHT11采集温度度,支持3路温度度,液晶1602显示。 3、按键设置报警阀值。 4、系统声光报警。 二、硬件设计 原理图如下: 三、单片机软件设计 1、首先是系统初始化 //初始化LCD*********…

本地项目上传至码云gitee

1、springboot-mgx是需要上传的项目 2、码云后台创建一个新的仓库 3、创建完成后,复制下来https链接,后面要用到。 4、进入项目要上传的文件中 5、对git进行初始化,git指令 git init 6、 上传项目至gitee (1)连接远…

大数据之-Flink学习笔记

Flink Apache Flink — 数据流上的有状态计算。 Apache Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算处理。 任何类型的数据都以事件流的形式生成。信用卡交易、传感器测量、机器日志或网站或移动应用程序 2上的用户交互,…

如何通过百度SEO优化提升网站排名(掌握基础概念,实现有效优化)

随着互联网的发展,搜索引擎优化(SEO)成为了网站优化中不可或缺的一部分。在中国,百度搜索引擎占据着主导地位,因此掌握百度SEO概念和优化技巧对网站的排名和曝光非常重要。 百度SEO排名的6个有效方法: 首…

CTF —— 网络安全大赛(这不比王者好玩吗?)

前言 随着大数据、人工智能的发展,人们步入了新的时代,逐渐走上科技的巅峰。 \ ⚔科技是一把双刃剑,网络安全不容忽视,人们的隐私在大数据面前暴露无遗,账户被盗、资金损失、网络诈骗、隐私泄露,种种迹象…

PostgreSQL设置主键为自增

1、创建自增序列 CREATE SEQUENCE table_name_id_seq START 1; 2、设置字段默认值 字段默认值中设置 nextval(table_name_id_seq) 3、常用查询 -- 查询所有序列 select * from information_schema.sequences where sequence_schema public; -- 查询自增序列的当前值 select cu…

2023年浙工商MBA新生奖学金名单公布,如何看待?

浙工商MBA项目官方最新公布了2023年的非全日制新生奖学金名单,按照政策约定,共分为特等奖学金1名,一等奖学金10名,二等奖学金15名,三等奖学金30名,额度对应3万、1万、0.8万、0.5万不等,主要名单…

Mac电脑安装Zulu Open JDK 8 使用 spring-kafka 消费不到Kafka Partition中的消息

一、现象描述 使用Mac电脑本地启动spring-kakfa消费不到Kafka的消息,监控消费组的消息偏移量发现存在Lag的消息,但是本地客户端就是拉取不到,通过部署到公司k8s容器上消息却能正常消费! 本地启动的服务消费组监控 公司k8s容器服…

C语言入门Day_23 指针的使用

目录 前言: 1.指针运算符 2.指针的运算和使用 3.易错点 4.思维导图 前言: 上一篇博客中我们了解到指针的两个运算符号": 一个是星号*,一个是&,他们的名字分别是指针运算符和取地址运算符。 1.指针运算…

QT-day5

1、添加注册功能到数据库 头文件 #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include <QMessageBox> //消息对话框类头文件 #include <QDebug> #include <QPushButton> #include <QSqlDatabase> //数据库管理类 #include…

Vue路由和Node.js环境搭建

文章目录 一、vue路由1.1 简介1.2 SPA1.3 实例 二、Node.js环境搭建2.1 Node.js简介2.2 npm2.3 环境搭建2.3.1 下载解压2.3.2 配置环境变量2.3.3 配置npm全局模块路径和cache默认安装位置2.3.4 修改npm镜像提高下载速度 2.4 运行项目 一、vue路由 1.1 简介 Vue 路由是 Vue.js…

C++项目:仿mudou库实现高性能高并发服务器

文章目录 一、实现目标二、前置知识&#xff08;一&#xff09;HTTP服务器1.概念2.Reactor模型&#xff1a;3.分类 一、实现目标 仿muduo库One Thread One Loop式主从Reactor模型实现高并发服务器&#xff1a; 通过咱们实现的高并发服务器组件&#xff0c;可以简洁快速的完成⼀…

【深度学习】卷积神经网络(LeNet)【文章重新修改中】

卷积神经网络 LeNet 前言LeNet 模型代码实现MINST代码分块解析1 构建 LeNet 网络结构2 加载数据集3 初始化模型和优化器4 训练模型5 训练完成 完整代码 Fashion-MINST代码分块解析1 构建 LeNet 网络结构2 初始化模型参数3 加载数据集4 定义损失函数和优化器5 训练模型 完整代码…

云服务器ECS_云主机_服务器托管_计算-阿里云

阿里云服务器是什么&#xff1f;云服务器ECS是一种安全可靠、弹性可伸缩的云计算服务&#xff0c;云服务器可以降低IT成本提升运维效率&#xff0c;免去企业或个人前期采购IT硬件的成本&#xff0c;阿里云服务器让用户像使用水、电、天然气等公共资源一样便捷、高效地使用服务器…