【Spatial-Temporal Action Localization(六)】论文阅读2021年

文章目录

  • 1. MultiSports: A Multi-Person Video Dataset of Spatio-Temporally Localized Sports Actions
    • 摘要和结论
    • 引言:针对痛点和贡献
    • 数据特点
  • 2. Actor-Context-Actor Relation Network for Spatio-Temporal Action Localization
    • 摘要和结论
    • 引言:针对痛点和贡献
    • 模型框架
    • 实验
  • 3. Relation Modeling in Spatio-Temporal Action Localization
    • 摘要和结论
    • 模型框架
      • 长尾数据的学习策略

1. MultiSports: A Multi-Person Video Dataset of Spatio-Temporally Localized Sports Actions

[ICCV 2021] MultiSports:面向体育运动场景的细粒度多人时空动作检测数据集

摘要和结论

基于对现有数据集的分析,作者认为他们不能满足现实应用对时空动作检测技术的需求,需要提出一个新的数据集来推动这个领域的进步。
我们希望这个数据集满足以下特征:

  • 多人:在同一场景下,不同的人做不同的细粒度动作,减少背景提供的信息。
  • 分类:细粒度动作类别,定义准确,需要刻画人物本身动作,长时信息建模,人与人、与物、与环境的关系建模,推理。
  • 时序:动作边界定义准确。
  • 跟踪:运动速度快,形变大,存在遮挡

引言:针对痛点和贡献

痛点:
在这里插入图片描述

贡献:

提出了一个新数据集MultiSports。

数据特点

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

2. Actor-Context-Actor Relation Network for Spatio-Temporal Action Localization


摘要和结论

最近的进展是通过对实体之间的直接成对关系建模来实现的。在本文中,我们更进一步,不仅模拟了对之间的直接关系,而且还考虑了建立在多个元素上的间接高阶关系。
设计了一个 Actor-Context-Actor 关系网络 (ACAR-Net),它建立在一个新的高阶关系推理算子和一个 Actor-Context 特征库的基础上,以实现时空动作定位的间接关系推理。

引言:针对痛点和贡献

痛点:

  • 以前的工作使用图神经网络 (GNN) 隐式建模参与者和上下文对象之间的高阶交互 。然而,在这些方法中,需要额外的预先训练的对象检测器,只使用定位的对象作为上下文
  • 这些方法中的高阶关系仅限于仅从上下文对象中推断出来,这可能会错过动作分类的重要环境或背景线索。
    贡献:
  • 推理操作使用 Actor-Context Feature Bank (ACFB) 进行扩展。

模型框架

在这里插入图片描述

  • 该框架是基于一个现成的人体检测器(例如 Faster R-CNN )和一个视频骨干网络(例如 I3D)。然后,建议的 ACAR 模块使用长期 Actor-Context 特征库处理人物和上下文特征,以进行最终动作预测。
  • ACAR 模块有两个主要操作。 (1) 它首先编码演员之间的一阶演员-上下文关系和时空上下文的空间位置。基于参与者-上下文关系,我们进一步集成了一个高阶关系推理算子( H R 2 O ) ( HR ^2 O)(HR 2 O),用于对一阶关系对之间的交互进行建模,这些一阶关系是以前的方法大多忽略的间接关系。 (2) 我们的推理操作通过 Actor-Context Feature Bank (ACFB) 进行了扩展。该库包含不同时间戳的参与者-上下文关系,并且可以提供比现有的仅包含参与者特征的长期特征库[46]更完整的时空上下文。

实验

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

热图说明了来自参与者-上下文-参与者关系推理的上下文区域的注意力权重 Atti,j。我们观察到我们的模型已经学会了关注参与者和上下文之间的有用关系,上下文是连接演员的桥梁。

3. Relation Modeling in Spatio-Temporal Action Localization

摘要和结论

  • 我们的解决方案利用多种类型的关系建模 Relation Modeling 方法进行时空动作检测
  • 并采用端到端集成多种关系建模的训练策略对两个大规模视频数据集进行训练。
  • 还研究了记忆库学习和长尾分布的微调,以进一步提高性能。

模型框架

首先采用现成的人体检测器来生成视频中的所有人体边界框。然后我们采用骨干模型来提取视觉特征,并通过 roi align 在每个人的特征图上构建关系模块。在关系模块之后,使用动作预测器为每个动作类别生成分数。

在这里插入图片描述

  • 给定输入视频剪辑,提取该剪辑的关键帧并将其输入 2D 人物检测器,以生成该剪辑内的人物边界框。
  • 整个视频剪辑按指定间隔采样为帧,并使用视频主干进行编码,例如SlowFast 和 CSN ,输出 3D 视频特征图。
  • 然后,2D 人物框沿时间维度膨胀,并用于通过 3D RoI-Align 从特征图中提取人物特征。
  • 池化的人物特征通过通道级联和卷积层进一步与视频特征图融合在一起。
  • 为了对同一视频剪辑中的人物之间的隐藏关系进行建模,以提高动作预测的有效性,我们使用基于transformer的块将人物特征输入到我们的关系建模模块中。
  • 为了指定空间和时间关系,我们从不同的人中选择沿相同空间或时间维度的特征。选定的特征被展平为一系列标记,并输入到transformer编码器块中,以通过注意机制对它们的关系进行建模。
  • 最后,所有块在空间或时间维度上的输出标记被全局平均并输入全连接层以预测每个检测到的人的动作类别。

长尾数据的学习策略

我们考虑[11]中的解耦策略。训练过程被解耦为两个阶段。第一阶段遵循使用随机采样数据的正常训练策略。在第二阶段,我们冻结除最终分类器之外的所有模型,并使用类平衡数据采样进行训练。这样的策略有助于提高小类的表现。

[11] Decoupling Representation and Classifier for Long-Tailed Recognition

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/90042.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

视频监控平台客户端开发记录

效果图 所用到的核心技术 QT信号槽机制;布局器;QStylesheet;QStackedWidget;QTreeView;QTableView;QNetworkAccessManager;Tr();QT信号槽机制 信号槽机制是QT的精华,主要解决UI界面中事件与事件响应的关联关系。QT将界面的操作(如点击按钮、拖动窗口等)定义为信号,…

如何管理好公司的公海客户呢?

销售周期比较长,线索处理比较繁琐,想知道用哪些系统可解决这一问题? 很简单,针对客户管理繁杂,线索复杂的问题,crm系统中的公海池就可以轻松解决。 接下来我将以简道云为例为大家进行详细的公海池介绍 ht…

TouchGFX界面开发 | 项目代码结构分析

项目代码结构分析 本文介绍TouchGFX项目中TouchGFX Designer自动生成的代码,以及需要用户编写的扩展代码。 一、生成的代码和用户代码 TouchGFX Designer生成的代码将与用户编写的代码完全分离。 事实上,自动生成的代码位于generated/gui_generated文…

美国零售电商平台Target,值得入驻吗?如何入驻?

Target 是美国最大的零售商之一,在品牌出海为大势所趋的背景下,它在北美电商中的地位节节攀升。Target 商店在众多垂直领域提供各种价格实惠的自有品牌,吸引越来越多的跨境商家入驻,如美妆、家居、鞋服、日用百货等,随…

【kubernetes】使用virtual-kubelet扩展k8s

1 何为virtual-kubelet? kubelet是k8s的agent,负责监听Pod的调度情况,并运行Pod。而virtual-kubelet不是真实跑在宿主机上的,而是一个可以跑在任何地方的进程,该进程向k8s伪装成一个真实的Node,但是实际的…

Goby 漏洞发布|Cockpit 平台 upload 文件上传漏洞(CVE-2023-1313)

漏洞名称:Cockpit 平台 upload 文件上传漏洞(CVE-2023-1313) English Name: Cockpit File Upload Vulnerability(CVE-2023-1313) CVSS core:7.2 影响资产数:3185 漏洞描述: Cockpit 是一个自托管、灵活…

MATLAB m文件格式化

记录一个网上查到的目前感觉挺好用的格式化方法。 原链接: https://cloud.tencent.com/developer/article/2058259 压缩包: 链接:https://pan.baidu.com/s/1ZpQ9qGLY7sjcvxzjMPAitw?pwd6666 提取码:6666 下载压缩包&#xf…

Abdroid - 开机动画修改

安卓都有开机动画 从安卓4.0或者更早截止到目前的安卓13版本。安卓开机顺序简单的来说就是开机第一屏---开机动画---进入系统桌面的步骤。相比开机第一屏来说。开机动画的修改就比较简单。因为所有的开机动画基本格式百分90都是相同的。区别就在于其中的图片分辨率和加载的脚本…

插入排序与希尔排序

个人主页:Lei宝啊 愿所有美好如期而遇 前言: 这两个排序在思路上有些相似,所以有人觉得插入排序和希尔排序差别不大,事实上,他们之间的差别不小,插入排序只是希尔排序的最后一步。 目录 前言:…

DevSecOps 将会嵌入 DevOps

通常人们在一个项目行将结束时才会考虑到安全,这么做会导致很多问题;将安全融入到DevOps的工作流中已产生了积极结果。 DevSecOps:安全正当时 一直以来,开发人员在构建软件时认为功能需求优先于安全。虽然安全编码实践起着重要作…

套接字socket编程的基础知识点

目录 前言(必读) 网络字节序 网络中的大小端问题 为什么网络字节序采用的是大端而不是小端? 网络字节序与主机字节序之间的转换 字符串IP和整数IP 整数IP存在的意义 字符串IP和整数IP相互转换的方式 inet_addr函数(会自…

LINUX|ubuntu常用指令

文章目录 查看IP显示当前路径下所有文件安装编译工具GCC、调试工具GDB、连接工具SSHmkdir 创建目录export命令显示当前系统定义的所有环境变量echo $PATH命令输出当前的PATH环境变量的值当前命令行添加环境变量,关闭失效,防止多版本库冲突时使用sudo su打…

【JAVA】飞机大战

代码和图片放在这个地址了: https://gitee.com/r77683962/fighting/tree/master 最新的代码运行,可以有两架飞机,分别通过WASD(方向),F(发子弹);上下左右(控…

Xcode 15 运行<iOS 14, 启动崩溃问题

如题. Xcode 15 启动 < iOS 14(没具体验证过, 我的问题设备是iOS 13.7)真机设备 出现启动崩溃 解决方案: Build Settings -> Other Linker Flags -> Add -> -ld64

标题:探寻电大搜题,广东开放大学的智慧之旅

随着信息技术的快速发展和互联网的普及&#xff0c;越来越多的人开始选择通过电大学习。作为知名的广东开放大学&#xff0c;一直致力于提供高质量的教育资源&#xff0c;让更多人实现自己的梦想。在这个过程中&#xff0c;电大搜题微信公众号成为了学生们的得力助手&#xff0…

Java技术接单

今天给大家介绍一个阶段性&#xff08;周期性&#xff09;能获取一定收益的Java技术接单群&#xff0c;分享给大家&#xff01;主要对搞Java的粉丝有帮助&#xff0c;因为可以赚点小钱&#xff0c;对Java技术的要求不高&#xff01; 注意&#xff1a;首先进群不是免费的&#…

PHP8的静态变量和方法-PHP8知识详解

我们在上一课程讲到了public、private、protected这3个关键字&#xff0c;今天我们来讲解static关键字&#xff0c;明天再讲解final关键字。 如果不想通过创建对象来调用变量或方法&#xff0c;则可以将该变量或方法创建为静态变量或方法&#xff0c;也就是在变量或方法的前面…

Flink窗口

窗口&#xff08;Window&#xff09; package com.atguigu.window;import com.atguigu.bean.WaterSensor; import com.atguigu.functions.WaterSensorMapFunction; import org.apache.flink.streaming.api.datastream.KeyedStream; import org.apache.flink.streaming.api.dat…

php框架thinkPHP6的安装教程

1&#xff0c;composer官网下载最新版本 composerhttps://getcomposer.org/download/ 2&#xff0c;双击下载后的运行文件&#xff0c;一直点击next就行了 上面这个路径根据自己安装的php版本位置选择&#xff08;没有的可以下载一个phpstudy&#xff09;&#xff0c;最后需要…

2023 “华为杯” 中国研究生数学建模竞赛(F题)深度剖析|数学建模完整代码+建模过程全解全析

F题代码思路 当大家面临着复杂的数学建模问题时&#xff0c;你是否曾经感到茫然无措&#xff1f;作为2021年美国大学生数学建模比赛的O奖得主&#xff0c;我为大家提供了一套优秀的解题思路&#xff0c;让你轻松应对各种难题。 让我们一起看看研赛的F题呀&#xff01;全文都已…