基于骨骼的动作识别的行动结构图卷积网络

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • 摘要
  • Abstract
  • 文献阅读:基于骨骼的动作识别的行动结构图卷积网络
    • 1、研究背景
    • 2、方法提出
    • 3、关键结构
      • 3.1、A-links inference module (AIM)
      • 3.2、Structural Links (S-links)
    • 4、方法优势
    • 5、试验
    • 6、结论
  • 二、U-net代码结构学习
  • 总结


摘要

本周主要阅读了CVPR文章,基于骨骼的动作识别的行动结构图卷积网络。文章提出了一种名为AS-GCN的新型网络结构,用于处理基于骨架数据的人体动作识别问题。AS-GCN通过引入编码器-解码结构的A-link推理模块,可以直接从动作中捕捉到动作特定的潜在依赖关系。AS-GCN还扩展了现有的骨架图,以表示更高阶的依赖关系,即结构链接。通过将这两种类型的链接合并到一个通用的骨架图中。除此之外,还学习学习了U-net代码的学习。

Abstract

This week, I mainly read CVPR articles on action structure graph convolutional networks for skeleton based action recognition. The article proposes a novel network structure called AS-GCN for handling human motion recognition problems based on skeleton data. AS-GCN can directly capture action specific potential dependencies from actions by introducing an A-link inference module with an encoder decoding structure. AS-GCN also extends the existing skeleton graph to represent higher-order dependencies, namely structural links. By merging these two types of links into a common skeleton diagram. In addition, I also learned how to learn U-net code.


文献阅读:基于骨骼的动作识别的行动结构图卷积网络

Title: Vision Transformer with Super Token Sampling
Author:Maosen Li1, Siheng Chen, Xu Chen, Ya Zhang, Yanfeng Wang, and Qi Tian
From:2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)

1、研究背景

基于骨骼数据的动作识别方法逐渐受到研究者的关注。与RGB图像相比,骨骼数据具有对光照、颜色等外部因素不敏感的特性,因此更加鲁棒。此外,骨骼数据能够直接描述人体的运动状态,包含了丰富的动作信息。因此,基于骨骼数据的动作识别方法具有更高的识别准确率和更强的适应性。然而,尽管基于骨骼数据的动作识别方法具有诸多优势,但仍然存在一些挑战。例如,如何有效地提取和利用骨骼数据中的空间和时间信息,以及如何捕捉不同关节点之间的依赖关系等。针对这些问题,研究者们提出了一系列基于图卷积网络(GCN)的骨骼动作识别方法。这些方法通过构建人体骨骼图,并利用图卷积操作来提取骨骼数据中的特征,取得了显著的效果。

2、方法提出

文章提出了一种名为AS-GCN的新型网络结构,用于处理基于骨架数据的人体动作识别问题。AS-GCN通过引入编码器-解码结构的A-link推理模块,可以直接从动作中捕捉到动作特定的潜在依赖关系,即动作链接。同时,AS-GCN还扩展了现有的骨架图,以表示更高阶的依赖关系,即结构链接。通过将这两种类型的链接合并到一个通用的骨架图中,AS-GCN进一步提出了动作结构图卷积网络(AS-GCN),该网络将动作结构图卷积和时序卷积作为基本构建块,以学习用于动作识别的空间和时间特征。此外,AS-GCN还添加了一个未来的姿态预测头,通过自我监督来捕捉更详细的动作模式。
在这里插入图片描述

3、关键结构

3.1、A-links inference module (AIM)

AIM由一个编码器和一个解码器构成,通过对两个节点之间的Action-link(即潜在的隐性依赖关系)进行推断,来预测未来节点的位置,即进行未来行为预测。具体来说,AIM的工作流程大致如下:首先将上一时刻节点的关系数据放入编码器进行编码,然后解码器对编码后的数据进行解码。通过这一编码-解码过程,AIM能够推断出节点之间的潜在依赖关系,即Action-link,从而预测未来节点的位置和行为。
在这里插入图片描述

3.2、Structural Links (S-links)

Structural Links(S-links)是一种关键的链接方式,主要用于提取骨骼数据中关节点之间的结构信息。S-links特别关注于物理上相邻的关节点之间的关系,这有助于模型捕捉人体骨架的局部结构特征。通过S-links,AS-GCN能够更精确地理解人体各个部分如何协同工作以完成各种动作。这对于动作识别和行为分析至关重要,因为人体动作通常是由多个关节的协同运动所构成的。

4、方法优势

过去的方法主要存在两点不足的地方:1、仅仅基于关节之间的固定骨架建模;2、仅捕获关节之间的局部物理依赖性。相比过去的方法AS-GCN 利用 actional links 去捕捉任何结点之间的潜在关系,利用 structural links 去捕捉一些 high order features。通过解决这些问题AS-GCN有着以下的有点:

  • 强大的表征能力:通过图卷积的方式,AS-GCN能够自动学习人体骨骼数据中的空间和时间模式,从而实现对复杂动作的准确识别。
  • 良好的泛化性能:由于AS-GCN是从数据中自动学习特征,因此它对于不同的动作类型和场景具有较强的适应性,能够较好地应对各种复杂情况。
  • 高鲁棒性:人体骨骼数据对光照、颜色等外部因素的变化不敏感,因此基于骨骼的动作识别方法通常具有更高的鲁棒性。

5、试验

首先,实验采用了多个公开的骨骼动作识别数据集,如NTU RGB+D、Kinetics等,用于训练和测试AS-GCN模型。这些数据集包含了丰富的动作类别和样本,有助于全面评估模型的性能。其次,实验对比了AS-GCN与其他先进的骨骼动作识别方法的性能。通过比较准确率、召回率、F1值等评估指标,实验证明了AS-GCN在动作识别任务上的优越性。特别是在处理复杂动作和捕捉细微动作差异方面,AS-GCN表现出了更高的识别精度。
在这里插入图片描述
此外,实验还探究了AS-GCN模型中各个组件(如A-links、S-links和Action-link inference module)对性能的影响。通过对比不同配置下的模型性能,实验分析了各个组件的作用和贡献,进一步验证了AS-GCN设计的合理性。
在这里插入图片描述

6、结论

文章提出了用于基于骨架的动作识别的动作结构图卷积网络(AS-GCN)。A-link推理模块捕获动作依赖关系,还扩展了骨架图来表示高阶关系。广义图被馈送到AS-GCN块以更好地表示动作。一个额外的未来姿势预测头通过自我监督捕捉更详细的模式。在实验步骤,使用两个数据集NTU-RGB+D和Kinetics验证了AS-GCN的行为识别。与以前的方法相比,AS-GCN实现了很大的改进。此外,AS-GCN在未来姿态预测方面也显示出了很有希望的结果。

二、U-net代码结构学习

class UNet(nn.Module):  def __init__(self, in_channels: int, out_channels: int):  super().__init__()  # 初始化下采样路径的卷积层  self.down_conv = nn.ModuleList([DoubleConvolution(i, o) for i, o in  [(in_channels, 64), (64, 128), (128, 256), (256, 512)]])  # 初始化下采样操作  self.down_sample = nn.ModuleList([DownSample() for _ in range(4)])  # 初始化最底层(桥接部分)的卷积层  self.middle_conv = DoubleConvolution(512, 1024)  # 初始化上采样路径的上采样操作  self.up_sample = nn.ModuleList([UpSample(i, o) for i, o in  [(1024, 512), (512, 256), (256, 128), (128, 64)]])  # 初始化上采样路径的卷积层  self.up_conv = nn.ModuleList([DoubleConvolution(i, o) for i, o in  [(1024, 512), (512, 256), (256, 128), (128, 64)]])  # 初始化拼接操作,用于将上采样后的特征图与下采样路径的特征图拼接  self.concat = nn.ModuleList([CropAndConcat() for _ in range(4)])  # 初始化最终的卷积层,用于输出  self.final_conv = nn.Conv2d(64, out_channels, kernel_size=1)  def forward(self, x: torch.Tensor):  # 用于存储下采样路径的特征图,以便在解码时拼接  pass_through = []  # 下采样路径  for i in range(len(self.down_conv)):  x = self.down_conv[i](x)  # 通过卷积层  pass_through.append(x)  # 保存特征图用于上采样时拼接  x = self.down_sample[i](x)  # 进行下采样  # 最底层卷积  x = self.middle_conv(x)  # 上采样路径  for i in range(len(self.up_conv)):  x = self.up_sample[i](x)  # 上采样  # 拼接下采样路径中保存的特征图  x = self.concat[i](x, pass_through.pop())  x = self.up_conv[i](x)  # 通过卷积层  x = self.final_conv(x)  return x

总结

本周主要阅读了CVPR文章,基于骨骼的动作识别的行动结构图卷积网络。文章提出了一种名为AS-GCN的新型网络结构,用于处理基于骨架数据的人体动作识别问题。AS-GCN通过引入编码器-解码结构的A-link推理模块,可以直接从动作中捕捉到动作特定的潜在依赖关系。AS-GCN还扩展了现有的骨架图,以表示更高阶的依赖关系,即结构链接。通过将这两种类型的链接合并到一个通用的骨架图中。除此之外,还学习学习了U-net代码的学习。下周再接再厉!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/766023.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【测试开发学习历程】MySQL分组查询与子查询 + MySQL表的联结操作

目录 1 MySQL分组查询与子查询 1.1 数据分组查询 1.2 过滤分组 1.3 分组结果排序 1.4 select语句中子句的执行顺序 1.5 子查询 2 MySQL表的联结操作 2.1 关系表 2.2 表联结 2.3 笛卡尔积 2.4 内部联结 2.5 外联结 2.6 自联结 2.7 组合查询 1 MySQL分组查询与子查询…

day16-环形链表

问题描述: 给定一个链表的头节点 head ,返回链表开始入环的第一个节点。 如果链表无环,则返回 null。如果链表中有某个节点,可以通过连续跟踪 next 指针再次到达,则链表中存在环。 为了表示给定链表中的环&#xff0…

更改默认的网络状态页面

目录 网络状态码 概念 分类 详解 页面更改 场景 步骤 网络状态码 概念 当浏览者访问一个网页时,浏览者的浏览器会向网页所在服务器发出请求。当浏览器接收并显示网页前,此网页所在的服务器会返回一个包含HTTP状态码的信息头用以响应浏览器的请求…

仿牛客社区项目所有PPT图片

文章目录 第1章 初识Spring Boot,开发社区首页1.1 课程介绍1.1.1 课程目标1.1.2 技术架构1.1.3 开发环境 1.2 搭建开发环境1.2.1 Apache Maven1.2.2 Intellij IDEA1.2.3 Spring Initializer1.2.4 SpringBoot 入门示例 1.3 Spring入门1.3.1 SpringBoot 全家桶1.3.2 S…

SpringBoot 邮件服务集成配置全面解析

前言 本文以网易邮箱(及 163 邮箱)为例,展示如何为 SpringBoot 项目集成邮件服务,其他邮箱配置类似,可以自行查看 Spring Email 指南 或是其他官方文档 授权码 首先我们需要获取授权码,用于后续配置&…

Xpath解析

目录 Xpath的简介: 简介: 相关概念: Xpath的使用: 安装: 用法: 第一步:准备html 第二步:将html构造出etree对象 第三步:使用etree对象的xpath()方法配合xpath表达…

JAVA——volatile,wait,notife

文章目录 volatile关键字简识jvm内存模型内存上的优化问题的产生volatile的作用 wait()wait()的作用 notify()notify的唤醒顺序 volatile关键字 volatile关键字可以保证内存的可见性,什么是内存的可见性呢&#xff1f…

二叉树的链式结构和遍历(下)

又见面了,小伙伴们。今天我们继续来学习二叉树,今天的内容相对来说比较容易理解,前提是需要你们自己动手画图才会好理解。眼过千遍不如手过一遍。所以小伙伴们要多动手哦。直接开始今天的学习吧 1.二叉树链式结构的实现 1.1 前置说明 在学习…

如何成为顶尖程序员?

如何成为顶尖程序员? 程序员是一种特殊的职业,但为什么大多数程序员无法达到顶尖水平?本文探讨了几个可能的原因,包括缺乏热情和动力、基础和原理的不足、实践和经验的匮乏,以及思考和创新的欠缺。了解这些原因可以帮助…

基于SpringBoot+MyBatis+Vue的电商智慧仓储管理系统的设计与实现(源码+LW+部署+讲解)

前言 博主简介👨🏼‍⚕️:国内某一线互联网公司全栈工程师👨🏼‍💻,业余自媒体创作者💻,CSDN博客专家🏆,Java领域优质创作者📕&#x…

Redis中文乱码问题

最近排查问题,发现之前的开发将日志写在redis缓存中(不建议这样做),我在查看日志的时候发现没办法阅读,详细是这样的: 查阅资料后发现是进制问题,解决方法是启动客户端的时候将redis-cli改为red…

【go从入门到精通】if else 条件控制

作者简介: 高科,先后在 IBM PlatformComputing从事网格计算,淘米网,网易从事游戏服务器开发,拥有丰富的C,go等语言开发经验,mysql,mongo,redis等数据库,设计模…

电脑安装双系统windows和ubuntu server

1.创建Ubuntu-server的启动盘 首先要从官网下载Ubuntu-server18.04的ISO文件,用rufs烧录到U盘。如下所示 2. 磁盘分区 在windows创建两个盘(linuxboot 和linuxroot),后面一个一个用于boot,一个用于root. 3.开机U盘启…

Flutter学习10 - Json解析与Model使用

对于网络请求返回的 Json 数据&#xff0c;一般会进行如下解析&#xff1a; 将 Json String 解析为 Map<String, dynamic>将 Json String 解析为 Dart Model 发起一个返回 Json String 的网络请求 import package:http/http.dart as http;void main() {_doGet(); }_do…

用好商用无人自助咖啡机,真正实现“AI智能”制饮!

随着科技的不断进步和智能化技术的广泛应用&#xff0c;商用无人自助咖啡机作为餐饮行业的新宠&#xff0c;正逐渐改变着我们的生活方式和消费体验。通过结合人工智能技术&#xff0c;这些无人自助咖啡机正在实现真正的“AI智能”制饮&#xff0c;为消费者带来全新的咖啡体验。…

Qt 项目使用visual studio 进行开发调试

https://marketplace.visualstudio.com/items?itemNameTheQtCompany.QtVisualStudioTools2015 https://devblogs.microsoft.com/cppblog/bring-your-existing-qt-projects-to-visual-studio/ 正常Qt开发中&#xff0c;使用Qt Creator 进行windows下MSVC编译器的调试是一件挺麻…

Medium 级别反射型 XSS 攻击演示(附链接)

环境准备 如何搭建 DVWA 靶场保姆级教程&#xff08;附链接&#xff09;https://eclecticism.blog.csdn.net/article/details/135834194?spm1001.2014.3001.5502 测试 打开靶场找到该漏洞页面 先右键检查输入框属性 跟 Low 级别是一样的&#xff0c;所以咱们直接输入带 HTM…

如何查看局域网内所有的ip和对应的mac地址

1、windows下查看 方法一、 按快捷键“winr”打开运行界面&#xff0c;输入“CMD”回车: 输入以下命令&#xff1a; for /L %i IN (1,1,254) DO ping -w 1 -n 1 192.168.0.%i 其中 192.168.0.%i 部分要使用要查询的网段&#xff0c;比如 192.168.1.%i 192.168.137.%i 172.16.2…

AI修复老照片的一些参数设置

很久没更新CSDN文章了&#xff0c;这次给粉丝带来老照片修复流程 1>用ps修图 图章工具 笔刷 画笔修复 2>高清放大 3>lineattile 重绘 4>上色 具体可参考我的B站视频。 下面是一些笔记。 best quality,masterpiece,photorealistic,8k,ultra high res,solo,ext…

概念解析 | 现象揭秘:经验模态分解的奥秘

注1:本文系"概念解析"系列之一,致力于简洁清晰地解释、辨析复杂而专业的概念。本次辨析的概念是:经验模态分解(Empirical Mode Decomposition, EMD) 概念解析 | 现象揭秘:经验模态分解的奥秘 Decomposing Signal Using Empirical Mode Decomposition — Algorith…