一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法与流程

一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法与流程

本发明涉及模式识别与计算机视觉领域,尤其涉及一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法。



背景技术:

视觉一直是人类获取外界信息的最重要、最直观的途径,据有关统计,人类获取信息的80%都是通过视觉。随着摄像头等图像传感器的质量不断上升,同时价格的不断下降,图像传感器得到大规模的部署和应用,每天都会因此产生海量的信息。单纯地依靠眼睛去获取所需要的信息已经不能满足人们对与新信息、新知识的要求。另外,随着计算机运算速度的提高、计算能力的进一步增强,以及图像处理算法的不断发展,计算机视觉技术应运而生。计算机视觉技术依托计算机或者其他嵌入式平台,利用图像处理、机器学习和深度学习等技术,对图像进行特定目标检测识别、图像切割和图像理解等处理,实现对图像中的视觉信息自动分析和智能处理,提取我们所感兴趣的信息。近年来,计算机视觉技术得到越来越多研究人员的青睐,是当前最活跃和最重要的一个方向。基于视频的人体行为识别作为计算机视觉的一个热门研究领域,旨在研究和理解视频中人的行为动作,包括人的单体行为动作、人与人之间的交互行为、人与环境的交互关系等,自动识别视频或者图片序列中的行为动作。

人体行为识别方法主要分为传统的机器学习和深度学习两大类方法。传统的机器学习主要算法流程为特征提取、特征编码、行为分类这三个步骤。深度学习主要有双流卷积网络(two-streamconvolutionalnetworks)及其衍生网络、3d卷积神经网络(3dconvolutionalneuralnetworks,3d卷积)和长短期记忆网络(long-shorttermmemory,lstm)等等。

当前安防场景下人体动作识别的困难之处包括:

(1)在安防场景下异常动作发生频率很低、数据收集和标注困难等问题,即无论是常规动作还是异常动作都存在多样且复杂的特点,进而导致类别内的多样性较高。

(2)传统的骨架建模方法通常依赖于手工制作的部件或遍历规则,导致表达能力有限与难以推广。

时间信息是视频动作识别的关键因素,在视频动作识别中,探索研究一种有效的运动表示方法是非常重要的。传统如3dhog、运动向量、密集轨迹等运动描述方法存在效率低下、准确率偏低等问题。



技术实现要素:

针对上述问题,本发明提供一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法,解决安防场景下异常动作发生频率很低、数据收集和标注困难;传统的骨架建模方法通常依赖于手工制作的部件或遍历规则,导致表达能力有限与难以推广;传统如3dhog、运动向量、密集轨迹等运动描述方法存在效率低下、准确率偏低等问题。

其首先对获取的安防场景下的人体动作分析数据集进行随机划分,分为为训练集和验证集;其次对训练集和验证集视频数据进行数据增强处理;接着对获取的和增强的数据集利用注意力机制进行关键帧筛选;然后对筛选出来的关键帧视频利用人体姿态估计模型框架进行转码和标注,为训练人体动作检测与识别模型做好准备;最后构建时空骨骼图卷积神经网络模型,并使用训练集进行训练并利用随机梯度下降进行优化网络参数权重,使用验证集进行神经网络模型的准确率预测。

本发明具体包括以下方案:

一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法,其特征在于,包括以下步骤:

步骤s1:对获取的安防场景下的人体动作分析数据集进行随机划分,分为为训练集和验证集;

步骤s2:对训练集和验证集中的安防视频数据进行数据增强处理;

步骤s3:对增强后的人体动作分析数据集利用注意力机制进行关键帧筛选;

步骤s4:对筛选出来的关键帧视频利用人体姿态估计模型框架进行转码和标注;

步骤s5:构建时空骨骼图卷积神经网络模型,使用训练集进行训练并利用随机梯度下降进行优化网络参数权重;

步骤s6:使用验证集进行融合注意力机制和时空骨骼图卷积神经网络模型的准确率预测。

优选地,步骤s1具体包括以下步骤:

步骤s11:获取安防视频数据构建人体动作分析数据集,对获得的安防视频数据进行标准化处理,将视频分辨率和帧率统一;

步骤s12:将所述人体动作分析数据集按照100:1的比例随机分为训练集和验证集。

优选地,步骤s2具体包括以下步骤:

步骤s21:对所述安防视频数据进行自适应随机遮挡增强;

步骤s22:对所述安防视频数据进行旋转变换增强;

步骤s23:对所述安防视频数据进行随机剪裁增强;

步骤s24:对所述安防视频数据进行对比度变换增强;

步骤s25:对所述安防视频数据进行长或宽拉伸增强;

步骤s26:对所述安防视频数据进行随机加噪增强;

步骤s27:对所述安防视频数据进行去噪增强。

优选地,步骤s3具体包括以下步骤:

步骤s31:从一个安防视频数据序列中选择n个视频帧构成一个视频帧集合;

步骤s32:将所述视频帧集合中的每张图片经过预训练的resnet50处理后得到n*2048*8*4的特征图;

步骤s33:将所述特征图送入多区域空间注意力模块得到多个关注不同行人的特征集;

步骤s34:将不同视频帧同一个行人的特征经过时域注意力模块进行处理;

步骤s35:在时域上进行聚合得到一个行人的一个向量表示,多个行人得到的多个向量连接后经过一个全连接降维后作为视频序列的特征,训练阶段使用oimloss训练,获得一个视频序列的关键帧。

优选地,步骤s4具体包括以下步骤:

步骤s41:对筛选出来的关键帧视频输入到openpose姿态估计系统中,并使用coco模型提取18个关键点坐标信息和概率;

步骤s42:将关键帧视频数据表示为(3,t,18,2)的张量,其中t为视频数据的帧数,并将每个关键帧视频通过重复填充到300帧,使一个特征对应一个json数据文件;

步骤s43:将提取完特征的全部所述json数据文件,转化并打包为一个关键帧视频文件对应一个json数据文件的格式;

步骤s44:对打包完的json数据文件进行人工标注,把关键帧视频对应的动作类型用标签进行标明。

优选地,在步骤s41当中,多人场景下,只选取置信度(所有关键点置信度均值)最高的两个人的关键点信息。

优选地,步骤s5具体包括以下步骤:

步骤s51:构造时空骨骼图卷积神经网络模型,采用图像卷积核公式:其中x表示位置,k表示内核大小,h表示卷积核高度偏移的坐标,ω表示卷积核纵向偏移的坐标,fin表示输入特征函数,fout(x)表示x处的输出特征函数,p表示抽样函数,w表示权重函数;

步骤s52:将给定的某帧内的节点按照人体结构进行连接,然后将此帧,按帧内每个节点和下一帧中对应节点进行连接;

步骤s53:使用所述训练集进行训练并利用随机梯度下降对网络参数权重进行优化,损失函数为:其中,j(θ)是损失函数,m代表每次取多少样本进行训练,i代表从1到m的循环参数,采用随机梯度下降进行训练,每次随机取一组样本,m=1,θ是参数,h(θ)为待拟合的函数,x是样本值,y是预测目标。

优选地,步骤s6具体包括以下步骤:

步骤s61:将所述验证集进行数据增强;

步骤s62:采用步骤s3和s4的方法对验证集使用注意力机制进行关键帧筛选并转码和标注,得到视频中关键帧的信息;

步骤s63:将步骤s62得到的视频中关键帧的信息传入所述融合注意力机制和时空骨骼图卷积神经网络模型,得到一个类别,将此类别与标注的结果进行比较,计算准确率。

与现有技术相比,本发明及其优选方案具有以下主要有益效果:(1)不仅可以扩大原始动作数据量,还可以增强模型的鲁棒性,进而提升最终的动作识别准确率。(2)较大程度地提升了骨架建模能力。不仅具有较强的表达能力,而且具有较强的泛化能力。

附图说明

下面结合附图和具体实施方式对本发明进一步详细的说明:

图1是本发明实施例整体流程示意图。

具体实施方式

为让本专利的特征和优点能更明显易懂,下文特举实施例,并配合附图,作详细说明如下:

如图1所示,本实施例整体流程包括以下步骤:

步骤s1:对获取的安防场景下的人体动作分析数据集进行随机划分,分为为训练集和验证集;

在本实施例中,所述步骤s1具体包括:

步骤s11:采取自建或者下载公用的安防领域数据集;对获得的视频数据统一进行处理,将大小缩放为340*256,帧数率调整为30帧/秒;

步骤s12:将数据集按照100:1的比例随机分为训练集和验证集。

步骤s2:对训练集和验证集视频数据进行数据增强处理;

在本实施例中,所述步骤s2具体包括:

步骤s21:对视频数据进行自适应随机遮挡增强;

步骤s22:对视频数据进行旋转变换增强;

步骤s23:对视频数据进行随机剪裁增强;

步骤s24:对视频数据进行对比度变换增强;

步骤s25:对视频数据进行长或宽拉伸增强;

步骤s26:对视频数据进行随机加噪增强;

步骤s27:对视频数据进行去噪增强;

步骤s3:对获取的和增强的数据集利用注意力机制进行关键帧筛选;

在本实施例中,所述步骤s3具体包括:

步骤s31:从一个安防视频数据序列中选择n个视频帧构成一个视频帧集合;

步骤s32:将所述视频帧集合中的每张图片经过预训练的resnet50处理后得到n*2048*8*4的特征图;

步骤s33:将所述特征图送入多区域空间注意力模块得到多个关注不同行人的特征集;

该多区域空间注意力模块的具体实现方式为:对于每张图,看作有32个2048维的空间特征,对于每个空间注意力模块,将2048*32的空间特征图经过d个神经元的全连接和relu降维得到dx32,然后再经过一个神经元的全连接得到一张图32个空间向量分数,经过softmax得到32个空间向量的权重,然后根据l个权重对l个空间特征进行加权求和,得到第n帧、第k个空间注意力模块的特征;

步骤s34:将不同视频帧同一个行人的特征经过时域注意力模块进行处理;时域注意力模块是为了关注到更多细粒度的信息,采用了n*k个权重、每帧视频的每个空间感受野一个单独权重的时域注意力方法。该模块具体实现为:将特征图经过一个神经元的全连接得到一个分数,然后经时域上的softmax得到时域权重;

步骤s35:在时域上进行聚合得到一个行人的一个向量表示,多个行人得到的多个向量连接后经过一个全连接降维后作为视频序列的特征,训练阶段使用oimloss训练,获得一个视频序列的关键帧。

步骤s4:对筛选出来的关键帧视频利用人体姿态估计模型框架进行转码和标注,为训练人体动作检测与识别模型做好准备;

在本实施例中,所述步骤s4具体包括:

步骤s41:对筛选出来的关键帧视频输入到openpose姿态估计系统中,并使用coco模型提取18个关键点坐标信息和概率;多人场景下,只选取置信度最高(所有关键点置信度均值)的两个人的关键点信息;

步骤s42:将视频数据表示为(3,t,18,2)的张量,其中t为视频数据的帧数,为方便起见,将每个视频通过重复填充到300帧,此时是一个特征一个json数据文件,即一个视频文件有多个特征数据。

步骤s43:将提取完特征的全部json格式文件,转化并打包为一个视频文件对应一个json文件的格式。

步骤s44:对打包完的json视频数据进行人工标注,把视频文件对应的动作类型用标签进行标明。为训练人体动作检测与识别模型做好准备。

步骤s5:构建时空骨骼图卷积神经网络模型,并使用训练集进行训练并利用随机梯度下降进行优化网络参数权重;

在本实施例中,所述步骤s5具体包括:

步骤s51:构造时空骨骼图卷积神经网络模型,采用图像卷积核公式:其中x表示位置,k表示内核大小,h表示卷积核高度偏移的坐标,ω表示卷积核纵向偏移的坐标,fin表示输入特征函数,fout(x)表示x处的输出特征函数,p表示抽样函数,w表示权重函数;

步骤s52:将给定的某帧内的节点按照人体结构进行连接,然后将此帧,按帧内每个节点和下一帧中对应节点进行连接,这样构造可使模型应用于具有不同节点数和节点连接关系的不同数据集;

步骤s53:使用训练集进行训练并利用随机梯度下降进行优化网络参数权重,损失函数为:其中,j(θ)是损失函数,m代表每次取多少样本进行训练,i代表从1到m的循环参数,采用随机梯度下降进行训练,每次随机取一组样本,m=1,θ是参数,h(θ)为待拟合的函数,x是样本值,y是预测目标。

步骤s6:使用验证集进行融合注意力机制和时空骨骼图卷积神经网络模型的准确率预测。

在本实施例中,所述步骤s6具体包括:

步骤s61:将验证集进行数据增强;

步骤s62:采用步骤s3和s4的方法对验证集使用注意力机制进行关键帧筛选并转码和标注,得到视频中关键帧的信息;

步骤s63:将步骤s62得到的视频中关键帧的信息传入所述融合注意力机制和时空骨骼图卷积神经网络模型,得到一个类别,将此类别与标注的结果进行比较,计算准确率。

本专利不局限于上述最佳实施方式,任何人在本专利的启示下都可以得出其它各种形式的安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本专利的涵盖范围。

完整全部详细技术资料下载
当前第1页1 2 
  • 该技术已申请专利。仅供学习研究,如用于商业用途,请联系技术所有人。
  • 技术研发人员:柯逍;柯力
  • 技术所有人:福州大学
  • 我是此专利的发明人
  • 上一篇:一种基于深度残差网络的文字透底现象去除方法与流程
  • 上一篇:一种用于瘦小型船尾船舶的节能水翼的制作方法

  • 该领域下的技术专家
  • 如您需求助技术专家,请点此查看客服电话进行咨询。
  • 1、李老师:1.计算力学 2.无损检测
  • 2、毕老师:机构动力学与控制
  • 3、袁老师:1.计算机视觉 2.无线网络及物联网
  • 4、王老师:1.计算机网络安全 2.计算机仿真技术
  • 5、王老师:1.网络安全;物联网安全 、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
  • 如您是高校老师,可以点此联系我们加入专家库。
相关技术
  • 基于深度学习先验的人脸表情识...
  • 基于视觉关系检测的煤矿综采工...
  • 虚拟形象控制方法、虚拟形象控...
  • 内指纹提取方法、装置、系统及...
  • 用于确定对象状态的方法、装置...
  • 一种基于Kinect装置的步...
  • 基于波形特征差异的电流互感器...
  • 一种基于特征融合和机器学习的...
  • 一种图片处理方法、装置及计算...
  • 一种基于改进VGG-16模型...
网友询问留言已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/591110.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

nginx 多端口部署多站点

目录 1.进行nginx.conf 2.复制粘贴 3.修改端口及站点根目录 4. 网站上传 1.进行nginx.conf 在 nginx 主要配置文件 nginx.conf 中,server 是负责一个网站配置的,我们想要多个端口访问的话,可以复制多个 server 先进入到 nginx.conf 中 …

「微服务」Saga 模式 如何使用微服务实现业务事务-第二部分

在上一篇文章中,我们看到了实现分布式事务的一些挑战,以及如何使用Event / Choreography方法实现Saga的模式。在本文中,我们将讨论如何通过使用另一种类型的Saga实现(称为Command或Orchestration)来解决一些问题&#…

vue3+echarts可视化——记录我的2023编程之旅

文章目录 ⭐前言⭐2023我在csdn的旅途痕迹💖node系列文章💖vue3系列文章💖python系列文章💖react系列文章💖js拖拽相关文章💖小程序系列文章💖uniapp系列文章 ⭐可视化布局💖 git 数…

【VRTK】【VR开发】【Unity】18-VRTK与Unity UI控制的融合使用

课程配套学习项目源码资源下载 https://download.csdn.net/download/weixin_41697242/88485426?spm=1001.2014.3001.5503 【背景】 VRTK和Unity自身的UI控制包可以配合使用发挥效果。本篇就讨论这方面的实战内容。 之前可以互动的立体UI并不是传统的2D UI对象,在实际使用中…

(self-supervised learning)Event Camera Data Pre-training

Publisher: ICCV 2023 MOTIVATION OF READING: 自监督学习、稀疏事件 NILM link: https://arxiv.org/pdf/2301.01928.pdf Code: GitHub - Yan98/Event-Camera-Data-Pre-training 1. Overview Contributions are summarized as follows: 1. A self-supervised framework f…

如何下载LANDSAT数据

LANDSAT(Land Remote Sensing Satellite)是美国国家航空航天局(NASA)与美国地质调查局(USGS)合作推出的一系列卫星,旨在提供地球表面的高分辨率遥感数据。LANDSAT卫星系列始于1972年&#xff0c…

win10连上了wifi热点但是无法上网

我的情况是能正常连接wifi热点(手机连接这个热点能上网,说明这个wifi热点是正常的) 但是没法上网 打开cmd窗口发现能ping通百度,掘金,csdn这些网址。这就更奇怪了!于是根据上面的提示,检查了代…

【数据结构和算法】 相等行列对

其他系列文章导航 Java基础合集数据结构与算法合集 设计模式合集 多线程合集 分布式合集 ES合集 文章目录 其他系列文章导航 文章目录 前言 一、题目描述 二、题解 2.1 三层循环 2.2 哈希 二层循环 三、代码 3.1 三层循环 3.2 哈希 二层循环 四、复杂度分析 4.1 …

LeetCode74二分搜索优化:二维矩阵中的高效查找策略

题目描述 力扣地址 给你一个满足下述两条属性的 m x n 整数矩阵: 每行中的整数从左到右按非严格递增顺序排列。每行的第一个整数大于前一行的最后一个整数。 给你一个整数 target ,如果 target 在矩阵中,返回 true ;否则&…

抖店和商品橱窗有什么区别?新手应该选哪个?

我是电商珠珠 临近年底了,有的人已经开始为下一年筹谋,有的去抖音做账号做直播带货,不会直播带货的就想尝试做下抖店,来为以后的经济打基础。 刚想要接触却对这类有些迷糊,发现商品橱窗和抖店都可以卖货,…

jumpServer-01-跳板机与堡垒机

jumpServer-01-跳板机与堡垒机 文章目录 jumpServer-01-跳板机与堡垒机一、为什么需要跳板机?二、堡垒机的核心价值三、跳板机与堡垒机的区别四、堡垒机的核心作用与价值 一、为什么需要跳板机? 跳板机(Jump Server)是一种安全设备…

C# WPF上位机开发(以始为终,寻找真实的上位机需求)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 c# wpf、qt、mfc这些上位机的需求是真实存在的,在现实中有很多应用的地方,这一点大家都很清楚。而程序员本身呢&#xff0c…

iOS问题记录 - iOS 17通过NSUserDefaults设置UserAgent无效(续)

文章目录 前言开发环境问题描述问题分析1. 准备源码2. 定位源码3. 对比源码4. 分析总结 解决方案补充内容1. UserAgent的组成2. UserAgent的设置优先级 最后 前言 在上篇文章中对该问题做了一些判断和猜测,并给出了解决方案。不过,美中不足的是没有进一…

117基于matlab的短时傅里叶变换(STFT)、小波变换(WT)、同步压缩变换(SST)、瞬态提取变换(TET)进行时频分析

基于matlab的短时傅里叶变换(STFT)、小波变换(WT)、同步压缩变换(SST)、瞬态提取变换(TET)进行时频分析。程序已调通,可直接运行。 117时频分析短时傅里叶变换 (xiaohong…

酷开系统 | 重磅!酷开科技荣获第十届广东专利优秀奖!

2023年12月16日广东省市场监督管理局公布了第十届广东专利奖获奖名单并进行了公示。其中,深圳市酷开网络科技股份有限公司申报的专利“一种智能电视的交互系统及方法”(专利号ZL201310038386.0),荣获第十届广东专利优秀奖。 广东…

CSS 纵向底部往上动画

<template><div class"container" mouseenter"startAnimation" mouseleave"stopAnimation"><!-- 旋方块 --><div class"box" :class"{ scale-up-ver-bottom: isAnimating }"><!-- 元素内容 --&g…

【图像拼接】源码精读:Seam-guided local alignment and stitching for large parallax images

第一次来请先看这篇文章&#xff1a;【图像拼接&#xff08;Image Stitching&#xff09;】关于【图像拼接论文源码精读】专栏的相关说明&#xff0c;包含专栏内文章结构说明、源码阅读顺序、培养代码能力、如何创新等&#xff08;不定期更新&#xff09; 【图像拼接论文源码精…

在Adobe Acrobat上如何做PDF文档签名

Adobe Acrobat如何做PDF文档签名&#xff1f;PDF文档签名是指对PDF文档进行基于证书的数字签名&#xff0c;类似于传统的手写签名&#xff0c;可标识签名文档的人员。与手写签名不同&#xff0c;数字签名难以伪造&#xff0c;因为其包含签名者唯一的加密信息。为PDF文档进行基于…

网络四元组

文章目录 网络四元组 今天我们来聊聊 网络四元组 网络四元组 四元组&#xff0c;简单理解就是在 TCP 协议中&#xff0c;去确定一个客户端连接的组成要素&#xff0c;它包括源 IP 地址、目标 IP 地址、源端口号、目标端口号。 正常情况下&#xff0c;我们对于网络通信的认识可…

【C++】Ubuntu编译filezilla client

在新版Ubuntu 22.04.3 LTS上编译filezilla client成功&#xff0c;shell命令如下&#xff1a; sudo apt-get install libfilezilla-dev libwxbase3.0-dev gnutls-dev libdbus-1-dev sudo apt-get install libwxgtk3.0-gtk3-dev sudo apt-get install libgtk-3-dev sudo apt-ge…