pyTorch实现C3D模型的视频行为识别实践

1、3D卷积t简介

2、C3D模型原理与PyTorch实现

    2.1、C3D模型结构

    2.2、C3D视频动作识别(附PyTorch代码)

    2.3、测试结果

参考

 

1、3D卷积的简介

    在图像处理领域,被卷积的都是静态图像,所以使用2D卷积网络就足以。而在视频理解领域,为了同时保留时序信息,就需要同时学习时空特征,如果用2DCNN来处理视频,那么将不能考虑编码在连续多帧之间的运动信息,而C3D网络就在这样的背景下横空出世了。

 

    3D convolution 最早应该是在“3D convolutional neural networks for human action”中被提出并用于行为识别的。该论文提出的模型尝试从空间和时间维度中提取特征,从而捕获在多个相邻帧中编码的运动信息。

 

主要贡献如下:

 

    1、我们提出应用3D卷积运算从视频数据中提取空间和时间特征以进行动作识别。这些3D特征提取器在空间和时间维度上操作,从而捕获视频流中的运动信息。

 

    2、我们开发了基于3D卷积特征提取器的3D卷积神经网络架构。该CNN架构从相邻视频帧生成多个信息信道,并在每个信道中分别执行卷积和子采样。最终的特征表示是通过组合所有频道的信息获得的。

 

    3、我们提出通过增加具有作为高级运动特征计算的辅助输出的模型来规范3D CNN模型。我们进一步提出通过组合各种不同架构的输出来提高3D CNN模型的性能。

 

具体操作:通过同时堆叠多个连续帧形成的立方体与一个3D核进行卷积。通过这个构建,卷积层上的特征图连接到了前一层的多个连续帧,从而捕捉动作信息。

 

 

2、C3D模型原理与PyTorch实现

2.1、C3D模型结构

 

 

    3D ConvNets 更适合学习时空特征,通过3D卷积和3D池化,可以对时间信息建模,而2D卷积只能在空间上学习特征。3D和2D的区别如下:

 

    2D卷积网络输入图像会产生图像,输入视频输出的也是图像,3D卷积网络输入视频会输出另外一个视频,保留输入的时间信息

2D和3D卷积运算。a)在一个图像上应用2D卷积会产生一个图像。b)在视频卷上应用2D卷积(多个帧作为多个通道)也会产生一个图像。c)在视频卷上应用3D卷积可产生另一个卷,保留输入信号的时间信息。

 

3D卷积核时间深度搜索。不同卷积核时间深度设置在UCF101测试集split-1上的精度。2D ConvNet效果最差,3×3×3卷积核的3D ConvNet在实验中表现最佳。

 

结构如下图:

C3D架构。C3D网络有8个卷积层,5个最大池化层和2个全连接层,最后是softmax输出层。所有的3D卷积核都是3×3×3,在空间和时间上都有步长1。滤波器的数量表示在每个框中。3D池化层由pool1到pool5表示。所有池化核为2×2×2,除了pool1为1×2×2。每个全连接层有4096个输出单元。

 

网络架构:上图的发现表明,3×3×3卷积核的均匀设置是3D ConvNets的最佳选择。这个发现与2D ConvNets一致。使用大型数据集,可以根据机器内存限制和计算承受能力,尽可能深入地训练具有3×3×3核的3D ConvNet。使用目前的GPU内存,我们设计了3D ConvNet,具有8个卷积层、5个池化层、两个全连接层,以及一个softmax输出层。网络架构如图3所示。为了简单起见,我们从现在开始将这个网络称为C3D。所有3D卷积滤波器均为3×3×3,步长为1×1×1。为了保持早期的时间信息设置pool1核大小为1×2×2、步长1×2×2,其余所有3D池化层均为2×2×2,步长为2×2×2。每个全连接层有4096个输出单元。

import torchimport torch.nn as nnfrom mypath import Pathclass C3D(nn.Module):    """    The C3D network.    """
    def __init__(self, num_classes, pretrained=False):        super(C3D, self).__init__()
        self.conv1 = nn.Conv3d(3, 64, kernel_size=(3, 3, 3), padding=(1, 1, 1))        self.pool1 = nn.MaxPool3d(kernel_size=(1, 2, 2), stride=(1, 2, 2))
        self.conv2 = nn.Conv3d(64, 128, kernel_size=(3, 3, 3), padding=(1, 1, 1))        self.pool2 = nn.MaxPool3d(kernel_size=(2, 2, 2), stride=(2, 2, 2))
        self.conv3a = nn.Conv3d(128, 256, kernel_size=(3, 3, 3), padding=(1, 1, 1))        self.conv3b = nn.Conv3d(256, 256, kernel_size=(3, 3, 3), padding=(1, 1, 1))        self.pool3 = nn.MaxPool3d(kernel_size=(2, 2, 2), stride=(2, 2, 2))
        self.conv4a = nn.Conv3d(256, 512, kernel_size=(3, 3, 3), padding=(1, 1, 1))        self.conv4b = nn.Conv3d(512, 512, kernel_size=(3, 3, 3), padding=(1, 1, 1))        self.pool4 = nn.MaxPool3d(kernel_size=(2, 2, 2), stride=(2, 2, 2))
        self.conv5a = nn.Conv3d(512, 512, kernel_size=(3, 3, 3), padding=(1, 1, 1))        self.conv5b = nn.Conv3d(512, 512, kernel_size=(3, 3, 3), padding=(1, 1, 1))        self.pool5 = nn.MaxPool3d(kernel_size=(2, 2, 2), stride=(2, 2, 2), padding=(0, 1, 1))
        self.fc6 = nn.Linear(8192, 4096)        self.fc7 = nn.Linear(4096, 4096)        self.fc8 = nn.Linear(4096, num_classes)
        self.dropout = nn.Dropout(p=0.5)
        self.relu = nn.ReLU()
        self.__init_weight()
        if pretrained:            self.__load_pretrained_weights()
    def forward(self, x):        # print ('1:',x.size())        x = self.relu(self.conv1(x))        # print ('2:',x.size())        x = self.pool1(x)        # print ('3:',x.size())
        x = self.relu(self.conv2(x))        # print ('4:',x.size())        x = self.pool2(x)        # print ('5:',x.size())
        x = self.relu(self.conv3a(x))        # print ('6:',x.size())        x = self.relu(self.conv3b(x))        # print ('7:',x.size())        x = self.pool3(x)        # print ('8:',x.size())
        x = self.relu(self.conv4a(x))        # print ('9:',x.size())        x = self.relu(self.conv4b(x))        # print ('10:',x.size())        x = self.pool4(x)        # print ('11:',x.size())
        x = self.relu(self.conv5a(x))        # print ('12:',x.size())        x = self.relu(self.conv5b(x))        # print ('13:',x.size())        x = self.pool5(x)        # print ('14:',x.size())
        x = x.view(-1, 8192)        # print ('15:',x.size())        x = self.relu(self.fc6(x))        # print ('16:',x.size())        x = self.dropout(x)        x = self.relu(self.fc7(x))        x = self.dropout(x)
        logits = self.fc8(x)        # print ('17:',logits.size())        return logits
    def __load_pretrained_weights(self):        """Initialiaze network."""        corresp_name = {            # Conv1            "features.0.weight": "conv1.weight",            "features.0.bias": "conv1.bias",            # Conv2            "features.3.weight": "conv2.weight",            "features.3.bias": "conv2.bias",            # Conv3a            "features.6.weight": "conv3a.weight",            "features.6.bias": "conv3a.bias",            # Conv3b            "features.8.weight": "conv3b.weight",            "features.8.bias": "conv3b.bias",            # Conv4a            "features.11.weight": "conv4a.weight",            "features.11.bias": "conv4a.bias",            # Conv4b            "features.13.weight": "conv4b.weight",            "features.13.bias": "conv4b.bias",            # Conv5a            "features.16.weight": "conv5a.weight",            "features.16.bias": "conv5a.bias",            # Conv5b            "features.18.weight": "conv5b.weight",            "features.18.bias": "conv5b.bias",            # fc6            "classifier.0.weight": "fc6.weight",            "classifier.0.bias": "fc6.bias",            # fc7            "classifier.3.weight": "fc7.weight",            "classifier.3.bias": "fc7.bias",        }
        p_dict = torch.load(Path.model_dir())        s_dict = self.state_dict()        for name in p_dict:            if name not in corresp_name:                continue            s_dict[corresp_name[name]] = p_dict[name]        self.load_state_dict(s_dict)
    def __init_weight(self):        for m in self.modules():            if isinstance(m, nn.Conv3d):                # n = m.kernel_size[0] * m.kernel_size[1] * m.out_channels                # m.weight.data.normal_(0, math.sqrt(2. / n))                torch.nn.init.kaiming_normal_(m.weight)            elif isinstance(m, nn.BatchNorm3d):                m.weight.data.fill_(1)                m.bias.data.zero_()def get_1x_lr_params(model):    """    This generator returns all the parameters for conv and two fc layers of the net.    """    b = [model.conv1, model.conv2, model.conv3a, model.conv3b, model.conv4a, model.conv4b,         model.conv5a, model.conv5b, model.fc6, model.fc7]    for i in range(len(b)):        for k in b[i].parameters():            if k.requires_grad:                yield kdef get_10x_lr_params(model):    """    This generator returns all the parameters for the last fc layer of the net.    """    b = [model.fc8]    for j in range(len(b)):        for k in b[j].parameters():            if k.requires_grad:                yield kif __name__ == "__main__":    inputs = torch.rand(1, 3, 16, 112, 112)    net = C3D(num_classes=101, pretrained=True)
    outputs = net.forward(inputs)    print(outputs.size())

C3D卷积网络将完整的视频帧作为输入,并不依赖于任何处理,可以轻松地扩展到大数据集。

 

2.2、C3D视频动作识别

 

 

2.2.1、UCF101数据集

 

 

 

数据集由101个人类动作类别的13,320个视频组成。我们使用此数据集提供的三个拆分设置。

    train_dataloader = DataLoader(VideoDataset(dataset=dataset, split='train', clip_len=16), batch_size=4, shuffle=True, num_workers=0)    val_dataloader = DataLoader(VideoDataset(dataset=dataset, split='val', clip_len=16), batch_size=4, num_workers=0)    test_dataloader = DataLoader(VideoDataset(dataset=dataset, split='test', clip_len=16), batch_size=4, num_workers=0)
    trainval_loaders = {'train': train_dataloader, 'val': val_dataloader}    trainval_sizes = {x: len(trainval_loaders[x].dataset) for x in ['train', 'val']}    test_size = len(test_dataloader.dataset)

 

2.2.2、分类模型

 

 

 

提取C3D特征并将其输入到用于训练模型

 

2.3、测试结果

 

 

 

参考:

https://www.jianshu.com/p/09d1d8ffe8a4

https://zhuanlan.zhihu.com/p/61570133

 

关注公众号,回复【C3D】即可获得完整的项目代码以及文档说明。

 

注意:数据集为UCF101数据集,可以自行下载。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/547207.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

nodejs与javascript中的aes加密

简介 1.aes加密简单来说,在密码学中又称Rijndael加密法,是美国联邦政府采用的一种区块加密标准。这个标准用来替代原先的DES,已经被多方分析且广为全世界所使用。高级加密标准已然成为对称密钥加密中最流行的算法之一。 2.AES的区块长度固定…

SQL事务控制语言(TCL)

1、什么是事务? 事务(Transaction)是由一系列相关的SQL语句组成的最小逻辑工作单元,在程序更新数据库时事务事关重要,因为必须维护数据的完整性。事务由数据操作语言完成,是对数据库所做的一个或多个修改。…

U811.1接口EAI系列之六--物料上传--VB语言

1. 业务系统同步U811.1存货档案通用方法. 2.具体代码处理如下: 作者:王春天 2013-11-06 地址:http://www.cnblogs.com/spring_wang/p/3409844.html 代码中调用的通用方法在: http://www.cnblogs.com/spring_wang/p/3393147.html 物料信息生成…

HyperLPR Python3车牌识别系统的入门使用

概要 HyperLRP是一个开源的、基于深度学习高性能中文车牌识别库,由北京智云视图科技有限公司开发,支持PHP、C/C、Python语言,Windows/Mac/Linux/Android/IOS 平台。 github地址: https://github.com/zeusees/HyperLPR TODO 支…

maven 基本命令

今天复习了一下maven命令的使用,这里总结一下,作为后续使用的参考:1. mvn clean清理命令,该命令用来清除原来编译生成的.class和.jar 等文件。maven的做法比较暴力,直接将放置这类文件的targer目录删除了!2…

Linux——软件包简单学习笔记

Linux中的是那种软件包: (这里学习是基于redHat的Cent-OS) 1: 二进制软件包管理(RPM、YUM) 2:源代码包安装 3: 脚本安装(Shell或Java脚本) 一: 二…

表单reset无法重置hidden的解决方案

方法一&#xff1a;用text代替hidden&#xff0c;设置text隐藏 <input id"id" name"id" style"display: none;" value"0" /> 方法二&#xff1a;单独处理hidden类型 jQuery("#saveForm").form("reset");jQu…

python http 返回json中文乱码

json.dumps(var,ensure_asciiFalse)并不能解决中文乱码的问题 python 2.7版本 # -*- coding: utf-8 -*- m {a : 你好}print m >{a: \xe4\xbd\xa0\xe5\xa5\xbd}print json.dumps(m) >{"a": "\u4f60\u597d"}print json.dumps(m,ensure_asciiFalse) …

javascript中Array的操作

concat&#xff08;组合数组&#xff09;join&#xff08;数组转字符串&#xff09;pop&#xff08;删除最后一个元素&#xff09;shift&#xff08;删除第一个元素&#xff09;push&#xff08;在数组尾部添加新元素&#xff09;unshift&#xff08;在数组头部添加新元素&…

Github git clone国内mirror加速

Github国内加速克隆及下载 fastgit.orghttps://doc.fastgit.org/ gitclone.comhttps://gitclone.com/ giteehttps://gitee.com/mirrors cnpmjs.orghttps://github.com.cnpmjs.org/ 克隆加速 #原地址 git clone https://github.com/kubernetes/kubernetes.git#改为 git cl…

ASP.NET MVC 5调用其他Action

引用代码&#xff1a; Html.Action("Index", "BaseData", new { d "variety" }) 后台获取参数&#xff1a; RouteData.Values["d"]

OpenscenGraph中控制swapbuffer的方法(用于多机大屏幕同步显示机制)

*************************************************************************************************************************osg多机同步swapbuffer的实现方式。***osg中真正调用opengl::swapbuffer的地方在 osg::GrapicsContext::swapBuffers()中调用的。***如果develope…

linq to entity常用操作

一、聚合函数查询 double sum 0;using (xxxEntities db new xxxEntities()){sum db.userinfo.AsNoTracking().Where(d > d.idid).Sum(m > (double?)m.money).GetValueOrDefault();}return sum; 二、删除操作 int result 0;if (id > 0){using (gghdbEntities db …

python中使用cv2.findContours返回值too many values to unpack (expected 2)错误如何解决

python中使用cv2.findContours返回值too many values to unpack (expected 2)错误如何解决 具体原因&#xff1a; opencv-python 版本还有一定关系&#xff0c;4.2的上面就行。3.4.2的得改成下面。 解决方法&#xff0c;将 contours, hierarchy cv2.findContours(binary,cv…

java简单自定义Annotation

为什么80%的码农都做不了架构师&#xff1f;>>> 原文内容比较多&#xff0c;这里就简单地说一下。java 5以后增加了3个annotation&#xff0c; Override Deprecated SuppressWarnings 以上annotation用途就不说了。java中自定义annotation需要interface关键字和用到…

c#官方推荐md5通用加密类

/// <summary>/// MD5加密/// </summary>/// <param name"input">需要加密的字符串</param>/// <returns></returns>public static string MD5Encrypt(string input){return MD5Encrypt(input, new UTF8Encoding());}/// <su…

Tensorflow Object detection API 在 Windows10 配置

Tensorflow Object detection API 在 Windows10 下的配置不如在 Ubuntu 下配置方便&#xff0c;但还是有方法的&#xff0c;介绍一下我的配置流程。官方目标检测的demo中调用了大量的py文件&#xff0c;不利于项目的部署&#xff0c;因此我将其合并为两个文件 ##1.Tensorflow m…

使用jq的toggle函数实现全选功能遇到的问题

2019独角兽企业重金招聘Python工程师标准>>> 今天做网站后台管理的时候&#xff0c;要实现一个单选全选的功能&#xff0c;很简单的功能&#xff0c;不过&#xff0c;遇到了一个很诡异的问题&#xff0c;写出来跟大家分享下。 功能就不赘述了&#xff0c;大家都懂&…

linq to js使用汇总

用途&#xff1a;方便js操作查询json数据。 下载网址&#xff1a;http://jslinq.codeplex.com/ 使用方法&#xff1a;只需要引用linq.js即可。 查询方法&#xff1a; 一、where查询 var myList [{ Name: "Jim", Age: 20 },{ Name: "Kate", Age: 21 },…

GO国内镜像加速模块下载

众所周知&#xff0c;国内网络访问国外资源经常会出现不稳定的情况。 Go 生态系统中有着许多中国 Gopher 们无法获取的模块&#xff0c;比如最著名的 golang.org/x/...。并且在中国大陆从 GitHub 获取模块的速度也有点慢。 因此设置 CDN 加速代理就很有必要了&#xff0c;以下…