pyTorch实现C3D模型的视频行为识别实践

1、3D卷积t简介

2、C3D模型原理与PyTorch实现

    2.1、C3D模型结构

    2.2、C3D视频动作识别(附PyTorch代码)

    2.3、测试结果

参考

 

1、3D卷积的简介

    在图像处理领域,被卷积的都是静态图像,所以使用2D卷积网络就足以。而在视频理解领域,为了同时保留时序信息,就需要同时学习时空特征,如果用2DCNN来处理视频,那么将不能考虑编码在连续多帧之间的运动信息,而C3D网络就在这样的背景下横空出世了。

 

    3D convolution 最早应该是在“3D convolutional neural networks for human action”中被提出并用于行为识别的。该论文提出的模型尝试从空间和时间维度中提取特征,从而捕获在多个相邻帧中编码的运动信息。

 

主要贡献如下:

 

    1、我们提出应用3D卷积运算从视频数据中提取空间和时间特征以进行动作识别。这些3D特征提取器在空间和时间维度上操作,从而捕获视频流中的运动信息。

 

    2、我们开发了基于3D卷积特征提取器的3D卷积神经网络架构。该CNN架构从相邻视频帧生成多个信息信道,并在每个信道中分别执行卷积和子采样。最终的特征表示是通过组合所有频道的信息获得的。

 

    3、我们提出通过增加具有作为高级运动特征计算的辅助输出的模型来规范3D CNN模型。我们进一步提出通过组合各种不同架构的输出来提高3D CNN模型的性能。

 

具体操作:通过同时堆叠多个连续帧形成的立方体与一个3D核进行卷积。通过这个构建,卷积层上的特征图连接到了前一层的多个连续帧,从而捕捉动作信息。

 

 

2、C3D模型原理与PyTorch实现

2.1、C3D模型结构

 

 

    3D ConvNets 更适合学习时空特征,通过3D卷积和3D池化,可以对时间信息建模,而2D卷积只能在空间上学习特征。3D和2D的区别如下:

 

    2D卷积网络输入图像会产生图像,输入视频输出的也是图像,3D卷积网络输入视频会输出另外一个视频,保留输入的时间信息

2D和3D卷积运算。a)在一个图像上应用2D卷积会产生一个图像。b)在视频卷上应用2D卷积(多个帧作为多个通道)也会产生一个图像。c)在视频卷上应用3D卷积可产生另一个卷,保留输入信号的时间信息。

 

3D卷积核时间深度搜索。不同卷积核时间深度设置在UCF101测试集split-1上的精度。2D ConvNet效果最差,3×3×3卷积核的3D ConvNet在实验中表现最佳。

 

结构如下图:

C3D架构。C3D网络有8个卷积层,5个最大池化层和2个全连接层,最后是softmax输出层。所有的3D卷积核都是3×3×3,在空间和时间上都有步长1。滤波器的数量表示在每个框中。3D池化层由pool1到pool5表示。所有池化核为2×2×2,除了pool1为1×2×2。每个全连接层有4096个输出单元。

 

网络架构:上图的发现表明,3×3×3卷积核的均匀设置是3D ConvNets的最佳选择。这个发现与2D ConvNets一致。使用大型数据集,可以根据机器内存限制和计算承受能力,尽可能深入地训练具有3×3×3核的3D ConvNet。使用目前的GPU内存,我们设计了3D ConvNet,具有8个卷积层、5个池化层、两个全连接层,以及一个softmax输出层。网络架构如图3所示。为了简单起见,我们从现在开始将这个网络称为C3D。所有3D卷积滤波器均为3×3×3,步长为1×1×1。为了保持早期的时间信息设置pool1核大小为1×2×2、步长1×2×2,其余所有3D池化层均为2×2×2,步长为2×2×2。每个全连接层有4096个输出单元。

import torchimport torch.nn as nnfrom mypath import Pathclass C3D(nn.Module):    """    The C3D network.    """
    def __init__(self, num_classes, pretrained=False):        super(C3D, self).__init__()
        self.conv1 = nn.Conv3d(3, 64, kernel_size=(3, 3, 3), padding=(1, 1, 1))        self.pool1 = nn.MaxPool3d(kernel_size=(1, 2, 2), stride=(1, 2, 2))
        self.conv2 = nn.Conv3d(64, 128, kernel_size=(3, 3, 3), padding=(1, 1, 1))        self.pool2 = nn.MaxPool3d(kernel_size=(2, 2, 2), stride=(2, 2, 2))
        self.conv3a = nn.Conv3d(128, 256, kernel_size=(3, 3, 3), padding=(1, 1, 1))        self.conv3b = nn.Conv3d(256, 256, kernel_size=(3, 3, 3), padding=(1, 1, 1))        self.pool3 = nn.MaxPool3d(kernel_size=(2, 2, 2), stride=(2, 2, 2))
        self.conv4a = nn.Conv3d(256, 512, kernel_size=(3, 3, 3), padding=(1, 1, 1))        self.conv4b = nn.Conv3d(512, 512, kernel_size=(3, 3, 3), padding=(1, 1, 1))        self.pool4 = nn.MaxPool3d(kernel_size=(2, 2, 2), stride=(2, 2, 2))
        self.conv5a = nn.Conv3d(512, 512, kernel_size=(3, 3, 3), padding=(1, 1, 1))        self.conv5b = nn.Conv3d(512, 512, kernel_size=(3, 3, 3), padding=(1, 1, 1))        self.pool5 = nn.MaxPool3d(kernel_size=(2, 2, 2), stride=(2, 2, 2), padding=(0, 1, 1))
        self.fc6 = nn.Linear(8192, 4096)        self.fc7 = nn.Linear(4096, 4096)        self.fc8 = nn.Linear(4096, num_classes)
        self.dropout = nn.Dropout(p=0.5)
        self.relu = nn.ReLU()
        self.__init_weight()
        if pretrained:            self.__load_pretrained_weights()
    def forward(self, x):        # print ('1:',x.size())        x = self.relu(self.conv1(x))        # print ('2:',x.size())        x = self.pool1(x)        # print ('3:',x.size())
        x = self.relu(self.conv2(x))        # print ('4:',x.size())        x = self.pool2(x)        # print ('5:',x.size())
        x = self.relu(self.conv3a(x))        # print ('6:',x.size())        x = self.relu(self.conv3b(x))        # print ('7:',x.size())        x = self.pool3(x)        # print ('8:',x.size())
        x = self.relu(self.conv4a(x))        # print ('9:',x.size())        x = self.relu(self.conv4b(x))        # print ('10:',x.size())        x = self.pool4(x)        # print ('11:',x.size())
        x = self.relu(self.conv5a(x))        # print ('12:',x.size())        x = self.relu(self.conv5b(x))        # print ('13:',x.size())        x = self.pool5(x)        # print ('14:',x.size())
        x = x.view(-1, 8192)        # print ('15:',x.size())        x = self.relu(self.fc6(x))        # print ('16:',x.size())        x = self.dropout(x)        x = self.relu(self.fc7(x))        x = self.dropout(x)
        logits = self.fc8(x)        # print ('17:',logits.size())        return logits
    def __load_pretrained_weights(self):        """Initialiaze network."""        corresp_name = {            # Conv1            "features.0.weight": "conv1.weight",            "features.0.bias": "conv1.bias",            # Conv2            "features.3.weight": "conv2.weight",            "features.3.bias": "conv2.bias",            # Conv3a            "features.6.weight": "conv3a.weight",            "features.6.bias": "conv3a.bias",            # Conv3b            "features.8.weight": "conv3b.weight",            "features.8.bias": "conv3b.bias",            # Conv4a            "features.11.weight": "conv4a.weight",            "features.11.bias": "conv4a.bias",            # Conv4b            "features.13.weight": "conv4b.weight",            "features.13.bias": "conv4b.bias",            # Conv5a            "features.16.weight": "conv5a.weight",            "features.16.bias": "conv5a.bias",            # Conv5b            "features.18.weight": "conv5b.weight",            "features.18.bias": "conv5b.bias",            # fc6            "classifier.0.weight": "fc6.weight",            "classifier.0.bias": "fc6.bias",            # fc7            "classifier.3.weight": "fc7.weight",            "classifier.3.bias": "fc7.bias",        }
        p_dict = torch.load(Path.model_dir())        s_dict = self.state_dict()        for name in p_dict:            if name not in corresp_name:                continue            s_dict[corresp_name[name]] = p_dict[name]        self.load_state_dict(s_dict)
    def __init_weight(self):        for m in self.modules():            if isinstance(m, nn.Conv3d):                # n = m.kernel_size[0] * m.kernel_size[1] * m.out_channels                # m.weight.data.normal_(0, math.sqrt(2. / n))                torch.nn.init.kaiming_normal_(m.weight)            elif isinstance(m, nn.BatchNorm3d):                m.weight.data.fill_(1)                m.bias.data.zero_()def get_1x_lr_params(model):    """    This generator returns all the parameters for conv and two fc layers of the net.    """    b = [model.conv1, model.conv2, model.conv3a, model.conv3b, model.conv4a, model.conv4b,         model.conv5a, model.conv5b, model.fc6, model.fc7]    for i in range(len(b)):        for k in b[i].parameters():            if k.requires_grad:                yield kdef get_10x_lr_params(model):    """    This generator returns all the parameters for the last fc layer of the net.    """    b = [model.fc8]    for j in range(len(b)):        for k in b[j].parameters():            if k.requires_grad:                yield kif __name__ == "__main__":    inputs = torch.rand(1, 3, 16, 112, 112)    net = C3D(num_classes=101, pretrained=True)
    outputs = net.forward(inputs)    print(outputs.size())

C3D卷积网络将完整的视频帧作为输入,并不依赖于任何处理,可以轻松地扩展到大数据集。

 

2.2、C3D视频动作识别

 

 

2.2.1、UCF101数据集

 

 

 

数据集由101个人类动作类别的13,320个视频组成。我们使用此数据集提供的三个拆分设置。

    train_dataloader = DataLoader(VideoDataset(dataset=dataset, split='train', clip_len=16), batch_size=4, shuffle=True, num_workers=0)    val_dataloader = DataLoader(VideoDataset(dataset=dataset, split='val', clip_len=16), batch_size=4, num_workers=0)    test_dataloader = DataLoader(VideoDataset(dataset=dataset, split='test', clip_len=16), batch_size=4, num_workers=0)
    trainval_loaders = {'train': train_dataloader, 'val': val_dataloader}    trainval_sizes = {x: len(trainval_loaders[x].dataset) for x in ['train', 'val']}    test_size = len(test_dataloader.dataset)

 

2.2.2、分类模型

 

 

 

提取C3D特征并将其输入到用于训练模型

 

2.3、测试结果

 

 

 

参考:

https://www.jianshu.com/p/09d1d8ffe8a4

https://zhuanlan.zhihu.com/p/61570133

 

关注公众号,回复【C3D】即可获得完整的项目代码以及文档说明。

 

注意:数据集为UCF101数据集,可以自行下载。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/547207.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

HyperLPR Python3车牌识别系统的入门使用

概要 HyperLRP是一个开源的、基于深度学习高性能中文车牌识别库,由北京智云视图科技有限公司开发,支持PHP、C/C、Python语言,Windows/Mac/Linux/Android/IOS 平台。 github地址: https://github.com/zeusees/HyperLPR TODO 支…

java简单自定义Annotation

为什么80%的码农都做不了架构师?>>> 原文内容比较多,这里就简单地说一下。java 5以后增加了3个annotation, Override Deprecated SuppressWarnings 以上annotation用途就不说了。java中自定义annotation需要interface关键字和用到…

Tensorflow Object detection API 在 Windows10 配置

Tensorflow Object detection API 在 Windows10 下的配置不如在 Ubuntu 下配置方便,但还是有方法的,介绍一下我的配置流程。官方目标检测的demo中调用了大量的py文件,不利于项目的部署,因此我将其合并为两个文件 ##1.Tensorflow m…

使用jq的toggle函数实现全选功能遇到的问题

2019独角兽企业重金招聘Python工程师标准>>> 今天做网站后台管理的时候,要实现一个单选全选的功能,很简单的功能,不过,遇到了一个很诡异的问题,写出来跟大家分享下。 功能就不赘述了,大家都懂&…

GO国内镜像加速模块下载

众所周知,国内网络访问国外资源经常会出现不稳定的情况。 Go 生态系统中有着许多中国 Gopher 们无法获取的模块,比如最著名的 golang.org/x/...。并且在中国大陆从 GitHub 获取模块的速度也有点慢。 因此设置 CDN 加速代理就很有必要了,以下…

AbstractEndpoint 和 ProtocolHandler

2019独角兽企业重金招聘Python工程师标准>>> AbstractEndpoint 和 ProtocolHandler /** Licensed to the Apache Software Foundation (ASF) under one or more* contributor license agreements. See the NOTICE file distributed with* this work for additiona…

HOG + SVM 实现图片分类(python3)

前言 大家能看到这篇文章,想必对HOG还是有些了解了,那我就不赘述了,其实我自己不太懂,但是还是比刚开始好一些了。下面我的代码是参考这位博主的:点我查看 上面那位博主是用的cifar-10数据集,但是我们的数…

随机过程及其在金融领域中的应用 第三章 习题 及 答案

随机过程及其在金融领域中的应用 第三章 习题 及 答案 本文地址: http://blog.csdn.net/caroline_wendy/article/details/16879515 包含: 1, 2, 5, 15; 第1题: 第2题: 第5题: 第15题: 转载于:https://blog.51cto.com/spikeking/1388002

Fiddler手机抓包(iPhone)

Fiddler不但能截获各种浏览器发出的HTTP/HTTPS请求,也可以截获各种移动设备(包括Andriod和IOS)发出的HTTP/HTTPS请求。最关键的是,Fiddler还可以断点调试,修改Request和Response,而且即便抓包的是IOS设备&a…

python脚本去除文件名里的空格

原始文件名里很多空格,写了个python脚本去除文件名里的空格 import osfilepath"image" # 文件目录名 zimulus os.listdir(filepath)for musicname in zimulus:#改目录下的文件名oldmusicpath filepath \\ musicnamenewmusicname musicname.replace( …

eclipse打开文件所在目录

设置 添加扩展工具,添加步骤如下: Run-->External Tools-->External Tools Configurations... new 一个 programlocation 里面填 :C:/WINDOWS/explorer.exeArguments 里面填: ${container_loc}设置完成之后,选择文件&#…

python saml2 认证实例程序demo

# pip install pysaml2 from saml2.client import Saml2Client from saml2.config import Config as Saml2Configmetadata_filepath acs_endpoint_url entity_id# 获取跳转网址 saml_settings {metadata: {local: [authenticator_self.metadata_filepath]}, service: {sp: {end…

找回Kitkat的AppOps

2019独角兽企业重金招聘Python工程师标准>>> How to invoke AppOps in Android 4.4 KITKAT % adb shell am start -n com.android.settings/com.android.settings.Settings \ -e :android:show_fragment com.android.settings.applications.AppOpsSummary \ --activ…

win2003 sp2+iis 6.0上部署.net 2.0和.net 4.0网站的方法

网站环境 IIS6.0,操作系统Windows server2003 sp2,服务器之前已经部署了.net 2.0和asp的网站,现在要部署新开发的.net 4.0网站.本来认为很简单,却遇到了很多问题,下面详细描述下过程: 1.官网下载.net framework4.0,下载地址:http://www.micro…

python+opencv实现机器视觉基础技术(2)(宽度测量,缺陷检测,医学检测

本篇博客接着讲解机器视觉的有关技术和知识。包括宽度测量,缺陷检测,医学处理。 一:宽度测量 在传统的自动化生产中,对于尺寸的测量,典型的方法就是千分尺、游标卡尺、塞尺等。而这些测量手段测量精度低、速度慢&…

map 与 unordered_map

两者效率对比&#xff1a; #include <iostream> #include <string> #include <map> #include <unordered_map> #include <sys/time.h> #include <list>using namespace std;template<class T> void fun(const T& t, int sum) {f…

YOLO v3 安装并训练自己数据

文章目录 1. 安装1.1 模型安装1.2 运行Demo2.训练自己的数据集2.1数据集准备2.2修改配置文件2.2.1修改cfg/voc.data2.2.2修改data/voc.names2.2.3修改cfg/yolo-voc.cfg2.3 训练3. 测试3.1 单张图像测试3.2多张图像测试3.3 测试数据集测试mAP、recall等参数命令参数总结训练模型…

OpenStack-Mitaka 一键安装测试环境脚本

说明&#xff1a;这个脚本是采用Bash Shell编写&#xff0c;这个版本还只能作为测试环境搭建使用。 此脚本原形的发起人是网友&#xff1a;WuYuLiang.这里有他的博客链接: 第一版的链接: http://blog.csdn.net/wylfengyujiancheng/article/details/51137707 最新版链接: http:…

grunt使用小记之uglify:最全的uglify使用DEMO

grunt-contrib-uglify uglify是一个文件压缩插件&#xff0c;项目地址&#xff1a;https://github.com/gruntjs/grunt-contrib-uglify 本文将以一个DEMO来展示如何使用uglify插件。 DEMO环境 package.json: {"name": "grunt-demo","version": &q…

Android优秀参考APP源码

1 仿网易云音乐客户端 仿网易云音乐安卓版客户端&#xff0c;一个月内仍然有更新&#xff0c;接近2000star&#xff0c;相信是一款非常棒的音乐客户端。 涉及技术&#xff1a; Timber Fresco MediaPlayerProxy Android-ObservableScrollView retrofit ImitateNetEasyCloud…