PaddleVideo:PP-TSM 视频分类

本文记录:使用Paddle框架训练TSM(Temporal Shift Module

前提条件:已经安装Paddle和PadleVideo,具体可参考前一篇文章。

1-数据准备:

以UCF101为例:内含13320 个短视频,视频类别:101 种

1. 主要包括5类动作 :人和物体交互,只有肢体动作,人与人交互,玩音乐器材,各类运动

2. 每类视频被分为25组,每组包含4-7个视频,同组视频具有一些相似的特征,比如背景、人物等

3. 视频来自YouTube,25FPS码率,320x240分辨率,avi格式,DivX编码方式,平均时长7.21秒

4. 视频按照 v_X_gY_cZ.avi的格式命名,其中X表示类别、Y表示组、Z表示视频编号,例如:v_ApplyEyeMakeup_g03 c04.avi表示ApplyEyeMakeup类别下,第03组的第04个视频

标签下载、数据下载:

# 切换到ucf101目录
cd PaddleVideo/data/ucf101# 下载annotations文件
sh download_annotations.sh# 下载UCF101的视频文件,视频会自动解压移动到videos文件夹
sh download_videos.sh

视频抽帧:自动存储到rawframes文件夹

# 提取视频文件的frames
python extract_rawframes.py ./videos/ ./rawframes/ --level 2 --ext avi

生成list文件

# 生成视频文件的路径list
python build_ucf101_file_list.py videos/ --level 2 --format videos --out_list_path ./# 生成frames文件的路径list
python build_ucf101_file_list.py rawframes/ --level 2 --format rawframes --out_list_path ./

参数说明:

videos/ 或者 rawframes/ : 表示视频或者frames文件的存储路径--level 2 : 表示文件的存储结构--format: 表示是针对视频还是frames生成路径list--out_list_path : 表示生成的路径list文件存储位置

合并list文件

cat ucf101_train_split_*_rawframes.txt > ucf101_train.txt
cat ucf101_val_split_*_rawframes.txt > ucf101_val.txt

最终文件目录结构

├── data
|   ├── dataset
|   │   ├── ucf101
|   │   │   ├── ucf101_{train,val}.txt
|   │   │   ├── ucf101_{train,val}_split_{1,2,3}_rawframes.txt
|   │   │   ├── ucf101_{train,val}_split_{1,2,3}_videos.txt
|   │   │   ├── annotations
|   │   │   ├── videos
|   │   │   │   ├── ApplyEyeMakeup
|   │   │   │   │   ├── v_ApplyEyeMakeup_g01_c01.avi
|   │   │   │   │   └── ...
|   │   │   │   ├── YoYo
|   │   │   │   │   ├── v_YoYo_g25_c05.avi
|   │   │   │   │   └── ...
|   │   │   │   └── ...
|   │   │   ├── rawframes
|   │   │   │   ├── ApplyEyeMakeup
|   │   │   │   │   ├── v_ApplyEyeMakeup_g01_c01
|   │   │   │   │   │   ├── img_00001.jpg
|   │   │   │   │   │   ├── img_00002.jpg
|   │   │   │   │   │   ├── ...
|   │   │   │   │   │   ├── flow_x_00001.jpg
|   │   │   │   │   │   ├── flow_x_00002.jpg
|   │   │   │   │   │   ├── ...
|   │   │   │   │   │   ├── flow_y_00001.jpg
|   │   │   │   │   │   ├── flow_y_00002.jpg
|   │   │   │   ├── ...
|   │   │   │   ├── YoYo
|   │   │   │   │   ├── v_YoYo_g01_c01
|   │   │   │   │   ├── ...
|   │   │   │   │   ├── v_YoYo_g25_c05

2-模型训练

PaddleVideo/docs/zh-CN/benchmark.md at develop · PaddlePaddle/PaddleVideo · GitHub

根据benchmark性能指标选择所需模型:初步看8帧配置下,PP-TSMv2性价比不错

预训练模型下载

根据上面的选型,到 paddlevideo/modeling/backbones 目录下打开自己选择的模型

文件中 MODEL_URLS 就是预训练模型的下载路径,手动下载

放到 PaddleVideo/data 目录 

修改训练配置文件

进入PaddleVideo/configs/recognition/pptsm/v2 目录,

因为我们使用的是ucf101数据集训练,所以复制 pptsm_lcnet_k400_8frames_uniform.yaml 一份,并重命名为:pptsm_lcnet_ucf101_8frames_uniform.yaml 来进行修改

修改pretrained、num_seg、class_num、data_prefix、file_path 

开启训练

单卡训练

# 单卡训练
export CUDA_VISIBLE_DEVICES=0         #指定使用的GPU显卡id
python main.py  --validate -c configs/recognition/pptsm/v2/pptsm_lcnet_ucf101_8frames_uniform.yaml

多卡训练 

# 多卡训练
export CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7
python -B -m paddle.distributed.launch --gpus="0,1,2,3,4,5,6,7"  --log_dir=log_pptsm  main.py  --validate -c configs/recognition/pptsm/v2/pptsm_lcnet_ucf101_8frames_uniform.yaml

参数说明:

-c 必选参数,指定运行的配置文件路径,具体配置参数含义参考配置文档
--validate 可选参数,指定训练时是否评估
-o: 可选参数,指定重写参数,例如: -o DATASET.batch_size=16 用于重写train时batch size大小
--gpus参数指定使用的GPU显卡id
--log_dir参数指定日志保存目录 多卡训练详细说明可以参考单机多卡训练

输出日志

运行日志,并默认保存在./log目录下

3-模型测试(可选-因为训练的时候已经测试了,没必要再去测试一次)

对于视频分类任务,模型测试时有两种不同的方式,中心采样(Uniform)和密集采样(Dense)

中心采样:速度快,适合产业应用,但精度稍低。

密集采样:精度高,但由于测试要对多个clip进行预测,比较耗时。

轻量化模型PP-TSMv2统一使用中心采样方式进行评估。PP-TSM则提供两种不同的评估方式。

3.1-中心采样测试

中心采样测试,1个视频共采样1个clips。

时序上:等分成num_seg段,每段中间位置采样1帧

空间上:中心位置采样。

也可以使用如下命令对训练好的模型进行测试:

python3 main.py --test -c configs/recognition/pptsm/v2/pptsm_lcnet_ucf101_8frames_uniform.yaml -w output/ppTSMv2/ppTSMv2_best.pdparams

3.2-中心采样测试

密集采样测试,1个视频共采样10*3=30个clips。

时序上:先等分10个片段,每段从起始位置开始,以64//num_seg为间隔连续采样num_seg帧;

空间上:左中,中心,右中3个位置采样。

python3 main.py --test -c configs/recognition/pptsm/v2/pptsm_lcnet_ucf101_8frames_uniform.yaml -w output/ppTSMv2/ppTSMv2_best.pdparams

4-导出推理模型

# 切换到output目录
cd output# 创建inference目录存储推理模型
mkdir ppTSMv2_inference

python tools/export_model.py -c configs/recognition/pptsm/v2/pptsm_lcnet_ucf101_8frames_uniform.yaml \-p output/ppTSMv2/ppTSMv2_best.pdparams \-o output/ppTSMv2_inference
├── output/ppTSMv2_inference
│   ├── ppTSMv2.pdiparams       # 模型权重文件
│   ├── ppTSMv2.pdiparams.info  # 模型信息文件
│   └── ppTSMv2.pdmodel         # 模型结构文件

5-基于python进行模型推理

python tools/predict.py --input_file data/example.avi \--config configs/recognition/pptsm/v2/pptsm_lcnet_ucf101_8frames_uniform.yaml \--model_file output/ppTSMv2_inference/ppTSMv2.pdmodel \--params_file output/ppTSMv2_inference/ppTSMv2.pdiparams \--use_gpu=True \--use_tensorrt=False

6-基于onnx进行模型推理

详见下一篇博文。

参考链接

1:PP-TSM视频分类模型PaddleVideo/docs/zh-CN/model_zoo/recognition/pp-tsm.md at develop · PaddlePaddle/PaddleVideo · GitHubAwesome video understanding toolkits based on PaddlePaddle. It supports video data annotation tools, lightweight RGB and skeleton based action recognition model, practical applications for video tagging and sport action detection. - PaddleVideo/docs/zh-CN/model_zoo/recognition/pp-tsm.md at develop · PaddlePaddle/PaddleVideoicon-default.png?t=N7T8https://github.com/PaddlePaddle/PaddleVideo/blob/develop/docs/zh-CN/model_zoo/recognition/pp-tsm.md

2: PP-TSMv2PaddleVideo/docs/zh-CN/model_zoo/recognition/pp-tsm_v2.md at develop · PaddlePaddle/PaddleVideo · GitHubAwesome video understanding toolkits based on PaddlePaddle. It supports video data annotation tools, lightweight RGB and skeleton based action recognition model, practical applications for video tagging and sport action detection. - PaddleVideo/docs/zh-CN/model_zoo/recognition/pp-tsm_v2.md at develop · PaddlePaddle/PaddleVideoicon-default.png?t=N7T8https://github.com/PaddlePaddle/PaddleVideo/blob/develop/docs/zh-CN/model_zoo/recognition/pp-tsm_v2.md

3: ucf101数据处理

PaddleVideo/docs/zh-CN/dataset/ucf101.md at develop · PaddlePaddle/PaddleVideo · GitHubAwesome video understanding toolkits based on PaddlePaddle. It supports video data annotation tools, lightweight RGB and skeleton based action recognition model, practical applications for video tagging and sport action detection. - PaddleVideo/docs/zh-CN/dataset/ucf101.md at develop · PaddlePaddle/PaddleVideoicon-default.png?t=N7T8https://github.com/PaddlePaddle/PaddleVideo/blob/develop/docs/zh-CN/dataset/ucf101.md

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/802996.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024年32款数据分析工具分五大类总览

数据分析工具在现代商业和科学中扮演着不可或缺的角色,为组织和个人提供了深入洞察和明智决策的能力。这些工具不仅能够处理大规模的数据集,还能通过强大的分析和可视化功能揭示隐藏在数据背后的模式和趋势。数据分析工具软件主要可以划分为以下五个类别…

YOLOv5标签值含义根据标签将检测框色块替换(马赛克)

以一个检测人脸的图片为例: 检测后生成的标签txt如下, 此时,如何根据标签值将检测到的人脸同色块替换呢? 关键是获取检测框的左上角坐标和右下角坐标。 img Image.open(D:/PythonWokspace/JINX/datasets_transform/dataset/im…

SPICE模型和IBIS模型

两者都是用于电路仿真的模型。 SPICE模型:是对芯片的实际物理结构进行描述,包含了芯片的具体特征和工艺有关的信息,大多数厂商不愿意提供芯片的SPICE模型。 IBIS模型:输入/输出缓冲接口特性(Input/Output Buffer Int…

如何查看git管理了哪些文件?

要查看Git管理了哪些文件,可以使用以下命令: git status:此命令会显示当前工作目录下在Git仓库中的文件状态。它会列出已修改、已添加到暂存区以及未跟踪的文件。通过此命令,你可以了解到哪些文件已经被Git跟踪并处于不同的状态。…

使用jdk8学习JHipster教程

使用jdk8学习JHipster教程 文章目录 使用jdk8学习JHipster教程简介1.安装JHipster1.1 准备java81.2 准备node.js1.3 安装JHipster 2.使用JHipster创建一个应用程序2.1 找一个空文件夹2.2 执行jhipster2.3 后续结果如下 3.使用JHipster3.1 打开项目3.2 设置项目3.2 启动 简介 JH…

已解决javax.xml.parsers.ParserConfigurationException: 解析器配置异常的正确解决方法,亲测有效!!!

已解决javax.xml.parsers.ParserConfigurationException: 解析器配置异常的正确解决方法,亲测有效!!! 目录 问题分析 报错原因 解决思路 解决方法 核查配置项 简化配置 环境适配 查阅文档 总结 博主v:XiaoMi…

【鸿蒙开发】系统组件Text,Span

Text组件 Text显示一段文本 接口: Text(content?: string | Resource) 参数: 参数名 参数类型 必填 参数描述 content string | Resource 否 文本内容。包含子组件Span时不生效,显示Span内容,并且此时text组件的样式不…

深入理解JVM后端优化技术-锁消除(Lock Elision)

相关模块 深入理解jvm执行引擎-CSDN博客 深入理解JVM后端优化技术-方法内联-CSDN博客 深入理解JVM后端优化技术-逃逸分析(Escape Analysis)-CSDN博客 深入理解JVM后端优化技术-锁粗化(Lock Coarsening)-CSDN博客 通过逃逸分析后,就可进行下一步优化,锁消除 lock eli…

【Leetcode】【240408】1700. Number of Students Unable to Eat Lunch

端不出来本周组会的屎了……尽管不止一位朋友/前辈说过:想做SDE工作的话,科研能划就划,重在练习日语。。。 BGM:江南-林俊杰《2003-2010精选》 Descripition The school cafeteria offers circular and square sandwiches at lu…

图片管理系统:原理、设计与实践

title: 图片管理系统:原理、设计与实践 date: 2024/4/9 20:04:25 updated: 2024/4/9 20:04:25 tags: 图片管理存储组织上传采集处理编辑搜索检索展示分享AI应用 第一章:图片管理系统概述 1.1 图片管理系统简介 图片管理系统是一种用于存储、组织、处理…

跨地域分布的企业,SD-WAN帮助企业实现统一管理

全球化进程的加速,越来越多的企业在全球范围内展开业务,跨地域分布的企业网络管理面临着诸多挑战。SD-WAN作为一种新兴的网络技术,为跨地域分布的企业提供了一种有效的解决方案,帮助企业实现统一管理和集中控制。本文将探讨SD-WAN…

【负载均衡——一致性哈希算法】

1.一致性哈希是什么 一致性哈希算法就很好地解决了分布式系统在扩容或者缩容时,发生过多的数据迁移的问题。 一致哈希算法也用了取模运算,但与哈希算法不同的是,哈希算法是对节点的数量进行取模运算,而一致哈希算法是对 2^32 进…

摩尔信使MThings之数据网关:Modbus转MQTT

由于现场设备和物联网云平台采用了不同的通信协议,而为了实现它们之间的互操作性和数据交换,需要进行协议转换。 MQTT作为一种轻量级的、基于发布/订阅模式的通信协议,适用于连接分布式设备和传感器网络,而MODBUS协议则常用于工业…

Java之枚举详细总结

枚举是一种特殊类。 枚举类的格式: 修饰符 enum 枚举类名{名称1,名称2,...;其他成员 } 例如: public enum A {//枚举类中的第一行必须枚举对象的名字X,Y,Z; ​private String name; ​public String getName() {retu…

Tinex:Python中的数学表达式解析和计算

Tinex是tinyexpr 的 python 包装器。 主要有两个API: 1)tinex.eval(expression, **variables) → float 参数:表达式。如果是字符串,则它必须是可 ascii 编码的。 expression (Expression or str) :表达式。如果是…

v-model的概念

v-model是什么1.双向数据绑定,既可以拿取data的数据,也可以写入数据2.v-model本身是一个语法糖,一般用于表单收集3.v-model自动绑定表单value值 v-model""v-model原理1.使用v-bind绑定数据2.使用oninput传递数据 vue.js devtools扩…

Linux初学(十七)防火墙

一、防火墙简介 1.1 防火墙的类别 安全产品 杀毒: 针对病毒,特征篡改系统中的文件杀毒软件针对处理病毒程序防火墙: 针对木马,特征系统窃取防火墙针对处理木马 防火墙分为两种 硬件防火墙软件防火墙 硬件防火墙 各个网络安全…

el-table实现表格内部横向拖拽效果

2024.4.2今天我学习了如何对el-table表格组件实现内部横向拖拽的效果,效果: 代码如下: 一、创建utils/底下文件 const crosswise_drag_table function (Vue){// 全局添加table左右拖动效果的指令Vue.directive(tableMove, {bind: function…

python用requests的post提交data数据以及json和字典的转换

环境:python3.8.10 python使用requests的post提交数据的时候,代码写法跟抓包的headers里面的Content-Type有关系。 (一)记录Content-Type: application/x-www-form-urlencoded的写法。 import requestsurlhttps://xxx.comheade…

Unity类银河恶魔城学习记录12-8 p130 Skill Tree UI源代码

Alex教程每一P的教程原代码加上我自己的理解初步理解写的注释,可供学习Alex教程的人参考 此代码仅为较上一P有所改变的代码 【Unity教程】从0编程制作类银河恶魔城游戏_哔哩哔哩_bilibili UI.cs using UnityEngine;public class UI : MonoBehaviour {[SerializeFi…