百度顶会论文复现（3）：视频分类综述

百度顶会论文复现（3）：视频分类综述

news/2025/7/3 17:39:41/文章来源:https://blog.csdn.net/cg129054036/article/details/107748313

本节课主要是对视频分类的发展进行了介绍，包括任务与背景，分类方法，前沿进展等。课程地址为：https://aistudio.baidu.com/aistudio/course/introduce/1340?directly=1&shared=1。

文章目录

- 1. 任务与背景
- 2. 视频分类方法
- - 2.1 双流网络方法
  - 2.2 静态图像特征聚合
  - 2.3 3D卷积方法
- 3. 前沿进展
- - 3.1 高效视频网络
  - 3.2 运动增强的RGB分类
  - 3.3 快慢信息结合网络
  - 3.4 光流表示学习
  - 3.5 时序金字塔网络

1. 任务与背景

这里首先给出了什么是视频分类的定义：将一段视频分类到预先制定类别集合中的某一个或多个。
在这里插入图片描述
然后给出了视频分类的发展历程：分为前深度学习时代和深度学习时代。

2. 视频分类方法

视频与图像不同，它由空间维度和时间维度组成。包括静态图像特征，运动特征，音频特征，外部特征等。由于其特征之多和复杂，视频处理可以看作是CV皇冠上的明珠。
目前主要的方法有：双流网络，静态图像特征聚合，3D卷积。

在这里插入图片描述

2.1 双流网络方法

借鉴人类大脑处理视觉信息的方式，研究人员设计了全新的网络结构，实现静态图像特征和运动信息统一，互补的提取和分类，主要论文有以下三篇。

`NIPS-2014`	`CVPR-2016`	`ECCV-2016`

2.2 静态图像特征聚合

方法主要是提取视频不同时刻多帧图像的特征，聚合生成视频级特征，进而分类。
在这里插入图片描述
主要代表论文有以下4篇：
首先是用CNN+LSTM提取静态图像特征并构建时序关系，然后进行分类。

`CVPR-2015`	`ICMR-2016`

然后也有学者对视频图像和光流进行特征提取，也有的学者使用Attention进行最后分类：
在这里插入图片描述

2.3 3D卷积方法

3D卷积是从水平、垂直和时序三个方向同时提取视频时空特征，但是计算量太大。
在这里插入图片描述
后来又学者借鉴残差结构，降低了3D卷积的计算复杂度，处理时先在图像空间卷积，再在时间维度卷积。

后来学者又进行了改进，提出了图像+视频联合预训练的方法。

3. 前沿进展

最新的视频处理方法主要有：高效视频网络，运动增强的RGB分类，快慢信息结合网络，光流表示学习，时序金字塔网络。

3.1 高效视频网络

这是本次课程论文复现里的一篇：ECO网络。
在这里插入图片描述

3.2 运动增强的RGB分类

这篇论文也是开创性的，避免了光流的计算。
在这里插入图片描述

在这里插入图片描述

3.3 快慢信息结合网络

这篇论文设计了两条通道，快速与慢速通道，降低了计算量。
在这里插入图片描述

3.4 光流表示学习

这篇论文主要工作是把光流信息用网络学习了出来。
在这里插入图片描述

3.5 时序金字塔网络

这也是本次课程需要复现的论文之一，
在这里插入图片描述

最后是未来展望：
在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/439692.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

一步步编写操作系统 46 linux的elf可执行文件格式1

一步步编写操作系统 46 linux的elf可执行文件格式1

ELF文件格式依然是分为文件头和文件体两部分，只是该文件头相对稍显复杂，类似层次化结构，先用个ELF header从“全局上”给出程序文件的组织结构，概要出程序中其它头表的位置大小等信息，如程序头表的大小及位置、节头表的…

阅读更多...

百度顶会论文复现（4）：飞桨API详解

百度顶会论文复现（4）：飞桨API详解

本节课主要是对飞桨常用API进行了介绍，课程地址为：https://aistudio.baidu.com/aistudio/education/group/info/1340。文章目录1.飞桨API官网2. API使用介绍3. 飞桨模型操作1.飞桨API官网官网地址为：https://www.paddlepaddle.org.cn/docu…

阅读更多...

【Codeforces - 977D】Divide by three, multiply by two（思维构造）

【Codeforces - 977D】Divide by three, multiply by two（思维构造）

题干： Polycarp likes to play with numbers. He takes some integer number xx, writes it down on the board, and then performs with it n−1n−1 operations of the two kinds: divide the number xx by 33 (xx must be divisible by 33);multiply the numbe…

阅读更多...

一步步编写操作系统 45 linux的elf可执行文件中的段和节

一步步编写操作系统 45 linux的elf可执行文件中的段和节

接上文，为了描述清楚文件格式的本质，咱们先从最基本的“段”说起。程序中最重要的部分就是段（segment）和节（section），它们是真正的程序体，是真真切切的程序资源，所以下…

阅读更多...

视觉SLAM十四讲（3）：三维空间刚体运动

视觉SLAM十四讲（3）：三维空间刚体运动

本章需要掌握的知识点有：旋转矩阵，变换矩阵，四元数，欧拉角定义和数学表达；同时也要掌握Eigen库关于矩阵、几何模块的使用方法。文章目录3.1 旋转矩阵3.1.1 点，向量和矩阵的关系3.1.2 坐标系间的欧式变换3.…

阅读更多...

【CodeForces - 483C】Diverse Permutation（思维构造）

【CodeForces - 483C】Diverse Permutation（思维构造）

题干： Permutation p is an ordered set of integers p1, p2, ..., pn, consisting of ndistinct positive integers not larger than n. Well denote as n the length of permutation p1, p2, ..., pn. Your task is to find such…

阅读更多...

一步步编写操作系统 47 elf格式文件分析实验

一步步编写操作系统 47 elf格式文件分析实验

在上一节中，我们讲述了elf格式的部分理论知识，为什么是部分呢？因为我们本着“够用”的原则，只把我们需要了解的部分说完啦。不过，我相信大部分同学仅仅凭上一节中的理论知识还是领悟不到elf本质，咱们在本节…

阅读更多...

百度飞桨顶会论文复现（5）：视频分类论文之《Representation Flow for Action Recognition》篇

百度飞桨顶会论文复现（5）：视频分类论文之《Representation Flow for Action Recognition》篇

这次老师在课上总共领读了4篇分类论文，我这里分享其中的一篇论文，是关于使用神经网络对光流进行学习。课程地址是：https://aistudio.baidu.com/aistudio/education/group/info/1340。论文地址是：https://arxiv.org/abs/1810.014…

阅读更多...

智能算法(GA、DBO等)求解零等待流水车间调度问题(NWFSP)

智能算法(GA、DBO等)求解零等待流水车间调度问题(NWFSP)

先做一个声明：文章是由我的个人公众号中的推送直接复制粘贴而来，因此对智能优化算法感兴趣的朋友，可关注我的个人公众号：启发式算法讨论。我会不定期在公众号里分享不同的智能优化算法，经典的，或者是近几年…

阅读更多...

【蓝桥官网试题 - 算法提高】change（思维）

【蓝桥官网试题 - 算法提高】change（思维）

题干： 问题描述数组A中共有n个元素，初始全为0。你可以对数组进行两种操作：1、将数组中的一个元素加1；2、将数组中所有元素乘2。求将数组A从初始状态变为目标状态B所需要的最少操作数。输入格式第一行一个正整数n表示数组中元…

阅读更多...

一步步编写操作系统 50 加载内核3

一步步编写操作系统 50 加载内核3

接上节，在这里，我们把参数放到了栈中保存，大家注意到了，参数入栈的顺序是先从最右边的开始，最后压入的参数最左边的，其实这是某种约定，要不，为什么不先把中间的参数src入栈呢。既然主…

阅读更多...

【POJ - 2965】The Pilots Brothers' refrigerator（暴力枚举，思维）

【POJ - 2965】The Pilots Brothers' refrigerator（暴力枚举，思维）

题干： The game “The Pilots Brothers: following the stripy elephant” has a quest where a player needs to open a refrigerator. There are 16 handles on the refrigerator door. Every handle can be in one of two states: open or closed. The refrige…

阅读更多...

动手学无人驾驶（5）：多传感器数据融合

动手学无人驾驶（5）：多传感器数据融合

本系列的前4篇文章主要介绍了深度学习技术在无人驾驶环境感知中的应用，包括交通标志识别，图像与点云3D目标检测。关于环境感知部分的介绍本系列暂且告一段落，后续如有需要再进行补充。现在我们开启新的篇章，在本文中将会介绍无人…

阅读更多...

一步步编写操作系统 52 深入浅出cpu的特权级

一步步编写操作系统 52 深入浅出cpu的特权级

所谓保护模式下的“保护”，主要体现在特权级上，以后随着后面工作的展开，会越来越多的和它们打交道，现在是时候说道说道了。在人类社会中出现恶势力时，人们总是希望出现一位具有神力的英雄来拯救世人、主持公道。阶级…

阅读更多...

详解两阶段3D目标检测网络PVRCNN：Point-Voxel Feature Set Abstraction for 3D Object Detection

详解两阶段3D目标检测网络PVRCNN：Point-Voxel Feature Set Abstraction for 3D Object Detection

在《动手学无人驾驶（4）：基于激光雷达点云数据3D目标检测》一文中介绍了3D目标检测网络PointRCNN。今天介绍该作者新提出的3D检测模型：PVRCNN，论文已收录于CVPR2020。作者个人主页为：https://sshaoshuai.gi…

阅读更多...

【Codeforces - 755C】PolandBall and Forest（并查集）

【Codeforces - 755C】PolandBall and Forest（并查集）

题干： PolandBall lives in a forest with his family. There are some trees in the forest. Trees are undirected acyclic graphs with k vertices and k - 1 edges, where k is some integer. Note that one vertex is a valid tree. There is exactly one …

阅读更多...

一步步编写操作系统 53 任务状态段TSS介绍

一步步编写操作系统 53 任务状态段TSS介绍

操作系统是利用PCB来维护所有任务的，包括进程和线程，但cpu提供的是TSS，linux系统可没用它，因为效率太低。但是还是要了解下TSS才清楚操作系统中某些操作的原因。本节中所讲的特权级与它有着密不可分的联系，TSS作用不…

阅读更多...

动手学无人驾驶（6）：基于IMU和GPS数据融合的自车定位

动手学无人驾驶（6）：基于IMU和GPS数据融合的自车定位

在上一篇博文《动手学无人驾驶（5）：多传感器数据融合》介绍了如何使用Radar和LiDAR数据对自行车进行追踪，这是对汽车外界运动物体进行定位。对于自动驾驶的汽车来说，有时也需要对自身进行更精确的定位，今天…

阅读更多...

【Codeforces - 798C】 Mike and gcd problem（思维，贪心）

【Codeforces - 798C】 Mike and gcd problem（思维，贪心）

题干： Mike has a sequence A [a1, a2, ..., an] of length n. He considers the sequence B [b1, b2, ..., bn] beautiful if the gcd of all its elements is bigger than 1, i.e. . Mike wants to change his sequence in order to make it beauti…

阅读更多...

一步步编写操作系统 48 加载内核1

一步步编写操作系统 48 加载内核1

其实，我们等了这一刻好久好久，即使我不说，大家也有这样的认识，linux内核是用c 语言写的，咱们肯定也要用c语言。其实...说点伤感情的话，今后的工作只是大部分（99%）都要用c语言来写&am…

阅读更多...

最新文章