论文阅读:通过时空生成卷积网络合成动态模式(重点论文)

原文链接
github code
介绍视频
视频序列包含丰富的动态模式,例如在时域中表现出平稳性的动态纹理模式,以及在空间或时域中表现出非平稳的动作模式。 我们证明了时空生成卷积网络可用于建模和合成动态模式。 该模型定义了视频序列上的概率分布,对数概率由时空ConvNet定义,该网络由多层时空滤波器组成,用于捕获不同尺度的时空模式。 该模型可以通过迭代以下两个步骤的“综合分析”学习算法从训练视频序列中学习。 步骤 1 从当前学习的模型合成视频序列。 步骤 2 然后根据合成视频序列和观察到的训练序列之间的差异更新模型参数。 我们证明了学习算法可以合成真实的动态模式。

1. Introduction

视频序列中有各种各样的动态模式,包括在时间维度上表现出统计平稳性或随机重复性的动态纹理 [2] 或纹理运动 [24],以及在空间或时间域中非平稳的动作模式 。 综合和分析这种动态模式一直是一个有趣的问题。 在本文中,我们重点关注使用生成版本的卷积神经网络(ConvNet 或 CNN)合成动态模式的任务。

ConvNet [14, 12] 已被证明是一种非常成功的判别学习机器。 ConvNet 中的卷积运算特别适合图像、视频和声音等在空间域或时间域或两者中表现出平移不变性的信号。 最近,研究人员对ConvNet的生成方面越来越感兴趣,目的是可视化ConvNet学到的知识,或者合成现实信号,或者开发可用于无监督学习的生成模型。

在合成方面,人们提出了各种基于ConvNet的方法来合成逼真的静态图像[3,7,1,13,16]。 然而,文献中关于基于ConvNet合成动态模式的工作并不多,这也是本文的重点。

具体来说,我们建议通过推广[29]最近提出的生成式ConvNet模型来合成动态模式。 生成式ConvNet 可以从判别式ConvNet 推导出来。 它是一个随机场模型或基于能量的模型[15, 20],采用参考分布的指数倾斜形式,例如高斯白噪声分布或均匀分布。 指数倾斜由 ConvNet 参数化,该网络涉及多层线性滤波器和修正线性单元 (ReLU) [12],旨在捕获不同尺度的特征或模式。

生成式ConvNet可以通过Langevin动力学进行采样。 该模型可以通过随机梯度算法来学习[31]。 这是一种“综合分析”方案,旨在将朗之万动力学生成的合成信号与观察到的训练信号相匹配。 具体来说,学习算法在初始化参数和合成信号后迭代以下两个步骤。 步骤 1 通过从当前学习模型中采样的 Langevin 动力学更新合成信号。 然后,步骤 2 根据合成数据和观测数据之间的差异更新参数,以便将模型的密度从合成数据转向观测数据。 [29]表明学习算法可以合成真实的空间图像模式,例如纹理和物体。

在本文中,我们通过添加时间维度来概括空间生成式 ConvNet,以便生成的 ConvNet 由多层时空滤波器组成,这些滤波器旨在捕获各种尺度的时空模式。 我们证明了用于训练时空生成卷积网络的学习算法可以合成真实的动态模式。 我们还表明,可以从具有遮挡像素或丢失帧的不完整视频序列中学习模型,从而可以同时完成模型学习和模式完成.

2.相关工作

我们的工作是通过添加时间维度对[29]的生成ConvNet模型进行推广。 [29]没有研究动态模式,例如视频序列中的动态模式。 [11] 使用时空判别式 ConvNet 来分析视频数据。 [29] 研究了判别式 ConvNet 和生成式 ConvNet 之间的联系。

[2,24,25,9]已经研究了动态纹理或纹理运动。 例如,[2]提出了一种向量自回归模型,并通过单值分解进行逐帧降维。 它是具有高斯创新的线性模型。 [24]提出了一种基于帧稀疏线性表示的动态模型。 有关动态纹理的最新评论,请参阅[30]。 时空生成ConvNet是一种非线性和非高斯模型,预计可以通过多层非线性时空滤波器更灵活地捕获动态纹理中的复杂时空模式。

最近[23]推广了生成对抗网络[6]来模拟动态模式。 我们的模型是一个基于能量的模型,它也有对抗性的解释。 详细信息请参见第 3.4 节。

对于时态数据,流行的模型是循环神经网络 [27, 10]。 它是一个因果模型,需要一个起始框架。 相比之下,我们的模型是非因果的,并且不需要起始框架。 与循环网络相比,我们的模型在捕获多个时间尺度的时间模式方面更加方便和直接。

3. Spatial-temporal generative ConvNet

3.3. Sampling and learning algorith

该期望可以通过朗之万动力学产生的蒙特卡罗样本[31]来近似。 有关学习和采样算法的说明,请参阅算法 1。 该算法不断从当前模型合成图像序列,并更新模型参数,以便将合成的图像序列与观察到的图像序列进行匹配。 学习算法不断将模型的概率密度或低能量区域从合成数据转向观察数据
在这里插入图片描述

在学习算法中,朗之万采样步骤涉及∂f(I;w)/∂I的计算,参数更新步骤涉及∂f(I;w)/∂w的计算。 由于f(I; w)的ConvNet结构,两个梯度都可以通过反向传播来有效计算,并且两个梯度在反向传播中共享大部分链式规则计算。 就 MCMC 采样而言,朗之万动力学从不断变化的分布中采样,因为 w (t) 不断变化。 因此,学习和采样算法运行非平稳链。

4.实验

可看 http://www.stat.ucla.edu/~jxie/STGConvNet/STGConvNet.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/594783.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开发一个商城小程序要多少钱?

随着科技的飞速发展,小程序已成为移动端购物的新宠。商城小程序更是如此,凭借其便捷性、灵活性、以及强大的营销功能,为企业打开了新的销售渠道。那么,开发一个商城小程序到底要多少钱呢?今天,我们就来深入…

c++语言基础17-判断集合成员

题目描述 请你编写一个程序&#xff0c;判断给定的整数 n 是否存在于给定的集合中。 输入描述 有多组测试数据&#xff0c;第一行有一个整数 k&#xff0c;代表有 k 组测试数据。 每组数据第一行首先是一个正整数 m&#xff0c;表示集合中元素的数量&#xff08;1 < m &…

玩转Ubuntu零基础教程

欢迎来到 Ubuntu&#xff01;以下是一份零基础入门 Ubuntu 的指南&#xff0c;以帮助你更好地了解和使用这个流行的 Linux 操作系统。 1. 安装 Ubuntu&#xff1a; 从 Ubuntu 官网 下载最新版本的 Ubuntu。制作启动盘&#xff08;可以使用软件如 Rufus 或 balenaEtcher&#…

Python----matplotlib库

目录 plt库的字体&#xff1a; plt的操作绘图函数&#xff1a; plt.figure(figsizeNone, facecolorNone): plt.subplot(nrows, ncols, plot_number)&#xff1a; plt.axes(rect)&#xff1a; plt.subplots_adjust(): plt的读取和显示相关函数&#xff1a; plt库的基础图…

vue和react哪种框架使用范围更广

Vue和React都是非常流行的前端JavaScript框架&#xff0c;它们各自有着广泛的应用场景和支持者。选择使用哪一个框架往往取决于特定的项目需求、开发团队的熟悉程度以及生态系统的偏好。以下是这两个框架的一些主要特点&#xff0c;以帮助比较它们的使用范围&#xff1a; React…

【数据挖掘】基于 LightGBM 的系统访问风险识别(附源码)

基于 LightGBM 的系统访问风险识别 文章目录 基于 LightGBM 的系统访问风险识别一、课题来源二、任务描述三、课题背景四、数据获取分析及说明&#xff08;1&#xff09;登录https://www.datafountain.cn并获取相关数据&#xff08;2&#xff09;数据集文件说明&#xff08;3&a…

【QT】发生的运行时错误汇总

1 、QObject::startTimer: Timers cannot be started from another thread 错误原因&#xff1a;QObject是可重入的&#xff0c;它的大多数非GUI子类&#xff0c;例如QTimer, QTcpSocket, QUdpSocket and QProcess都是可重入的&#xff0c;使得这些类可以同时用于多线程。需要…

百川 大模型部署 排错实战笔记

目录 测试成功代码: 模型地址: 模型下载: 模型微调地址: win11系统:

目标检测YOLO实战应用案例100讲-基于红外图像处理的无人机光伏组件故障检测

目录 前言 国内外研究现状 光伏组件故障检测研究现状 图像检测算法研究现状

进程和计划任务

一、什么是程序 是一组计算机能识别和执行的指令&#xff0c;运行于电子计算机上&#xff0c;满足人们某种需求的信息化工具 用于描述进程要完成的功能&#xff0c;是控制进程执行的指令集 二、进程 1.什么是进程 进程&#xff1a;正在运行中的程序&#xff0c;加载到内存…

如何使用graalvm为带有反射功能的java代码生成native image

译自Configure Native Image with the Tracing Agent graal官方文档 , 以下所有命令需要在linux环境下操作&#xff0c;graalvm也支持windows。 要为使用 Java 反射、动态代理对象、JNI 或类路径资源的 Java 应用程序构建本机可执行文件&#xff0c;应为 native-image 工具提供…

Python 自学(三) 之序列的应用

目录 1. 序列的含义 2. 序列的索引 P80 3. 序列相加 P81 4. 序列乘法 P82 5. in 关键字 P83 6. 计算序列的最大值max()&#xff0c;最小值min()和长度len() P83 7. 列表的初始化 list() P85 8. 列表元素的添加&#xff0c;…

apache httpd多后缀解析漏洞复现

一、漏洞描述 Apache Httpd支持一个文件拥有多个后缀,不同的后缀执行不同的命令,也就是说当我们上传的文件中只要后缀名含有php,该文件就可以被解析成php文件,利用Apache httpd这个特性,就可以绕过上传文件的白名单。 该漏洞和apache版本和php版本无关,属于用户配置不当造成的解…

如果一个n位正整数等于其各位数字的n次方之和

❤ 厾罗 如果一个n位正整数等于其各位数字的n次方之和 如果一个n位正整数等于其各位数字的n次方之和,则称该数为阿姆斯特朗数。 例如1^3 5^3 3^3 153。 1000以内的阿姆斯特朗数&#xff1a; 1, 2, 3, 4, 5, 6, 7, 8, 9, 153, 370, 371, 407。 以下代码用于检测用户输…

vc2017编译从github网站上下载的源码

以ZLmediakit为例 1.下载软件 cmakehttps://github.com/Kitware/CMake/releases/download/v3.20.5/cmake-3.20.5-windows-x86_64.zip Microsoft Visual Studio https://my.visualstudio.com/Downloads?qvisual%20studio%202017&wt.mc_ido~msft~vscom~older-downloads …

Unity DOTS中的baking(二)Baker的触发

Unity DOTS中的baking&#xff08;二&#xff09;Baker的触发 我们知道&#xff0c;当传入Baker的authoring component的值发生变化时&#xff0c;就会触发baking。不过在有些情况下&#xff0c;component所引用的对象没有变化&#xff0c;而是对象自身内部的一些属性发生了变化…

图形数据库

图形数据库是一种专门用于存储和查询图形数据结构的数据库系统。图形数据结构由节点&#xff08;顶点&#xff09;和边&#xff08;连接节点的关系&#xff09;组成&#xff0c;这种结构非常适合表示实体之间的复杂关系和网络。图形数据库的主要目标是提供高效的图形数据管理和…

C++上位软件通过LibModbus开源库和西门子S7-1200/S7-1500/S7-200 PLC进行ModbusTcp 和ModbusRTU 通信

前言 一直以来上位软件比如C等和西门子等其他品牌PLC之间的数据交换都是大家比较头疼的问题&#xff0c;尤其是C上位软件程序员。传统的方法一般有OPC、Socket 等&#xff0c;直到LibModbus 开源库出现后这种途径对程序袁来说又有了新的选择。 Modbus简介 Modbus特点 1 &#…

书生-浦路大模型全链路开源体系

2023年&#xff0c;大模型成为热门关键词 论文链接 大模型已经成为发展通用人工智能的重要途经 模型评测过程&#xff1a;从模型到应用 全链条开源开发体系 | 数据&#xff1a; 多模态融合 万卷包含文本、图像和视频等多模态数据&#xff0c;涵盖科技、文学、媒体、教育和法…

简单计算器实现,包括两个数

正在加载中... 简单计算器实现&#xff0c;包括两个数 ❤ 厾罗 简单计算器实现&#xff0c;包括两个数 以下代码用于实现简单计算器实现&#xff0c;包括两个数基本的加减乘除运算&#xff1a; 实例(Python 3.0) # Filename : test.py # author by : www.dida100.com …