DisFormer:提高视觉动态预测的准确性和泛化能力

       最新的研究进展已经显示出目标中心的表示方法在视觉动态预测任务中可以显著提升预测精度,并且增加模型的可解释性。这种表示方法通过将视觉场景分解为独立的对象,有助于模型更好地理解和预测场景中的变化。

      尽管在静态图像的解耦表示学习方面已经取得了一些进展,但在视频领域,尤其是在没有对对象可能具有的属性类型做出具体假设的一般性设置中,这方面的工作还相对欠缺。解耦表示通过将对象的不同属性(例如颜色、形状、大小等)分离,可能进一步提高模型对视觉动态的预测能力。

     当前的视觉动态预测方法在处理对象动态时,通常需要依赖于对象属性的显式监督信息,或者在静态图像上进行解耦表示学习。这些方法在处理视频数据时可能存在局限性。

      为了克服现有方法的局限性,并充分利用解耦表示在视频动态预测中的潜力,本文提出了一种新的架构——DisFormer。这一架构旨在通过无监督的方式学习目标中心模型中的解耦表示,并利用这些表示来提高视觉动态预测的准确性和泛化能力。

1 相关工作

1.1 对象中心图像和视频模型

对象中心模型旨在将图像或视频分解为对象和背景,并对每个对象进行单独建模。这类模型通常使用空间注意力机制来发现对象,并使用生成模型或自回归模型来重建图像或视频。例如:

  • AIR:基于空间注意力机制的对象中心模型,通过迭代细化学习对象的表示。AIR模型结合了空间注意力机制和对象中心的学习方法,通过自适应地选择和处理关键区域的信息,提高了模型在计算机视觉任务中的性能和泛化能力
  • MONet:基于空间注意力机制的对象中心模型,通过分解对象和背景来重建图像。
  • SPACE:基于空间注意力机制的对象中心模型,通过分解对象和背景来重建图像,并学习对象的动态。
  • IODINE:基于空间混合模型的对象中心模型,通过分解对象和背景来重建图像,并学习对象的动态。
  • GENESIS:基于空间混合模型的对象中心模型,通过分解对象和背景来重建图像,并学习对象的动态。
  • SLATE:基于空间混合模型的对象中心模型,通过分解对象和背景来重建图像,并学习对象的动态。

1.2 动态预测模型

动态预测模型旨在预测视频帧序列的未来状态。这类模型通常使用自回归模型或生成模型来预测未来帧。例如:

  • Interaction Networks:基于交互网络的对象中心模型,通过学习对象之间的关系来预测其动态。
  • Billiards:基于物理模型的动态预测模型,通过学习物体的运动规律来预测其未来状态。
  • Galileo:基于深度学习和物理引擎的动态预测模型,通过整合物理引擎和深度学习来预测物体的物理属性。
  • GSWM:对象中心生成模型,通过学习对象的表示来预测其动态。
  • SlotFormer:基于槽位注意力的对象中心动态模型,将视频分解为对象和背景,并分别进行建模。

1.3 对象解耦模型

对象解耦模型旨在将对象分解为多个属性,并学习每个属性的表示。这类模型通常使用迭代细化或自编码器来学习解耦表示。例如:

  • Scalor:基于分解和组合的对象解耦模型,通过分解对象和背景来学习解耦表示。
  • SimOne:基于视图不变性和时间抽象的对象解耦模型,通过无监督视频分解来学习解耦表示。
  • Simple Unsupervised Object-Centric Learning:基于简单无监督对象中心学习的解耦模型,通过无监督学习来学习解耦表示。
  • Neural Systematic Binder:基于线性组合的对象解耦模型,通过学习对象属性的概念向量来学习解耦表示。

1.4 DisFormer 与现有方法的区别

与现有方法相比,DisFormer 具有以下特点:

  • 解耦表示: 通过迭代细化将对象分解为多个“块”,每个块代表对象的一个潜在属性,从而学习解耦表示。
  • Transformer 动态预测:利用 Transformer 预测对象未来状态,并能够捕捉对象之间的交互关系。
  • 对象中心表示:直接使用对象表示,而不依赖于特定的对象提取器,因此具有更好的泛化能力。

2 DisFormer模型

DisFormer 是一种基于 Transformer 的视觉动态预测模型,其主要目标是学习解耦的对象表示,并利用该表示来预测对象的未来状态。DisFormer 模型主要由以下四个模块组成:

2.1 遮罩提取器 (Mask Extractor)

遮罩提取器负责提取视频帧中的对象遮罩。DisFormer 使用 SAM (Segment Anything) 模型和 SAVi (Slot Attention for Video) 模型联合提取对象遮罩。

  • SAVi 模型:首先使用 SAVi 模型对视频帧进行对象发现,并生成对象遮罩的粗略估计。
  • SAM 模型:然后使用 SAM 模型对 SAVi 模型生成的遮罩进行细化,生成更精确的对象遮罩。

2.2 块提取器 (Block Extractor)

块提取器负责将对象分解为多个“块”,每个块代表对象的一个潜在属性。块提取器使用迭代细化的方法来学习解耦表示。

  • 初始化:每个对象的块表示初始化为对象表示的线性组合。
  • 迭代细化:块表示通过自注意力机制与对象表示进行交互,并更新其表示,直到收敛。
  • 解耦表示:每个块表示最终表示为一个固定数量的可学习概念向量的线性组合,从而实现解耦表示。

2.3 动态预测器 (Dynamics Predictor)

动态预测器负责预测对象未来状态。动态预测器使用 Transformer 模型来捕捉对象之间的交互关系,并预测对象的未来状态。

  • 线性投影:将每个块表示投影到高维空间。
  • 自注意力机制:使用自注意力机制捕捉对象之间的交互关系。
  • 解码:将预测的对象状态解码为图像。

2.4 解码器 (Decoder)

解码器负责将解耦的对象表示解码为图像。解码器使用空间混合模型来生成图像。

  • 空间广播解码器:将每个块表示解码为 2D 特征图。
  • 卷积神经网络:将 2D 特征图解码为图像。

3实验部分

3.1 数据集

在四个不同的数据集上进行了一系列实验,以评估DisFormer的性能。这些数据集包括两个2D数据集和两个3D数据集,涵盖了从简单的玩具环境到更复杂的3D动态

  • 2D Bouncing Circles (2D-BC):一个包含三个不同颜色球体在 2D 空间中自由运动和碰撞的合成数据集。
  • 2D Bouncing Shapes (2D-BS):一个包含两个圆形和两个正方形在 2D 空间中自由运动和碰撞的合成数据集。
  • OBJ3D:一个包含一个弹性球体进入场景并与其他静止物体碰撞的合成数据集。
  • CLEVRER:一个包含各种形状、颜色和材质的物体在 3D 空间中运动和交互的合成数据集。

3.2 线模型

本文将 DisFormer 与以下两种基线模型进行了比较:

  • GSWM:对象中心生成模型,通过学习对象的表示来预测其动态。模型的目标是提高生成想象力,并且可以通过PyTorch实现
  • SlotFormer:基于槽位注意力的对象中心动态模型,将视频分解为对象和背景,并分别进行建模。使用Transformer网络来建模视频中对象的空间-时间动态关系,并生成未来帧

3.3 评价指标

使用的评估指标包括像素均方误差(PErr)、峰值信噪比(PSNR)、感知损失(LPIPS)和结构相似性指数(SSIM)

  • 像素均方误差(PErr):指均方误差(MSE),用于衡量图像处理前后的质量变化。
  • 峰值信噪比(PSNR):PSNR是“Peak Signal to Noise Ratio”的缩写,即峰值信噪比,是一种评价图像的客观标准。PSNR的单位是dB,数值越大表示失真越小。
  • 感知损失(LPIPS):LPIPS,也称为“感知损失”,用于度量两张图像之间的差别。这个指标通过深度学习模型来评估两个图像之间的感知差异。
  • 结构相似性指数(SSIM):SSIM是“Structural Similarity Index”的缩写,即结构相似性指数,用于衡量两幅图像之间的相似度。SSIM考虑了图像的亮度、对比度和结构三个方面,取值范围在-1到1之间,1表示两幅图像完全相同,-1表示两幅图像完全不同

3.4 实验结果

实验结果表明,DisFormer 在所有数据集上均取得了优于 GSWM 和 SlotFormer 的性能,尤其是在 OOD 设置下。

  • 2D 数据集:DisFormer 在 PErr 和 PSNR 指标上均优于 GSWM 和 SlotFormer,在 OOD 设置下性能提升更为显著。

  • 3D 数据集:DisFormer 在 PSNR 和 SSIM 指标上优于 GSWM 和 SlotFormer,在 OOD 设置下性能提升更为显著。

4 未来方向和局限性

4.1 未来工作方向

  • 更复杂的场景: 将 DisFormer 扩展到更复杂的场景,例如具有更多对象和背景交互的场景。
  • 更复杂的 3D 场景: 将 DisFormer 扩展到更复杂的 3D 场景,并解决 3D 数据集中属性解耦不完全的问题。
  • 动作条件预测: 将 DisFormer 扩展到动作条件视频预测,以便模型能够根据动作预测视频动态。
  • 超参数分析: 深入分析概念数量和块数量等超参数对模型性能的影响,并找到最佳的超参数设置。
  • 真实世界数据集: 在真实世界数据集上进行实验,以评估 DisFormer 在真实场景中的性能。

4.2 局限性

  • 3D 数据集的属性解耦: DisFormer 在 3D 数据集上的属性解耦效果不如 2D 数据集,这可能是由于 3D 场景的复杂性更高。
  • 真实世界数据集的实验: 目前还没有在真实世界数据集上进行实验,因此 DisFormer 在真实场景中的性能还有待验证

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/866793.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于SpringBoot的乐校园二手书交易管理系统

你好呀,我是计算机学姐码农小野!如果有相关需求,可以私信联系我。 开发语言 Java 数据库 MySQL 技术 SpringBoot框架 工具 Visual Studio、MySQL数据库开发工具 系统展示 首页 用户注册界面 二手图书界面 个人中心界面 摘要 乐校园…

go Channel原理 (四)

Channel 设计原理 不要通过共享内存的方式进行通信,而是应该通过通信的方式共享内存。 在主流编程语言中,多个线程传递数据的方式一般都是共享内存。 Go 可以使用共享内存加互斥锁进行通信,同时也提供了一种不同的并发模型,即通…

试用笔记之-VB微信支付支付宝支付源代码

首先下载VB微信支付&支付宝支付源代码 http://www.htsoft.com.cn/download/VB6WeiXin_ZhiFuBao_ZhiFu.rar

【一念发动便是行】念头,就是命运

一个个恶念累积就是负能量,念头就是命运,克除恶念,防范念头,念头都有能量,学圣学须内外庄严检肃,言语有灵 多数人的问题都是出在念头上,念头,就是自己的命运; 当我们对自…

Linux--信号(万字详解!超完整!)

目录 0.预备知识 0.1.基本概念 0.2.信号的捕捉 0.3.理解信号的发送与保存 1.信号的产生(阶段一) 1.通过kill命令,向指定进程发送指定的信号 2.通过终端按键产生信号:ctrlc(信号2),ctrl\(…

【python】PyQt5控件尺寸大小位置,内容边距等API调用方法实战解析

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,…

第十二章 执行引擎

一、执行引擎概述 概述 执行引擎是 Java 虚拟机核心的组成部分之一。“虚拟机”是一个相对于“物理机”的概念,这两种机器都有代码执行能力,其区别是物理机的执行引擎是直接建立在处理器、缓存、指令集和操作系统层面上的,而虚拟机的执行引…

AlmaTech股份有限公司如何通过有效的营销本地化解锁全球市场

在当今全球化经济中,企业必须调整营销策略,以引起不同地区不同受众的共鸣。营销本地化,包括定制营销材料以满足各种市场的文化、语言和监管要求,对于实现这一目标至关重要。本案例研究探讨了领先的电子商务公司AlmaTech股份有限公…

解锁水利智慧:智慧水利的深度剖析与未来展望,探讨智慧水利如何助力水利行业实现数字化转型与智能化升级

本文关键词:智慧水利、智慧水利工程、智慧水利发展前景、智慧水利技术、智慧水利信息化系统、智慧水利解决方案、数字水利和智慧水利、数字水利工程、数字水利建设、数字水利概念、人水和协、智慧水库、智慧水库管理平台、智慧水库建设方案、智慧水库解决方案、智慧…

数据驱动下的SaaS渠道精细化运营:提升ROI的实战指南

在当今数字化转型的大潮中,SaaS(Software as a Service)企业面临着日益激烈的市场竞争。为了在市场中脱颖而出,实现可持续增长,SaaS企业必须转向更为精细化的运营模式,而数据驱动则是实现这一目标的关键。本…

TCP 的安全可靠

TCP的安全可靠 重传机制往返时间测量快速重传 流量控制拥塞控制 重传机制 T C P确认从另一端收到的数据以提供可靠的运输层,但数据和确认都有可能会丢失。 T C P通过在发送时设置一个定时器来解决这种问题。如果当定时器溢出时还没有收到确认,它就重传该…

【C++】认识使用string类

【C】STL中的string类 C语言中的字符串标准库中的string类string类成员变量string类的常用接口说明成员函数string(constructor构造函数)~string(destructor析构函数)默认赋值运算符重载函数 遍历string下标[ ]迭代器范围for反向迭代器 capacitysizelengthmax_sizeresizecapaci…

不错的用户需求访谈方法

不错的用户需求访谈方法,可以用如下的矩阵,用来引导用户访谈:

【C++】哈希表 ---开散列版本的实现

你很自由 充满了无限可能 这是很棒的事 我衷心祈祷你可以相信自己 无悔地燃烧自己的人生 -- 东野圭吾 《解忧杂货店》 开散列版本的实现 1 前言2 开散列版本的实现2.1 节点设计2.2 框架搭建2.3 插入函数2.4 删除函数2.5 查找操作2.6 测试 Thanks♪(・ω&#x…

python如何不保留小数

1、int() 向下取整(内置函数) n 3.75 print(int(n)) >>> 3 n 3.25 print(int(n)) >>> 3 2、round() 四舍五入(内置函数) n 3.75 print(round(n)) >>> 4 n 3.25 print(round(n)) >>> 3 …

SpringBoot实战:轻松实现XSS攻击防御(注解和过滤器)

文章目录 引言一、XSS攻击概述1.1 XSS攻击的定义1.2 XSS攻击的类型1.3 XSS攻击的攻击原理及示例 二、Spring Boot中的XSS防御手段2.1 使用注解进行XSS防御2.1.1 引入相关依赖2.1.2 使用XSS注解进行参数校验2.1.3 实现自定义注解处理器2.1.4 使用注解 2.2 使用过滤器进行XSS防御…

[单master节点k8s部署]18.监控系统构建(三)Grafana安装

Grafana是一个跨平台的开源的度量分析和可视化工具。支持多种数据源,比如OpenTSDB,Prometheus,ElasticResearch,Cloudwatch等。 Grafana安装 通过yaml配置grafana的pod和service,grafana工作在kube-system的命名空间…

C#(asp.net)房屋租赁管理系统-计算机毕业设计源码64421

目 录 摘要 1 绪论 1.1 研究背景与意义 1.2开发现状 1.3论文结构与章节安排 2 房屋租赁管理系统分析 2.1 可行性分析 2.1.1 技术可行性分析 2.1.2 经济可行性分析 2.1.3 法律可行性分析 2.2 系统功能分析 2.2.1 功能性分析 2.2.2 非功能性分析 2.3 系统用例分析 …

标贝语音识别在智能会议系统的应用案例

语音识别是指将语音信号转换成文本或者其他数字信号形式的过程,随着人工智能在人们日常工作生活中的普及,语音识别技术也被广泛的应用在智能家居、智能会议、智能客服、智能驾驶等领域,以语音识别技术在智能会议系统中的应用为例,…