【AIGC】SYNCAMMASTER:多视角多像机的视频生成

在这里插入图片描述


标题:SYNCAMMASTER: SYNCHRONIZING MULTI-CAMERA VIDEO GENERATION FROM DIVERSE VIEWPOINTS
主页:https://jianhongbai.github.io/SynCamMaster/
代码:https://github.com/KwaiVGI/SynCamMaster

文章目录

  • 摘要
  • 一、引言
  • 二、使用步骤
    • 2.1 TextToVideo生成模型
    • 2.2 多视图同步模块(SYNCHRONIZATION MODULE)
    • 2.3 数据收集
    • 2.4 训练策略
    • 2.4 扩展到新视图的视频合成
  • 三、实验
  • 四、代码


摘要

  视频扩散模型的最新进展在模拟真实世界的动态和保持三维一致性方面显示出了特殊的能力,能够确保不同视点间的动态一致性。不像现有方法(专注于多视图生成单个对象的四维重建),我们从任意视点生成开放世界视频,结合6自由度摄像机姿态。提出一个即插即用模块,即多视图同步模块,以保持这些视点的外观和几何一致性。针对训练数据,设计一个混合训练方案,利用多像机图像和单目视频来补充UE渲染的多像机视频。此外扩展了从新视角重新渲染视频,还发布了一个多视图SynCam数据集。

  


一、引言

  以往多相机生成方面的努力主要集中在4D对象生成上。它们仅限于从固定位置生成多视图视频,比如沿着围绕物体的轨道以等间隔采样。此外,它们仅限于单对象域,不支持开放域场景生成。最近CVD(Kuang et al.,2024)探索了从相同pose开始的多像机轨迹合成视频。然而,由于数据集构建的限制,这种方法只在狭窄视点的背景下进行研究

  从任意视点的开放域多摄像机视频生成,面临两个挑战: (i)跨多视点的动态同步,这引入了保持4D一致性的复杂性,以及(ii)具有不同pose的多像机视频的稀缺。

  引入即插即用模块来利用预训练的文本-视频生成模型:给定所需摄像机的外参,通过将摄像机设置为全局坐标系来进行归一化,使用camera encoder将这些参数编码到像机嵌入空间中。然后在一个多视图同步模块中计算特征间注意力,该模块被集成到预训练的DiT中。

  创建一个混合训练数据集SynCam,由多视图图像、常见单视图视频和UE渲染的多视图视频组成。虽然手动准备的UE数据存在特定领域的问题和数量有限,但公开可用的通用视频增强了对开放领域场景的泛化,而多视图图像促进了视点之间的几何和视觉一致性。

二、使用步骤

  我们的目标是实现一个开放域多摄像机视频生成模型,可以 合成n个同步视频{ V 1 , . . . , V n V^1,...,V^n V1,...,Vn} ∈ R n × f × c × h × w ∈R^{ n×f×c×h×w} Rn×f×c×h×w,即 f f f帧符合文本提示 P t P_t Pt n n n个指定视点{ c a m 1 × , . . . , c a m n cam^1×,...,cam^n cam1×,...,camn} 。视点用相机的外参表示,即 c a m i cam_i cami:= [ R , t ] ∈ R 3 × 4 R,t]∈R^{3×4} R,t]R3×4,为了简化,假设视点在各帧之间保持不变,并利用预训练视频扩散模型进行三维一致的动态内容合成,并引入即插即用的多视图同步模块来调节视图间的几何和视觉一致性,如图2。

在这里插入图片描述

2.1 TextToVideo生成模型

  预训练的latent SVD 由一个3D VAE和一个DiT组成。其中每个Transformer block都被实例化为一系列的空间注意、三维(时空)注意力和交叉注意力模块。前向过程,以及用常微分方程(ODE)去噪过程如下:

在这里插入图片描述

速度 v v v由神经网络的权值 Θ Θ Θ参数化。对于训练,回归一个向量场 u t u_t ut,通过Conditional Flow Matching 生成 p 0 p_0 p0(数据分布)和 p 1 p_1 p1(噪声分布)之间的概率路径:在这里插入图片描述

在这里插入图片描述

2.2 多视图同步模块(SYNCHRONIZATION MODULE)

  在T2V生成模型的基础上,训练多视图同步(MVS)模块,并冻结base model。以下操作是跨视点的逐帧执行的,为简化省略了帧索引 t t t MVS模块的输入为 空间特征 F s F^s Fs = { F 1 s , . . . , F n s F^s_1,..., F^s _n F1s,...,Fns} ∈ R n × f × s × d R^{n×f×s×d} Rn×f×s×d和token尺寸为 s = h ∗ w s =h∗w s=hw)和n个视频的相机外参 c a m = cam= cam={ c a m 1 , . . . , c a m n cam^1,...,cam^n cam1,...,camn}∈ R n × 12 R^{n×12} Rn×12,输出视图一致的特征 F ˉ v \bar{F}^v Fˉv= { F ˉ 1 v , . . . , F ˉ n v \bar{F}^v _1, . . . , \bar{F}^v_n Fˉ1v,...,Fˉnv} ∈ R n × f × s × d ∈R^{n×f×s×d} Rn×f×s×d到base T2V模型的后续层。

  具体地,首先将第 i i i台像机的12维外参嵌入为像机编码器 ϵ c {\epsilon}_c ϵc,按element-wise添加到相应的空间特征中。然后利用跨视图自注意层来进行多视图同步。最后,将聚合的特征投影回具有线性层和残差连接的空间特征域:

在这里插入图片描述

2.3 数据收集

  多视图视频数据的缺乏是阻碍多视图视频生成模型训练的主要挑战之一。现有的多视角视频数据主要包括(1)从不同视角的4D资产视频和(2)以人为中心的运动捕捉数据集。

  three-step 解决方案,如图3所示。首先,利用单摄像机视频作为多视点图像数据,将不同视点之间的几何对应关系知识转移到视频生成中。具体来说,RealEstate-10K和DL3DV-10K包含跨帧的摄像机运动的视频及其相应的摄像机参数,从中采样n个视频帧作为可用的多视图图像数据。其次,使用UE引擎手动渲染少量的视频(500个场景,每个场景36个摄像机),这些视频具有在城市环境中移动的人类和动物等3D资产。我们通过随机放置摄像机位置来增强模型在任意视点上的泛化能力。最后,在训练过程中加入了高质量的一般视频数据(没有相应的摄像机信息)作为正则化。首先,我们收集了70个人类和动物的3D资产作为主体,并在3D场景中选择了500个不同的位置作为背景。其次,随机抽取1-2名主要受试者,将他们放置在每个位置,并让他们沿着几个预先定义的轨迹移动。第三,我们在每个场景的不同位置设置了36台摄像机,并同步渲染100帧。因此,多视图视频数据集由500组同步视频组成,每组有36个摄像机。每个场景中的摄像机都被放置在一个半球形的表面上,距离中心为3.5米-9米。为了确保渲染的视频与真实视频具有最小的域移动,我们将每个摄像机的高程限制在0◦-45◦之间,方位角限制在0◦-360◦之间。为了支持SynCamMasser从任意视点合成视频,每个摄像机都在约束范围内随机采样,而不是在场景中使用相同的摄像机位置集。图4显示了一个场景的例子,其中红色的星星表示场景的中心点(略高于地面),视频由同步摄像机渲染视频,以捕捉主体的运动

在这里插入图片描述

2.4 训练策略

  渐进式训练。为了有效地学习不同视点之间的几何对应关系,我们发现从用相对较小的角度差异输入模型视图开始,并在训练过程中逐步增加差异是至关重要的。当相对角度较大的输入视点时,简单地从同一场景中的不同摄像机进行随机采样,就会导致视点跟踪功能的性能显著下降(图7)

在这里插入图片描述

  与多视图图像数据的联合训练。为了缓解多摄像头视频数据的缺乏,通过引入的单摄像头视频数据中采样来构建多视图图像数据。DL3DV-10K作为辅助图像数据,包括∼10K视频,包括室内外场景的广角摄像机运动,显著提高了SynCamMaster的泛化能力。(10K vs 500)

  使用single-view视频联合训练。为了提高合成视频的视觉质量,将高质量的视频数据(没有摄像机信息)作为正则化。给定一个single-view视频,复制成 v v v个具有相同相机参数的多视图视频(数据增强)。此外,我们观察到,当简单地使用任意摄像机运动的视频时,性能会下降,这可能是由于分布未对齐引起的,因为SynCamMaster的目标是从一个固定的视角生成视频。为此,我们使用以下三个步骤过滤掉静态摄像机视频数据:首先,我们将视频降采样到8 fps,并使用SAM分割第一帧,获得64个分割掩码。然后将每个mask的中心作为锚点,使用视频点跟踪方法CoTracker来计算每个锚点在所有帧中的位置坐标。最后,我们确定所有点的位移是否低于一定的阈值,来过滤掉12000个静态摄像机视频,这些视频在训练过程中被添加为一个正则化项。

2.4 扩展到新视图的视频合成

  为了实现新视图视频合成任务,基于参考视频生成不同视点的视频,将SynCamMaster转换为一个 video-to-multiview-video生成器 训练中 ,给定多视角视频在时间步 t t t 的噪声latent features { z t 1 , . . . , z t n z_t^1,...,z_t^n zt1,...,ztn} ∈ R n × f × c × h × w ∈ R^{n×f×c×h×w} Rn×f×c×h×w将第一个视图视频为参考,将原始视频的噪声潜在概率替换为p = 90%,即 z t 1 = z 0 1 z_t^1 = z_0^1 zt1=z01。为此,来自新视图(i = 2,···,n)的视频可以通过之前的多视图同步模块,有效地聚合来自参考视图的特征。推理阶段 ,首先用预训练的视频编码器提取输入视频的潜在特征,然后在每个时间步长t = T、···、0进行特征替换。同时对文本条件 c T c_T cT和视频条件 c V c_V cV实现加权的无分类器指导,类似于diult-pix2pix:

在这里插入图片描述

s T s_T sT s V s_V sV分别为文本和视频条件的加权分数,实践中设置为7.5和1.8,得到的SynCamMaster可以有效地重新渲染与文本提示和摄像机pose一致的视频,如图8:

在这里插入图片描述

三、实验

  实验细节。我们在多视图视频数据、多视图图像数据和单视图视频数据上联合训练我们的模型,其概率分别为0.6、0.2和0.2。我们以384x672的分辨率训练了50K步长的模型,学习率为0.0001,批量大小为32。利用temporal-attention的权重对view-attention module进行初始化,并对摄像机编码器和投影器进行零初始化。

  评价指标。主要从cross-view synchronization(跨视图同步)和visual quality两方面来评价所提出的方法。 跨视图同步方面,使用最先进的图像匹配方法GIM来计算: (1)置信度大于阈值的匹配像素数,记为Mat.Pix.,和(2)由每一帧的GIM估计的旋转矩阵和平移向量及其地面真实值之间的平均误差,分别表示为RotErr和TransErr。此外,我们计算了SV4D中的FVDV评分和同一时间戳下多视图帧之间的平均CLIP相似度,记为CLIP-V。对于视觉质量,我们将其分为保真度、文本一致性和时间一致性,并分别使用FID和FVD、CLIP-T和CLIP-F对其进行量化。CLIP-T为每一帧及其对应文本提示符的平均CLIP相似度,CLIP-F为相邻帧的平均CLIP相似度。我们用100个手动收集的文本提示来构建评估集,每个文本提示有4个视点进行推断,总共得到400个视频

  对比方法 由于还没有其他类似工作。为此,我们建立了基线方法,首先提取SynCamMaster生成的每个视图的第一帧,然后将它们输入(1)图像到视频(I2V)生成方法,即SVD-XT (2)基于SVD-XT的最先进的单摄像机控制方法CameraCtrl。由于CameraCtrl在静态摄像机轨迹条件下具有非最优性能,因此我们使用具有有限运动的轨迹作为输入。为了确保公平的比较,我们另外训练了一个基于SynCamMasser使用的相同T2V模型的I2V生成模型,I2V模型采用类似于EMU视频的方法,对50K步进行微调。在训练过程中,我们将第一帧的潜在特征与噪声视频的潜在特征沿信道维数进行扩展和连接,并以零初始化的权值扩展输入卷积层的维数。我们也用在0.1的概率下的零来代替潜在的图像。在推理阶段,我们对图像和文本条件实现了无加权分类器的指导

在这里插入图片描述

图5:与最先进的方法的比较。基线方法的参考多视图图像(在蓝框中显示)由SynCamMaster生成。结果表明,SynCamMaster从同一场景的不同视点生成一致的内容(例如,红框中的细节),并实现了良好的视图间同步。

在这里插入图片描述

在这里插入图片描述

图6:在联合训练策略的消融实验。两边的字幕代表了训练集的构成,其中“Mono. Video”是指一般的单目视频。结果表明,利用辅助的多视点图像数据和一般视频数据进行训练,可以显著提高合成视频的泛化能力和保真度。

四、代码

1.训练数据格式如下:


SynCamVideo
├── train
│   ├── videos    # training videos
│   │   ├── scene1    # one scene
│   │   │   ├── xxx.mp4    # synchronized 100-frame videos at 480x720 resolution
│   │   │   └── ...
│   │   │   ...
│   │   └── scene1000
│   │       ├── xxx.mp4
│   │       └── ...
│   └── cameras    # training cameras
│       ├── scene1    # one scene
│       │   └── xxx.json    # extrinsic parameters corresponding to the videos
│       │   ...
│       └── scene1000
│           └── xxx.json
└──val└── cameras    # validation cameras├── Hemi36_4m_0    # distance=4m, elevation=0°│   └── Hemi36_4m_0.json    # 36 cameras: distance=4m, elevation=0°, azimuth=i * 10°│   ...└── Hemi36_7m_45└── Hemi36_7m_45.json

2.预训练权重未开源

3.关键代码

# 1. add pose feature
pose = rearrange(pose, "b v d -> (b v) 1 d")
pose_embedding = self.cam_encoder(pose)
norm_hidden_states = norm_hidden_states + pose_embedding# 2. multi-view attention
norm_hidden_states = rearrange(norm_hidden_states, "(b v) (f s) d -> (b f) (v s) d", f=frame_num, v=view_num)
norm_encoder_hidden_states = rearrange(norm_encoder_hidden_states, "(b v) n d -> b (v n) d", v=view_num)
norm_encoder_hidden_states = repeat(norm_encoder_hidden_states, "b n d -> (b f) n d", f=frame_num)
attn_hidden_states, _ = self.attn_syncam(hidden_states=norm_hidden_states,encoder_hidden_states=norm_encoder_hidden_states,image_rotary_emb=image_rotary_emb_view,
)# 3. project back with residual connection
attn_hidden_states = self.projector(attn_hidden_states)
attn_hidden_states = rearrange(attn_hidden_states, "(b f) (v s) d -> (b v) (f s) d", f=frame_num, v=view_num)
hidden_states = hidden_states + gate_msa * attn_hidden_states

  

  

  







d \sqrt{d} d 1 8 \frac {1}{8} 81 x ˉ \bar{x} xˉ x ^ \hat{x} x^ x ~ \tilde{x} x~ ϵ \epsilon ϵ
ϕ \phi ϕ

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/68277.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

持续集成 01|Gitee介绍、Pycharm使用Gitee

目录 一、理论 二、 git的简介与安装 三、Gitee 1、注册网易163邮箱 2、注册Gitee账号 3、git和gitee管理代码工作原理 三、PyCharm安装配置Gitee 四、Pycharm使用Gitee插件的五种场景 1、将 Gitee的新仓库 Checkout(检出)到 Pycharm中 2、推送…

Sprint Boot教程之五十八:动态启动/停止 Kafka 监听器

Spring Boot – 动态启动/停止 Kafka 监听器 当 Spring Boot 应用程序启动时,Kafka Listener 的默认行为是开始监听某个主题。但是,有些情况下我们不想在应用程序启动后立即启动它。 要动态启动或停止 Kafka Listener,我们需要三种主要方法…

C++|CRC校验总结

参考: Vector - CAPL - CRC算法介绍 开发工具 > CRC校验工具 文章目录 简介CRC-8CRC-16CRC-32 简介 循环冗余校验(Cyclic Redundancy Check,简称CRC)是一种数据校验算法,广泛用于检测数据传输或存储过程中的错误。…

# c语言:数组详解一

c语言:数组详解一 数组数组的概念引例:什么是数组数组的特征:下标(索引) 常用的数组按维度划分一维数组数组的定义:数组元素的访问数组的初始化**案例一、斐波拉契数列:****案例二、冒泡排序&am…

Docker启动达梦 rman恢复

目录标题 1. 主库备份2. Docker启动备库3. 备库修改属组4. 开始恢复5. 连接数据库配置归档 & Open6. 检查数据 关于达梦数据库(DMDBMS)的主库备份、Docker启动备库、恢复备份以及配置归档和打开数据库的详细步骤。 1. 主库备份 # 使用达梦数据库备…

WPS excel使用宏编辑器合并 Sheet工作表

使用excel自带的工具合并Sheet表,我们会发现需要开通WPS会员才能使用合并功能; 那么WPS excel如何使用宏编辑器进行合并 Sheet表呢? 1、首先我们要看excel后缀是 .xlsx 还是 .xls ;如果是.xlsx 那么 我们需要修改为 .xls 注…

【Python项目】个人密码本文档系统

【Python项目】个人密码本文档系统 技术简介:采用Python技术、Django、MYSQL数据库等实现。 系统简介:系统主要的功能有(1)新建密码本:用户可以创建新的密码本来记录自己的账户与密码; (2&#…

《OpenCV》——模版匹配

文章目录 OpenCV——模版匹配简介模版匹配使用场景OpenCV 中模板匹配的函数参数 OpenCV——模版匹配实例导入所需库读取图片并处理图片对模版图片进行处理进行模版匹配显示模版匹配的结果注意事项 OpenCV——模版匹配简介 OpenCV 是一个非常强大的计算机视觉库,其中…

doc、pdf转markdown

国外的一个网站可以: Convert A File Word, PDF, JPG Online 这个网站免费的,算是非常厚道了,但是大文件上传多了之后会扛不住 国内的一个网站也不错: TextIn-AI智能文档处理-图像处理技术-大模型加速器-在线免费体验 https://…

金融项目实战 06|Python实现接口自动化——日志、实名认证和开户接口

目录 一、日志封装及应用(理解) 二、认证开户接口脚本编写 1、代码编写 1️⃣api目录 2️⃣script目录 2、BeautifulSoup库 1️⃣简介及例子 2️⃣提取html数据工具封装 3、认证开户参数化 一、日志封装及应用(理解) &…

浅谈云计算15 | 存储可靠性技术(RAID)

存储可靠性技术 一、存储可靠性需求1.1 数据完整性1.2 数据可用性1.3 故障容错性 二、传统RAID技术剖析2.1 RAID 02.2 RAID 12.3 RAID 52.4 RAID 62.5 RAID 10 三、RAID 2.0技术3.1 RAID 2.0技术原理3.1.1 两层虚拟化管理模式3.1.2 数据分布与重构 3.2 RAID 2.0技术优势3.2.1 自…

Spring官网构建Springboot工程

注意:基于Idea的 Spring Initializr 快速构建 SpringBoot 工程时需要联网。 1.进入SpringBoot官网 Spring | Home 点击QUICKSTART 点击start.spring.io进入spring initializr 2.选择依赖 3.生成工程 下载好后解压用IDEAD导入即可。

计算机的错误计算(二百一十二)

摘要 利用两个大模型计算 实验表明,两个大模型均进行了中肯的分析。另外,其中一个大模型给出了 Python代码,运行后,结果中有7位错误数字;而一个大模型进行加减运算时出错。 例1. 计算 下面是与一个大模型的对话…

Vue+Echarts+百度地图 实现 路径规划

实现功能: 通过选择 相关调拨,系统自动规划 路径,并且以地图的形式呈现最佳路径 技术难点: 1. vue 结合使用 echarts 2.echarts 在 vue嵌入百度地图,并且做出路径 曲线 最终结果:

【算法】图解两个链表相交的一系列问题

问: 给定两个可能有环也可能无环的单链表,头节点head1和head2。请实现一个函数,如果两个链表相交,请返回相交的第一个节点;如果不相交,返回null。如果两个链表长度之和为N,时间复杂度请达到O(N…

Go-Zero整合Goose实现MySQL数据库版本管理

推荐阅读 【系列好文】go-zero从入门到精通(看了就会) 教程地址:https://blog.csdn.net/u011019141/article/details/139619172 Go-Zero整合Goose实现MySQL数据库版本管理的教程 在开发中,数据库迁移和版本管理是必不可少的工作。…

JAVA:Spring Boot 集成 JWT 实现身份验证的技术指南

1、简述 在现代Web开发中,安全性尤为重要。为了确保用户的身份,JSON Web Token(JWT)作为一种轻量级且无状态的身份验证方案,广泛应用于微服务和分布式系统中。本篇博客将讲解如何在Spring Boot 中集成JWT实现身份验证…

说一说mongodb组合索引的匹配规则

一、背景 有一张1000多万条记录的大表,需要做归档至历史表,出现了大量慢查询。 查询条件是 "classroomId": {$in: ["xxx", "xxx", ..... "xxx","xxx", "xxx" ] }耗时近5秒,且…

更新java

下载 Java 下载 |神谕 (oracle.com)

CSS3的aria-hidden学习

前言 aria-hidden 属性可用于隐藏非交互内容,使其在无障碍 API 中不可见。即当aria-hidden"true" 添加到一个元素会将该元素及其所有子元素从无障碍树中移除,这可以通过隐藏来改善辅助技术用户的体验: 纯装饰性内容,如…