学习视频超分辨率扩散模型中的空间适应和时间相干性(原文翻译)

文章目录

    • 摘要
    • 1. Introduction
    • 2. Related Work
    • 3. Our Approach
      • 3.1. Video Upscaler
      • 3.2. Spatial Feature Adaptation Module
      • 3.3. Temporal Feature Alignment Module
      • 3.4. Video Refiner
      • 3.5. Training Strategy
    • 4. Experiments
      • 4.1. Experimental Settings
      • 4.2. Comparisons with State-of-the-Art Methods
      • 4.3. Model Analysis
    • 5. Conclusions

封面

摘要

扩散模型只是在图像超分辨率任务的临界点上。然而,利用扩散模型进行视频超分辨率并非易事,这不仅需要将视觉外观从低分辨率视频保存到高分辨率视频,还需要保留视频帧之间的时间一致性。在本文中,我们提出了一种新的方法,追求空间适应和时间相干性(SATeCo),用于视频超分辨率。SanteCo 专注于从低分辨率视频中学习时空指导,以校准潜在空间高分辨率视频去噪和像素空间视频重建。从技术上讲,SATeCo 冻结了预训练的 UNet 和 VAE 的所有参数,并且在 UNet 和 VAE 的解码器中只优化了两个有意设计的空间特征适应 (SFA) 和时间特征对齐 (TFA) 模块。SFA通过自适应估计每个像素的仿射参数来调节帧特征,保证了高分辨率帧合成的像素级指导。TFA 通过 self-attention 深入研究 3D 局部窗口 (tubelet) 中的特征交互,并在 tubelet 与其低分辨率对应物之间执行交叉注意力以指导时间特征对齐。在 REDS4 和 Vid4 数据集上进行的大量实验证明了我们方法的有效性。
Paper:https://arxiv.org/abs/2403.17000

1. Introduction

近年来,扩散模型[11,36,37,55]在革命图像生成方面取得了很大的进展。在其中,一系列图像超分辨率工作[36,46,52]受益于利用嵌入在扩散模型中的知识先验将低分辨率(LR)图像升级为高分辨率(HR)图像。与 2D 图像相比,视频具有更多的时间维度,在利用视频超分辨率 (VSR) 的扩散模型时带来了更多挑战。一种自然的方法是利用预先训练的扩散模型进行图像超分辨率(ISR),例如StableSR[46]来放大每个视频帧。代表性的进步[46,52]表明,ISR的扩散模型可以比传统的回归模型(如VRT[23])合成更多的细节。如图 1 所示,Stabler 生成的建筑物中窗口的边缘比 VRT 生成的边缘要清晰得多。然而,扩散模型的固有随机性可能会危及空间保真度并幻觉一些额外的视觉内容。此外,独立的逐帧超分辨率忽略了连续帧之间的关系,导致高分辨率视频中的帧不一致问题。例如,图 1 中的交通标志在 StabLSR 生成的两个相邻帧之间完全不同。
图1
图1。通过使用StableSR[46]、VRT[23]和我们的SATeCo的不同方法生成两个相邻的帧来说明视频超分辨率。放大视图中呈现相同局部位置的区域。

一般来说,探索视频超分辨率扩散模型的困难源于两个方面:1)如何缓解扩散过程中的随机性以保持视觉外观。2)如何保证HR视频中跨帧的时间一致性。我们建议通过从低分辨率视频中学习时空指导来解决这两个问题,以管理视频超分辨率的扩散过程。为了调节空间适应,我们估计LR帧特征上的仿射参数,以调制HR帧中的每个像素。因此,像素级指导被用来很好地学习HR帧中每个像素的特征,并更好地提高空间保真度。为了在时间上协同视频帧,我们加强了 HR 帧之间的特征交互,并通过注意力机制增强了 HR 帧和 LR 帧之间的特征校准。此外,通过对 3D 局部窗口 (tubelet) 内的特征进行自我注意和交叉注意,从而促进了时间特征对齐,从而获得了较大的感受野。

为了具体化我们的想法,我们提出了一种新的 SCECo 方法来执行视频超分辨率的空间适应和时间连贯性。从技术上讲,SATeCo 使用基于转换器的视频升级器对输入 LR 视频进行上采样。然后,VAE 编码器提取 LR 视频的视频特征和潜在代码,并进一步用于扩散校准。SanteCo故意设计了空间特征自适应(SFA)和时间特征对齐(TFA)模块,并将这两个模块插入到UNet和VAE的每个解码器块中,用于潜在空间视频去噪和像素空间视频重建。在潜在空间视频去噪的正则化中,SFA 在每个上采样的 LR 帧的潜在代码上利用两个卷积层来预测尺度和偏差来调节 HR 帧的像素级特征。TFA首先在小管内的 HR 视频潜在代码上执行自注意力以增强特征交互,并进一步在 Tubelet 与其 LR 对应物之间进行交叉注意力,用于 HR 视频中的特征校准。LR视频特征以相同的方式利用,在像素空间视频重建中调节HR视频特征学习。SanteCo 最后通过神经网络参考上采样的 LR 视频来细化解码后的 HR 视频,以平衡合成质量和保真度。

本文的主要贡献是提出了SATeCo来探索视频超分辨率扩散模型中的空间适应和时间相干性。该解决方案还引出了一个优雅的观点,即如何利用LR视频中的像素级信息进行视觉外观保存,以及如何在HR视频生成中实现帧一致性。在REDS4和Vid4上的大量实验表明,SATeCo在空间质量和时间一致性方面的优越性。

2. Related Work

视频超分辨率。现代VSR方法主要基于深度神经网络,可以分为两类,即基于滑动窗口的方法和递归方法。早期的基于滑动窗口的VSR技术[1,22,50,51,53]依赖于2D或3D cnn[19,20],它结合了一系列LR帧来预测中心HR帧。为了充分利用相邻帧之间的互补信息,采用可变形卷积[43,48]进行特征对齐。受变压器架构在各种计算机视觉任务中的成功启发[6,27-29],自我注意被整合到VSR框架中[14,23,26,47]。一个代表性是VRT[23],它将时间相互注意块插入到变压器主干中,以促进运动估计、特征对齐和融合。然而,基于滑动窗口的方法很难捕获远程依赖,这可能会限制视频超分辨率的性能。与在短期内聚合来自相邻帧的信息相比,循环方法 [2, 3, 15, 17, 18, 24, 38, 39, 54] 利用隐藏状态将所有前一帧的信息顺序传播到当前帧,有利于帧恢复。例如,Chan等人[2]采用了一种具有基于流的特征对齐的双向传播方案,以最大化超分辨率中的信息收集。尽管循环模型在时间信息收集方面具有很大的能力,但当 LR 视频在长时间范围内遇到显着退化时,仍然很难恢复局部细节。

超分辨率的扩散模型。扩散模型实现的图像合成令人印象深刻的性能 [7, 11, 16, 30, 34, 55] 鼓励在图像超分辨率上部署。这些探索[9,10,13,21,31,42,49,57]利用嵌入在预训练扩散模型中的知识先验来放大图像。例如,StableSR[46]在不改变预先训练的权重的情况下,将时间感知编码器集成到Stable-Diffusion[36]模型中,并取得了良好的效果。为了进一步增强图像纹理细节的重建,Yang等人[52]引入了一个基于注意力的控制模块来保持LR和HR图像之间的像素一致性。与优化一小部分插入参数的进展不同,几种方法[13,21,49]固定预训练合成模型中的所有权重,并尝试将约束合并到反向扩散过程中以指导图像恢复。尽管知识先验的有效性已在各种基于扩散的 ISR 方法中体现出来,但将扩散模型用于视频超分辨率并保持空间保真度和时间一致性仍然是一个重大挑战。

总之,我们的工作主要集中在视频超分辨率的扩散模型上。SanteCo 的提议不仅通过探索如何通过调制 HR 帧特征来保持空间保真度,而且还研究如何使用 LR 对应物校准 HR 视频特征以获得更好的时间特征对齐。

3. Our Approach

在本节中,我们将介绍我们新提出的SATeCo,在视频超分辨率的扩散模型中追求空间适应和时间相干性。图 2 描述了架构的概述。SanteCo 从视频升级器开始,以提高输入 LR 视频的分辨率。然后,将上采样的视频输入 VAE 编码器进行视频特征提取和潜在代码预测。之后,利用空间特征自适应(SFA)和时间特征对齐(TFA)模块学习LR视频潜在代码和特征的时空指导,校准潜在空间视频去噪和像素空间视频重建。因此,这两个模块被插入到 UNet 和 VAE 中解码器的每个块中。在视频潜在代码去噪过程中,SFA估计LR视频潜在代码上的仿射参数,以调制HR视频潜在代码的每个像素。TFA首先在 Tubelet 中的 HR 视频潜在代码上执行自注意力,并通过在 Tubelet 与其 LR 对应物之间执行交叉注意力进一步增强潜在代码。同样,在 VAE 解码器中进行 SFA 和 TFA,以使用 LR 视频特征指导 HR 视频重建。最后,SATeCo设计了一个视频细化器,通过参考上采样的视频来调整解码后的HR视频,以便在合成质量和保真度之间进行良好的权衡。
图2
图2。我们的SATeCo体系结构的概述。输入LR视频XL首先通过基于变压器的视频升级器上采样到目标分辨率。然后,将上采样的视频Xu输入到VAE编码器中,提取视频特征和潜在代码Z。接下来,根据扩散调度器将高斯噪声添加到Z中,然后利用UNet恢复噪声视频潜码进行质量增强。在潜在空间中,潜在编码器在LR潜在代码Z上提取LR潜在特征图G,然后在UNet的每个解码器块中提取空间特征自适应(SFA)和时间特征对齐(TFA)模块进行时空引导学习。给定去噪的视频潜码Z0,VAE解码器根据SFA和TFA在LR视频特征上学习到的指导对视频Xd进行解码。最后,通过参考Xu得到最终的HR视频XH合成,通过视频细化器调整解码后的视频Xd。

3.1. Video Upscaler

大多数现有的VSR方法[39,51]首先通过重采样操作对输入LR视频进行升级,然后提高其视觉质量。然而,广泛采用的重采样操作,例如双线性采样和双三次采样,可能会破坏 LR 帧中的原始视觉模式 [39],从而对后续的视频增强产生负面影响。因此,我们利用神经网络特征学习[4]提前减少帧退化的方法,提出了一种视频升级器,通过扩散模型生成更准确的上采样视频,以实现以下质量增强。

给定输入 LR 视频 XL,我们利用基于转换器的视频升级器进行视频放大,如图 3(a) 所示。它由两个级联的时间相互自注意力 (TMSA) 块 [23] 组成,用于时间聚合视频特征,以及一个像素混洗层 [40],通过特征重塑来增加视频空间分辨率。然后将具有 L 帧的上采样视频 X u = { x u i } i = 1 L X_u = \{x^i_u\}^L_{i=1} Xu={xui}i=1L 输入到扩散模型中进行视频质量增强。
tu3
图 3. (a) 视频升级器的图示,(b) 视频细化器,( c ) 空间特征适应和 (d) 时间特征对齐模块。

3.2. Spatial Feature Adaptation Module

扩散模型的固有随机性[52]可能导致图像超分辨率中纹理细节的失真。采用扩散模型进行超分辨率的一种自然方法是通过基于卷积[46]或基于变压器的[52]结构来学习空间级条件,以指导UNet中的潜在代码去噪。这种机制只管理潜在空间中的特征正则化,发布难度来学习足够的归纳偏差,并为高分辨率图像恢复提供精确的指导。视频超分辨率也存在类似的问题。为了缓解这种情况,我们引入了一个空间特征自适应(SFA)模块,该模块从输入LR视频中动态学习像素引导进行扩散校准。同时,SFA模块强调了潜在空间视频去噪(即UNet的训练)和像素空间视频重建(即VAE的训练)的归纳偏差学习。

图3( c )说明了我们的SFA模块。给定上采样的 LR 视频 X u X_u Xu,VAE 编码器首先将 X u X_u Xu 编码为视频潜在代码 Z = { z i } i = 1 L Z = \{z^i \}^L_{i=1} Z={zi}i=1L。接下来,我们利用基于卷积的潜在编码器 ε z \varepsilon _z εz 来提取 LR 潜在特征图 G = ε z ( Z ) G = \varepsilon_z (Z) G=εz(Z),并进一步用于指导 UNet 解码器中的 HR 特征学习。形式上,我们将UNet中的HR中间特征图和潜在编码器中LR潜在特征图分别表示为 F = { f i } L i = 1 F = \{f^i\}L_{i=1} F={fi}Li=1 G = { g i } L i = 1 G = \{g^i\}L_{i=1} G={gi}Li=1。对于第 i 帧,我们通过两个 2D 卷积层测量 HR 中间特征图 f i ∈ R H × W × C f^i ∈ R^{H×W ×C} fiRH×W×C 的每个像素的尺度比 S i ∈ R H × W × C S^i ∈ R^{H×W ×C} SiRH×W×C 和偏置 M i ∈ R H × W × C M^i ∈ R^{H×W ×C} MiRH×W×C
gs1
然后,通过对 S i S^i Si M i M^i Mi的归一化HR中间特征图 f ~ i \tilde f^i f~i调制,生成UNet中输出的HR特征 f ~ i \tilde f^i f~i为:
gs2
其中⊙表示逐点乘法。 μ i μ^i μi σ i σ^i σi 是特征图 f i f^i fi 的均值和标准差值。因此,在LR视频的潜在特征图上估计的仿射参数在潜在代码去噪中校准HR视频的中间特征图,自适应地将像素级信息注入到视频潜在代码中,以保持视觉外观。对于像素空间中的视频特征学习,将SFA模块插入到VAE解码器的每个块中。同样,将LR视频提取的视频特征作为估计SFA模块中仿射参数的指导,调整HR视频特征学习进行视频重建。我们从SFA模块中获取所有调制的中间特征映射 f ~ i \tilde f^i f~i F ~ i = { f i } i = 1 L \tilde F^i = \{f^i\}^L_{i=1} F~i={fi}i=1L,用于UNet和VAE解码器中的以下时间特征对齐。

3.3. Temporal Feature Alignment Module

用于视频超分辨率的帧明智导电ISR模型可以放大跨帧模糊模式[39]的差异,导致物体形状变形等内容不一致。该问题仅仅依靠空间级超分辨率,缺乏跨帧的时间相干建模。为了便于视频超分辨率中的视觉内容对齐,在UNet和VAE解码器中每个SFA模块之后设计了一个时间特征对齐(TFA)模块,用于时间特征交互和校准。

图 3(d) 描述了 TFA 模块的学习过程。给定UNet解码器中SFA模块的输入HR中间特征 F ~ = { f i } i = 1 L \tilde F = \{f^i\}^L_{i=1} F~={fi}i=1L,我们首先将每一帧的特征映 f ~ i \tilde f^i f~i划分为N个不重叠的窗口,空间分辨率为h × w。 N = H W h w N = \frac{HW}{hw} N=hwHW 是总窗口数。然后,我们将 L 帧局部窗口中的所有特征连接起来,形成一个 HR 特征 Tubelet F ~ t u b ∈ R L × h × w × C \tilde F_{tub} ∈ R^{L×h×w×C} F~tubRL×h×w×C。我们将每个 HR 特征 Tubelet 的维度重塑为 hwL × C 并在其上执行标准的自注意力:

gs3
其中 Q 、 K 、 V ∈ R h w L × C Q、K、V ∈ R^{hwL×C} QKVRhwL×C 分别是查询矩阵、键和值矩阵。它们中的每一个都由 3D 卷积层预测。在 HR 特征 Tubelet 上进行的自注意力可以跨不同帧进行特征交互,减轻局部区域的时间特征错位。为了进一步进行时间特征校准,我们利用 HR 特征 Tubelet 的对应,即 LR 潜在特征图的特征 Tubelet Gtub 作为特征调整的参考。我们在 F ^ t u b \hat F_{tub} F^tub G t u b G_{tub} Gtub 之间执行交叉注意力以获得输出特征 Tubelet F ‾ t u b \overline F_{tub} Ftub
gs4
其中查询 Q’ 在 HR 特征 Tubelet F ^ t u b \hat F_{tub} F^tub 上学习,键/值 K’/V ’ 分别通过 3D 卷积层在 LR 对应物上估计。我们从 TFA 模块中收集所有输出特征小管,并将它们重塑为原始大小,如 F ‾ ∈ R L × H × W × C \overline F ∈ R^{L×H×W ×C} FRL×H×W×C。然后将输出特征 ̄F 输入 UNet 或 VAE 中解码器的下一个块以进行视频潜在去噪或重建。

通过这种方式,UNet 和 VAE 解码器中的耦合 SFA 和 TFA 模块不仅强调用于视觉外观保存的像素特征适应,而且还加强了时间特征交互和校准以进行时间相干建模。

3.4. Video Refiner

最近的进步 [8] 表明,通过以视觉内容为条件的扩散模型合成的图像可能会丢失局部区域中的一些原始颜色信息。为了解决这个问题,Stabler [46] 执行非参数后处理器来细化生成,参考原始输入以实现颜色保存。相反,我们提出了一种可训练的视频细化器,通过利用上采样 LR 视频的信息来强调来自 VAE 解码器解码 HR 视频的调整。

图 3(b) 详细说明了我们的视频细化器的结构。我们首先沿通道维度连接解码的视频 X d X_d Xd 和上采样的 LR 视频 X u X_u Xu,然后将其馈送到残差块中。通过融合 X u X_u Xu X d X_d Xd和残差块的输出特征映射来生成精化的HR视频 X H X_H XH
gs5
其中 w 是权衡参数。所设计的视频细化器通过特征融合学习平衡了上采样LR视频的原始视觉内容和解码后的HR视频的合成内容。因此,我们的设计在颜色保存方面更强大,并且在合成质量和保真度之间取得了良好的平衡。

3.5. Training Strategy

我们基于稳定扩散[36]模型构建了用于视频超分辨率的SATeCo。有四个训练阶段来优化整个架构。在第一阶段,我们使用Charbonnier损失[5]训练视频升级器来优化HR视频的视频重建。之后,我们遵循 [36] 中的标准设置来训练 UNet 以优化插入的 SFA 和 TFA 模块。我们修复了 UNet 的所有参数,除了训练期间的两种模块。对于 VAE 解码器中 SFA 和 TFA 模块的优化,我们将 HR 视频的视频潜在代码作为输入,并优化解码视频和真实 HR 视频之间的相似性。最后,我们冻结视频升级器、UNet 和 VAE 中的所有参数,并使用解码和真实 HR 视频对训练视频细化器。

4. Experiments

4.1. Experimental Settings

数据集。我们在两个广泛使用的数据集上凭经验评估了我们的 SCECo 的有效性:REDS [33] 和 Vid4 [25]。REDS 数据集由 240、30 和 30 个视频剪辑组成,用于训练、验证和测试。每个视频剪辑包含100帧,分辨率为1,280 × 720。我们采用[2,3,48]中的标准协议,从验证集中选择四个视频片段作为测试数据,即REDS4。Vid4数据集还包括四个视频片段,每个片段大约有40帧,分辨率为720 × 480。按照标准设置[3,23],我们使用Vid4中的所有视频进行评估,并选择Vimeo-90K[51]训练集中的视频数据进行模型优化。有 64、612 个训练片段,每个片段有 7 帧,分辨率为 448 × 256。

实施细节。我们使用 Diffusers [44] 库在 PyTorch 平台上实现我们的 SCECo。噪声调度器设置为线性调度器( β 1 = 0.00085 , β T = 0.0120 , T = 1 , 000 β_1 = 0.00085,β_T = 0.0120,T = 1, 000 β1=0.00085βT=0.0120T=1,000)。通过交叉验证确定获胜视频细化器的权衡参数为 0.5。我们根据经验将TFA中的窗口大小设置为h = 8, w = 8。输入剪辑的帧号L为6。该模型使用AdamW优化器进行训练,学习率为 5.0 × 1 0 − 5 5.0 × 10^{−5} 5.0×105

评估指标。我们通过两种指标(即基于像素和基于感知的指标)评估 VSR 模型。基于像素的指标包括 PSNR 和 SSIM,用于计算生成的 HR 视频和真实 HR 视频之间每个像素的相似度。还有一些基于感知的超分辨率评估指标。这些指标主要从人类感知偏好的角度测量视频质量,本文采用LPIPS[56]、DISTS[12]、NIQE[32]和CLIP-IQA[45]。具体来说,LPIPS利用VGG[41]模型提取帧特征,并测量合成视频和地面真实视频之间的特征相似度。DISTS 还通过 VGG 模型的变体计算视频对之间的特征相似度,但重点是图像纹理。对于 NIQE 和 CLIP-IQA,分数由学习模型直接预测,而不使用真实 HR 视频。NIQE通过CLIP模型[35]测量合成帧和真实图像集[32]之间的特征分布的相似性,而CLIP-IQA通过CLIP模型[35]计算生成的帧和文本提示(如“高分辨率”)之间的余弦相似度。此外,我们进行了一项用户研究,以验证人类对不同模型的偏好。

4.2. Comparisons with State-of-the-Art Methods

我们在REDS4和Vid4数据集上将我们的SATeCo与几种最先进的技术进行了比较,包括双三次内插、StableSR[46]、TOFlow[51]、EDVR-M[48]、BasicVSR[2]、VRT[23]和IconVSR[2]。

定量评估。表 1 总结了不同 VSR 方法在两个数据集的六个指标方面的性能。总体而言,SATeCo 在 REDS4 上在所有基于感知的指标(即 LPIPS、DISTS、NIQE 和 CLIP-IQA)中取得了最佳性能。这些指标强调了人类感知方面的质量判断,结果证明了在预训练的扩散模型中利用丰富的知识先验来生成具有更好的视觉感知的高质量 HR 视频的优势。在基于像素的指标方面,最近的进展[46,52]表明,扩散模型的随机性可能会损害HR视频中视觉外观的保存,导致性能低于传统的回归模型。我们的SATeCo通过利用LR视频的像素级指导来调节HR帧特征合成,缓解了缺点,获得了31.62dB的PSNR。值得注意的是,这种性能与IconVSR[2]非常相似,IconVSR模型是回归VSR模型的SOTA基线。Vid4的性能趋势与REDS4相似。特别是,SATeCo达到了0.1015的DISTS,相对将最佳竞争对手VRT[23]的DISTS降低了26.0%。结果表明,SATeCo受益于学习扩散中的像素级空间自适应,以保留帧图像纹理,以实现更好的视频保真度。

表1。REDS4和Vid4数据集上基于像素的(PSNR和SSIM)和基于感知(LPIPS、DISTS、NIQE和CLIP-IQA)评估指标的性能比较。LR视频的宽度和高度通过不同的VSR方法重新缩放4倍。我们遵循VRT[23]将每个片段中的帧数设置为6,用于HR视频推理。
表1

定性评估。图 4 用 REDS4 和 Vid4 中的六个示例可视化了视频超分辨率。与其他基线相比,SATeCo 可以成功地恢复更多局部细节(例如,eave 中的锐利边缘和第二个和第三个案例的辐条)在高保真的帧中。即使模糊较大(例如,第 4 个案例),SATeCo 仍然表现出视频超分辨率的强恢复能力,这再次证实了利用扩散模型的丰富知识先验和学习空间适应的有效性。为了进一步验证SATeCo学习到的时间一致性,我们使用图5中不同的基于扩散的超分辨率方法可视化了两个合成HR视频的两个相邻帧。如图所示,LDM和StableSR在两帧之间合成不同的视觉内容,例如建筑中的小窗口。相比之下,我们的 SCECo 预测具有更高帧一致性的 HR 视频并保留视觉保真度。这基本上验证了在 HR 视频中执行基于 Tubelet 的自注意力和 HR 视频和 LR 对应物之间的交叉注意力的优点,以实现更好的时间特征交互和校准。

t4
图4。REDS4和Vid4数据集上不同方法的6个视频超分辨率结果的可视化示例。红色框中的区域显示在放大视图中进行比较。

t5
图5。Vid4数据集中两个视频的视频超分辨率结果。两个相邻帧(即红色和蓝色框突出显示的区域)中相同局部位置的区域被放大以显示更多细节。

人工评估。接下来,我们进一步进行人体研究,通过使用不同的VSR方法对用户偏好来验证HR视频生成质量。我们在 Amazon MTurk 平台上邀请 100 名评估者,并要求每个评估者从两种不同方法生成的两个合成 HR 视频中选择更好的一个,给定相同的 LR 视频。图 6 描述了 REDS4 和 Vid4 数据集中所有八个视频的用户偏好比率。SanteCo清楚地赢得了IconVSR、BasicVSR和VRT的传统回归模型,以及StableSR的扩散模型。结果表明,通过视频扩散过程中的空间特征自适应和时间特征对齐设计,SATeCo很好地放大了视觉质量和时间相干性更好的LR视频。

tu6
图6。在REDS4和Vid4上对SATeCo与其他基线之间的用户偏好比进行人工评估。

4.3. Model Analysis

SFA和TFA模块分析。我们首先研究了SFA和TFA模块如何影响视频超分辨率的整体性能。表 2 列出了具有不同 SFA 和 TFA 模块集成方式的变体之间的性能比较。我们从基本的扩散模型 A 开始,它利用 UNet/VAE 中的零初始化卷积 [55] 从 LR 视频中学习空间引导以进行超分辨率。模型 B 和 C 通过将 SFA 和 TFA 模块插入 UNet 逐渐升级基本模型 A,这将 PSNR 从 28.56dB 提高到 29.45dB。与简单地对LR帧特征和HR帧进行加权求和的零初始化卷积来指导空间级扩散学习相比,SFA和TFA的结合不仅通过特征调制增强了空间自适应,而且增强了基于小管的注意力的时间特征对齐。因此,模型 C 获得了更高的 PSNR 和 SSIM 来衡量空间保真度。最后,通过进一步利用VAE中的SFA和TFA来调节像素空间视频重建,模型D,即我们的SATeCo,在PSNR和SSIM中表现出了最好的性能。鉴于基于感知的评估指标,SATeCo 也不断获得对其他变体的改进,这表明时空引导学习在 HR 视频中增强视觉感知的潜在好处。此外,图 7 展示了两个相邻帧中一个示例局部区域的视频超分辨率。SanteCo重建具有高质量视觉外观的HR视频,相邻帧之间具有良好的时间一致性,证明了探索特征适应和对齐对超分辨率扩散的影响。

表 2. SFA 和 TFA 模块不同集成的变体中 REDS4 的性能比较。
biao2

tu7
图7所示。SATeCo变体合成的一个视频超分辨率结果中两个相邻帧的放大视图。

视频升级器分析。然后,我们研究了 SATECo 中视频升级器的有效性。一种替代方法是使用预先训练的Pixel Shuffle层[40]作为视频升级器。表3的上半部分详细说明了两种方法在REDS4上的性能。我们的方法在所有评估指标上都优于PixelShuffle,特别是在PSNR和SSIM方面。从技术上讲,PixelShuffle通过直接在输入帧上执行2D卷积层来重新采样视频。相反,我们通过时间相互自我注意深入研究了帧相关公式,这在视频重采样的像素特征增强中更有效。因此,我们的方法有效地保留了LR视频中的视觉内容,促进了后续的视频扩散。

表3。SATeCo中视频升级器和视频细化器设计的消融研究。性能报告在 REDS4 上。
biao3

视频细化器分析。SAFECo 中的视频细化器旨在通过参考上采样的原始 LR 视频来调整来自扩散模型的解码 HR 视频,以减轻颜色退化。视频细化器的权衡参数 w 平衡了解码视频和 LR 视频之间视觉内容的影响。为了评估参数 w 的影响,我们在表 3 的下半部分通过改变 w 来列出 VSR 性能。当 wis 0 时,基于感知的指标的性能是最好的,但 PSNR 和 SSIM 的性能略有下降。性能表明,扩散模型合成的视觉内容更容易被人类视觉系统接受。相比之下,使用较大的 w 值(例如 1.0)进行视频细化会更多地考虑 LR 视频的信息,削弱扩散模型的贡献,影响视觉内容生成的质量。因此,我们根据经验将 w 设置为 0.5,以在合成内容和原始视觉外观之间寻求良好的权衡。

5. Conclusions

我们提出了SATeCo,它探索了视频超分辨率扩散模型中的空间适应和时间相干性。特别是,我们研究了从低分辨率视频中学习时空指导的问题,以校准高分辨率视频扩散过程。为了具体化这个想法,SATeCo 冻结了预训练的 UNet/VAE 中的所有参数,并在每个解码器块中插入空间特征适应 (SFA) 和时间特征对齐 (TFA) 模块来调节潜在空间视频去噪和像素空间视频重建。通过在低分辨率视频的指导下学习仿射参数,SFA调节每个像素的高分辨率特征,实现空间自适应。TFA 在 Tubelet 中执行自注意力以增强特征交互,并进一步在 Tubelet 与其低分辨率对应物之间进行交叉注意力以指导时间特征对齐学习。在两个视频数据集(如REDS4和Vid4)上进行的实验验证了所提出的SATeCo在空间保真度和时间一致性方面对视频超分辨率的有效性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/63139.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JavaScript 键盘控制移动

如果你想通过 JavaScript 实现键盘控制对象&#xff08;比如一个方块&#xff09;的移动&#xff0c;下面是一个简单的示例&#xff0c;展示如何监听键盘事件并根据按下的键来移动一个元素。 HTML 和 CSS&#xff1a; <!DOCTYPE html> <html lang"en">…

SpringMVC其他扩展

一、全局异常处理机制: 1.异常处理两种方式: 开发过程中是不可避免地会出现各种异常情况的&#xff0c;例如网络连接异常、数据格式异常、空指针异常等等。异常的出现可能导致程序的运行出现问题&#xff0c;甚至直接导致程序崩溃。因此&#xff0c;在开发过程中&#xff0c;…

AWS S3 权限配置与文件上传下载指南

本文介绍如何配置 AWS S3 存储桶的访问权限,实现 EC2 实例上传文件和本地用户下载文件的功能。 权限配置 © ivwdcwso (ID: u012172506) 1. EC2 角色上传权限 创建 IAM 角色并附加以下策略,允许 EC2 实例上传文件到 S3: {"Version": "2012-10-17&qu…

Flink随笔 20241203 Flink重点内容

Flink 是一个强大的流处理框架&#xff0c;它的设计理念是高吞吐量、低延迟的流式计算。你提到的这些重点是 Flink 的核心组成部分&#xff0c;下面我将详细解析每一个方面。 1. 窗口&#xff08;Window&#xff09; 窗口是 Flink 流处理中一个非常重要的概念&#xff0c;主要…

Linux-异步IO和存储映射IO

异步IO 在 I/O 多路复用中&#xff0c;进程通过系统调用 select()或 poll()来主动查询文件描述符上是否可以执行 I/O 操作。而在异步 I/O 中&#xff0c;当文件描述符上可以执行 I/O 操作时&#xff0c;进程可以请求内核为自己发送一个信号。之后进程就可以执行任何其它的任务…

docker更换容器存储位置

一&#xff1a;原因 今天之前在某个服务器上使用docker搭建的服务突然无法访问了&#xff0c;进入服务器查看发现服务运行正常&#xff0c;但是就是无法使用&#xff0c;然后我这边准备将docker服务重新启动下看看&#xff0c;发现docker服务无法重启&#xff0c;提示内存已满…

工业—使用Flink处理Kafka中的数据_ProduceRecord2

使用 Flink 消费 Kafka 中 ProduceRecord 主题的数据,统计在已经检验的产品中,各设备每 5 分钟 生产产品总数,将结果存入HBase 中的 gyflinkresult:Produce5minAgg 表, rowkey“

什么是TCP的三次握手

TCP&#xff08;传输控制协议&#xff09;的三次握手是一个用于在两个网络通信的计算机之间建立连接的过程。这个过程确保了双方都有能力接收和发送数据&#xff0c;并且初始化双方的序列号。以下是三次握手的详细步骤&#xff1a; 第一次握手&#xff08;SYN&#xff09;&…

外卖开发(二)开发笔记——DTO、自定义全局异常处理、ThreadLocal、日期格式化

外卖开发&#xff08;二&#xff09;开发笔记 一、DTO二、自定义全局异常处理三、ThreadLocal存入、提取当前登陆用户的id四、日期格式化1、实体类属性上加入注解JsonFormat2、在WebMvcConfiguration中扩展SpringMVC的消息转换器 一、DTO 数据传输对象&#xff08;DTO&#xf…

Java 中tableaw 实战教程

java中tableaw库通过简单的API实现过滤、连接、绘制和操作表格数据。支持CSV&#xff0c;数据库&#xff0c;Excel等数据源。 安装依赖 tableaw是用于分析表格数据的开源Java库&#xff0c;构建在Java 8流之上。它可以从GitHub下载&#xff0c;也可以作为Maven或Gradle项目的…

jvm-46-jvm Thread Dump 线程的信息获取+可视分析化工具 FastThread

拓展阅读 JVM FULL GC 生产问题 I-多线程通用实现 JVM FULL GC 生产问题 II-如何定位内存泄露&#xff1f; 线程通用实现 JVM FULL GC 生产问题 III-多线程执行队列的封装实现&#xff0c;进一步抽象 jvm-44-jvm 内存性能分析工具 Eclipse Memory Analyzer Tool (MAT) / 内…

手机上怎么拍证件照,操作简单且尺寸颜色标准的方法

在数字化时代&#xff0c;手机已成为我们日常生活中不可或缺的一部分。它不仅是通讯工具&#xff0c;更是我们拍摄证件照的便捷利器。然而&#xff0c;目前证件照制作工具鱼龙混杂&#xff0c;很多打着免费名号的拍照软件背后却存在着泄漏用户信息、照片制作不规范导致无法使用…

PHP使用RabbitMQ(正常连接与开启SSL验证后的连接)

代码中包含了PHP在一般情况下使用方法和RabbitMQ开启了SSL验证后的使用方法&#xff08;我这边消费队列是使用接口请求的方式&#xff0c;每次只从中取出一条&#xff09; 安装amqp扩展 PHP使用RabbitMQ前&#xff0c;需要安装amqp扩展&#xff0c;之前文章中介绍了Windows环…

【Go 基础】channel

Go 基础 channel 什么是channel&#xff0c;为什么它可以做到线程安全 Go 的设计思想就是&#xff1a;不要通过共享内存来通信&#xff0c;而是通过通信来共享内存。 前者就是传统的加锁&#xff0c;后者就是 channel。也即&#xff0c;channel 的主要目的就是在多任务间传递…

系统监控——分布式链路追踪系统

摘要 本文深入探讨了分布式链路追踪系统的必要性与实施细节。随着软件架构的复杂化&#xff0c;传统的日志分析方法已不足以应对问题定位的需求。文章首先解释了链路追踪的基本概念&#xff0c;如Trace和Span&#xff0c;并讨论了其基本原理。接着&#xff0c;文章介绍了SkyWa…

【查询目录】.NET开源 ORM 框架 SqlSugar 系列

.NET开源 ORM 框架 SqlSugar 系列 【开篇】.NET开源 ORM 框架 SqlSugar 系列【入门必看】.NET开源 ORM 框架 SqlSugar 系列【实体配置】.NET开源 ORM 框架 SqlSugar 系列【Db First】.NET开源 ORM 框架 SqlSugar 系列【Code First】.NET开源 ORM 框架 SqlSugar 系列【数据事务…

dell电脑开不了机怎么回事?戴尔电脑无法开机解决方法

dell戴尔电脑开不了机&#xff0c;这是很多使用dell电脑用户常遇到的问题。这种故障情况是由多种原因引起&#xff0c;包括硬件故障、软件问题或电源问题等等。dell电脑开不了机怎么办呢&#xff1f;下面便为大家介绍一下相关解决修复方法&#xff0c;帮助用户解决戴尔电脑无法…

ansible自动化运维(二)ad-hoc模式

目录 Ansible模块&#xff08;ad-hoc模式&#xff09; 1.command模块&#xff1a;远程执行命令 2.shell 模块&#xff1a;远程执行命令&#xff0c;支持管道&#xff0c;重定向 3.Raw模块&#xff1a;先登录&#xff0c;再执行&#xff0c;最后退出 4.Script模块&#xff…

深入解析级联操作与SQL完整性约束异常的解决方法

目录 前言1. 外键约束与级联操作概述1.1 什么是外键约束1.2 级联操作的实际应用场景 2. 错误分析&#xff1a;SQLIntegrityConstraintViolationException2.1 错误场景描述2.2 触发错误的根本原因 3. 解决方法及优化建议3.1 数据库级别的解决方案3.2 应用层的解决方案 4. 友好提…

windows平台使用C#创建系统服务

使用 C# 在 Windows 平台创建和管理系统服务 在 Windows 平台上&#xff0c;系统服务&#xff08;Windows Service&#xff09;是一种运行在后台、无需用户交互的应用程序。系统服务广泛应用于长期任务处理、网络监听、后台调度等场景。本文将详细介绍如何使用 C# 创建一个 Win…