CVPR 2024最佳论文分享:生成图像动力学
CVPR(Conference on Computer Vision and Pattern Recognition)是计算机视觉领域最有影响力的会议之一,主要方向包括图像和视频处理、目标检测与识别、三维视觉等。近期,CVPR 2024 公布了最佳论文。共有10篇论文获奖,其中2篇最佳论文,2篇最佳学生论文,2篇最佳论文题目和4篇最佳学生论文提名。本公众号推出CVPR 2024最佳论文专栏,分享这10篇最佳论文。
本文详细介绍了CVPR 2024最佳论文《Generative Image Dynamics》。该论文的第一作者为Zhengqi Li(李正奇)。论文提出了一种从单张RGB图像生成场景运动的方法,通过学习从实际视频序列中提取的运动轨迹,在傅里叶域中建模为频谱体积。使用条件扩散模型预测这些频谱体积,并通过图像基渲染模块将其转换为运动纹理,从而实现将静态图像转化为无缝循环视频或响应用户输入的动态交互模拟。论文展示了该方法在生成连续动画视频和模拟交互动态图像方面的应用,并在定量和定性实验中证明了其优越性。本文由黄星宇撰写,审校为邱雪和许东舟。论文地址:https://arxiv.org/pdf/2309.07906.
1. 研究背景及解决的问题
1.1 研究背景
自然界中的场景总是处于运动状态,即使是看似静止的场景也会由于风、水流、呼吸等自然节律产生细微的振动。模拟这种运动对于视觉内容合成至关重要,因为人类对运动的敏感性使得人类对没有运动的图像感受怪异或不自然。虽然人类可以轻松地解释或想象场景中的运动,但训练模型来学习或生成真实的场景运动却极其困难。在现实世界中观察到的运动是场景底层物理动力学的结果,例如,施加在物体上的力根据它们独特的物理属性(如质量、弹性等)做出响应,这些量很难大规模测量和捕捉。
1.2 解决的问题
研究解决了从单个静止图像生成逼真的长时间像素轨迹的问题。通过学习从真实视频序列中提取的运动轨迹,研究团队开发了一种频域的密集、长期运动表示方法(光谱体积)。该方法通过频率协调的扩散模型进行预测,能够生成覆盖整个视频的运动纹理,从而实现如下应用:
(1). 无缝循环视频生成:将静止图像转换为无缝循环的视频。
(2). 交互动态模拟:允许用户与图像中的对象进行交互,模拟对象在用户输入(如拖动和释放点)下的动态响应。
(3). 图像动画:将单个静止图像转换为动态视频,展示自然界中的振荡运动,例如树木在风中的摆动、花朵的摇曳等。
应用部分可以参考官网演示,官网网址:generative-dynamics.github.io.
2. 方法
主要目标是从单张图片生成包含树木、花朵或蜡烛火焰等振荡运动的视频序列。系统由两个模块组成:运动预测模块和基于图像的渲染模块。首先,使用潜在扩散模型(LDM)预测输入图片的频谱体积,然后通过逆离散傅里叶变换将其转换为运动纹理。接着,利用神经图像基渲染技术将输入的RGB图像动画化。该方法在生成无缝循环动画和模拟交互动态方面有多种应用。
2.1 运动预测模块
运动预测模块通过潜在扩散模型(LDM)从单张输入图像预测出表示密集、长期像素运动的频谱体积。首先,模型对每个频率分量进行预测,并通过共享注意力模块协调不同频率的生成,确保运动的连贯性。训练过程中,采用频率自适应归一化技术,对傅里叶系数进行调整,防止高频分量过小而导致的生成误差。随后,模型通过迭代去噪,从高斯噪声逐步逼近真实的频谱体积。最后,通过逆离散傅里叶变换将预测的频谱体积转换为时间域的运动纹理,生成未来帧的像素运动轨迹。这一模块使得从静态图像生成逼真、连贯的动态视频成为可能。运动预测模块结构如图1所示。
图1 运动预测模块
2.2 基于图像的渲染模块
基于图像的渲染模块将运动预测模块生成的运动纹理转换为动画视频帧。首先,通过逆离散傅里叶变换将频谱体积转换为时间域的运动纹理,这些纹理描述了每个像素在未来时间步的位置变化。接着,模块对输入的RGB图像进行多尺度特征提取,生成一系列特征图。利用最大值点云映射策略,将特征图中的像素根据运动纹理映射到未来帧的位置。然后,通过图像合成网络对映射后的特征图进行细化和填充,生成无缝、逼真的动画帧。在生成无缝循环视频时,模块会应用运动指导,确保视频的起始帧和结束帧在位置和速度上保持一致。通过这一系列步骤,基于图像的渲染模块成功地将静态图像转化为动态视频,实现了逼真、连贯的动画效果。图像渲染模块结构如图2所示。
图2 图像渲染模块
3. 实验
实验方法包括收集3015个展示自然振荡运动的视频,并将其分为训练集和测试集。首先从视频中提取运动轨迹生成频谱体积,然后使用这些数据训练潜在扩散模型(LDM),该模型能够预测单张输入图像的频谱体积,并通过逆离散傅里叶变换将其转换为时间域的运动纹理,生成未来帧的像素运动轨迹。评估环节采用定量指标(如FID、KID、FVD、DT-FVD)和定性比较,全面评估生成视频的质量和时间一致性,并与现有方法(如Stochastic I2V、MCVD、Endo等)进行对比。实验结果显示,该方法在定量指标上表现出色,尤其在FID和DT-FVD等关键指标上取得最低误差,生成的视频在图像质量和时间一致性方面优于其他方法,如图3所示。定性评估通过时空X-t切片可视化,证明生成的视频动态更接近真实运动,显示出更少伪影和更自然的运动,如图4所示。此外,用户研究表明,大多数用户更偏好该方法生成的视频,认为其在现实感和运动连贯性上表现更优。这些结果验证了该方法在生成逼真、连贯视频动画方面的有效性和优越性,展示了其在视觉内容合成领域的巨大潜力。
图3 测试集定量比较
图4 不同方法生成的视频的X-t切片
4. 结论
论文提出了一种从单张静止图像建模自然振荡动态的新方法,图像空间运动先验通过频谱体积表示,这是一种每像素运动轨迹的频率表示。该方法在扩散模型预测中表现出高效和有效,并从真实世界视频集合中学习。通过基于图像的渲染模块,频谱体积用于动画未来的视频帧,生成逼真的动画,并显著优于之前的基线方法,可以支持多个下游应用,如创建无缝循环或互动的图像动态。