1、Make-it-Real: Unleashing Large Multimodal Model's Ability for Painting 3D Objects with Realistic Materials
中文标题:实现高仿真3D物体绘制:释放大型多模态模型的能力
简介:物理材料对于增强不同应用场景和光照条件下的3D资产的逼真感至关重要。然而,现有的3D资产和生成模型往往缺乏真实的材质属性。通过图形软件手动分配材质是一项繁琐且耗时的工作。在本文中,我们利用多模态大语言模型(MLLMs)的最新进展,特别是GPT-4V,提出了一种新的方法"Make-it-Real":
我们证明GPT-4V可以有效识别和描述材质,从而构建一个详细的材质库。
通过结合视觉提示和分层文本提示,GPT-4V可以精准地识别并将材质与3D对象的相应组件对齐。
然后,我们将正确匹配的材质作为新SVBRDF材质生成的参考,根据原始漫反射贴图显著增强其视觉真实性。
"Make-it-Real"提供了一种流畅集成到3D内容创作工作流程中的方法,展现了其作为3D资产开发人员重要工具的实用性。
2、Made to Order: Discovering monotonic temporal changes via self-supervised video ordering
中文标题:按需定制: 通过自监督视频排序发现单调时间变化
简介:我们的目标是发现和定位一系列图像中的单调时间变化。为此,我们采用一个简单的代理任务 - 对一个打乱的图像序列进行排序,以"时间"作为监督信号。因为只有随时间单调变化的图像才能产生正确的排序。我们还引入了一个基于Transformer的灵活模型,可以对任意长度的图像序列进行通用排序,并内置属性映射功能。
训练完成后,该模型成功地发现和定位了单调变化,同时忽略了周期性和随机性变化。我们展示了该模型在涵盖不同场景和对象类型的多个视频设置中的应用,成功发现了未见过的序列中的物体级和环境变化。
我们还展示了基于注意力的属性映射,作为有效的分割变化区域的提示。而学习到的表示也可以用于下游应用。最后,我们展示了该模型在标准图像排序基准测试中达到了最先进水平。
3、V2A-Mark: Versatile Deep Visual-Audio Watermarking for Manipulation Localization and Copyright Protection
中文标题:V2A-Mark: 用于操纵定位和版权保护的通用深度视觉-音频水印
简介:AI生成的视频技术已经彻底改变了短视频制作、电影制作和个性化媒体的创作方式,使视频本地编辑成为不可或缺的工具。然而,这种技术进步也模糊了现实与虚构之间的边界,给多媒体取证带来了挑战。为了解决这一迫切问题,研究人员提出了V2A-Mark技术。
V2A-Mark旨在解决当前视频篡改取证存在的局限性,如泛化能力差、单一功能和单一模态聚焦等。它将视频隐写的脆弱性与深度鲁棒的水印技术相结合,能够将不可见的视听本地化水印和版权水印嵌入原始视频帧和音频中,实现精确的篡改定位和版权保护。此外,V2A-Mark还设计了时间对齐和融合模块以及退化提示学习等技术,以增强定位精度和解码鲁棒性。同时,它引入了样本级音频定位方法和跨模态版权提取机制,充分利用音频和视频帧的信息。
实验结果表明,V2A-Mark在视听篡改数据集上的定位精度和版权准确性方面都有显著优势,这对于AIGC视频时代的视频编辑可持续发展至关重要。