AtomoVideo:AIGC赋能下的电商视频动效生成

✍🏻 本文作者:凌潼、依竹、桅桔、逾溪

1. 概述

当今电商领域,内容营销的形式正日趋多样化,视频内容以其生动鲜明的视觉体验和迅捷高效的信息传播能力,为商家创造了新的机遇。消费者对视频内容的偏好驱动了视频创意供给的持续增长,视觉内容作为连接消费者和商品的桥梁,在广告系统中正变得日益重要。

然而,与传统的图文内容相比,视频内容的制作难度和成本都要高得多。制作一个高质量的视频需要专业的技能、设备以及时间,这使得成品的质量层次不齐,且难以批量化生产。随着人工智能和生成式内容创造(AIGC)技术的进步,使得通过智能化手段批量制作优质视频创意成为可能,并且能够为客户带来显著价值。

近日,OpenAI Sora 的发布让人们看到了视频智能创作的曙光,如今各大团队也纷纷开始了“国产版 Sora”的探索之路,在 Sora 出现之前,阿里妈妈智能创作与AI应用团队在视频 AIGC 领域已有近一年的研究和探索,与业务相结合,我们孵化出了🔗 尺寸魔方、商品视频动效生成等基于扩散模型的视频生成和编辑工具。本文将聚焦于商品视频动效生成,介绍我们在视频 AIGC 应用于视频创意上的探索与实践。

借助自研的AtomoVideo 视频生成技术(中文:阿瞳木视频,项目地址:https://atomo-video.github.io/),我们探索出了一种自动化地将电商平台上现有的图片素材转换为高质量的视频动效的方法,并在万相实验室、广告投放平台等场景进行了落地和上线,服务于广大阿里妈妈广告客户。

e025c8cb2ef8a1ad7a12a4b94a6d15bc.gif71197739b991f1a27ef20f226308759c.gif

774b65eb91e90789015f6d8f98664702.gif

2ce2fc490c44c2fd272514f482a833fd.gif

2. 核心技术

整个商品视频动效的生成过程面临诸多挑战,尤其是在电商场景下,商品主体的细节是不允许被改变的,也是商家非常在意的基本准则。因此,如何在保持商品外观准确性的同时进行更加合理的动效视频生成,是非常值得探索的问题。我们在现有T2V模型的基础上,提出使用 Noise Rectification(无需训练的噪声矫正器)来实现图像到视频的生成,为了进一步提升视频连贯性和保真度,进而提出 AtomoVideo(阿瞳木视频生成技术) 将基础模型进行升级,赋能电商视频动效生成。

2.1 Noise Rectification: 无需训练的噪声矫正器

文本到图像生成(T2I)在过去一年取得了飞速的发展,诸多设计行业从业者、科技爱好者利用 Stable Diffusion WebUI、ComfyUI 等开源工具已经可以生成摄影级图像和实现商业级落地应用。相比之下,受限于训练机器资源和数据集收集困难等挑战,视频生成远没有图像生成领域发展迅速,近半年,随着 Pika、Gen-2 等视频编辑工具的出现,社区中也涌现了许多文本到视频生成(T2V)的工作,为了将此类 T2V 的工作迁移至我们的商品动效生成中,我们提出了一种无需训练的噪声矫正器(Noise Rectification),可以自然地实现 T2V 到 I2V 的转变

具体来说,我们对给定图片添加一定步数的噪声,以此来模拟训练过程中的加噪过程,这样我们便获得了含有输入图像信息的噪声先验,在此基础上进行降噪即可保留一定输入图片的风格等信息。然而,这种“垫图”式 T2V 生成方式在电商领域对给定图片做动效生成时,会丢失大量原图像中的细节信息,严重破坏原有图片的美观度。为此,我们专门设计了一个与“垫图”生成可以完美配合的噪声矫正器(Noise Rectification),噪声矫正器流程图如下所示:

536dc15412d4a0e1a81cacc4303337b8.png
Noise Rectification示意图

考虑到模型训练无法达到完美损失,即模型预测噪声总会存在偏差,从而导致视频保真度的降低。为了缓解模型在 DDIM 去噪过程中的误差累积(指实际添加的噪声与每一步中模型预测的噪声的差异),对于每一步模型预测的噪声,我们利用初始采样的噪声,对其进行“噪声矫正”,即 通过计算预测噪声和真实噪声之间的差异,采样加权的计算方式对预测的噪声进行适当调整。通过这种设计,我们的方案可以消除第一帧的噪声误差,使得第一帧达到完美保真,同时其余帧也会和第一帧保持时序内容上的一致。本方案提出的“垫图+噪声矫正”策略,不需要引入额外的训练,直接作用于动效模型的推理阶段,即可提高图生视频的保真度。更多技术细节请参见我们的论文:

  • Title:Tuning-Free Noise Rectification for High Fidelity Image-to-Video Generation

  • 链接:https://arxiv.org/abs/2403.02827

  • 项目主页:https://noise-rectification.github.io/

使用该方案后的前后对比效果如下,能够明显看到动效视频与给定图像一致性的提升,结合可控生成技术,我们可以完美还原商品细节。但这种针对 T2V 模型的噪声校正策略在更多通用场景下会存在动效幅度较小的缺点,关于这一点的解决,我们将在下一章节进行介绍我们的改进。

输入图像
生成动效(直接垫图生成)

生成动效(使用Noise Rectification生成)

385ba318f862396325b0617e532518ce.png7de5cc73d5120f6a1c98fbf25676d907.gif0a9c81bbb3cf5021fc476af2abb1ebba.gif
a16450e84e6cf22866a4eb96dc66cd24.png9d9bd7ab3ae0a9e3b4ee9f942e7c3bc4.gifee3f0db61128992a9abb9db663be8aec.gif

2.2 AtomoVideo:高保真度的I2V模型升级

在商品信息注入和噪声矫正器的加持下,商品动效生成已经具备了不错的生成效果,我们也基于以上改进在万相实验室上线了动效生成模块的第一版,但由于所使用的基础模型为 T2V 模型,并非适用于本任务的 I2V 模型,且生成时长仅有2s,在淘内场景下使用受限。为此,我们专门研发了更适用于本任务的 I2V 基础模型,称为 AtomoVideo(中文:阿瞳木视频),该模型对视频的时序一致性和图像保真度提升显著,模型结构框架图如图所示:

163b9d6e8d1f351804191e18d263121d.png
AtomoVideo 模型结构图

我们对模型做了如下几个改进,包括优质数据集构建、多粒度图像注入、渐进性动作强度训练等。

1) 优质数据集构建:收集内部千万规模的“文本-视频”数据对,利用美观度、文本视觉相关性、主体检测(过滤人物视频)、动效强度检测等方式,清洗得到优质视频数据子集,用于视频生成模型训练。同时我们与设计师合作构建了一个更加优质的数据集,汇集了大量在美观度和动效质量上均表现出色的高清视频。

2) 多粒度图像注入:为增强 I2V 生成的图像保真度和时序一致性,我们使用了多粒度的图像注入方法,在扩散模型输入侧将图像的low-level和high-level语义进行输入,在我们实验中,这可以在完美还原给定图像保真度的同时,增加生成视频的时序一致性。

3) 训练方法:我们观察到大多数其他工作(如Pika、Gen2等)很难生成动作幅度大的视频,还有一些工作在生成动作幅度较大的视频时,稳定性较差。为了克服这一点,我们使用了渐进性动作强度增加的多阶段训练方式,由低动效视频数据集开始,逐步增加至高动效数据集进行训练,我们发现这可以帮助模型在生成较大动作幅度视频的同时,依然能够维持较好的时序稳定性。

经过如上的改进和大规模训练,我们将基础模型升级为可产生4s,720P的视频生成模型。更多相关细节可以阅读我们的技术报告:

  • Title:AtomoVideo: High Fidelity Image-to-Video Generation

  • 链接:http://arxiv.org/abs/2403.01800

  • 项目主页:https://atomo-video.github.io

部分生成示例如下,更多示例可前往项目主页浏览:

输入图片输入文本输出视频
5a07128c7af98d1ca2359331249708f0.pngMuppet walking down the street in a red shirt, cinematic.958047b945c9877f121d166cbfb59da2.gif
bb03f277f47279807098a808e954a3f5.pngFlying through an intense battle between pirate ships in a stormy ocean.15b599f5af70357872bc995adbc29ce6.gif
66749de97767fffd4ea5df29010dc7e4.pnga singer of a music bande3a2e39b1c490abe43d617c9d3924d83.gif

此外,我们将I2V基础模型的原始T2I模型部分进行了参数固定,而仅对新增的时序建模层和输入层进行训练,因此,我们可以将社区广泛使用的图像 ControlNet 与 AtomoVideo 进行结合,这也是我们相比于 SVD 等视频开源模型的优势。结合 T2I 领域预训练好的 ControlNet,可以实现局部控制生成,以尽量还原商品细节,当前我们上线版本已全部切换为该模型。

2.3 动效场景模板适配

由于输入商品图像的质量一定程度会影响动效生成的效果,有较多图片中并未包含任何动态元素,这种情况下,进行图像到视频的转换显得比较困难,容易产出“偏静态”的视频。因此,基于以上考量,我们与设计师共建了视频动效场景模板,并针对每个不同的场景描述定制化了特殊的动态描述。其中视频动效场景列表包含了诸如“山间云海”、“海底世界”等动态场景,同时在大促节日时,会专门设计一批用于节日宣传的动态模板进行投放(如下图是在38大促期间设计的两个动效模板)。

场景模板名称AIGC图片动效视频
粉色烟花9697715e7a245d5d57e6aee763a79f40.png47e69b00a19085fdd1e4c041547bf532.gif
粉色世界6fca27f3f2b600b31a35fa1b9abbdbc3.png85734c76e20d0232a655ea797b19e68f.gif

3. 业务应用

当前,电商视频动效生成已经在阿里妈妈-万相实验室(https://agi.taobao.com)和广告投放平台进行上线,支持广告主在线生成视频动效。以下是生成的一些样例:

输入图片
动效视频
10f32297c967a67be3168a2ca008748e.png0fb0ccebc4635ab820ce4cacf6bd9e80.gif
4dee16999def7608fbaf92f521dac975.png93104ed3afd724186a32b4d74de66440.gif
a372b8c212f149dc0d02d0299e3c838d.png1fd9f42b85a8e4e75a694f70848a79e0.gif
3394a208e7b9f0ced6855c55c4112049.png1aa6b3d47c6dbf037dc852f3161736bc.gif
3075bede16cc28d10fbc8f1840a7d168.png

7eeb36f2dc8d98e6fea60fc1fc7a08a5.gif

7c2c41d08424285761a64383b0f5bf5b.png977d6a00c38ccb41d165b3fe320b213b.gif

4. 总结与展望

近半年,AIGC 视频生成技术取得了令人瞩目的飞跃发展。随着 GEN-2、PIKA 1.0、Sora 等视频创作工具和模型的出现,影视制作和多媒体设计等行业正迎来一场创造力的革新风暴,这些技术正在推动视频内容制作向着更高的逼真度和更强的可控性迈进。本文介绍了我们团队在视频 AIGC 赋能视频广告创意的探索和实践,通过基于扩散模型的视频生成技术,结合可控生成技术,使得静态电商图片栩栩如生地“动”了起来,实现了在电商领域的视频 AIGC 应用落地。

然而,目前的技术实现还远未触及视频生成的真正潜力,在视频画面的稳定性、内容创造的可控性以及视频时长等关键要素上,仍有很大的进步空间值得我们探索。Sora 的出现也让我们看到了未来视频创作工具大规模应用的曙光,Diffusion Transformer、Scaling Up 等关键技术给了我们很多启发,在未来,希望不断提升基础模型生成效果的同时,用视频 AIGC 技术赋能更多业务场景。

关于我们

我们是阿里妈妈智能创作与AI应用团队,专注于图片、视频、文案等各种形式创意的智能制作与投放,产品覆盖阿里妈妈内外多条业务线,欢迎各业务方关注与业务合作。同时,真诚欢迎具备CV、NLP相关背景同学加入,一起拥抱 AIGC 时代!感兴趣同学欢迎投递简历加入我们。✉️ 简历投递邮箱:alimama_tech@service.alibaba.com

END

2838b1ab0933e6a76c5d3508efb3487d.gif

也许你还想看

🔥《计算机视觉 in 阿里妈妈》文章合集

视频尺寸魔方:分层遮掩3D扩散模型在视频尺寸延展的应用

ACM MM’23 | 4篇论文解析阿里妈妈广告创意算法最新进展

营销文案的“瑞士军刀”:阿里妈妈智能文案多模态、多场景探索

实现"模板自由"?阿里妈妈全自动无模板图文创意生成

告别拼接模板 —— 阿里妈妈动态描述广告创意

如何快速选对创意 —— 阿里妈妈广告创意优选

化繁为简,精工细作——阿里妈妈直播智能剪辑技术详解

CVPR 2023 | 基于内容融合的字体生成方法

CVPR 2023 | 基于无监督域自适应方法的海报布局生成

关注「阿里妈妈技术」,了解更多~

7490b3370515089a013918166e7a12e4.gif

喜欢要“分享”,好看要“点赞”哦ღ~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/748288.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis部署方式(三)主从模式

在前面单机版的基础上,41为主,30为从。 一、主从搭建 1、主Redis安装 41机器redis主要配置 requirepass redis#!_41 bind 0.0.0.0 port 6379 daemonize yes 2、从redis安装 30机器redis主要配置 requirepass redis#!_30 bind 0.0.0.0 port 6380 da…

python 如何使用 NLPchina 开源sql插件,提供代码

分享一段使用python,通过使用发送post请求的方式,来从es集群中获取数据。不用使用 elasticsearh,仅需要导入request和json包即可。 开源sql插件官方 文档 GitHub - NLPchina/elasticsearch-sql: Use SQL to query Elasticsearch 示例代码 调…

JavaScript中的事件模型(详细案例代码)

文章目录 一、事件与事件流二、事件模型原始事件模型特性 标准事件模型特性 IE事件模型 一、事件与事件流 javascript中的事件,可以理解就是在HTML文档或者浏览器中发生的一种交互操作,使得网页具备互动性, 常见的有加载事件、鼠标事件、自定…

js实现扫描线填色算法使用canvas展示

算法原理 扫描线填色算法的基本思想是:用水平扫描线从上到下扫描由点线段构成的多段构成的多边形。每根扫描线与多边形各边产生一系列交点。将这些交点按照x坐标进行分类,将分类后的交点成对取出,作为两个端点,以所填的色彩画水平…

文章解读与仿真程序复现思路——电网技术EI\CSCD\北大核心《适应分布式资源渗透率提高的配电网网元规划方法》

本专栏栏目提供文章与程序复现思路,具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》 论文与完整源程序_电网论文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html 电网论文源程序-CSDN博客电网论文源…

【QT 5 +Linux下qt软件点击.sh脚本运行+Dconf编辑器+学习他人文章+番外篇:点击脚本运行软件】

【QT 5 Linux下qt软件点击.sh脚本运行Dconf编辑器学习他人文章番外篇:点击脚本运行软件】 1、前言2、实验环境3、自我学习总结-本篇总结1、说明:代替qt的快捷方式2、适用性更广3、了解工具:Dconf编辑器注意事项: 4、参考链接-感谢…

PCM和I2S区别

I2S和PCM接口都是数字音频接口,而所见的蓝牙到cpu以及codec的音频接口都是用PCM接口,是不是两个接口有各自不同的应用呢?先来看下概念。 PCM(PCM-clock、PCM-sync、PCM-in、PCM-out)脉冲编码调制,模拟语音信…

基础:TCP是什么?

1. TCP 是什么? TCP(Transmission Control Protocol 传输控制协议) 是一种面向连接的、可靠的、基于字节流的传输层通信协议,由IETF的RFC 793 [1]定义。 TCP旨在适应支持多网络应用的分层协议层次结构。连接到不同但互连的计算机…

如何成为一名优秀的硬件工程师

求知若饥,大智如愚,这是乔布斯说的,很多工程师把这句话作为工程师的最基本的职业素养。 “工程师是科学家;工程师是艺术家;工程师也是思想家。”实际上,工程师是利用自然科学来创造工程的人。工程既是物质…

Docker容器化技术(使用Dockerfile制作镜像)

Docker中的镜像分层 Docker 支持通过扩展现有镜像,创建新的镜像。实际上,Docker Hub 中 99% 的镜像都是通过在 base 镜像中安装和配置需要的软件构建出来的。 1、Docker 镜像为什么分层 镜像分层最大的一个好处就是共享资源。 比如说有多个镜像都从相…

智慧城市:提升城市治理能力的关键

目录 一、智慧城市的概念及特点 二、智慧城市在提升城市治理能力中的应用实践 1、智慧交通:提高交通治理效率 2、智慧政务:提升政府服务水平 3、智慧环保:加强环境监测与治理 4、智慧安防:提高城市安全水平 三、智慧城市在…

【PythonCode】力扣Leetcode6~10题Python版

【PythonCode】力扣Leetcode6~10题Python版 前言 力扣Leetcode是一个集学习、刷题、竞赛等功能于一体的编程学习平台,很多计算机相关专业的学生、编程自学者、IT从业者在上面学习和刷题。 在Leetcode上刷题,可以选择各种主流的编程语言,如C、…

我的尝试:Codigger + Vim

若您愿意耐心投入,学习 Vim 的过程其实远比想象中轻松。我对 Vim 产生兴趣,主要是源于它对提升生产力的巨大潜力。我尝试了 Neovim、NvChad 以及 Codigger Vim 插件,如今我的工作效率已远超从前。 那么,Vim 究竟是什么呢&#xff…

【调参】如何为神经网络选择最合适的学习率lr-LRFinder-for-Keras

【调参】如何为神经网络选择最合适的学习率lr-LRFinder-for-Keras_学习率选择-CSDN博客文章浏览阅读9.2k次,点赞6次,收藏55次。keras 版本的LRFinder,借鉴 fast.ai Deep Learning course。前言学习率lr在神经网络中是最难调的全局参数&#x…

鸿蒙Harmony应用开发—ArkTS声明式开发(容器组件:Navigator)

路由容器组件,提供路由跳转能力。 说明: 该组件从API Version 7开始支持。后续版本如有新增内容,则采用上角标单独标记该内容的起始版本。 子组件 可以包含子组件。 接口 Navigator(value?: {target: string, type?: NavigationType}) …

包冲突解决之-invalid constant type: 18

背景 现象一:引入了一个包A,服务突然起不来了,后台有报错信息,Caused by: org.springframework.beans.factory.NoSuchBeanDefinitionException: No qualifying bean of type xxx available: expected at least 1 bean which quali…

Day44-sersync企业实时复制实战

Day44-sersync企业实时复制实战 1. sersync实时复制工具介绍1.1 sersync工具简介1.2 sersync特点1.3 sersync图解原理1.4 sersyncrsync实时复制方案项目实践1.4.1 图解项目方案架构及实现原理1.4.2 确保远程数据传输服务部署完成1.4.3 检查当前系统nfs01是否支持inotify实时监控…

vue使用elementPlus ui框架,如何给Dialog 对话框添加Loading 自定义类名显示隐藏

vue使用elementPlus ui框架时&#xff0c;如何给Dialog 对话框添加Loading 自定义类名&#xff0c;想要实现dialog对话框区域有loading效果 官方给出的这个API配置项customClass&#xff0c;使用不太明确。暂时无法实现绑定class。 最后的实现方式&#xff1a; <template&…

吐槽FineDataLink工具Format函数处理日期转字符串格式的说明文档

一.背景 为公司师带徒的任务做些记录。 二.文档存在的问题 1.文档情况 FORMAT-格式转换- FineBI帮助文档 FineBI帮助文档 函数定义&#xff1a; FORMAT(object,format) formart的格式有哪些呢&#xff1f;我们截图看看&#xff1a; 2.文档说明不足问题 同事的需求是把时…

AI人工智能培训讲师ChatGPT讲师叶梓培训简历及提纲ChatGPT等AI技术在医疗领域的应用

叶梓&#xff0c;上海交通大学计算机专业博士毕业&#xff0c;高级工程师。主研方向&#xff1a;数据挖掘、机器学习、人工智能。历任国内知名上市IT企业的AI技术总监、资深技术专家&#xff0c;市级行业大数据平台技术负责人。 长期负责城市信息化智能平台的建设工作&#xff…