世界启动Ⅷ--AI视频制作-方案与创新

1.文本/图片生成视频顾名思义,就是输入一段文本描述/上传一张图片即可生成对应的视频。我们常见的Runway、Pika、NeverEnds、Pixverse、svd等都属于此类。比如runway的影视风格Pika的动漫风格NeverEnds的人像模特当然还有一些外延应用,例如最近比较火的阿里的“全民舞王”,底层基于Diffusion Model,再结合了Controlnet等其他技术,后文也会讲到。

2.视频到视频的生成通常分为风格迁移类型、视频内部的替换、局部重绘、视频AI高清化。如WonderStudio的人物CG替换:

DomoAI的视频风格转换涉及技术包括:视频序列帧生成和 Contorlnet 处理、视频风格迁移Lora、视频放大、面部修复等。

视频换脸常见的有Faceswap、DeepFacelab等。涉及技术包括:人脸检测、特征提取、人脸转换、优化等。

3.数字人类以Heygen和D-iD为代表,通过人脸检测Face detection、语音克隆TTS、口型同步Lip sync技术等组合实现。

4.视频编辑类型素材匹配可以根据你给定的主题或者需求,通过搜索现有素材拼接成一个完成的视频。我们平时剪辑最常用的剪映就是其中的一种,可以在线搜索素材匹配你的文本需求。

关键部分剪辑 将长视频转化为所需的短视频,适用于访谈节目类。涉及技术可能包括使用OpenCV和TensorFlow来分析视频内容,识别关键片段,然后使用MoviePy来剪辑和组装这些片段,形成短视频。

视频高清化通过超分算法、降噪算法、以及插帧等功能共同实现视频质量的提升。

生成式AI视频技术大家可以感受到,上述AI视频的应用可谓是五花八门,但底层的技术不外乎以下3种:

GAN、Diffusion Model以及这两年在大模型领域大火的Transformer架构。

当然也包括变分自编码器(Variational Autoencoder, VAE)和Diffusion的前身DDPM(Denoising Diffusion Probabilistic Model),我们这里不详细展开,主要用通俗的语言介绍前面3种。

1.生成式对抗网络 GANGenerative adversarial networks

顾名思义,GAN包括一个生成器和一个判别器。生成器就像一个画家,根据文字描述尽力画出真实般的图像,而判别器就像一个鉴定师,努力分辨哪些画是真实的哪些是生成器画的。两者不断竞争,生成器变得越来越擅长画出逼真图像,判别器变得越来越聪明分辨真伪,最终实现较为逼真的图像生成。"是不是很像小时候老师拿着戒尺在旁边指导你学习"GAN也同时存在一些短板:失真:与扩散模型生成的图像相比,GAN往往有更多的伪影和失真。训练稳定性:GAN的训练过程涉及一个生成器和一个判别器的对抗过程,这可能导致训练不稳定和难以调优。相比之下,扩散模型的训练过程更加稳定,因为它们不依赖于对抗训练。多样性:相比于GAN,扩散模型在生成图像时能够展现出更高的多样性,这意味着它们能够产生更加丰富和多变的图像,而不会过分依赖于训练数据集中的特定模式。大约在2020年左右,扩散模型在学术界和工业界开始获得更多的关注,尤其是当它们在图像生成的各个方面表现出色时。但这并不意味着GAN已经完全过时,在风格迁移和超分方面也得到广泛的探索和应用。

2.扩散模型 Diffusion ModelDiffusion Models 的灵感来自 non-equilibrium thermodynamics (非平衡热力学)。

理论首先定义扩散步骤的马尔可夫链,以缓慢地将随机噪声添加到数据中,然后学习逆向扩散过程以从噪声中构造所需的数据样本。通俗地解释扩散模型的工作方式有点像雕刻家,从一块粗糙的石头(或者在我们的例子中是一张模糊、无序的图像)开始,逐渐细化和调整,直到形成一个精细的雕塑(即清晰、有意义的图像)。

目前我们熟知的Runway、Pika其实都是基于Diffusion模型的。但是其中细节又有所不同。对于这两个产品存在以下两种技术架构:Pika - Per Frame在“Per Frame”架构中,扩散模型针对视频中的每一帧单独处理,就像它们是独立的图片一样。

这种方法的优势在于它可以保证每一帧的图像质量。然而无法有效地捕捉视频中的时间连贯性和动态变化,因为每一帧都是独立处理的。因此会损失一定的精度,我们看到Pika早期生成视频有点“糊”可能也与此有关。

Runway - Per Clip“Per Clip”架构则是将整个视频片段作为一个单一的实体来处理。在这种方法中,扩散模型考虑了视频中帧与帧之间的时间关系和连贯性。其优势在于能够更好地捕捉和生成视频的时间动态,包括运动和行为的连贯性。更完整地保留了训练视频数据的精度。

然而,“Per Clip”方法可能需要更复杂的模型和更多的计算资源,因为它需要处理整个视频片段中的时间依赖性。

对比Pika的Per Frame架构,Per Clip更完整地保留了训练视频素材的信息,成本较高的同时天花板也相对较高。

由于扩散模型本身就是计算密集型的,所以在生成长视频时,这种计算负担会急剧增加,并且时间一致性也是对扩散模型一项不小的考验。而Transformer架构特别擅长处理长序列数据,这对于生成长视频来说是一个重要优势,它们能够更好地理解和维持视频内容在时间上的连贯性。

3.Transformer架构(LLM架构)在语言模型中,Transformer通过分析大量文本来学习语言的规则和结构,进而通过概率推演出后续文本。

当我们将这种架构应用于图像生成时,相比于扩散模型是从混乱中创造出秩序和意义,Transformer在图像生成中的应用类似于学习和模仿视觉世界的“语言”。例如,它会学习颜色、形状和对象如何在视觉上组合和交互,然后使用这些信息来生成新的图像。

Transformer架构有其独特优势,包括明确的密度建模和更稳定的训练过程。它们能够利用帧与帧之间的关联,生成连贯且自然的视频内容。

除此之外,diffusion Model目前最大的模型也就 7 到 8 个 billion 参数规模,但 transformer 模型最大可能已经达到 trillion 级,完全两个量级。

然而,自Transformer架构面临着计算资源、训练数据量和时间的挑战。相比于扩散模型,需要更多的模型参数,对计算资源和数据集的需求相对更高。

所以在早期算力以及数据量紧凑的时候Transformer架构生成视频/图像没有得到充分的探索和应用。

AI视频外延技术及应用“照片跳舞”——Animate anyone基于扩散模型+Controlnet相关等技术技术概述:网络从多帧噪声作为初始输入开始,采用基于Stable Diffusion (SD)设计的去噪UNet结构。和我们熟悉的Animatediff类似,再结合类似Controlnet的姿势控制和一致性优化等技术。

网络核心包括三个关键部分:

1、ReferenceNet,负责编码参考图像中角色的外观特征,确保视觉一致性。

2、Pose Guider,用于编码运动控制信号,实现角色动作的精确控制;

3、Temporal Layer,它处理时间序列信息,保证角色运动在连续帧之间的流畅性和自然性。

这三个组件的结合使网络能够生成在视觉上一致、动作上可控且时间上连贯的动画角色

“真人视频转化为动漫”——DomoAI基础模型也是基于Diffusion Model,另外结合了风格迁移。

第一步ControlNet Passes Export,用于提取控制通道,作为制作初始原始动画帧的基础。

第二步是Animation Raw - LCM,这是工作流的核心,主要用于渲染主要的原始动画。

第三步是AnimateDiff Refiner - LCM,用于进一步增强原始动画,添加细节、放大和细化。

最后是AnimateDiff Face Fix - LCM,专门用于改善经过细化工作流处理后仍不理想的面部图像。

“AI视频换脸”——Faceswap总体上,换脸主要分为以下三个过程:人脸检测-特征提取-人脸转换-后处理

AI视频换脸技术,通常被称为“深度伪造”(Deepfake),基于深度学习,特别是使用了类似GAN(生成对抗网络)或自编码器的模型。

因为该技术使用风险较大,因此不在这里详细介绍。

AI视频技术展望“未来的大一统?”——Transformer架构不仅能看得见,而且能听得着Google近期发布了一个专注于视频生成的VideoPoet,能够一站式生成视频、音频、支持更长的视频生成,还对现有视频生成中比较普遍动作一致性提供了很好的解决方案,尤其是大范围 motion 的连贯性。

VideoPoet和绝大多数视频领域使用模型不同,没有走 diffusion 的路线,而是沿着 transformer 架构开发,将多个视频生成功能集成到单个 LLM (大语言模型 Transformer架构)中,证明了transformer除了有杰出的文本生成能力,并且在视频生成上拥有极大潜力。

此外还能同时生成声音,并且支持语言控制修改视频。VideoPoet的小熊打鼓(含声音)“diffusion 最大的模型也就 7 到 8 个 billion 参数规模,但 transformer 模型最大可能已经达到 trillion 级。

在语言模型方面,大公司花了 5 年时间、投入数百亿美元,才把模型做到现在规模,而且,随着模型规模的增大,大模型架构成本也成倍增长。

”谷歌科学家蒋路如是说。本质上说基于大语言模型Transformer架构的视频模型仍是一个"语言模型",因为训练和模型框架没有改变。

只是输入的“语言”扩展到了视觉等其他模态,这些模态也可以离散化表示为符号。早期受到资源、算力、视频数据等多方面限制,我们没有看到Transformer在视频生成的杰出效果。但是最近几年随着GPT带来的大语言模型的飞速发展以及资金支持。

未来“一站式”文本、图像、声音、视频的多模态大模型将备受瞩目。AI视频也即将迎来GPT时刻?

值得注意的是,Transformer虽然是目前最当红的构架,具有高度可扩展和可并行的神经网络架构。但Transformer中完全注意力机制的记忆需求,与输入序列的长度呈二次方关系。

在处理视频等高维信号时,这种缩放会导致成本过高。因此,研究者提出了:窗口注意力潜在Transformer (W.A.L.T) :一种基于Transformer的潜在视频扩散模型 (LVDM) 方法。

欢迎你分享你的作品到我们的平台上:www.shxcj.com 或者 www.2img.ai 让更多的人看到你的才华。

创作不易,觉得不错的话,点个赞吧!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/873836.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《从C/C++到Java入门指南》- 17.命令行参数

命令行参数 一直写代码的童鞋可能留意到了,main函数中会传入一个String args[]的字符串数组。 这个数组由JVM接收用户输入并传给main函数。 import java.util.*; public class Main {public static void main(String[] args) {for (String arg : args) {System.out…

FLINK-运行架构

为什么要学习Flink运行架构? 虽然现在大厂的开发工具都非常高效、只需要进行参数配置、Flink-sql写业务逻辑,但是在资源配置逻辑优化上不可避免需要了解底层的组件配置。面试时可能也会被问到FLINK是如何进行资源分配、作业运行的等。 以下是在学习时记录…

R语言画散点图-饼图-折线图-柱状图-箱线图-直方图-等高线图-曲线图-热力图-雷达图-韦恩图(二D)

R语言画散点图-饼图-折线图-柱状图-箱线图-直方图-等高线图-曲线图-热力图-雷达图-韦恩图(二D) 散点图示例解析效果 饼图示例解析效果 折线图示例解析效果 柱状图示例解析效果 箱线图示例解析效果 直方图示例解析效果 等高线图使用filled.contour函数示例…

Python学习—open函数,json与pickle知识点,Os模块详解

目录 1. Open函数 2.json与pickle模块 json模块 1. json.dumps() 2. json.dump() 3. json.loads() 4. json.load() pickle 模块 1. pickle.dumps() 2. pickle.dump() 3. pickle.loads() 4. pickle.load() 3.Os模块 1. Open函数 在Python中,open() 函数…

Jenkins+Maven+Gitlab+Tomcat自动化构建打包+部署

目录 环境准备 导入项目包 配置jenkins 构建项目 配置项目上线 修改项目代码测试 环境准备 本实操项目环境基于https://blog.csdn.net/Lzcsfg/article/details/140359830 首先在node01主机中操作,本次操作需要java8的版本,将之前安装的java17卸…

IoTDB 分段查询语句详解:GROUP BY + 时序语义

GROUP BY 查询子句的时序语义展开,IoTDB 支持的分段方式总结! 存储的数据通过分析来发挥价值,当一组被存储的数据通过查询得到分析后的结果时,这些数据才真正在数据库中实现了价值闭环。 在关系型数据库中,GROUP BY 子…

陀螺仪LSM6DS3TR-C的简单使用

文章目录 一、前言二、硬件1.引脚说明2.原理图 三、软件1.IIC读写函数1.1 读函数1.2 写函数 2.初始化2.1 检测设备是否存在2.2 读取LSM6DS3TRC器件ID2.3 LSM6DS3TRC重启,重置寄存器2.5 LSM6DS3TRC设置块数据更新2.6 LSM6DS3TRC设置加速度计的数据采样率2.7 LSM6DS3T…

剪画小程序:刷到好听的音频怎么将音频保存到手机里

在这个短视频盛行的时代,相信很多朋友都和我一样,常常会被那些精彩视频中的背景音乐深深吸引。 比如我,特别喜欢听歌,这段时间在短视频平台上刷到了好多好看的视频,里面的背景音乐简直绝绝子! 那么&#x…

【数据分享】2013-2022年我国省市县三级的逐年SO2数据(excel\shp格式\免费获取)

空气质量数据是在我们日常研究中经常使用的数据!之前我们给大家分享了2000——2022年的省市县三级的逐年PM2.5数据和2013-2022年的省市县三级的逐年CO数据(均可查看之前的文章获悉详情)! 本次我们分享的是我国2013——2022年的省…

《样式设计011:模组-瓷片区》

描述:在开发小程序过程中,发现一些不错的案例,平时使用也比较多,稍微总结了下经验,以下内容可以直接复制使用,希望对大家有所帮助,废话不多说直接上干货! 一、小程序:模组…

TeraTerm 使用技巧

参考资料 自分がよく使うTeratermマクロによる自動ログインのやり方をまとめてみたよTera Term マクロでログインを自動化してみたTera Term のススメ 目录 简介一. 常用基础设置1.1 语言变更1.2 log设置 二. 小技巧2.1 指定host别名2.2 新开窗口2.3 设置粘贴多行命令时的行间…

数学建模学习(111):改进遗传算法(引入模拟退火、轮盘赌和网格搜索)求解JSP问题

文章目录 一、车间调度问题1.1目前处理方法1.2简单案例 二、基于改进遗传算法求解车间调度2.1车间调度背景介绍2.2遗传算法介绍2.2.1基本流程2.2.2遗传算法的基本操作和公式2.2.3遗传算法的优势2.2.4遗传算法的不足 2.3讲解本文思路及代码2.4算法执行结果: 三、本文…

怎么使用动态IP地址上网

如何设置动态IP地址上网? 设置动态IP地址上网的步骤如下: 一、了解动态IP地址 动态IP地址是由网络服务提供商(ISP)动态分配给用户的IP地址,它会根据用户的需求和网络情况实时改变。相比于静态IP地址,动态…

基于术语词典干预的机器翻译挑战赛笔记 Task3 #Datawhale AI 夏令营

书接上回,上回在这捏: 基于术语词典干预的机器翻译挑战赛笔记Task2 #Datawhale AI 夏令营-CSDN博客文章浏览阅读223次,点赞10次,收藏5次。基于术语词典干预的机器翻译挑战赛笔记Task2https://blog.csdn.net/qq_23311271/article/…

状压dp,D - Grid Puzzle

一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 D - Grid Puzzle 二、解题报告 1、思路分析 贪心做法看不懂(为什么我赛时要跟贪心过不去啊) 这个题麻烦在这个case:2 4 4 2,我们可以清除三次2x2得到 但是我…

前端post提交一次会有两次请求?

1 问题:前端post只提交一次会有两次请求? 前端post只提交一次会有两次请求?如下图: 这里是执行了两次post提交,每个post都有两次(一次是preflight以options方式,一次是xhr,原本…

Yolo-World网络模型结构及原理分析(三)——RepVL-PAN

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言1. 网络结构2. 特征融合3. 文本引导(Text-guided)4. 图像池化注意力(Image-Pooling Attention)5. 区域文本匹配&…

springboot+vue+mybatis校园热点新闻系统+PPT+论文+讲解+售后

21世纪的今天,随着社会的不断发展与进步,人们对于信息科学化的认识,已由低层次向高层次发展,由原来的感性认识向理性认识提高,管理工作的重要性已逐渐被人们所认识,科学化的管理,使信息存储达到…

如何在 Windows 上恢复丢失或删除的文件

意外删除重要文件或文档的历史与 Windows 本身一样悠久,这就是为什么有许多内置方法来恢复它。从深入回收站到挖掘 Microsoft 的 Windows 文件恢复实用程序,以下是如何在 Windows 中恢复丢失和删除的文件。 检查回收站 Windows 帮助您恢复已删除并需要再…

IO多路复用之poll、epoll和select区分

epoll和select 假设你在大学读书,住的宿舍楼有很多间房间,你的朋友要来找你。 select版宿管大妈就会带着你的朋友挨个房间去找,直到找到你为止。 而epoll版宿管大妈会先记下每位同学的房间号, 你的朋友来时,只需告诉你…