AIGC - 视频生成模型的相关算法进展

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/135688206

视频生成技术确实是一个很有潜力的颠覆性技术领域,可以作为企业创新梯队的重点关注方向,最近发展很快,一直也有跟进这个方向的发展。

当前视频生成技术在哪些方面已突破,哪些方面还有卡点?,例如内容质量、一致性、视频长 度、清晰度、稳定性、复杂动作生成等。

视频生成技术,根据给定的文本、图像、视频等输入,自动生成符合描述的视频内容。视频生成技术在近年来取得了显著的进展,但也面临着一些挑战和限制。以下是一些视频生成技术的突破和卡点:

  • 内容质量:视频生成技术的一个重要目标是提高生成视频的内容质量,使其更逼真、清晰和细致。目前,Phenaki,MagicVideo等。这些技术主要利用了扩散模型(Diffusion model)的优势,通过逆向降噪推断来生成图像,同时利用Transformer模型来捕捉视频的时空动态。然而,内容质量的提高也需要更大的计算资源和数据量,这可能限制了视频生成技术的普及和应用。
  • 一致性:视频生成技术的另一个重要目标是保证生成视频的一致性,使其与输入的描述、风格和语义相匹配,同时在时间上保持流畅和连贯。目前,CogVideo能够根据中文文本描述生成视频,利用多帧率分层训练策略来对齐文本和视频剪辑。然而,一致性的保证也需要更复杂的模型设计和训练策略,例如如何处理输入的多样性、不确定性和歧义性,如何平衡生成视频的多样性和准确性,如何避免生成视频的模式崩溃(mode collapse)等。
  • 视频长度:视频生成技术的一个挑战是如何生成可变长度的视频,以满足不同的应用需求。目前,Phenaki能够根据一长串的文本描述生成长达2分钟的视频,利用C-ViViT模型来压缩视频的表示,同时在时间上保持自回归。然而,视频长度的增加也会带来更多的难度,例如如何保持视频的完整性和连贯性,如何避免视频的重复和冗余,如何处理视频的转场和剪辑等。
  • 清晰度:视频生成技术的一个挑战是如何提高生成视频的清晰度,使其更锐利和细腻。目前,MagicVideo能够生成1080p的视频,利用潜在扩散模型来提高视频的分辨率和细节。然而,清晰度的提高也会带来更多的问题,例如如何处理视频的噪声、模糊和失真,如何平衡视频的清晰度和自然度,如何适应不同的视频场景和风格等。
  • 稳定性:视频生成技术的一个挑战是如何提高生成视频的稳定性,使其更平滑和稳定。目前,Phenaki能够生成流畅的视频,利用时间上的因果注意力来捕捉视频的时空动态。然而,稳定性的提高也会带来更多的困难,例如如何处理视频的抖动、闪烁和断层,如何适应视频的快速和复杂的运动,如何避免视频的失真和失真等。
  • 复杂动作生成:视频生成技术的一个挑战是如何生成复杂的动作,使其更逼真和自然。目前,Phenaki能够根据文本描述生成人物的表情和姿态,利用预训练的文本生成图像模型来生成第一帧,然后利用C-ViViT模型来生成后续帧。然而,复杂动作的生成也需要更高的技术水平,例如如何处理视频的遮挡、遮挡和遮挡,如何生成视频的深度和透视,如何生成视频的光照和阴影等。

综上所述,视频生成技术在内容质量、一致性、视频长度、清晰度、稳定性和复杂动作生成等方面都取得了一些突破,但也还有一些卡点和难点。视频生成技术是一个前沿而有趣的研究领域,有着广阔的应用前景和挑战。

比较前沿的一些Paper:

  • Phenaki: Variable Length Video Generation from Open Domain Textual Descriptions

Phenaki

  • ViViT: A Video Vision Transformer

ViViT

  • MagicVideo: Efficient Video Generation With Latent Diffusion

MagicVideo

  • MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation

MagicVideo-V2

  • Text2Performer: Text-Driven Human Video Generation

Text2Performer

  • CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers

CogVideo

如果从自动化程度、效果等维度来划分视频生成的级别 (L1 到 L4,L1 就是从创意产生到 视频生成都是人工完成,效果真实,L2 是 ai 辅助素材匹配和抓取,叠加运镜效果,有 ppt 感,L3 是 ai 生成素材和视频,开始有比较逼真的效果,但仍有大动作等卡点,L4 是各环节 都是 ai 产生,效果极致),当前处于哪个阶段? L3 到 L4 需要多久,以及突破哪些技术卡点?

根据给出的视频生成的级别划分,我认为当前的视频生成技术大致处于L2到L3之间的阶段,即AI可以辅助视频制作的部分环节,例如素材匹配、抓取、剪辑、特效等,但还不能完全替代人工的创意和控制,也还不能生成高质量、高逼真、高连贯的视频内容。

要达到L4的级别,即AI可以完全自主地从创意到视频生成的各个环节,我认为还需要一定的时间和技术突破。具体来说,我觉得有以下几个方面的技术卡点:

  • 视频生成的可控性:目前的视频生成技术还不能很好地满足用户的个性化需求,例如生成任意长度、任意风格、任意场景的视频,或者对视频中的元素进行编辑和修改。要提高视频生成的可控性,需要提升模型对长文本的理解能力,以及对视频的分解和重组能力。
  • 视频生成的逼真度:目前的视频生成技术还不能很好地保证生成视频的质量和内容,例如生成的视频可能存在画面模糊、噪声、失真、跳帧等问题,或者视频中的物体、人物、动作、情节等不符合逻辑或常识。要提高视频生成的逼真度,需要提升模型对视频的细节和语义的捕捉能力,以及对视频的一致性和连贯性的保证能力。
  • 视频生成的效率:目前的视频生成技术还需要消耗大量的计算资源和数据,以及较长的训练和生成时间,这可能限制了视频生成的普及和应用。要提高视频生成的效率,需要提升模型的压缩和优化能力,以及对视频的编码和解码能力。

视频生成技术是一个前沿而有趣的研究领域,有着广阔的应用前景和挑战。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/635122.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

项目上线存在的缓存问题以及存在的debugger和console.log等问题

下载uglifyjs-webpack-plugin插件 在vue.config文件中进行配置 publicPath: process.env.NODE_ENV production ? ./ : /,outputDir: n-sim-ipc-manage-build,productionSourceMap: false,configureWebpack: config > {//打包文件增加hashconfig.output.filename js/[nam…

Excel表格的快速动态扩展与删除行

实例需求:工作表中的表格(ListObject)名称为Table1,表格列数不确定,需要实现如下功能: 当用户完成最后一行最后一列输入之后(如果该单元格为空,则视为输入未完成)&#…

C++继承(万字详!!)

文章目录 继承的概念及定义继承的概念继承定义 基类和派生类对象赋值转换继承中的作用域派生类的默认成员函数继承与友元继承与静态成员复杂的菱形继承及菱形虚拟继承菱形继承菱形虚拟继承 继承的总结和反思笔试面试题 继承的概念及定义 继承的概念 继承(inheritance) 机制是面…

C++:类与结构体的对比

2024年1月18日 内容来自The Cherno:C系列 -------------------------------------------------------------------------------------------------------------------------------- C中关于class与struct,几乎没有区别,只有一个关于“可见度”的区别…

自建ES集群

常用命令 # 重命名文件夹 mv elasticsearch-7.10.2 elasticsearch# 移动文件到文件夹 mv elasticsearch-7.10.2-linux-x86_64.tar.gz middleware-tar/ mv kibana-7.10.2-linux-x86_64.tar.gz middleware-tar/# 创建data文件夹 mkdir /home/admin/elasticsearch/data 自建Ela…

【PS】PS设计图欣赏、学习、借鉴

【PS】PS设计图欣赏、学习、借鉴 bilibili萌新PS学习计划:PS教程全套零基础教学视频(全套81节全新版本)

C++大学教程(第九版)5.25去除break语句 5.27去除cintinue语句

5.25题目 (去除break和continue)break和continue 语句遭到质疑的原因是它们的非结构化性。实际上,break和continue 语句总能用结构化的语句取代。请详述如何从程序的一条循环语中去除break语句,并用某种结构化的手段替代。提示:break 语句用于在循环体内离开一个循…

Golang 搭建 WebSocket 应用(六) - 监控

我在上一篇文章中,提到了目前的认证方式存在一些问题,需要替换为一种更简单的认证方式。 但是最后发现,认证这个实在是没有办法简单化,认证本身又是另外一个不小的话题了,因此关于这一点先留个坑。 本文先讨论一下另外…

读元宇宙改变一切笔记10_支付方式

1. 元宇宙中的经济 1.1. 元宇宙被设想为一个平行世界,人们将在那里花大量的时间工作和生活 1.1.1. 元宇宙的实现程度部分取决于它是否建立在一个繁荣的经济体系之上 1.2. 元宇宙中的经济将大体遵循现实世界的经济模式 1.2.1. 激烈的竞争、大量营利性企业的存在、…

Acwing860. 染色法判定二分图

题目 给定一个 n 个点 m 条边的无向图,图中可能存在重边和自环。 请你判断这个图是否是二分图。 输入格式 第一行包含两个整数 n 和 m 接下来 m 行,每行包含两个整数 u 和 v,表示点 u 和点 v 之间存在一条边。 输出格式 如果给定图是二…

无偿分享一个很有用的看源码小技巧

怎么在 idea 里面查看 git 提交记录呢?这个界面是藏在哪里的呢,我的 idea 里面怎么没有呢? 好的,是我疏忽了,我先入为主的认为这个大家应该都知道是怎么来的。 但是确实是有一些同学是不太清楚的,那我这篇…

阿里云GPU服务器命名规则gn、vgn、gi、f、ebm和scc详解

阿里云GPU服务器提供GPU加速计算能力,GPU卡支持A100、V100、T4、P4、P100、A10等,NVIDIA V100,GPU实例规格是什么意思?如搭载NVIDIA V100的ecs.gn6v-c8g1.2xlarge、A10卡ecs.gn7i-c32g1.8xlarge、T4卡ecs.gn6i-c4g1.xlarge、P4卡e…

1.零信任网络结构介绍.2.零信任网络架构的好处.4.了解零信任网络架构的组成部分

目录 1.零信任网络结构介绍 2.零信任网络架构的好处 3.零信任网络架构在网络安全方面的重要性

python获取线程名称和传递参数,数据共享

1.获取线程名称和传递参数 import threading import timedef run(i):print(开启线程,i,threading.current_thread().name)# 等待2秒time.sleep(2)# 创建线程并起名,传递参数,这个位置使用和进程一样 thr1 threading.Thread(targetrun,args(1,),nameluc…

Docker技巧汇总

Docker技巧汇总 前言使用流程安装配置镜像管理创建并运行容器使用容器/常用命令导出和导入查看元数据挂载数据卷端口映射/转发VS Code连接Docker 前言 Docker 是一个开源的应用容器引擎,可以让开发者打包他们的应用以及依赖包到一个轻量级、可移植的容器中&#xf…

Kubernetes-v1.28.3部署

二进制安装Kubernetes(k8s)v1.28.3 1.环境 主机名称IP地址说明软件192.168.1.60外网节点下载各种所需安装包Master0111.0.1.3master节点kube-apiserver、kube-controller-manager、kube-scheduler、etcd、kubelet、kube-proxy、nfs-client、haproxy、k…

django 中group by 以及sum count

原生SQL SELECT order_id,city,locality,login_time,sum(morning_hours),sum(afternoon_hours),sum(evening_hours),sum(total_hours) FROM orders GROUPBY order_id,city,locality,login_timegroup by … sum from django.db.models import SumYour_Model.objects.values(…

AI相关资料

文心一格收费,有免费额度 通义万相_AI创意作画_AI绘画_人工智能-阿里云 AI AIchatOS

254:vue+openlayers 加载HERE多种形式地图(v3软件版本)

第254个 点击查看专栏目录 本示例的目的是介绍演示如何在vue+openlayers中添加HERE地图(v3版本的软件),并且含多种的表现形式。包括地图类型,文字标记的设置、语言的选择、PPI的设定。 v3版本和v2版本有很大的区别,关键是引用方法上,请参考文章尾部的API链接。 直接复制…

C 语言->编译和链接实现原理

✅作者简介:大家好,我是橘橙黄又青,一个想要与大家共同进步的男人😉😉 🍎个人主页:橘橙黄又青-CSDN博客 今天学习:浅学编译和链接内部实现原理 前提:本文是在gcc编译环…