[WIP]Sora相关工作汇总VQGAN、MAGVIT、VideoPoet

视觉任务相对语言任务种类较多(detection, grounding, etc.)、粒度不同 (object-level, patch-level, pixel-level, etc.),且部分任务差异较大,利用Tokenizer核心则为如何把其他模态映射到language space,并能让语言模型更好理解不同的视觉任务,更好适配LM建模方式,目前SOTA工作MAGVIT-v2,VideoPoet

VQGAN(Taming Transformers for High-Resolution Image Synthesis)

在这里插入图片描述
两阶段训练,先训练下面的VQVAE,再训练Transformer的Causal Loss和PatchGAN

MAGVIT: Masked Generative Video Transformer

官方Project URL: https://magvit.cs.cmu.edu/ 介绍的不错,简单来说MAGVIT=3D-CNN+VQ-GAN,从效果上看会有闪烁的情况
以下部分摘录自 https://zhuanlan.zhihu.com/p/674145301,整个工作分为两个阶段:

一阶段:Spatial-Temporal Tokenization

基于 VQGAN 改进

VQ 自编码器是一个关键模块,它不仅为生成设置了质量界限,还确定了 token 序列长度,从而影响生成效率
现有方法在每帧上独立应用 VQ 编码器(2D-VQ)或在超体素上应用(3D-VQ),本文提出了一个不同的设计:将所有 2D 卷积扩展为带有时间轴的 3D 卷积。由于时间和空间维度的下采样率通常不同,使用 3D 和 2D 下采样层,其中 3D 下采样层出现在编码器较浅的层中,解码器在前几个块中使用 2D 上采样层,然后是 3D 上采样层
将 2D-VQ 的网络转换为带时间维度的 3D-VQ。同时使用 3D 膨胀 (3D inflation) 的方式,利用 2D-VQ 的权重初始化 3D-VQ。这对于 UCF-101 等小数据集较为有效。同时使用 reflect padding 替换 zeros padding,用于提高相同内容在不同位置的标记一致性

训练细节

每帧使用 image perceptual 损失
基于以下优化使得 GAN loss 可以从头开始训
GAN loss 上增加了 LeCam regularization
使用 StyleGAN 的 discriminator 架构,inflate 为 3D
在这里插入图片描述

二阶段:Multi-Task Masked Token Modeling

采用各种掩码方案来进行训练,以适应具有不同条件的视频生成任务。这些条件可以是用于修复/生成图像的空间区域,也可以是用于帧预测/插值的几帧。
考虑十个多任务视频生成任务,其中每个任务具有不同的内部条件和掩码:帧预测(FP)、帧插值(FI)、中央外扩(OPC)、垂直外扩(OPV)、水平外扩(OPH)、动态外扩(OPD)、中央修复(IPC)和动态修复(IPD)、类别条件生成(CG)、类别条件帧预测(CFP)。推理算法,固定推理步数进行非自回归预测

MAGVIT-v2(LANGUAGE MODEL BEATS DIFFUSION — TOKENIZER IS KEY TO VISUAL GENERATION)

几个关键改进点(部分转载自https://zhuanlan.zhihu.com/p/676289469):

LFQ(Lookup-Free Quantization)

对比LLM的生成能力,有一个朴素的想法就是要加大词表同时减少一个token的表达能力,所以最直接做法就是减少token的维度加大词表数目,在文中作者一步到位直接把token的维度减少为0(可以认为token就是离散的整数),回想VQVAE中,code(token)是一个向量,decode生成图像时用的向量是code表中距离最近的向量(不是encode生成的向量,所以有损),而整数的token直接查找避免损失,文中称这种做法为LFQ(无量化查找)
在这里插入图片描述
具体看一个例子,例如z = [-0.3, 0.1], index(z) = 2,VQVAE是需要一个码表的,但是MAGVIT-V2不需要和codebook算相似度,所以叫做look-up free codebook:
在这里插入图片描述

VideoPoet: A Large Language Model for Zero-Shot Video Generation

在这里插入图片描述
这个更像是一个集大成的工作,利用了MAGVIT-v2的tokenizer,SoundStream对音频进行tokenize,用frezon pretrained T5-XL 加一层可学习的fc layers来生成text embedding sequence,最后加了一个图片超分

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/797343.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python-VBA函数基础知识-001

一、函数的定义: 函数(Function)是一段可重复使用的代码块,用于执行特定的任务或计算,并可以接受输入参数和返回输出结果。函数可以将复杂的问题分解为更小的子问题,提高代码的可读性和可维护性。 二、函数的组成: 在…

Spring Boot集成JWT快速入门demo

1.JWT是什么? JWT,英文全称JSON Web Token:JSON网络令牌。为了在网络应用环境间传递声明而制定的一种基于JSON的开放标准(RFC 7519)。这个规范允许我们使用JWT在客户端和服务端之间传递安全可靠的信息。JWT是一个轻便的安全跨平台传输格式&am…

前端零基础学习web3开发

目录 1 钱包 2 发起交易 3 出块 4 块高 5 矿工 6 Gas费 这一节,我们不说让人神往的比特币,不说自己会不会利用这个虚拟的货币来发财,也不说那些模模糊糊的知识,什么去中心化啦,什么奇妙的加密啦,我们…

《青少年成长管理2024》024 “成长七要素之四:知识”1/4

《青少年成长管理2024》024 “成长七要素之四:知识”1/4 一、什么是知识二、知识的分类(一)知识按学科进行分类(二)知识按用途进行分类(三)知识按照和职业的关系进行分类(四&#xf…

AI 驱动强大是视频转换处理软件

由 AI 驱动的视频工具包。 增强、转换、录制和编辑视频AI 驱动的顶级视频工具包。 不论是老旧、低质、噪声或模糊的影片/图像,都能升级至 4K,稳定抖动的影片,提升帧率至 120/240fps,并能以全面 GPU 加速进行转换、压缩、录制和编辑…

盘点那些好用的SAP FIORI App (四)-应收账期报告

这个App的ID是IDCNAR, 其实也是一个T-Code, 也就是说,不光在FIORI app里面可以使用,在SAP GUI里面也是存在的,这个就属于我另一篇里面提到的,GUI和FIORI都可以使用的功能,但是前提是S4 HANA平台 操作的界面非常简单&am…

LightGBM。决策树算法。直方图的算法。

目录 LightGBM。 决策树算法。 直方图的算法。 推荐系统可以根据用户挖掘有价值的信息偏好,因此它被广泛应用于各个行业。但是,推荐系统的性能通常受到数据稀疏性问题的影响,并且LightGBM可以在一定程度上缓解数据稀疏性带来的影响。 为此,提出了一种基于LightGBM和dee…

linux进阶篇:磁盘管理(一):LVM逻辑卷基本概念及LVM的工作原理

Linux磁盘管理(一):LVM逻辑卷基本概念及LVM的工作原理 一、传统的磁盘管理 在传统的磁盘管理方案中,如果我们的磁盘容量不够了,那这个时候应该要加一块硬盘,但是新增加的硬盘是作为独立的文件系统存在的,原有的文件系…

即插即用篇 | RTDETR引入Haar小波下采样 | 一种简单而有效的语义分割下采样模块

本改进已集成到 RT-DETR-Magic 框架。 下采样操作如最大池化或步幅卷积在卷积神经网络(CNNs)中被广泛应用,用于聚合局部特征、扩大感受野并减少计算负担。然而,对于语义分割任务,对局部邻域的特征进行池化可能导致重要的空间信息丢失,这有助于逐像素预测。为了解决这个问…

接口日志处理类

类:ZCL_IFLOG_UTILITIES 属性:AUTH_RESULTS_LIST 类型: TY_AUTH_RESULT Private 受保护部分: PRIVATE SECTION.TYPES: BEGIN OF ty_auth_result,funcname TYPE ztall_logcfg-funcname,pass TYPE abap_bool,END OF ty_aut…

商城系统如何设计表

小商城:参考千小夜小程序 大商城: 首先根据某个商品的三级分类进来后,我们找到在这个分类下该商品的所有属性(也就是泛指该商品不管怎么样都有这些属性),这里指的属性是规格包装,也就是基本属性…

线程池CompletableFuture异步编排复习笔记

一、线程回顾 1.1 初始化线程的 4 种方式 1)、继承 Thread public static class Thread01 extends Thread {Overridepublic void run() {System.out.println("当前线程:" Thread.currentThread().getId());int i 10 / 2;System.out.print…

golang map

1.底层实现 2.如何解决hash冲突 3.扩容机制 4.无序 5.非线程安全 6.不可寻址 runtime/map.go 1.底层实现 底层基于hash表实现,实现有2个结构体hmap,bmap,map由若干个桶存储,每个桶存8个元素,使用链地址解决hash冲突 …

3GPP Multi-USIM是怎么回事?(二)

更多精彩内容,请阅知识星球合集链接。该链接收录了目前知识星球所有内容,涵盖了5G相关领域的绝大多数知识点;主要以协议原文截图后进行解释讲解外加实网log对照为主,辅以星友问答等等精华内容。 合集链接如下(不用登录飞书即可查看): Docs 如果您对3GPP spec阅读有困扰…

系统地自学Python的步骤与策略

目录 1.确定学习目标: 2.学习资源: 3.安装Python和相关工具: 4.逐步学习基础知识: 5.实践项目: 6.参与社区: 7.深入学习: 8.不断练习: 9.学会求助: 自学Python需…

机器学习周记(第三十三周:文献阅读[GWO-GART])2024.4.1~2024.4.7

目录 摘要 ABSTRACT 1 论文信息 1.1 论文标题 1.2 论文摘要 1.3 论文数据集 1.4 论文模型 2 相关知识 摘要 本周阅读了一篇使用GAT结合GRU预测PM2.5浓度的文章。论文模型为图注意力循环网络(GART),首次提出了一种新型的多层GAT架构&…

AI预测福彩3D第27弹【2024年4月5日预测--第4套算法重新开始计算第12次测试】

今天继续按照合并后的算法进行测试,因为本套算法的命中率较高。以后有时间的话会在第二篇文章中发布排列3的预测结果。好了,废话不多说了,先上预测结果图,再上综合预测结果~ 2024年4月5日福彩3D的七码预测结果如下 第一套…

关于代码审查的一些思考

作为一名代码审查员,首先我们已经具备了丰富的代码开发经验,并且对提交的代码工程非常熟悉 代码审查可以发现并纠正代码中的错误、缺陷和不良实践。通过多人对代码进行仔细的检查和讨论,能够发现一些单独开发时难以察觉的问题,从…

5G智慧水利数字孪生可视化平台,推进水利行业数字化转型

5G智慧水利数字孪生可视化平台,推进水利行业数字化转型。随着5G技术的快速发展,越来越多的行业开始探索数字化转型的道路。水利行业作为国民经济的重要支柱,也面临着数字化转型的迫切需求。5G智慧水利数字孪生可视化平台作为水利行业数字化转…

Integer的缓存机制

LeetCode练习题--567.字符串的排列 今天刷题的时候,突然发现了一个问题: 为什么明明是相同的Integer值,有的时候使用""就可以,有的时候则必须使用equals方法来进行判断??? 于是我开始在网上查阅资料,几经无果,我开始阅读源码,一段时间后我才知道:原来Integer还有…