稳定视频扩散数据管理解密【stable video diffusion】

Stability AI 最近于 2023 年 11 月 21 日推出了其最新模型—稳定视频扩散(SVD)。视频生成模型的这一突破取决于数据管理的关键作用。 除了模型检查点之外,他们还发布了一份技术报告。 让我们在 Stability AI 的技术报告和一些引人注目的示例视频的指导下,深入探讨这种新的视频数据管理方法。

由于本报告的研究结果侧重于数据管理部分,因此它们可以与其他正在进行的专注于模型架构或训练和推理方法的研究相结合,例如几天前发布的 Make Pixels Dance, 2023。

 在线工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器

1、为什么数据管理至关重要?

在人工智能中,数据质量往往胜过数量。 Stability AI 的研究强调对高质量数据的需求,消除质量较差的数据以提高模型性能。 他们报告的图 3b 就是一个引人注目的例子。 在这里,与更大的随机采样集相比,小四倍但精心策划的数据集因其准确性和整体质量而受到青睐。

SVD报告中的图 3b 显示,尽管策划的视频数据集小了 4 倍,但生成的模型更受人类评分者青睐。

LVD-10M 包含 1000 万个随机二次采样视频,而 LVD-10M-F 包含约 250 万个精选视频。 尽管精选集小了 4 倍,但用户研究表明,就即时对齐和质量而言,用户更喜欢根据精选数据训练的模型。

让我们深入探讨他们如何能够如此出色地管理视频数据的关键组成部分!

2、视频数据管理:关键组成部分

稳定视频扩散技术报告描述了以下五个关键组件作为其视频数据管理管道的一部分:

  • 检测场景切换:为了避免用包含多个场景的编辑视频误导人工智能,采用了一种检测和分离场景切换的机制。 这确保了训练中准确的场景描述。
  • 合成字幕:利用 Google Research 的 CoCa 模型,为视频剪辑生成字幕,这对于生成文本条件视频至关重要。
  • 使用光流进行运动检测:该技术捕获视频剪辑中的运动,这是过滤静态视频的重要方面。
  • 使用 OCR 进行文本覆盖检测:识别并删除具有过多文本覆盖的剪辑,使训练重点保持在视频内容而不是文本干扰上。
  • 基于 CLIP 的评分:评估美学吸引力和文本图像对齐,进一步细化数据集。

用于SVD的视频数据管理管道的核心组件。 从左到右:剪切检测器、字幕摘要生成、用于运动估计的光流、OCR 检测、与美观的 CLIP 功能对齐以及摘要。

现在我们将浏览各个组件并详细解释它们。

3、检测场景切换

处理来自网络的视频时,很可能会得到经过编辑并包含多个合并在一起的剪辑的视频。 想象一个电影场景,镜头从一个演员跳到另一个演员。 场景剪切本身并不坏,但是我们在生成模型的训练过程中必须妥善处理它们。 我们想要防止的情况是,我们将多个剪辑视为单个剪辑,因为它们都是同一视频的一部分。 这可能会导致单个标题描述完全不同的场景(想想这个失败的视频剪辑)。 我们的模型在训练过程中会感到困惑,因为它必须根据不相关的标题生成几个不同的场景。

SVD报告图 11 :级联视频剪切检测的优点。

为了缓解这个问题,稳定视频扩散提出了一种机制来检测场景剪切并将它们视为处理管道中的单独剪辑。

使用光流进行剪切检测和移动检测的重要性。 来自稳定视频扩散技术报告。

报告中实施的剪切检测的一个重要部分是它的“级联”。 以不同的帧速率运行检测器还有助于捕获“缓慢”的变化,例如在过渡期间混合两个剪辑时。

4、合成字幕

为了生成以文本为条件的视频,我们需要描述视频剪辑内容的字幕或摘要来训练我们的模型。 作者使用 CoCa, 2022 为每个剪辑的中间帧创建字幕。

CoCa 是 Google Research 的一篇论文,基于 CLIP 等方法。 Clip 训练图像和单独的文本编码器以将图像-文本对放入同一嵌入空间中,而 CoCa 还尝试仅基于图像特征重建原始标题。 将此视为 CLIP + 字幕损失。 CLIP 不能用于获取图像的标题。 我们需要向后遍历模型(从图像嵌入到文本输入)。

CoCa 学习过程的图示。 图像编码器+单模态文本解码器和对比损失基本上是CLIP论文复现。 CoCa 在 CLIP 之上添加了额外的多模态文本解码器 + 字幕损失。

另一方面,经过训练的 CoCa 模型可以使用额外的文本解码器来创建字幕。 由于 CoCa 在单帧上工作,Stable Video Diffusion 的作者还使用 VideoBLIP(修改后的 BLIP-2 代码)为第一帧、中间帧和最后一帧创建附加字幕。

最后,作者使用未进一步定义的 LLM 来获取两个摘要(CoCa 和 VideoBLIP)并为每个视频剪辑创建最终摘要标题。

6、检测静态视频

网络上充斥着基本上是带有音轨的静态图像的视频。 YouTube 上的许多视频剪辑,例如这个示例(时间碎片 — Ben Böhmer),显示的是没有任何运动的静态图像:

训练集中包含静态视频的另一个问题是,我们的模型可能无法决定何时生成运动视频以及何时生成静态视频。

光流算法的输出示例。 对于图像中的特征(此处为网格图案),算法尝试找到两帧之间的运动。 箭头显示了两帧之间“光流”的方向。

检测视频中的运动的一种简单方法是检查像素在帧与帧之间的变化量。 光流是解决这一挑战的相关研究领域。 光流方法尝试表示框架各部分的运动。 在稳定视频扩散报告中,作者计算了两帧之间的平均运动。 这使我们能够计算每个视频剪辑的平均运动量分数。

7、标题相似性和美感

为了进一步改进数据集,稳定视频扩散使用字幕的 CLIP 嵌入(合成字幕步骤中 LLM 的输出)以及第一个、中间和最后一个视频帧。 标题和帧之间的相似性用于验证它们是否匹配。 附加的美学分数用于分类帧是否符合视觉美学。 分数是通过在 CLIP 特征之上拟合线性层获得的,如 LAION-5B 论文中所述。

8、文本检测

来自网络的视频可能包含大量文本叠加。 如果在字幕过程中没有明确捕获该文本,则可能会干扰训练过程。 作者决定删除超过一定文本内容阈值的视频剪辑。 为此,他们使用了一个名为 CRAFT 的现成文本检测器,并在每个视频剪辑的第一帧、中间帧和最后一帧上运行它。

CRAFT 检测器检测各个字符区域,然后对其进行后处理以获得边界框。

9、结束语

稳定视频扩散论文强调了视频生成领域中生成模型的数据管理的重要性。 论文中概述的结果与其他论文以及我们自己的实验的结果相匹配,我们在这里进行了总结。


原文链接:SVD数据管理解密 - BimAnt

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/175526.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

js的数组去重方法

目录 es6数组中对象去重 1. filter()用法 2. findIndex()用法 3. 去重 其他方法: 方法二:reduce()去重 1. reduce()用法 1.1 找出字符长度最长的数组成员。 1.2 扁平化二维数组 1.3 扁平化多维数组 三、总结方案: 使用Set&#xf…

k8s-deployment控制器 5

K8s控制器是Kubernetes(简称k8s)系统中一个重要的组成部分,它是一个管理Pod的中间层,可以创建和管理多个Pod副本,确保它们按照预定的数量和行为进行运行。 通过编写yaml文件将信息全部存到etcd中,控制器通…

《微信小程序开发从入门到实战》学习三十三

第四章 云开发 本章云开发技术的功能与使用,包括以下几点: 1.学习使用云开发控制台 2.学习云开发JSON数据库功能 3.学习云开文件存储功能 4.学习云函数功能 5.使用云开发技术实现投票小程序的服务端功能 投票小程序大部分已经实现。需要实现&#…

高端制造业中的通用性超精密3D光学测量仪器

超精密光学3D测量仪器具有高精度、自动化程度高、实时反馈和范围广等优势。它能够实现微米级别的精确测量,能够精确测量产品的尺寸、形状和表面粗糙度等,具有广泛的应用价值和重要意义。 超精密光学3D测量仪器配备多种传感器、控制器和计算机系统&#…

深入理解OS--数值编码

信息的表示和处理 寻址和字节顺序 位于0x100处,int类型值0x01234567在大端和小端下的存储。 字符串的存储不受字节序影响。 移位 1.对左移,右边统一补0 2.对右移,分为算术右移,逻辑右移 算术右移下,左边补原最高有效…

OpenCvSharp从入门到实践-(03)像素

目录 像素 1、确定像素位置 2、获取像素的BGR值 3、修改像素的BGR值 像素 图像数字化是指用数字表示图像,每一幅数字图像都是有M行N列的像素组成的,其中每一个像素都存储一个像素值。计算机通常会把像素值处理为256个灰度级别,这256个灰…

k8s中安装consul集群

一、准备知识 headless services一般结合StatefulSet来部署有状态的应用,比如kafka集群,mysql集群,zk集群等,也包括本文要部署的consul集群。 0、consul集群 consul集群的分布式协议算法采用的是raft协议,这意味着必…

【后端】数据字典自动生成枚举

前言 随着我老板给我灌溉的思想,逐渐开始利用代码来完成一些重复性且没有创造性的工作(我变懒啦),当我发现数据字典可以生成枚举从而大大减少开发时间的时候,我意识到事情的重要性。 数据字典 我一开始在网上找各种代码生成器的框架,然后突然意识到,这个不就是简单的…

2022年MathorCup大数据竞赛B题北京移动用户体验影响因素研究求解全过程文档及程序

2022年MathorCup高校数学建模挑战赛—大数据竞赛 B题 北京移动用户体验影响因素研究 原题再现: 移动通信技术飞速发展,给人们带来了极大便利,人们也越来越离不开移动通信技术带来的各种便捷。随着网络不断的建设,网络覆盖越来越…

XIAO ESP32S3之套件简绍

很高兴收到柴火创客空间寄来的XIAO ESP32S3开发套件。 一、套件介绍 1、电路板部分 一块XIAO ESP32S3主板、一块摄像头接口板(可接SD卡),一根2.4G天线。 2、配件部分 一根USB-A转TypeC数据线、一个USB3.0转TypeC转接头、一个SD卡读卡器&am…

vue中keep-alive的使用

什么是keep-alive? keep-alive是一个内置组件,用于缓存和管理组件的状态。 当 keep-alive包裹一个组件时,这个组件的状态将会被缓存起来,而不是每次重新渲染。这在多个视图之间切换时特别有用,可以避免重复的创建和销…

vue项目通过HBuilder打包成apk,实现apk自动更新下载

vue 项目通过 HBuilder 打包成 apk,实现 apk 自动更新下载 1、vue 项目通过 HBuilder 打包成 apk vue 项目在终端执行 npm run build 打包成 dist 文件,生成的 dist 文件在 项目根目录下 在 HBuilder 中 新建一个项目 默认选择 5APP 的默认模板项目…

springboot+vue智能企业设备管理系统05k50

智能设备管理系统主要是为了提高工作人员的工作效率和更方便快捷的满足用户,更好存储所有数据信息及快速方便的检索功能,对系统的各个模块是通过许多今天的发达系统做出合理的分析来确定考虑用户的可操作性,遵循开发的系统优化的原则&#xf…

linux 命令 sudo、su 命令

sudo命令详解 1、初识sudo sudo是linux下常用的允许普通用户使用超级用户权限的工具,sudo 用来执行需要提升权限(通常是作为 root 用户)的命令,允许系统管理员让普通用户执行一些或者全部的root命令,如halt&#xff…

spring boot的redis连接数过多导致redis服务器压力过大的一次问题排查

一、背景 在今天上午的时候,突然收到大量的sentry报错,都是关于redis连接超时的警告。 首先想到的是去查看redis的监控,发现那个时间段,redis的请求数剧增,cpu使用率和带宽都陡增双倍。 下面的是redis监控的cpu情况 …

无代码未来:智能、可视化、自动化的融合

无代码是一个相对较新的概念,不同的人群对其界定可能存在一定的差异。 对于IT专业人士和开发人员而言,无代码通常是指使用可视化界面和拖拽操作来构建应用程序的工具和平台。 无代码平台通过提供预先构建的组件和模块,使得开发人员可以通过简…

基于CW32F030单片机的便携式多功能测试笔

一、产品背景 在日常的硬件调试工作中,我们最常使用的仪器仪表可能就是万用表了,虽然万用表号称“万用”,但大部分时候,我们需要使用到的功能无非是电压测量和通断测量。 作为调试的“得力干将”,万用表有时候也会存…

歌手荆涛演唱的《春节回家》,一种情感的表达和文化的传承

歌手荆涛演唱的《春节回家》,一种情感的表达和文化的传承 春节回家,是中国传统文化中最为重要的传统节日之一,也是亿万华夏儿女最为期待的日子。每当春节临近,无论身在何处,人们都会收拾行囊,踏上归途&…

【5G PHY】5G SS/PBCH块介绍(四)

博主未授权任何人或组织机构转载博主任何原创文章,感谢各位对原创的支持! 博主链接 本人就职于国际知名终端厂商,负责modem芯片研发。 在5G早期负责终端数据业务层、核心网相关的开发工作,目前牵头6G算力网络技术标准研究。 博客…

策略算法与Actor-Critic网络

策略算法 教程链接 DataWhale强化学习课程JoyRL https://johnjim0816.com/joyrl-book/#/ch7/main 策略梯度 与前面的基于价值的算法不同,这类算法直接对策略本身进行近似优化。 在这种情况下,我们可以将策略描述成一个带有参数 θ θ θ的连续函数…