【SVD生成视频+可本地部署】ComfyUI使用(二)——使用Stable Video Diffusion生成视频 (2023.11开源)

SVD官方主页 : Huggingface | | Stability.ai || 论文地址
huggingface在线运行demo : https://huggingface.co/spaces/multimodalart/stable-video-diffusion
SVD开源代码:Github(含其他项目) || Huggingface
Comfyui使用: ComfyUI国内下载 | SVD模型下载 | | 官网下载(Github)

在这里插入图片描述

文章目录

  • 一、SVD是什么,能做什么?(图片到视频)
    • 1.1 模型的缺点(不能干的事情)?
  • 二、在comfyui中使用 (约15G`显存`)
    • 2.1 Stable-XL生成图片再生成视频(Text2Img2Video)
      • 第一次初始化+运行示例,在3090Ti上花费 209.35秒
        • 拍摄美丽的风景自然山脉阿尔卑斯河急流雪天积云
      • 第二次 花费 生成图片(6秒)+视频 (花费70秒)
      • 一艘悠闲地沿着塞纳河航行的船,背景是文森特·梵高的埃菲尔铁塔
      • 一只独角兽在一个神奇的小树林里,非常详细
    • 使用上传的图片生成视频?
  • 三、方法 (未完待续)

一、SVD是什么,能做什么?(图片到视频)

2023年11月21日Stability AI 开源2个图片到视频模型(“Stable Video Diffusion”(稳定视频扩散模型)
它将静止图像(still image)作为条件帧(conditioning frame),并从中生成视频分辨率(1024x576)。

  1. 上传已有1张图片,生成相关的视频片段、生成视频长度2-5秒,帧率 3-30帧每秒,
  2. 串联一个Stable-XL模型,生成图片后,再生成视频 (文字到图片再到视频)

在这里插入图片描述

1.1 模型的缺点(不能干的事情)?

  1. 生成的视频相当(<=4秒),并且该模型没有实现完美的真实感。
  2. 该模型可能生成没有运动的视频,或者生成非常慢的相机平移(没变化)。
  3. 不能直接文本控制模型 (需要串联其他模型)。
  4. 该模型无法呈现清晰的文本(legible text)(让艺术字动起来)。
  5. 一般来说,人脸和人物可能无法正确生成。
  6. 模型的自动编码部分是有损的(lossy)。

二、在comfyui中使用 (约15G显存)

使用说明: https://comfyanonymous.github.io/ComfyUI_examples/video/

2.1 Stable-XL生成图片再生成视频(Text2Img2Video)

工作流文件: 链接:https://pan.baidu.com/s/1CvyGmUibreM8SM7AFjt1uA?pwd=0125

在这里插入图片描述

第一次初始化+运行示例,在3090Ti上花费 209.35秒

拍摄美丽的风景自然山脉阿尔卑斯河急流雪天积云

photograph beautiful scenery nature mountains alps river rapids snow sky cumulus clouds

在这里插入图片描述

第二次 花费 生成图片(6秒)+视频 (花费70秒)

题词来源于论文图17

一艘悠闲地沿着塞纳河航行的船,背景是文森特·梵高的埃菲尔铁塔

题词

A boat sailing leisurely along the Seine River with the Eiffel Tower in background by Vincent van Gogh

在这里插入图片描述

一只独角兽在一个神奇的小树林里,非常详细

A unicorn in a magical grove, extremely detailed

在这里插入图片描述

使用上传的图片生成视频?

三、方法 (未完待续)

该模型训练经过,

  1. 在给定相同大小的上下文帧的情况下,以576x1024的分辨率生成25帧,
  2. 再从图像帧微调为视频[14帧]。我们还对广泛使用的f8解码器( f8-decoder )进行了时间一致性(temporal consistency)微调。
  3. 为了方便起见,我们在这里为该模型额外提供了标准的逐帧解码器(frame-wise decoder )。

利用了Nvidia提出的Align your Latents基本结构
Align your Latents: 23.07.High-Resolution Video Synthesis with Latent Diffusion Models
项目主页: https://research.nvidia.com/labs/toronto-ai/VideoLDM/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/646557.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MIT_线性代数笔记:线性代数常用概念及术语总结

目录 1.系数矩阵2.高斯消元法3.置换矩阵 Permutation4.逆矩阵 Inverse 1.系数矩阵 线性代数的基本问题就是解 n 元一次方程组。例如&#xff1a;二元一次方程组 2 x − y 0 − x 2 y 3 \begin{align*} & 2x - y 0\\ & -x2y 3 \end{align*} ​2x−y0−x2y3​ 写成…

谷歌公布一个可以让 AI 进行自我判断输出内容正确性的模型训练框架 ASPIRE

谷歌开发了一款名为 ASPIRE 的训练框架&#xff0c;旨在增强人工智能&#xff08;AI&#xff09;模型的选择性预测能力。这款框架为模型引入了 “可信度” 机制&#xff0c;即模型会输出一系列答案&#xff0c;并为每个答案赋予一个正确概率评分。通过这种方式&#xff0c;ASPI…

经典面试题-死锁

目录 1.什么是死锁&#xff1f; 2.形成死锁的四个必要条件 3.死锁的三种情况 第一种情况&#xff1a; 举例&#xff1a; 举例&#xff1a; 第二种情况&#xff1a;两个线程 两把锁 举例&#xff1a; 第三种情况&#xff1a;N个线程 M把锁 哲学家进餐问题 1.什么是死锁&…

Linux破解密码

破解root密码&#xff08;Linux 7&#xff09; 1、先重启——e 2、Linux 16这一行 末尾加rd.break&#xff08;不要回车&#xff09;中断加载内核 3、再ctrlx启动&#xff0c;进入救援模式 4、mount -o remount&#xff0c;rw /sysroot/——&#xff08;mount挂载 o——opti…

选择海外云手机需要考虑什么?

随着跨境电商行业的蓬勃发展&#xff0c;企业们纷纷寻找提升平台流量和广告投放效果的方法&#xff0c;这已成为业界的当务之急。传统的宣传模式在国内受到直播和链接带货等新兴方式的冲击&#xff0c;而在国外&#xff0c;类似的趋势也在悄然兴起&#xff0c;呈现出广阔的发展…

服务器运维小技巧(二)——如何进行监控告警

服务器运维难度高的原因&#xff0c;很大程度是因为服务器一旦出现问题&#xff0c;生产环境的业务就会受到严重影响&#xff0c;极有可能带来难以承担的后果。因此这份工作要求工程师保持高要求的服务质量&#xff0c;能够快速响应问题&#xff0c;及时解决问题。 但是“及时…

Eureka-第一篇

​ 一、Eureka的概述 Eureka的基本概念和作用 Eureka是一个基于REST的服务&#xff0c;主要用于定位运行在AWS域中的中间层服务&#xff0c;以达到负载均衡和中间层服务故障转移的目的。Eureka是Netflix开发的服务发现框架&#xff0c;主要用于解决在云计算环境中动态位置服…

[docker] Docker镜像的创建以及Dockerfile的使用

一、Dokcer镜像的创建 创建镜像有三种方法&#xff0c;分别为基于已有镜像创建、基于本地模板创建以及基于Dockerfile创建。 1.1 基于现有镜像创建 &#xff08;1&#xff09;首先启动一个镜像&#xff0c;在容器里做修改docker run -it --name web centos:7 /bin/bash …

【C++】介绍STL中list容器的常用接口

目录 一、STL中的list简介 二、构造函数 2.1 默认构造函数 2.2 填充构造&#xff08;用n个相同的值构造&#xff09; 2.3 迭代器构造 2.4 拷贝构造和赋值运算符重载 三、迭代器 3.1 正向迭代器 3.2 反向迭代器 四、容量相关 4.1 获取list中有效数据的个数 4.2 判…

android camera的使用以及输出的图像格式

一、Camera 1.1、结合SurfaceView实现预览 1.1.1、布局 <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas.android.com/apk/res/android"xmlns:app"http://schemas.android.com/apk/res-au…

burp靶场--CSRF

burp靶场–CSRF https://portswigger.net/web-security/csrf#what-is-csrf ### 什么是 CSRF&#xff1f; 跨站请求伪造&#xff08;也称为 CSRF&#xff09;是一种 Web 安全漏洞&#xff0c;允许攻击者诱导用户执行他们不打算执行的操作。它允许攻击者部分规避同源策略&#…

Unity 解决异步分发方案

很多程序&#xff0c;包括游戏、小程序、一些AR、VR的程序&#xff0c;因为客户端体量太大&#xff0c;更新频繁都涉及到远程热更新的问题&#xff0c;解决这类问题的思路基本上是客户端解决主要功能&#xff0c;资源类放置在服务器。 下面记录下&#xff1a; 1.CDN或者云轻量…

Windows11操作系统百科

简介 Windows 11是由微软公司&#xff08;Microsoft&#xff09;开发的操作系统&#xff0c;应用于计算机和平板电脑等设备 [1]。于2021年6月24日发布 [3]&#xff0c;2021年10月5日发行 [29]。 Windows 11提供了许多创新功能&#xff0c;增加了新版开始菜单和输入逻辑等 [6]…

安装ddddocr中遇到的问题

1、需要先安装&#xff1a; pip3 install pyinstaller --no-use-pep517 pip install scikit-build pip install setuptools pip install pyinstaller pip install pillow 重要是的是保证一个python 环境&#xff0c;多个python环境会导致各种问题。并且保证python>3.8…

安装宝塔面板后k8s所在节点pod无法正常工作解决方法,kubernetes k8s 与宝塔面板冲突解决方法

在实际项目过程中我们使用了k8s 在生产环境中运行管理服务。 但是对服务器的状态管理我们使用了宝塔面板进行 K8s 版本1.2.8 宝塔面板 版本 8.05 操作步骤是这样的。 1.完成1.2.8 k8s的节点安装&#xff0c;并正常运行服务。 过程略 2.安装宝塔面板 ​ yum install -y …

基于springboot留守儿童爱心网站源码和论文

随着留守儿童爱心管理的不断发展&#xff0c;留守儿童爱心网站在现实生活中的使用和普及&#xff0c;留守儿童爱心管理成为近年内出现的一个热门话题&#xff0c;并且能够成为大众广为认可和接受的行为和选择。设计留守儿童爱心网站的目的就是借助计算机让复杂的管理操作变简单…

Docker的Cgroup资源限制

目录 前瞻 CPU 资源控制 设置CPU使用率上限 设置CPU资源占用比&#xff08;设置多个容器时才有效&#xff09; 设置容器绑定指定的CPU 内存资源限制 对磁盘IO配额控制&#xff08;blkio&#xff09;的限制 前瞻 Docker 通过 Cgroup 来控制容器使用的资源配额&#xff0c…

让抖音引流到微信小程序的三方工具数灵通

抖音作为一款火爆的短视频社交平台&#xff0c;吸引了数亿用户的关注和喜爱。除了观看和制作视频外&#xff0c;抖音还提供了跳转到小程序的功能&#xff0c;让用户可以享受更多功能和乐趣。那么&#xff0c;如何在抖音中跳转到小程序呢&#xff1f;以下是详细解答&#xff1a;…

SpringBoot使用druid

SpringBoot使用druid 一、前言二、配置1、pom依赖2、配置文件yml3、配置类 一、前言 Java程序很大一部分要操作数据库&#xff0c;为了提高性能操作数据库的时候&#xff0c;又不得不使用数据库连接池。 Druid 是阿里巴巴开源平台上一个数据库连接池实现&#xff0c;结合了 C…

leetcode:排序链表(递归)

题目&#xff1a; 给定链表的头结点 head &#xff0c;请将其按 升序 排列并返回 排序后的链表 。 示例 1&#xff1a; 输入&#xff1a;head [4,2,1,3] 输出&#xff1a;[1,2,3,4]示例 2&#xff1a; 输入&#xff1a;head [-1,5,3,4,0] 输出&#xff1a;[-1,0,3,4,5]示例…