【SVD生成视频+可本地部署】ComfyUI使用(二)——使用Stable Video Diffusion生成视频 (2023.11开源)

SVD官方主页 : Huggingface | | Stability.ai || 论文地址
huggingface在线运行demo : https://huggingface.co/spaces/multimodalart/stable-video-diffusion
SVD开源代码:Github(含其他项目) || Huggingface
Comfyui使用: ComfyUI国内下载 | SVD模型下载 | | 官网下载(Github)

在这里插入图片描述

文章目录

  • 一、SVD是什么,能做什么?(图片到视频)
    • 1.1 模型的缺点(不能干的事情)?
  • 二、在comfyui中使用 (约15G`显存`)
    • 2.1 Stable-XL生成图片再生成视频(Text2Img2Video)
      • 第一次初始化+运行示例,在3090Ti上花费 209.35秒
        • 拍摄美丽的风景自然山脉阿尔卑斯河急流雪天积云
      • 第二次 花费 生成图片(6秒)+视频 (花费70秒)
      • 一艘悠闲地沿着塞纳河航行的船,背景是文森特·梵高的埃菲尔铁塔
      • 一只独角兽在一个神奇的小树林里,非常详细
    • 使用上传的图片生成视频?
  • 三、方法 (未完待续)

一、SVD是什么,能做什么?(图片到视频)

2023年11月21日Stability AI 开源2个图片到视频模型(“Stable Video Diffusion”(稳定视频扩散模型)
它将静止图像(still image)作为条件帧(conditioning frame),并从中生成视频分辨率(1024x576)。

  1. 上传已有1张图片,生成相关的视频片段、生成视频长度2-5秒,帧率 3-30帧每秒,
  2. 串联一个Stable-XL模型,生成图片后,再生成视频 (文字到图片再到视频)

在这里插入图片描述

1.1 模型的缺点(不能干的事情)?

  1. 生成的视频相当(<=4秒),并且该模型没有实现完美的真实感。
  2. 该模型可能生成没有运动的视频,或者生成非常慢的相机平移(没变化)。
  3. 不能直接文本控制模型 (需要串联其他模型)。
  4. 该模型无法呈现清晰的文本(legible text)(让艺术字动起来)。
  5. 一般来说,人脸和人物可能无法正确生成。
  6. 模型的自动编码部分是有损的(lossy)。

二、在comfyui中使用 (约15G显存)

使用说明: https://comfyanonymous.github.io/ComfyUI_examples/video/

2.1 Stable-XL生成图片再生成视频(Text2Img2Video)

工作流文件: 链接:https://pan.baidu.com/s/1CvyGmUibreM8SM7AFjt1uA?pwd=0125

在这里插入图片描述

第一次初始化+运行示例,在3090Ti上花费 209.35秒

拍摄美丽的风景自然山脉阿尔卑斯河急流雪天积云

photograph beautiful scenery nature mountains alps river rapids snow sky cumulus clouds

在这里插入图片描述

第二次 花费 生成图片(6秒)+视频 (花费70秒)

题词来源于论文图17

一艘悠闲地沿着塞纳河航行的船,背景是文森特·梵高的埃菲尔铁塔

题词

A boat sailing leisurely along the Seine River with the Eiffel Tower in background by Vincent van Gogh

在这里插入图片描述

一只独角兽在一个神奇的小树林里,非常详细

A unicorn in a magical grove, extremely detailed

在这里插入图片描述

使用上传的图片生成视频?

三、方法 (未完待续)

该模型训练经过,

  1. 在给定相同大小的上下文帧的情况下,以576x1024的分辨率生成25帧,
  2. 再从图像帧微调为视频[14帧]。我们还对广泛使用的f8解码器( f8-decoder )进行了时间一致性(temporal consistency)微调。
  3. 为了方便起见,我们在这里为该模型额外提供了标准的逐帧解码器(frame-wise decoder )。

利用了Nvidia提出的Align your Latents基本结构
Align your Latents: 23.07.High-Resolution Video Synthesis with Latent Diffusion Models
项目主页: https://research.nvidia.com/labs/toronto-ai/VideoLDM/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/646557.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【博士论文写作 笔记02】研究挑战、研究目标、研究方案和研究内容的区别?

文章目录 一、声明二、介绍三、示例&#xff08;涉及的博士论文未争取作者同意之前暂不公布&#xff09; 一、声明 未完部分后续会更新 二、介绍 在博士论文写作中研究挑战、研究目标、研究方案和研究内容需要做详尽的阐述&#xff0c;但是几个概念很容易混淆&#xff0c;我…

MIT_线性代数笔记:线性代数常用概念及术语总结

目录 1.系数矩阵2.高斯消元法3.置换矩阵 Permutation4.逆矩阵 Inverse 1.系数矩阵 线性代数的基本问题就是解 n 元一次方程组。例如&#xff1a;二元一次方程组 2 x − y 0 − x 2 y 3 \begin{align*} & 2x - y 0\\ & -x2y 3 \end{align*} ​2x−y0−x2y3​ 写成…

通过strings二进制文件分析工具排查 version ‘GLIBC_2.25‘ not found 报错

strings命令简介 strings命令用于打印文件中可打印字符串, 可以打印文本文件、可执行程序&#xff0c;库文件等。一般用于分析可执行程序和库文件。strings命令较为常用的功能有以下两种 查看系统的GLIBC版本和目标文件的依赖的GLIBC版本&#xff0c;当系统的GLIBC版本与目标文…

谷歌公布一个可以让 AI 进行自我判断输出内容正确性的模型训练框架 ASPIRE

谷歌开发了一款名为 ASPIRE 的训练框架&#xff0c;旨在增强人工智能&#xff08;AI&#xff09;模型的选择性预测能力。这款框架为模型引入了 “可信度” 机制&#xff0c;即模型会输出一系列答案&#xff0c;并为每个答案赋予一个正确概率评分。通过这种方式&#xff0c;ASPI…

经典面试题-死锁

目录 1.什么是死锁&#xff1f; 2.形成死锁的四个必要条件 3.死锁的三种情况 第一种情况&#xff1a; 举例&#xff1a; 举例&#xff1a; 第二种情况&#xff1a;两个线程 两把锁 举例&#xff1a; 第三种情况&#xff1a;N个线程 M把锁 哲学家进餐问题 1.什么是死锁&…

windows11部署linux程序

windows11部署 msys2在windows10系统的安装 https://blog.csdn.net/engineer520/article/details/82192776 MSYS2使用记录——win10系统64位安装msys2最新版&#xff08;msys2-x86_64-20190524.exe&#xff09; _ https://www.cnblogs.com/world-explorer/p/16319426.html C语言…

Unity Asset store下载资源修改位置

Unity Asset Store的资源会随着项目的增长和资源的积累而越来越多。 在本文中&#xff0c;我们将修改Unity Asset Store的默认下载路径。 一、 默认保存路径的问题 当安装unity后&#xff0c;从Unity Asset Store下载资源时&#xff0c;它们通常会被存放在以下默认路径&#…

ThreadLocal使用

在用户每一次发起请求都会在tomcat服务器请求一个新的线程&#xff0c;我们在生成JWT token的时候将登录的用户信息注入到threadlocal中&#xff0c;那么这个线程进行其他请求都会携带着用户信息&#xff0c;我们可以在其他功能中得到当前的登录的用户信息&#xff0c;比如得到…

vue3中使用 vue3-slide-verify 滑块验证登录

在日常项目中我们实现登录的时候&#xff0c;会进行人为操作验证&#xff0c;这里使用滑块验证&#xff0c;常见的验证方式 我们借助插件 vue3-slide-verify 安装 npm install --save vue3-slide-verify 使用 在页面创建组件verification.vue 名字随意写入下面代码 <…

Linux破解密码

破解root密码&#xff08;Linux 7&#xff09; 1、先重启——e 2、Linux 16这一行 末尾加rd.break&#xff08;不要回车&#xff09;中断加载内核 3、再ctrlx启动&#xff0c;进入救援模式 4、mount -o remount&#xff0c;rw /sysroot/——&#xff08;mount挂载 o——opti…

大二下 课程安排

专业选修 web前端开发 信息与网络安全 必修 数据库原理 4 概率论与数理统计 4 软件设计与体系结构 3 编译技术 3 软件设计实践 2 大学体育 1 选修 &#xff08;待更新&#xff09; 目标 大二下一定要好好学习&#xff0c;不然最后总的排名真的就垫底了&#xff0c;大一上…

选择海外云手机需要考虑什么?

随着跨境电商行业的蓬勃发展&#xff0c;企业们纷纷寻找提升平台流量和广告投放效果的方法&#xff0c;这已成为业界的当务之急。传统的宣传模式在国内受到直播和链接带货等新兴方式的冲击&#xff0c;而在国外&#xff0c;类似的趋势也在悄然兴起&#xff0c;呈现出广阔的发展…

Halcon优化模板匹配速度

Halcon优化模板匹配速度 文章目录 Halcon优化模板匹配速度1. 缩小搜索空间2. 使用图像下采样 优化匹配速度可以从两个方面入手&#xff1a;缩小搜索空间和使用图像下采样。本节将分别从这两个方面进行解释。 1. 缩小搜索空间 搜索空间指搜索的范围&#xff0c;它是一个广义的概…

服务器运维小技巧(二)——如何进行监控告警

服务器运维难度高的原因&#xff0c;很大程度是因为服务器一旦出现问题&#xff0c;生产环境的业务就会受到严重影响&#xff0c;极有可能带来难以承担的后果。因此这份工作要求工程师保持高要求的服务质量&#xff0c;能够快速响应问题&#xff0c;及时解决问题。 但是“及时…

google-webrtc 原理

Google WebRtc Android 使用详解(包括客户端和服务端代码) - 知乎 (zhihu.com) 【记】Android使用WebRTC未释放资源导致的内存泄露 - 掘金 (juejin.cn)

Eureka-第一篇

​ 一、Eureka的概述 Eureka的基本概念和作用 Eureka是一个基于REST的服务&#xff0c;主要用于定位运行在AWS域中的中间层服务&#xff0c;以达到负载均衡和中间层服务故障转移的目的。Eureka是Netflix开发的服务发现框架&#xff0c;主要用于解决在云计算环境中动态位置服…

[docker] Docker镜像的创建以及Dockerfile的使用

一、Dokcer镜像的创建 创建镜像有三种方法&#xff0c;分别为基于已有镜像创建、基于本地模板创建以及基于Dockerfile创建。 1.1 基于现有镜像创建 &#xff08;1&#xff09;首先启动一个镜像&#xff0c;在容器里做修改docker run -it --name web centos:7 /bin/bash …

C语言应用层程序热补丁

一、热补丁简介 一个正在运行的程序&#xff0c;要是有某函数或某流程有问题&#xff0c;需要修改&#xff0c;有两个方式&#xff1a; 1.通过设置LD_PRELOAD把需要的库重新定向&#xff0c;但这种方式需要重启正在运行的程序。 2.通过修改可执行文件某个函数指向的地址&…

【C++】介绍STL中list容器的常用接口

目录 一、STL中的list简介 二、构造函数 2.1 默认构造函数 2.2 填充构造&#xff08;用n个相同的值构造&#xff09; 2.3 迭代器构造 2.4 拷贝构造和赋值运算符重载 三、迭代器 3.1 正向迭代器 3.2 反向迭代器 四、容量相关 4.1 获取list中有效数据的个数 4.2 判…

android camera的使用以及输出的图像格式

一、Camera 1.1、结合SurfaceView实现预览 1.1.1、布局 <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas.android.com/apk/res/android"xmlns:app"http://schemas.android.com/apk/res-au…