Pyramidal Flow使用指南:快手、北大、北邮,开源可免费商用视频生成模型,快速上手教程

什么是 Pyramidal Flow?

Pyramidal Flow 是由快手科技、北京大学和北京邮电大学联合推出的开源视频生成模型,它是完全开源的,发布在 MIT 许可证下,允许商业使用、修改和再分发。该模型能够通过文本描述生成最高10秒、分辨率为1280x768、帧率24帧的视频。其核心技术是金字塔流匹配算法,将视频生成过程分解为多个不同分辨率的阶段,从而提高生成效率和质量。

功能特色

    1. 文本到视频生成:用户可以输入文本提示,模型生成与描述相符的视频内容。
    2. 高分辨率输出:支持生成高达768p分辨率的视频。
    3. 自回归视频生成:支持连续帧生成,确保视频的连贯性和流畅度。
    4. 端到端优化:在统一框架内进行优化,简化训练和部署。
    5. 高效生成:采用流匹配技术,降低计算复杂度。

Pyramidal Flow 与其他视频生成模型的不同之处

  1. 金字塔流匹配技术
    • Pyramidal Flow 采用了一种名为金字塔流匹配的技术,将视频生成分解为多个不同分辨率的阶段,开始时生成低分辨率的草图,然后逐步提升到高分辨率。这种技术降低了计算负担,同时提高了生成的灵活性。
  2. 自回归框架和块状因果注意力机制
    • 模型利用自回归框架和块状因果注意力机制,确保视频的连贯性和逻辑性。每一帧都能基于之前的帧进行生成,提高了生成视频的质量和一致性。
  3. 高效训练与计算资源
    • Pyramidal Flow 在 A100 GPU 上仅经过了 20,700 小时的训练,能耗和效率远超市面上的同类模型。这对于没有庞大算力的中小企业和个人开发者来说,是一个巨大的助力。
  4. 开源性质
    • Pyramidal Flow 是完全开源的,发布在 MIT 许可证下,允许商业使用、修改和再分发。这使得它非常适合开发者和内容创作者使用,尤其是希望避免高额订阅费用的用户。
  5. 高质量视频生成
    • 在官方的 VBench 基准测试中,Pyramidal Flow 的总评分为 81.72,与众多商业模型并驾齐驱。尽管在动态流畅度和画面稳定性方面略低于某些商业模型,但其质量非常接近于商业模型。
  6. 硬件要求
    • 由于模型基于大型 Transformer 架构,运行时对硬件要求较高。运行 768p 视频生成时需要 40GB 显存,384p 视频生成则需要 26GB 显存。

定价信息

Pyramidal Flow 是完全开源的,发布在 MIT 许可证下,允许商业使用、修改和再分发。

如何使用

Pyramidal Flow 已在 Hugging Face 平台上线,用户可以通过以下方式使用:

  • Pyramid Flow项目官网 | MeoAI
  • Pyramid Flow在线体验demo
  • Pyramid Flow论文地址
  • GitHub代码:;
  • Hugging Face模型下载
  • ComfyUI 插件:通过安装插件在 ComfyUI 中使用。

使用 Pyramidal Flow 模型的详细步骤

在本地环境中使用 Pyramidal Flow 模型来生成视频。这涉及到在本地机器上安装必要的软件、下载模型、运行模型生成视频等操作。这种方法适用于那些希望在本地机器上直接运行模型、进行实验或者开发应用的用户。

安装

首先,你需要克隆 Pyramidal Flow 的官方 GitHub 仓库,并按照说明创建一个新的 conda 环境,并安装必要的依赖项

# 克隆 Pyramidal Flow 的 GitHub 仓库
git clone https://github.com/jy0205/Pyramid-Flow
cd Pyramid-Flow# 创建一个新的 conda 环境,并安装 Python 3.8.10
conda create -n pyramid python==3.8.10# 激活新创建的环境
conda activate pyramid# 安装所需的 Python 库
pip install -r requirements.txt
下载模型

从 Huggingface 模型库下载预训练模型:

# 从 Huggingface 模型库下载预训练模型
from huggingface_hub import snapshot_download
model_path = 'PATH'   # 本地保存下载的检查点路径
snapshot_download("rain1011/pyramid-flow-sd3", local_dir=model_path, local_dir_use_symlinks=False, repo_type='model')
使用模型生成视频

加载下载的模型,并使用提供的文本提示生成视频:

import torch
from PIL import Image
from pyramid_dit import PyramidDiTForVideoGeneration
from diffusers.utils import load_image, export_to_video# 设置 CUDA 设备
torch.cuda.set_device(0)# 初始化模型
更多代码内容访问教程地址:https://www.meoai.net/pyramidal-flow.html# 定义文本提示
prompt = "A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors"# 使用模型生成视频
更多代码内容访问教程地址# 将生成的帧导出为视频文件
更多代码内容访问教程地址
使用技巧
  • guidance_scale 参数控制视觉质量,建议对 768p 检查点使用 [7, 9] 以内的指导。
  • video_guidance_scale 参数用于控制运动,数值越大,动态程度越高。

Pyramidal Flow 模型的训练数据

Pyramidal Flow 模型的训练数据来源主要是开源数据集。具体来说,模型在训练过程中使用了以下数据集:

  1. LAION-5B:这是一个用于多模态AI研究的大型数据集。
  2. CC-12M:由网络爬虫收集的图像文本对的数据集。
  3. SA-1B:一个具有高质量、无模糊图像的数据集。
  4. WebVid-10M 和 OpenVid-1M:这两个数据集被广泛用于文本到视频生成的视频数据集。

Pyramidal Flow 模型在训练时仅使用了开源数据集,总计使用了 20,700 小时的 A100 GPU 计算资源。这种开源的训练数据策略使得模型可以供广大开发者和研究者免费使用,并便于进行进一步的研究和开发。

适用场景

  1. 娱乐和社交媒体:用于生成有趣的视频内容,适合在社交平台分享。
  2. 电影和电视制作:生成特定场景或背景,降低实际拍摄成本。
  3. 游戏开发:生成游戏内动画和视频内容,提高设计效率。
  4. 广告和营销:快速生成吸引人的广告视频。
  5. 教育和培训:生成教学视频,帮助解释复杂概念。

Pyramidal Flow 提供了高效、灵活的视频生成解决方案,适合开发者、艺术家和创作者使用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/883189.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Docker搭建开源Web云桌面操作系统Puter和DaedalOS

文章目录 Puter 操作系统说明基于 Docker 启动 Puter 操作系统拉取镜像运行容器基于 Docker-Compose 启动 Puter操作系统创建目录编写docker-compose.yml运行在本地直接运行puter操作系统puter界面截图puter个人使用总结构建自己的Puter镜像daedalos基于web的操作系统说明技术特…

Embedding 模型和Model 批量推理和多卡部署

批量推理 多卡部署 使用huggingface 【AI大模型】Transformers大模型库(七):单机多卡推理之device_map_transformers多卡推理-CSDN博客 首先用 CUDA_VISIBLE_DEVICES1,2,3 python 或者os.environ["CUDA_VISIBLE_DEVICES"] &q…

风力发电场的“守护神”

摘要:作为清洁能源之一,风力发电场近几年装机容量快速增长。8月17日,国家能源局发布1-7月份全国电力工业统计数据。截至7月底,全国累计发电装机容量约27.4亿千瓦,同比增长11.5%。其中,太阳能发电装机容量约…

【Flutter】基础入门:Widgets

在 Flutter 中,Widget 是应用程序构建块的基础。几乎所有的对象都是一个 Widget,不论是显示在屏幕上的 UI 元素,还是一些功能性组件(例如用于手势检测的 GestureDetector,或用于传递应用主题数据的 Theme)&…

TCP simultaneous open测试

源代码 /*************************************************************************> File Name: common.h> Author: hsz> Brief:> Created Time: 2024年10月23日 星期三 09时47分51秒**********************************************************************…

转录组上游分析流程(三)

环境部署——数据下载——查看数据(非质控)——数据质控——数据过滤(过滤低质量数据) 测序得到的原始序列含有接头序列和低质量序列,为了保证信息分析的准确性,需要对原始数据进行质量控制,得到高质量序列(Clean Reads),原始序列…

Linux系统块存储子系统分析记录

1 Linux存储栈 通过网址Linux Storage Stack Diagram - Thomas-Krenn-Wiki-en,可以获取多个linux内核版本下的存储栈概略图,下面是kernel-4.0的存储栈概略图: 2 存储接口、传输速度 和 协议 2.1 硬盘 《深入浅出SSD:固态存储核心…

(二十三)Java反射

1.反射概念 反射允许对成员变量,成员方法和构造方法的信息进行编程访问,通俗理解就是允许从类里面拿东西,用途有提示词等,如下所示都是通过反射实现的 所以,学习反射就是学习从字节码class文件中获取成员信息并且对其…

AndroidAppWidget相关

特殊情况记录 OPPO FIND N Android14 当桌面已经存在AppWidget实例,如果应用处于杀死状态下,此时再创建相同的AppWidget实例不会触发AppWidget的更新。 创建不同的AppWidget对应的实例时才会一下子触发多个AppWidget示例的更新。

stable diffusion WEBUI Brief summary

1,rembg(去除背景-》蒙版) import rembg from PIL import Image, ImageOps import numpy as np# 打开图像 input_path "./p_6258838.jpg" input_image Image.open(input_path)# 移除背景,得到带有透明背景的图像 output_image rembg.remove…

Markdown语法详解及常见的使用场景

Markdown语法详解 Markdown概念一、标题二、段落三、字体样式四、列表五、链接和图片六、代码八、分隔线九、引用十、删除线和下划线十一、脚注十二、任务列表十三、高级技巧十四、目录生成 Markdown的应用场景 Markdown概念 Markdown是一种轻量级标记语言,以其简洁…

利用大模型进行复杂决策制定:PlanRAG技术的研究

人工智能咨询培训老师叶梓 转载标明出处 有效的决策制定对于组织的成功至关重要。传统的决策支持系统虽然在数据分析和决策辅助方面取得了一定的进展,但在处理需要复杂数据分析的决策问题时仍显不足。为了解决这一问题,来自韩国高等科学技术院&#xff…

fpga系列 HDL: 竞争和冒险 01

卡诺图是一种逻辑化简工具,用来在布尔函数的最小项和形式中,找到冗余项并实现逻辑化简。也可用于HDL中竞争和冒险的判断。 最小项 任何一个逻辑函数都能化简为最小项的和的形式对于 n 个变量的布尔表达式,每个变量都必须以原变量&#xff0…

JVM的内存模型是什么,每个区域的作用是什么,以及面试题(含答案)

JVM(Java 虚拟机)内存模型定义了 Java 程序在运行时如何分配、管理和优化内存。JVM 内存模型主要分为几个关键区域,每个区域有特定的作用: JVM 内存模型 堆内存(Heap): 作用:用于存…

VS2022搭建FFMPEG + Opencv开发环境 + 如何打包项目让程序也能独立跑在其他人的电脑上?

VS2022搭建FFMPEG Opencv开发环境 如何打包项目让程序也能独立跑在其他人的电脑上? 前言 本文的名字应该是我所写过的博客当中最长的,但内容以精简且保证实用为原则! 正文 首先是ffmpeg 环境搭建流程如下: 在网上下载已经被…

Zabbix企业级分布式监控环境部署

“运筹帷幄之中,决胜千里之外”。在IT运维中,监控占据着重要的地位,按比例来算,说占30%一点也不为过。对IT运维工程师来说,构建一个真正可用的监控告警系统是一项艰巨的任务。在监控系统的开源软件中,可供选…

山东科技大学 PTA (数据结构)7-5 银行业务队列简单模拟

设某银行有A、B两个业务窗口,且处理业务的速度不一样,其中A窗口处理速度是B窗口的2倍 —— 即当A窗口每处理完2个顾客时,B窗口处理完1个顾客。给定到达银行的顾客序列,请按业务完成的顺序输出顾客序列。假定不考虑顾客先后到达的时…

基于模型划分的云边协同推理算法

摘要 在网络状态和任务需求的动态变化下,为减少模型推理时延和计算成本,在软件定义网络( Software Defined Network,SDN) 中提出了一种基于模型划分的云边协同推理算法。通过构建复杂度预测器分配任务执行环境,采用深度Q网络(Dee…

国产标准数字隔离器的未来---克里雅半导体

标准数字隔离器是电信号隔离技术的重要组成部分,近年来取得了重大进展。随着工业自动化、汽车电子和电信等行业对更高性能的需求不断增长,国内数字隔离器制造商正在稳步赶上全球标准。本文讨论了数字隔离器技术的新兴趋势、材料创新的影响,以…

网站建设中需要注意哪些安全问题?----雷池社区版

服务器与应用安全指南 1. 服务器安全 1.1 操作系统安全 及时更新补丁:确保操作系统始终安装最新补丁,以防范系统漏洞。例如,Windows Server 定期推送安全更新,修复如远程代码执行等潜在威胁。优化系统服务配置:关闭不…