Pyramidal Flow使用指南:快手、北大、北邮,开源可免费商用视频生成模型,快速上手教程

什么是 Pyramidal Flow?

Pyramidal Flow 是由快手科技、北京大学和北京邮电大学联合推出的开源视频生成模型,它是完全开源的,发布在 MIT 许可证下,允许商业使用、修改和再分发。该模型能够通过文本描述生成最高10秒、分辨率为1280x768、帧率24帧的视频。其核心技术是金字塔流匹配算法,将视频生成过程分解为多个不同分辨率的阶段,从而提高生成效率和质量。

功能特色

    1. 文本到视频生成:用户可以输入文本提示,模型生成与描述相符的视频内容。
    2. 高分辨率输出:支持生成高达768p分辨率的视频。
    3. 自回归视频生成:支持连续帧生成,确保视频的连贯性和流畅度。
    4. 端到端优化:在统一框架内进行优化,简化训练和部署。
    5. 高效生成:采用流匹配技术,降低计算复杂度。

Pyramidal Flow 与其他视频生成模型的不同之处

  1. 金字塔流匹配技术
    • Pyramidal Flow 采用了一种名为金字塔流匹配的技术,将视频生成分解为多个不同分辨率的阶段,开始时生成低分辨率的草图,然后逐步提升到高分辨率。这种技术降低了计算负担,同时提高了生成的灵活性。
  2. 自回归框架和块状因果注意力机制
    • 模型利用自回归框架和块状因果注意力机制,确保视频的连贯性和逻辑性。每一帧都能基于之前的帧进行生成,提高了生成视频的质量和一致性。
  3. 高效训练与计算资源
    • Pyramidal Flow 在 A100 GPU 上仅经过了 20,700 小时的训练,能耗和效率远超市面上的同类模型。这对于没有庞大算力的中小企业和个人开发者来说,是一个巨大的助力。
  4. 开源性质
    • Pyramidal Flow 是完全开源的,发布在 MIT 许可证下,允许商业使用、修改和再分发。这使得它非常适合开发者和内容创作者使用,尤其是希望避免高额订阅费用的用户。
  5. 高质量视频生成
    • 在官方的 VBench 基准测试中,Pyramidal Flow 的总评分为 81.72,与众多商业模型并驾齐驱。尽管在动态流畅度和画面稳定性方面略低于某些商业模型,但其质量非常接近于商业模型。
  6. 硬件要求
    • 由于模型基于大型 Transformer 架构,运行时对硬件要求较高。运行 768p 视频生成时需要 40GB 显存,384p 视频生成则需要 26GB 显存。

定价信息

Pyramidal Flow 是完全开源的,发布在 MIT 许可证下,允许商业使用、修改和再分发。

如何使用

Pyramidal Flow 已在 Hugging Face 平台上线,用户可以通过以下方式使用:

  • Pyramid Flow项目官网 | MeoAI
  • Pyramid Flow在线体验demo
  • Pyramid Flow论文地址
  • GitHub代码:;
  • Hugging Face模型下载
  • ComfyUI 插件:通过安装插件在 ComfyUI 中使用。

使用 Pyramidal Flow 模型的详细步骤

在本地环境中使用 Pyramidal Flow 模型来生成视频。这涉及到在本地机器上安装必要的软件、下载模型、运行模型生成视频等操作。这种方法适用于那些希望在本地机器上直接运行模型、进行实验或者开发应用的用户。

安装

首先,你需要克隆 Pyramidal Flow 的官方 GitHub 仓库,并按照说明创建一个新的 conda 环境,并安装必要的依赖项

# 克隆 Pyramidal Flow 的 GitHub 仓库
git clone https://github.com/jy0205/Pyramid-Flow
cd Pyramid-Flow# 创建一个新的 conda 环境,并安装 Python 3.8.10
conda create -n pyramid python==3.8.10# 激活新创建的环境
conda activate pyramid# 安装所需的 Python 库
pip install -r requirements.txt
下载模型

从 Huggingface 模型库下载预训练模型:

# 从 Huggingface 模型库下载预训练模型
from huggingface_hub import snapshot_download
model_path = 'PATH'   # 本地保存下载的检查点路径
snapshot_download("rain1011/pyramid-flow-sd3", local_dir=model_path, local_dir_use_symlinks=False, repo_type='model')
使用模型生成视频

加载下载的模型,并使用提供的文本提示生成视频:

import torch
from PIL import Image
from pyramid_dit import PyramidDiTForVideoGeneration
from diffusers.utils import load_image, export_to_video# 设置 CUDA 设备
torch.cuda.set_device(0)# 初始化模型
更多代码内容访问教程地址:https://www.meoai.net/pyramidal-flow.html# 定义文本提示
prompt = "A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors"# 使用模型生成视频
更多代码内容访问教程地址# 将生成的帧导出为视频文件
更多代码内容访问教程地址
使用技巧
  • guidance_scale 参数控制视觉质量,建议对 768p 检查点使用 [7, 9] 以内的指导。
  • video_guidance_scale 参数用于控制运动,数值越大,动态程度越高。

Pyramidal Flow 模型的训练数据

Pyramidal Flow 模型的训练数据来源主要是开源数据集。具体来说,模型在训练过程中使用了以下数据集:

  1. LAION-5B:这是一个用于多模态AI研究的大型数据集。
  2. CC-12M:由网络爬虫收集的图像文本对的数据集。
  3. SA-1B:一个具有高质量、无模糊图像的数据集。
  4. WebVid-10M 和 OpenVid-1M:这两个数据集被广泛用于文本到视频生成的视频数据集。

Pyramidal Flow 模型在训练时仅使用了开源数据集,总计使用了 20,700 小时的 A100 GPU 计算资源。这种开源的训练数据策略使得模型可以供广大开发者和研究者免费使用,并便于进行进一步的研究和开发。

适用场景

  1. 娱乐和社交媒体:用于生成有趣的视频内容,适合在社交平台分享。
  2. 电影和电视制作:生成特定场景或背景,降低实际拍摄成本。
  3. 游戏开发:生成游戏内动画和视频内容,提高设计效率。
  4. 广告和营销:快速生成吸引人的广告视频。
  5. 教育和培训:生成教学视频,帮助解释复杂概念。

Pyramidal Flow 提供了高效、灵活的视频生成解决方案,适合开发者、艺术家和创作者使用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/883189.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Embedding 模型和Model 批量推理和多卡部署

批量推理 多卡部署 使用huggingface 【AI大模型】Transformers大模型库(七):单机多卡推理之device_map_transformers多卡推理-CSDN博客 首先用 CUDA_VISIBLE_DEVICES1,2,3 python 或者os.environ["CUDA_VISIBLE_DEVICES"] &q…

风力发电场的“守护神”

摘要:作为清洁能源之一,风力发电场近几年装机容量快速增长。8月17日,国家能源局发布1-7月份全国电力工业统计数据。截至7月底,全国累计发电装机容量约27.4亿千瓦,同比增长11.5%。其中,太阳能发电装机容量约…

TCP simultaneous open测试

源代码 /*************************************************************************> File Name: common.h> Author: hsz> Brief:> Created Time: 2024年10月23日 星期三 09时47分51秒**********************************************************************…

转录组上游分析流程(三)

环境部署——数据下载——查看数据(非质控)——数据质控——数据过滤(过滤低质量数据) 测序得到的原始序列含有接头序列和低质量序列,为了保证信息分析的准确性,需要对原始数据进行质量控制,得到高质量序列(Clean Reads),原始序列…

Linux系统块存储子系统分析记录

1 Linux存储栈 通过网址Linux Storage Stack Diagram - Thomas-Krenn-Wiki-en,可以获取多个linux内核版本下的存储栈概略图,下面是kernel-4.0的存储栈概略图: 2 存储接口、传输速度 和 协议 2.1 硬盘 《深入浅出SSD:固态存储核心…

(二十三)Java反射

1.反射概念 反射允许对成员变量,成员方法和构造方法的信息进行编程访问,通俗理解就是允许从类里面拿东西,用途有提示词等,如下所示都是通过反射实现的 所以,学习反射就是学习从字节码class文件中获取成员信息并且对其…

stable diffusion WEBUI Brief summary

1,rembg(去除背景-》蒙版) import rembg from PIL import Image, ImageOps import numpy as np# 打开图像 input_path "./p_6258838.jpg" input_image Image.open(input_path)# 移除背景,得到带有透明背景的图像 output_image rembg.remove…

利用大模型进行复杂决策制定:PlanRAG技术的研究

人工智能咨询培训老师叶梓 转载标明出处 有效的决策制定对于组织的成功至关重要。传统的决策支持系统虽然在数据分析和决策辅助方面取得了一定的进展,但在处理需要复杂数据分析的决策问题时仍显不足。为了解决这一问题,来自韩国高等科学技术院&#xff…

fpga系列 HDL: 竞争和冒险 01

卡诺图是一种逻辑化简工具,用来在布尔函数的最小项和形式中,找到冗余项并实现逻辑化简。也可用于HDL中竞争和冒险的判断。 最小项 任何一个逻辑函数都能化简为最小项的和的形式对于 n 个变量的布尔表达式,每个变量都必须以原变量&#xff0…

Zabbix企业级分布式监控环境部署

“运筹帷幄之中,决胜千里之外”。在IT运维中,监控占据着重要的地位,按比例来算,说占30%一点也不为过。对IT运维工程师来说,构建一个真正可用的监控告警系统是一项艰巨的任务。在监控系统的开源软件中,可供选…

基于模型划分的云边协同推理算法

摘要 在网络状态和任务需求的动态变化下,为减少模型推理时延和计算成本,在软件定义网络( Software Defined Network,SDN) 中提出了一种基于模型划分的云边协同推理算法。通过构建复杂度预测器分配任务执行环境,采用深度Q网络(Dee…

国产标准数字隔离器的未来---克里雅半导体

标准数字隔离器是电信号隔离技术的重要组成部分,近年来取得了重大进展。随着工业自动化、汽车电子和电信等行业对更高性能的需求不断增长,国内数字隔离器制造商正在稳步赶上全球标准。本文讨论了数字隔离器技术的新兴趋势、材料创新的影响,以…

网站建设中需要注意哪些安全问题?----雷池社区版

服务器与应用安全指南 1. 服务器安全 1.1 操作系统安全 及时更新补丁:确保操作系统始终安装最新补丁,以防范系统漏洞。例如,Windows Server 定期推送安全更新,修复如远程代码执行等潜在威胁。优化系统服务配置:关闭不…

一家医药企业终止,收入依赖阿里健康,学术推广费快赶上净利润

知原药业终止原因如下:知原药业报告期三年的推广费用超3亿元,快赶上这三年累计3.68亿元的净利润了,交易所质疑其学术推广费单价合理性、是否存在销售返利。并且,公司研发费用率低于行业平均水平,在电商平台营销主要依赖…

pytorh学习笔记——cifar10(三)模仿VGGNet创建卷积网络

VGG16是由牛津大学视觉几何组(Visual Geometry Group)提出的一种深度卷积神经网络模型。 VGGNet 探索了卷积神经网络的深度与其性能之间的关系,成功地构筑了 16~19 层深的卷积神经网络,同时拓展性又很强,迁移到其它图片…

【LeetCode】11.盛最多水的容器

思路: 利用双指针法进行移动,一个在头一个在尾,此时宽度最宽,当宽度缩小时,高度发生变化,从而可以找到最大值。 代码: int maxArea(int* height, int heightSize) {int* left height;int* …

仿真学习 | Fluent版本迭代一览及选择指南

在计算机辅助工程(CAE)领域,软件版本的更新迭代,影响了工程师的工作效率、工作习惯和仿真精度,“如何选择软件版本”也永远是摆在每个初学者面前的第一个难题。 计算流体动力学(CFD)领域的领军…

嵌入式工程师必备——NTC曲线拟合

最近搞了一下NTC热敏电阻,打算和大家分享一下; 首先看NTC手册,25℃时是5K,温度系数B是3470,有一些NTC会直接给出公式,那种直接按照手册计算就好; 1、下面是温度和阻值对照表,这个表…

深度学习:YOLO目标检测和YOLO-V1算法损失函数的计算

简介 YOLO(You Only Look Once)是一种基于深度学习的目标检测算法,它的核心思想是将目标检测问题转化为一个回归问题,通过一个神经网络直接预测目标的类别和位置。 YOLO算法将输入图像分成SxS个网格,每个网格负责预测…

Golang | Leetcode Golang题解之第498题对角线遍历

题目&#xff1a; 题解&#xff1a; func findDiagonalOrder(mat [][]int) []int {m, n : len(mat), len(mat[0])ans : make([]int, 0, m*n)for i : 0; i < mn-1; i {if i%2 1 {x : max(i-n1, 0)y : min(i, n-1)for x < m && y > 0 {ans append(ans, mat[x…