Open-Sora1.2环境搭建推理测试

引子

前阵子写了一篇Open-Sora1.0环境搭建&推理测试(Open-Sora1.0环境搭建&推理测试_自己搭建sora服务-CSDN博客,感兴趣的童鞋,请移步)。Open-Sora1.1发布的时候,撇了一眼新闻。后面一转头,忘记这个事情了。无意间翻到其开源网站上,发现2024.6.17发布1.2版本了,那还是过来看看有什么长足的进步吧,呦呵,现在支持720P 高清视频,质量和生成时长也有了突破性进展。OK,那就让我们开始吧。

一、升级介绍

在上一个版本基础上,引入了视频压缩网络(Video Compression Network)、更优的扩散模型算法、更多的可控性,并利用更多的数据训练出了 1.1B 的扩散生成模型。Stable Diffusion 3,最新的扩散模型,通过采用了 rectified flow 技术替代 DDPM,显著提升了图片和视频生成的质量。尽管 SD3 的 rectified flow 训练代码尚未公开,但潞晨 Open-Sora 团队已经基于 SD3 的研究成果,提供了一套完整的训练解决方案,包括:

(1)简单易用的整流(rectified flow)训练

(2)用于训练加速的 Logit-norm 时间步长采样

(3)基于分辨率和视频长度的时间步长采样

二、环境安装

(1)模型下载

https://huggingface.co/hpcai-tech/OpenSora-STDiT-v3/tree/main

https://huggingface.co/hpcai-tech/OpenSora-VAE-v1.2/tree/main

https://huggingface.co/PixArt-alpha/pixart_sigma_sdxlvae_T5_diffusers/tree/main/vae

(2)代码下载

git clone GitHub - hpcaitech/Open-Sora: Open-Sora: Democratizing Efficient Video Production for All

三、推理测试

docker run -it --gpus=all --rm -v /datas/work/zzq/:/workspace open-sora:v1.0 bash

pip install -v .

git clone GitHub - PixArt-alpha/PixArt-sigma: PixArt-Σ: Weak-to-Strong Training of Diffusion Transformer for 4K Text-to-Image Generation

cd PixArt-sigma

pip install -r requirements.txt

注:open-sora:v1.0为上一篇OpenSora博文安装的docker镜像名称

修改代码

修改代码 vi /opt/conda/lib/python3.10/site-packages/opensora/models/vae/vae.py

python scripts/inference.py configs/opensora-v1-2/inference/sample.py --num-frames 4s --resolution 720p --aspect-ratio 9:16 --num-sampling-steps 30 --flow 5 --aes 6.5 --prompt "a beautiful waterfall"

显存不够,改小分辨率

python scripts/inference.py configs/opensora-v1-2/inference/sample.py --num-frames 4s --resolution 144p --aspect-ratio 9:16 --num-sampling-steps 30 --flow 5 --aes 6.5 --prompt "a beautiful waterfall"

生成效果如下

OpenSora1.2版本视频

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/41829.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ARL联动AWVS实现自动化漏洞扫描

0x01 前言 很多场景下需要大范围的扫描漏洞和快速排查互联网暴露面的漏洞,需要使用这种自动化的手段,常规渗透测试的找互联网暴露面是,域名>子域名>IP>C段>端口,可以手动收集,也可以借助一些网络搜索引擎…

css中伪元素 :: before的用法

在CSS中&#xff0c;伪元素 ::before 用于在选定元素的内容前插入内容。它常用于添加图标、文本或装饰性的元素&#xff0c;而不需要在HTML中实际添加额外的标签。 以下是一个示例说明 ::before 的用法&#xff1a; <!DOCTYPE html> <html lang"en"> &…

一文解决Postman请求发送难题

标题&#xff1a;【技术深度解析】一文解决Postman请求发送难题 在API开发和测试过程中&#xff0c;Postman作为一款强大的工具&#xff0c;其重要性不言而喻。然而&#xff0c;开发者们时常会遇到Postman无法发送请求的问题&#xff0c;这无疑会严重影响开发进度和测试效率。…

wordpress网站添加一个临时维护功能

把以下代码放到functions.php文件中&#xff0c;主要用网站临时维护或者用于备案。事情做好了&#xff0c;把以下代码删除即可&#xff01;&#xff01;&#xff01; 有时遇到一些情况&#xff0c;比如站点需要闭站备案、或者被要求停站等等&#xff0c;我们就可以使用本文的功…

开发个人Go-ChatGPT--5 模型管理 (三)

开发个人Go-ChatGPT–5 模型管理 (三) 服务部署 go-ChatGPT项目涉及的中间件服务较多&#xff0c;以下部署文件目录&#xff1a; |-- chat-api | |-- etc | | -- config.yaml | -- logs |-- chat-rpc | |-- etc | | -- config.yaml | -- logs |-- docker-co…

CP AUTOSAR标准之UDPNetworkManagement(AUTOSAR_CP_SWS_UDPNetworkManagement)(更新中……)

1 简介和功能概述 本文档介绍了AUTOSAR UDP网络管理(UdpNm)的概念、核心功能、可选功能、接口和配置问题。UdpNm旨在成为一项可选功能。它旨在与TCP/IP堆栈协同工作,独立于所用通信系统的物理层。AUTOSAR UDP网络管理是一种独立于硬件的协议,可用于基于TCP/IP的系统(有关限制…

卡尔曼滤波Q和R怎么调

卡尔曼滤波器是一种有效的估计算法&#xff0c;主要用于在存在噪声的环境中估计动态系统的状态。它通过结合预测模型&#xff08;系统动态&#xff09;和观测数据&#xff08;包括噪声&#xff09;来实现这一点。在卡尔曼滤波中&#xff0c;调整过程噪声协方差矩阵 ( Q ) 和测量…

Java中的标准输入流简述

System.in简介 System.in 是标准输入流&#xff0c;通常与键盘输入相关联。它是 InputStream 类型的对象&#xff0c;Java 使用它来从控制台接收用户输入。在 Java 程序中&#xff0c;通常使用 Scanner 类来读取 System.in 的输入。 以下是一些关键点&#xff0c;解释为什么需…

Kubernetes运维工程师必备:K8s 基础面试题精编(一)

Kubernetes运维工程师必备:K8s 基础面试题精编(一) 1. 什么是Kubernetes?2. Kubernetes如何实现容器编排?3. 说出k8s的常见资源对象?4. 什么是pod?5. Deployment介绍及使用?6. statefulesets介绍及使用?7. statefulesets和deployment区别?8. 什么是调度器(Scheduler…

The First项目报告:NvirWorld与区块链游戏的未来

根据官方公告&#xff0c;The Fisrt现货区将于2024年7月2日16:00上架NVIR/USDT交易对&#xff0c;NVIR是NvirWorld平台的原生代币。作为一个去中心化解决方案&#xff0c;NvirWorld为开发者提供了一个简化且适应性强的环境&#xff0c;旨在通过优化的扩展解决方案来降低交易成本…

docker 本地部署大模型(ollama)

docker 安装 ollama docker search ollama docker pull ollama/ollama###docker下载ollama部署 docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama### 下载模型 docker exec -it ollama ollama pull llama3### 交互式运行模型docker exec -i…

ECharts 最小高度设置指南

下面提供一份关于ECharts中设置最小高度的专业而详细的文档。这份文档将涵盖不同图表类型的最小高度设置方法&#xff0c;适合初学者学习和参考。 ECharts 最小高度设置指南 1. 通用属性 对于大多数图表类型&#xff0c;可以使用以下通用属性来控制最小高度&#xff1a; 1.…

算法 —— 二分查找

目录 二分查找 在排序数组中查找元素的第一个和最后一个位置 搜索插入位置 x的平方根 山峰数组的峰顶索引 寻找峰值 搜索旋转排序数组中的最⼩值 点名 二分查找模板分为三种&#xff1a;1、朴素的二分模板 2、查找左边界的二分模板 3、查找右边界的二分模板&#xf…

【基于R语言群体遗传学】-12-超显性与次显性

欢迎先看前面的博客&#xff0c;再继续进行后面的内容&#xff1a; 群体遗传学_tRNA做科研的博客-CSDN博客 当杂合子的适应度超出纯合子的范围时&#xff0c;二倍体能够展现出更多令人着迷的选择实例。这种形式的一种是杂合子优势&#xff0c;或称为“超显性”&#xff0c;其…

【包邮送书】AIGC时代程序员的跃迁——编程高手的密码武器

欢迎关注博主 Mindtechnist 或加入【智能科技社区】一起学习和分享Linux、C、C、Python、Matlab&#xff0c;机器人运动控制、多机器人协作&#xff0c;智能优化算法&#xff0c;滤波估计、多传感器信息融合&#xff0c;机器学习&#xff0c;人工智能等相关领域的知识和技术。关…

深入了解 Huber 损失函数

深入了解 Huber 损失函数 在机器学习和深度学习的训练过程中&#xff0c;选择合适的损失函数对于模型性能的提升至关重要。MSE&#xff08;均方误差&#xff09; 和 RMSE&#xff08;均方根误差&#xff09; 是我们常见的回归损失函数。然而&#xff0c;当数据中存在异常值&am…

无线麦克风哪个品牌音质最好,揭秘手机收音麦克风哪个牌子好!

随着全球直播和短视频行业的蓬勃发展&#xff0c;领夹麦克风因其便携性和出色的录音质量而备受青睐。用户在各种场合下追求清晰、真实的录音效果&#xff0c;领夹麦克风无疑是一个理想的选择。 然而&#xff0c;面对市场上琳琅满目的品牌和型号&#xff0c;想要挑选一款性能优…

C++和Python蚂蚁搬食和蚊虫趋光性和浮标机群行为算法神经网络

&#x1f3af;要点 &#x1f3af;机器人群行为配置和C行为实现&#xff1a;&#x1f58a;脚底机器人狭隘空间导航避让障碍物行为 | &#x1f58a;脚底机器人使用摄像头耦合共振&#xff0c;实现同步动作 | &#x1f58a;脚底机器群使用相机&#xff0c;计算彼此间“分子间势能…

WAIC2024 上海 | Gooxi 全面展示智算新成果,加速人工智能落地应用

浦江之畔&#xff0c;大咖云集&#xff1b;智能浪潮&#xff0c;奔涌不息。7月4日&#xff0c;被誉为人工智能界风向标的世界人工智能大会暨人工智能全球治理高级别会议在上海盛大召开&#xff0c;Gooxi此次携最新AI服务器以及解决方案参与&#xff0c;以算为擎赋能新质生产力&…

如何对待信息技术课上学生玩游戏现象

对待信息技术课上学生玩游戏的现象&#xff0c;需要采取一系列综合措施&#xff0c;既要防止学生分心&#xff0c;又要确保课堂的教学质量和学生的积极参与。以下是一些建议&#xff1a; 1. 明确课堂规则&#xff1a;在课程开始之初&#xff0c;明确告知学生课堂上不允许玩游戏…