全球首个开源类Sora模型大升级,16秒720p画质电影感爆棚!代码和权重全面开源!

目录

01 视频界开源战士

02 深度解码技术

03 打破闭环,开源赋能


潞晨Open-Sora团队刚刚在720p高清文生视频质量和生成时长上实现了突破性进展!

全新升级的Open-Sora不仅支持无缝生成任意风格的高质量短片,更令人惊喜的是,团队选择继续全部开源。
 

GitHub地址:https://github.com/hpcaitech/Open-Sora



没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:

升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

通过他们的模型权重,可以生成各种酷炫短片,如海浪与海螺的亲密接触,以及深不可测的森林秘境。

人物肖像的渲染也相当逼真,不论是中国古典美女还是欧美风人物,都能保持一致的风格

即使是电影级别的镜头制作,也能轻松应对。


例如,实现流畅的变焦效果,为影片增添专业级的视觉效果,帮助电影制作人员创造出逼真的电影镜头。


 

01 视频界开源战士


LambdaLabs,美国科技界独角兽,基于潞晨团队先前开源的Open-Sora模型权重打造了一个数字乐高宇宙,乐高迷们在这里找到了极致的创意体验。

报告地址:https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md


潞晨团队深知开源对于文生视频技术突破的重要性,他们不仅持续开源模型权重,还在Github上晒出了技术路线,让每个玩家都能成为文生视频大模型的掌控者。

02 深度解码技术


潞晨Open-Sora团队的技术报告深度剖析了本次模型训练的核心和关键。在上一个版本基础上,引入了视频压缩网络(Video Compression Network)、更优的扩散模型算法、更多的可控性,并利用更多的数据训练出了1.1B的扩散生成模型。


在这个「算力为王」的时代,视频模型训练有两大痛点:计算资源的巨大消耗与模型输出质量的高标准。

潞晨Open-Sora团队以一种极简而有效的方案,成功地在成本和质量之间找到了平衡点。

Open-Sora团队提出了一个创新的视频压缩网络(VAE),该网络在空间和时间两个维度上分别进行压缩。

具体来说,他们首先在空间维度上进行了8x8倍的压缩,接着在时间维度上进一步压缩了4倍。

通过这种创新的压缩策略,既避免了因抽帧而牺牲视频流畅度的弊端,又大幅降低了训练成本,实现了成本与质量的双重优化。

Stable Diffusion 3,最新的扩散模型,通过采用rectified flow技术替代DDPM,显著提升了图片和视频生成的质量。

尽管SD3的rectified flow训练代码尚未公开,但潞晨Open-Sora团队已经基于SD3的研究成果,提供了一套完整的训练解决方案,包括:

  • 简单易用的rectified flow训练
     
  • 用于训练加速的Logit-norm时间步长采样
     
  • 基于分辨率和视频长度的时间步长采样

通过这些技术的整合,不仅能够加快模型的训练速度,还能显著减少推理阶段的等待时间,确保用户体验的流畅性。此外,这套训练方案还支持在推理过程中输出多种视频宽高比,满足多样化场景下的视频素材需求,为视频内容创作者提供了更加丰富的创作工具。

他们在报告中也透露了更多关于模型训练的核心细节,包括数据清洗和模型调优的实用技巧,以及构建了更完善的模型评估体系,保障模型的稳健性和泛化能力。

他们还提供了可以自行一键部署的Gradio应用,并支持调节输出的运动分数、美学分数和镜头移动方式等参数,甚至可以一键通过GPT-4o自动修改指令并支持中文输入。

03 打破闭环,开源赋能

自OpenAI Sora发布以来,业界对Sora的开放性期待值爆表,但现实却是持续的等待游戏。潞晨Open-Sora的开源,为文生视频的创新和发展注入了强劲的活力。

这一转型为企业用户解锁了自主开发文生视频应用的新技能,无论是打造沉浸式游戏、创意广告还是制作影视大片,文生视频技术的应用场景得到了指数级扩展。


如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard

推荐阅读:


更强大Mamba-2正式发布啦!!!



黎曼猜想取得重大进展!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/29646.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【windows|002】WEB服务和域名介绍

🍁博主简介: 🏅云计算领域优质创作者 🏅2022年CSDN新星计划python赛道第一名 🏅2022年CSDN原力计划优质作者 🏅阿里云ACE认证高级工程师 🏅阿里云开发者社区专…

【算法与设计】期末总结

文章目录 第一章 概述算法与程序时间复杂性求上界 第二章 递归与分治双递归函数——Ackerman函数分治策略大整数乘法两位两位四位x四位 三位x三位两位x六位 第三章 动态规划矩阵连乘基本要素最优子结构子问题重叠 备忘录 第四章 贪心算法活动安排问题基本要素贪心选择性质最优子…

pg表空间和mysql表空间的区别

一、表空间的定义 1、在pg中表空间实际上是为表指定一个存储的目录。并且在创建数据库时可以为数据库指定默认的表空间。创建表和索引时可以指定表空间,这样表和索引就可以存储到表空间对应的目录下了。 在pg中一个库中可以有多个表空间,一个表空间可以…

6月17(信息差)

1.马斯克最新预测:未来不再需要手机 将被脑机芯片替代 当地时间6月17日,马斯克高仿号“Not Elon Musk”发帖称:“你会在你的大脑上安装一个Neuralink接口,让你通过思考来控制你的新X手机吗?”对此,马斯克本…

yolov10--C#接口

一、前言 本章主要讲解yolov10的C#接口,主要是使用微软开发的openvinocsharp工具加载yolov10模型,并做推理。 二、yolov10模型转换 这里为了演示,使用官方yolov10m模型(其他大小的模型同理)做演示,可从下方…

游戏服务器研究一:bigworld 开源代码的编译与运行

1. 前言 bigworld 已经开源了它的代码,而我对于大世界的 scale 很感兴趣,所以就尝试把代码跑起来研究。但是,整个过程比我原先预想的复杂得多。 虽然能找到一些官方的帮助文档,但这些文档要么过旧,要么过于详尽&…

【护眼知识】护眼台灯真的有用吗?带你看台灯怎么选对眼睛好

在数字化时代,我们的眼睛无疑承受着前所未有的压力。无论是长时间盯着电脑屏幕,还是沉浸在书本的海洋中,眼睛的健康都成为了我们不容忽视的问题。中国现有约500万盲人,占总人口的0.4%,是世界上盲和视力损伤严重的国家之…

浏览器加速播放视频技巧

当我们看网页中的视频时,想加速播放,但是选项最高只能2倍速时,还想再加快播放如何操作? 此时我们可以按F12打开浏览器开发者选项,然后点击控制台,在浏览器输入如下代码: document.querySelecto…

月薪没到20K,必啃的WebGIS系统技术栈,你练到哪一步了?

WebGIS(网络地理信息系统)是目前地理信息系统(GIS)开发的主流,它利用互联网技术来发布、共享和交互地理空间数据。 一个完整的WebGIS项目通常涉及以下几个主要环节:具备一定的理论知识,数据生产…

MAGs培养有线索了?宏组学中未培养微生物表型与培养条件预测

宏基因组测序技术让人们对地球上微生物的多样性有了更深入的了解,但分离培养是研究微生物的生理代谢功能并解析其生态作用的关键。2023年11月的世界微生物数据中心(WDCM)年会中,全面启动了全球“未培养微生物培养组”计划&#xf…

毕业回家寄大量衣服裤子省钱技巧分享

很多宝子们问我,怎么寄快递更加便宜划算,特别是当你有很多的衣服裤子这类型的衣物的时候,怎么寄件最便宜。 今天分享几个寄快递的省钱方法以及经验分享。 1、惠发快递 像寄包裹快递,可以找快递平台进行下单,这样会更…

【机器学习300问】124、什么是LSTM?LSTM的基本结构是怎样的?

长短期记忆网络(LSTM)是一种解决隐变量模型长期信息保存和短期输入缺失问题的方法,有趣的是,长短期记忆网络的设计比门控循环单元稍微复杂一些, 却比门控循环单元早诞生了近20年。 一、什么是LSTM? LSMT全…

M41T00串行实时时钟-国产兼容RS4C1339

RS4C1340是一种实时时钟(RTC)/日历,与ST M41T00引脚兼容,功能等效,包括软件时钟校准。该器件还提供VBAT引脚上的涓流充电能力、较低的计时电压和振荡器STOP标志。寄存器映射的块访问与ST设备相同。涓流充电器和标志需要…

vue+springboot导入Excel表格

1.创建一个excel表格,与数据库需要的表头对应 2.(前端)导入excel的按钮 <template class"importExcel"><el-button type"primary" click"chooseFile">导入<i class"el-icon-upload el-icon--right"></i><…

短路是怎么形成的

1. 短路分为电源短路和用电器短路。 电源短路&#xff1a;电流不经过任何用电器&#xff0c;直接由正极经过导线流向负极&#xff0c;由于电源内阻很小&#xff0c;导致短路电流很大&#xff0c;特别容易烧坏电源。 用电器短路&#xff1a;也叫部分电路短路&#xff0c;即一根…

利用AI云防护实现高效负载均衡

在当今高度数字化的世界里&#xff0c;保证网站和应用的高可用性和响应速度对企业的业务连续性和用户体验至关重要。传统的负载均衡技术虽然能够分发流量&#xff0c;但在面对突发流量、DDoS攻击或资源动态调整时往往力不从心。本文将探讨如何借助AI云防护服务&#xff0c;不仅…

搭贝低代码开发平台:高效、灵活、经济的软件开发解决方案

在当今快速发展的数字化时代&#xff0c;企业对于快速、灵活且成本效益高的软件开发需求日益增长。搭贝低代码开发平台以其强大的功能和用户友好的体验&#xff0c;正在成为众多企业&#xff0c;特别是中小企业&#xff0c;软件开发的首选工具。 &#x1f4c8; 什么是低代码开发…

中力股份注册获批复:“重营销轻研发”明显,屡屡因违规被罚

《港湾商业观察》施子夫 王璐 冲刺上交所主板即将满两年&#xff0c;浙江中力机械股份有限公司&#xff08;以下简称&#xff0c;中力股份&#xff09;于4月24日宣布&#xff0c;首次公开发行股票的注册申请已获证监会同意。 不出意外的话&#xff0c;预计不久的数月内中力股…

电子期刊制作秘籍:如何让你的出版物脱颖而出?

​如何让你的电子期刊在众多出版物中脱颖而出&#xff0c;吸引读者的目光呢&#xff1f;在微信公众号这个平台上&#xff0c;让你的电子期刊内容更具吸引力、专业性和创新性&#xff0c;是至关重要的。下面&#xff0c;我将教你制作电子期刊一些方法&#xff0c;助你打造出一本…

【Pepper机器人开发与应用】二、Pepper机器人图形化开发:医疗服务机器人程序设计

‍‍&#x1f3e1;博客主页&#xff1a; virobotics(仪酷智能)&#xff1a;LabVIEW深度学习、人工智能博主 &#x1f4d1;上期文章&#xff1a;『【Pepper机器人开发与应用】一、教你如何使用图形化开发软件高效开发pepper机器人&#xff08;Pepper SDK for LabVIEW&#xff09…