华为昇腾AI芯片加持,9.1k Star 的 Open-Sora-Plan,国产Sora要来了吗

Aitrainee | 公众号:AI进修生

哇,今天Github趋势榜第一啊,为了重现Sora,北大这个Open-Sora-Plan,希望通过开源社区力量的复现Sora,目前已支持国产AI芯片(华为昇腾),这回不用被卡脖子了吧,这个项目吸引了众多开发者的智慧和热情,目前在github上的星标已经高达9.1k,不过当前版本离目标差距还很大,仍需持续完善和快速迭代,团队热烈欢迎志同道合的你加入,这是一个汇聚相同技术热忱与求知欲的人们的号召。国产版的Sora还是离我们越来越近了。在这里插入图片描述

下面我们带入开发者(我们)的视角,介绍一下技术报告:

VideoGPT和Video VQ-VAE

想象一下你有一堆乐高积木,每个积木都是视频的一小部分。Video VQ-VAE的工作就像是找到最少的积木数量,同时确保用这些积木还能重建原始视频。这样做可以让视频占用更少的空间,而且我们还可以创造新的视频,就像用积木搭建新东西一样。VideoGPT则是用来指导如何搭建这些积木,以创造新的视频内容。

Open-Sora-Plan v1.0.0的改进

  1. CausalVideoVAE的训练与推理: 想象你正在尝试用一张巨大的网捕捉时间的流逝,其中网眼代表视频中的每个小片段。我们现在有了一个更大更紧密的网(4×8×8的尺寸),它可以更有效地捕捉视频的细节,无论是在空间上(像是画面的广阔景象)还是时间上(像是动作的连贯性)。
  2. 图片视频联合训练: 这就像是训练一只鸟同时在水里游泳和在空中飞翔。我们教会了模型不仅能理解静态的图片,还能理解动态的视频。这使得模型能够更好地把握时间和空间的细节,从而创造出更高质量的视觉内容。

CausalVideoVAE的架构细节

  • CausalConv3D: 如果说之前我们用2D拼图解决问题,现在我们升级到了3D,让模型能同时理解图片(2D)和视频(3D)。特别地,模型会对视频的第一帧给予特别处理,因为那是整个视频故事的开头。在这里插入图片描述

  • 初始化方法: 我们使用了一种特别的“尾部初始化”方法,让模型能够在没有任何额外训练的情况下就能处理图片和视频。

训练与推理技巧

  • 损失曲线: 我们展示了两种不同初始化方法的效果。黄色赛车(尾部初始化)明显跑得更快更稳定,这告诉我们它是一个更好的起点。在这里插入图片描述

  • 推理技巧: 采用了一种称为tile convolution的技术,这样可以大大节省资源。

数据构建

  • 视频数据集: 我们收集了大量高质量的视频,确保它们没有不相关的水印,并且都是单一场景,这样数据就更加干净、专注。在这里插入图片描述

  • 文本注释: 我们还给这些视频配上了高质量的文字说明,有助于模型更好地理解视频内容,并在创造新视频时参考这些描述。

✨ AI算法工程师 | AIGC技术实践者 🚀
🎵 知音难求,自我修炼亦艰。
📚 吾生也有涯,而知也无涯。
🌌 AIGC时代,立志成为超级个体:
抓住前沿技术的机遇,与我们一起成为创新的超级个体。
✉️ 回复“群聊”,就能和大家嗨聊!

  • 公众号有最新咨询和AI工具教程
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/817802.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

(学习日记)2024.04.17:UCOSIII第四十五节:中断管理

写在前面: 由于时间的不足与学习的碎片化,写博客变得有些奢侈。 但是对于记录学习(忘了以后能快速复习)的渴望一天天变得强烈。 既然如此 不如以天为单位,以时间为顺序,仅仅将博客当做一个知识学习的目录&a…

An Investigation of Geographic Mapping Techniques for Internet Hosts(2001年)第二部分

​下载地址:An investigation of geographic mapping techniques for internet hosts | Proceedings of the 2001 conference on Applications, technologies, architectures, and protocols for computer communications 被引次数:766 Padmanabhan V N, Subramanian L. An i…

【原创】springboot+mysql宠物管理系统设计与实现

个人主页:程序猿小小杨 个人简介:从事开发多年,Java、Php、Python、前端开发均有涉猎 博客内容:Java项目实战、项目演示、技术分享 文末有作者名片,希望和大家一起共同进步,你只管努力,剩下的交…

用html写一个雨的特效

<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>雨特效</title><link rel"stylesheet" href"./style.css"> </head> <body> <div id"wrap-textu…

VLAN配置不求人:华为设备配置详解

实验拓扑 实验需求 1.全网有VLAN10&#xff0c;VLAN20&#xff0c;VLAN30 2.VLAN10/20/30,192.168.10/20/30.0 3.配置Trunk, Access,Trunk封装使用Dot1q 4.Trunk的模式使用收到形成mode on 5.所有vlan的网关在router 6.单臂路由来实现所有的通讯 7.VLAN30是所有网络设备…

AskManyAI:一个GPT、Claude、Gemini、Kimi等顶级AI的决斗场

一直以来很多人问我能不能有个稳定&#xff0c;不折腾的全球AI大模型测试网站&#xff0c;既能够保证真实靠谱&#xff0c;又能够保证稳定、快速&#xff0c;不要老动不动就挂了、出错或者漫长的响应。 直到笔者遇到了AskManyAI&#xff0c;直接就惊艳住了&#xff01; 话不多…

主播美颜SDK:实现精细化美颜功能的关键技术分析

主播美颜SDK作为实现精细化美颜功能的关键技术&#xff0c;其背后蕴含着丰富的算法和工程技术。本文将对主播美颜SDK的关键技术进行深入分析&#xff0c;探讨其实现精细化美颜功能的原理与方法。 图像识别与面部分析 通过图像识别技术&#xff0c;SDK能够准确地识别出人脸位置…

学习笔记------约束的管理

此篇记录FPGA的静态时序分析&#xff0c;在学习FPGA的过程中&#xff0c;越发觉得对于时序约束只是懂了个皮毛。现在记录一下自己的学习过程。 本文摘自《VIVADO从此开始》高亚军 为什么要进行约束&#xff1f;约束的目的是什么&#xff1f; 简单来说&#xff0c;就是需要在…

HIT The Wiorld,HIT世界官网地址+配置要求+测试时间+加速器分享

HIT The Wiorld&#xff0c;HIT世界官网地址配置要求测试时间加速器分享 NEXON新游《HIT&#xff1a;世界&#xff08;HIT&#xff1a;The World&#xff09;》将在4月17日上线&#xff0c;目前已在官网开启事前预约预创建角色。Hit :the world&#xff08;HIT:世界&#xff…

拥抱信创新篇章,行云绽放麒麟软件携手认证

近年来&#xff0c;我国积极推进信创国产化&#xff0c;各产业也纷纷加速推进软件和芯片的本土化&#xff0c;将“自主可控”列为关键战略目标。在这样的背景下&#xff0c;行云绽放与麒麟软件携手共进&#xff0c;积极拥抱信创&#xff0c;完成了重要的认证工作&#xff0c;为…

拯救鲨鱼!Helping wireshark!wireshark未响应解决方法

前言 做题的的时候 在用wireshark解密tls秘钥的时候 我的小鲨鱼突然未响应了 然后我多次尝试无果 并且殃及池鱼 我电脑上所有的流量包都打不开了&#xff1f;&#xff01;&#xff01;&#xff01; 于是乎 尝试删了重下 还是未响应 开始怀疑电脑 重启电脑两次 还是打…

React-项目构建

​&#x1f308;个人主页&#xff1a;前端青山 &#x1f525;系列专栏&#xff1a;React篇 &#x1f516;人终将被年少不可得之物困其一生 依旧青山,本期给大家带来React篇专栏内容:React-项目构建 目录 1、初始化项目 2、目录结构 组件 1、组件的创建方式 1.1、函数创建组…

文件系统错误(-805305975)

背景 自己在一次无意中进行图片打开的时候突然发现了一个bug&#xff0c;使用windows10自带的照片查看器无论是打开后缀格式为jpg的图片还是后缀为png的图片&#xff0c;电脑反应都很慢&#xff0c;开始以为是图片太大导致的&#xff0c;后来换了小图片尝试还是不行&#xff0c…

AOI外观检测机可以识别哪些塑胶件缺陷?

塑胶件是由塑料材料制成的零部件或产品。塑料是一种可塑性强、耐腐蚀、轻质且具有良好绝缘性能的材料&#xff0c;因此被广泛用于各种工业和日常用品的制造中。塑胶件可以通过注塑、挤出、吹塑等工艺生产&#xff0c;形状和尺寸可以根据设计要求灵活调整。 塑胶件在各行各业中…

UE5 编辑器启动模式下去掉左上角的Clink for Mouse Control

Edit > Editor Preferences > Game Gets Mouse Control 把这个勾去掉

DFS算法系列 回溯

DFS算法系列-回溯 文章目录 DFS算法系列-回溯1. 算法介绍2. 算法应用2.1 全排列2.2 组合2.3 子集 3. 总结 1. 算法介绍 回溯算法是一种经典的递归算法&#xff0c;通常被用来解决排列问题、组合问题和搜索问题 基本思想 从一个初始状态开始&#xff0c;按一定的规则向前搜索&…

传世手游之冰雪传世_经典角色扮演PK类三职业传奇手游

传世手游之冰雪传世_经典角色扮演PK类三职业传奇手游_Linux服务端_通用视频架设教程_GM网页授权物品后台_苹果IOS安卓双端 源码仅供学习研究之用&#xff0c;请勿商用或者其他违法用途&#xff0c;产生其他后果与本站无关 下载地址&#xff1a;极速云

动态代理导致的Metaspace OOM(元空间内存溢出)问题

个人博客地址&#xff1a;https://blog.flycat.tech/archives/1710866783664 背景 我们团队的一个项目&#xff0c;测试环境最近隔三岔五报错&#xff0c;虽然不是生产环境&#xff0c;但既然有报错那还是得排查下&#xff0c;以免带到了生产环境导致事故。 登录上测试环境服…

navicat远程连接mysql的异常解决-1130-2003-10061

结论&#xff1a; 1、修改数据库下root用户的host字段(为空或%) 2、修改 /etc/mysql/mysql.conf.d/mysqld.cnf 文件下 bind-address 的配置为 0.0.0.0 或者屏蔽此配置内容 (默认配置是&#xff1a; bind-address 127.0.0.1) 补充&#xff1a; 查看数据库下用户与host字段的关…