小朋友不爱背诗怎么办?《千秋诗颂》试试看。
2 月 26 日,中国首部文生视频 AI 系列动画《千秋诗颂》于 CCTV-1 频道正式播出,这部动画由上海人工智能实验室和「央妈」(中央广播电视总台)强强联手,借助「央视听媒体大模型」,从美轮美奂的画面到动感十足的效果,直接把古诗里的世界带到小朋友眼前。
据了解,「千秋诗颂」综合运用了可控图像生成、人物动态生成、文生视频等最新技术成果,其背后的智囊团上海人工智能实验室的研究人员一直深耕于文生图、文生视频等领域,早在 2023 年年底就发布了全球第一个开源的文生视频 DiT:Latte。
提及「文生视频」,大家最先想到的便是 Sora,Latte 则是在网友们寻找「开源 Sora」时得到了更多关注。上海人工智能实验室研究员王耀晖曾在接受采访时表示,「当时受到的关注并不算多,直到 Sora 的出现人们才发现原来我们已经开源了类似工作。」
他还曾提出,「据我了解,我们的成果是世界上第一个开源的文生视频 DiT 模型,目前大部分复现 Sora 的 open-sora 工作,都参考了我们的开源代码和模型设计。」
其实,基于相似技术路线的 Latte 同样具备令人惊艳的性能,在 4 个标准的视频生成数据集上实现了 SOTA,即 FaceForenics、SkyTimelapse、UCF101 和 Taichi-HD。
为了帮助大家更好地体验 Latte,OpenBayes 平台上线了「Latte 全球首个开源文生视频 DiT」教程!该教程为大家搭建好了环境,大家无需再等待模型下载训练,点击克隆即可一键启动,输入文本即时生成视频!
公共教程地址:
https://go.openbayes.com/ZqOEO
小贝用文本「a dog with sunglasses」生成了一个戴墨镜的小狗视频,还挺帅气的!
操作步骤
PART 1
Demo 运行阶段
1. 登录 OpenBayes.com,在「公共教程」页面,选择「Latte 全球首个开源文生视频 DiT」。
2. 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
3. 点击右下角「下一步:选择算力」。
4. 跳转后,选择「NVIDIA GeForce RTX 4090」,点击「下一步:审核」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!小贝总专属邀请链接(直接复制到浏览器打开):
https://openbayes.com/console/signup?r=GraceXiii_W8qO
5. 点击「继续执行」,等待分配资源,首次克隆需等待 3-5 分钟左右的时间。当状态变为「运行中」后,点击「打开工作空间」。
若超过 10 分钟仍处于「正在分配资源」状态,可尝试停止并重启容器;若重启仍无法解决,请在官网联系平台客服。
6. 打开工作空间后,在左侧菜单中根据路径打开配置文件 home/Latte/configs/t2v/t2v_sample.yaml,在 text_prompt 下输入 prompt「例如:a dog with sunglasses」,并通过 Ctrl+S 保存。
7. 保存后,新建一个终端页面,输入「cd Latte」并按下回车键后进入「Latte」目录。输入「bash sample/t2v.sh」即可生成高清视频。
PART 2
效果演示阶段
1.当进度条显示 100% 后,打开左侧菜单栏「Latte/sample_videos」,找到我们生成的视频,点击右键下载。请注意,MP4 视频无法直接观看,需要下载后才可观看。
2. 一个小狗戴墨镜的视频就生成啦!