Sora后时代文生视频的探索

一、写在前面

按常理,这里应该长篇大论地介绍一下Sora发布对各行业各方面产生的影响。不过,这类文章已经很多了,我们今天主要聊聊那些已经成熟的解决方案、那些已经可以“信手拈来”的成果,并以此为基础,看看Sora发布后的时代我们能做些什么。

本文涉及的、可尝试的应用地址

[1] Stable Video Diffusion huggingface space(仅支持图生视频):https://huggingface.co/spaces/multimodalart/stable-video-diffusion
[2] 小诺AI(支持文生视频和图生视频):微信搜索小程序-小诺AI
[3] Pika(支持文生视频):https://pika.art/
[4] Open-Sora(支持文生视频):GitHub - hpcaitech/Open-Sora: Open-Sora: Democratizing Efficient Video Production for All

二、当前视频生成解决方案一览

最近看了很多文生视频的开源构建项目[1]、[4]以及闭源直接应用项目[2]、[3],一个直观感受是大家对Sora的应用都很期待。Sora发布至今仅一个月,已经有很多可以直接体验的文生视频产品被推出,这里选择几个比较有人气的应用介绍下。

pika

Pika[3]是Sora前产物,它们勇敢地做出了自己的尝试。虽然Sora发布后对Pika的质疑声音越来越大,但毋庸置疑Pika是先行者,而且取得了不错的成绩,而且Pika也在迭代优化中,有了Sora的经验,Pika有可能在之后带给人们更大的惊喜,个人将保持期待。

这里给出一个官网的示例。

Prompt:3d animation, a cute boy is standing in a house, spring festival interior, lunar new year, holiday.

Stable Video Diffusion

Stable Video Diffusion[1]也是Sora前产物,与Pika不同的是SVD是一个开源项目。所以,有一种观点是Sora借鉴了SVD,这种观点有一定的道理。查看Sora的report,有很多细节如DiT与SVD是一致的。而且SVD在前,说借鉴也没问题。个人觉得SVD是目前视频生成质量最高的解决方案,它能接受的输入形式是image。这里是一个示例,输入的image是一个静态的发射中的火箭,而输出的视频将整个发射过程动态化呈现。

图片输入 rocket

视频输出 rocket(博客不能放视频,这里是将video抽帧呈现的gif)

我们探讨一个问题,SVD的执行过程因为缺少语义的指导,所以它的任务只是将其“动态化”,这种“动态化”有可能是违背物理规律的。通俗地讲,上面的火箭也有可能是水平运动的(我自己的尝试中出现过这种情况),并没有一种途径去指定image中的物体的具体轨迹,指定如何运动才是正确的,这里的运动形式是单纯地由模型在数据集中学习的。

SVD的后续工作应该是加入text,提供更清晰的语义。

Open-Sora

Open-Sora[4]是Sora后产物,是完全根据Sora公布的report复现的开源项目。以下引自Open-Sora项目首页的简介。

Open-Sora项目是一项致力于高效制作高质量视频,并使所有人都能使用其模型、工具和内容的计划。 通过采用开源原则,Open-Sora 不仅实现了先进视频生成技术的低成本普及,还提供了一个精简且用户友好的方案,简化了视频制作的复杂性。 通过 Open-Sora,我们希望更多开发者一起探索内容创作领域的创新、创造和包容。Open-Sora 项目目前处在早期阶段,并将持续更新。

这里也给出一些示例,直观感受下效果。

Prompt:A serene night scene in a forested area. The first frame shows a tranquil lake reflecting the star-filled sky above. The second frame reveals a beautiful sunset, casting a warm glow over the landscape. The third frame showcases the night sky, filled with stars and a vibrant Milky Way galaxy. The video is a time-lapse, capturing the transition from day to night, with the lake and forest serving as a constant backdrop. The style of the video is naturalistic, emphasizing the beauty of the night sky and the peacefulness of the forest.

Prompt:A soaring drone footage captures the majestic beauty of a coastal cliff, its red and yellow stratified rock faces rich in color and against the vibrant turquoise of the sea. Seabirds can be seen taking flight around the cliff's precipices. As the drone slowly moves from different angles, the changing sunlight casts shifting shadows that highlight the rugged textures of the cliff and the surrounding calm sea. The water gently laps at the rock base and the greenery that clings to the top of the cliff, and the scene gives a sense of peaceful isolation at the fringes of the ocean. The video captures the essence of pristine natural beauty untouched by human structures.

Prompt:The video captures the majestic beauty of a waterfall cascading down a cliff into a serene lake. The waterfall, with its powerful flow, is the central focus of the video. The surrounding landscape is lush and green, with trees and foliage adding to the natural beauty of the scene. The camera angle provides a bird's eye view of the waterfall, allowing viewers to appreciate the full height and grandeur of the waterfall. The video is a stunning representation of nature's power and beauty.

Prompt:A serene underwater scene featuring a sea turtle swimming through a coral reef. The turtle, with its greenish-brown shell, is the main focus of the video, swimming gracefully towards the right side of the frame. The coral reef, teeming with life, is visible in the background, providing a vibrant and colorful backdrop to the turtle's journey. Several small fish, darting around the turtle, add a sense of movement and dynamism to the scene. The video is shot from a slightly elevated angle, providing a comprehensive view of the turtle's surroundings. The overall style of the video is calm and peaceful, capturing the beauty and tranquility of the underwater world.

小诺AI

小诺AI[3]是舒笔科技推出的一款微信小程序,是基于SVD优化的文生视频产品。在SVD的基础上,小诺AI集成了支持文字Prompt输入的功能,打通了文生视频的pipeline,使用户所写即所得。

该产品目前只支持英文输入的功能,不过没关系,小诺AI同时集成了Prompt咒语生成功能,可将中文Prompt翻译。同时,如果也可以利用该功能对Prompt进行扩写。

这里是一些示例的展示。

Prompt:The sun is setting by the mountain.

Prompt:breathtaking selfie photograph of astronaut floating in space, earth in the background. award-winning, professional, highly detailed

Prompt:breathtaking night street of city, neon lights. award-winning, professional, highly detailed

Prompt:anime artwork an empty classroom. anime style, key visual, vibrant, studio anime, highly detailed

Prompt:a beautiful room

Prompt:anime artwork an island surrounding by the sea, dramatic, anime style, key visual, vibrant, studio anime, highly detailed

Prompt:concept art of a warrior with a sword, clouds. digital artwork, illustrative, painterly, matte painting, highly detailed, cinematic composition

Prompt:16-bit pixel art, a cozy cafe side view, a beautiful day

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/759128.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

练习实践-TLS协议01-Wireshark对https数据的解密

参考来源: https://zhuanlan.zhihu.com/p/36669377 https://blog.csdn.net/u010726042/article/details/53408077 思路: wireshark抓到的https流量包经过了ssl加密,那么我们如何才能查看解密的数据呢?Firefox和Chrome浏览器都支…

ubuntu显卡驱动安装

最近电脑显示器频繁出现故障导致显卡驱动总是出问题,找到了一套简单、有效的显卡驱动安装方式,记录一下方便下次出问题时候用。 参考了以下文章: Ubuntu18-22.04安装和干净卸载nvidia显卡驱动——超详细、最简单 Ubuntu 安装显卡驱动 显卡驱…

海外云手机如何帮助亚马逊引流?

随着全球化的推进,出海企业和B2B外贸企业越来越注重海外市场的开拓,这已成为企业争夺市场份额的重要策略。本文将重点探讨海外云手机在优化亚马逊店铺引流方面的作用和优势。 海外云手机是一种在云端运行的虚拟手机,能够在单一芯片上多开几个…

python爬虫基础实验:通过DBLP数据库获取数据挖掘顶会KDD在2023年的论文收录和相关作者信息

Task1 读取网站主页整个页面的 html 内容并解码为文本串(可使用urllib.request的相应方法),将其以UTF-8编码格式写入page.txt文件。 Code1 import urllib.requestwith urllib.request.urlopen(https://dblp.dagstuhl.de/db/conf/kdd/kdd202…

PyTorch 深度学习(GPT 重译)(二)

四、使用张量表示真实世界数据 本章内容包括 将现实世界的数据表示为 PyTorch 张量 处理各种数据类型 从文件加载数据 将数据转换为张量 塑造张量,使其可以作为神经网络模型的输入 在上一章中,我们了解到张量是 PyTorch 中数据的构建块。神经网络…

Excel使用VLOOKUP函数

VLOOKUP(lookup_value,table_array,col_index_num,range_lookup) 释义: lookup_value:要查找的值,包括数字,文本等 table_array:要查找的值以及预期返回的内容所在的区域 col_index_num:查找的区域的列…

微信小程序订阅消息(一次性订阅消息)

1、准备工作 登录微信公众平台–>订阅消息–>在公共模板库中选中一个模版–>将模版id复制,前后端都需要。 点击详情–>查看详细内容模版 复制给后端 2、相关api的使用 前端使用:wx.requestSubscribeMessage wx.openSetting wx.getSetti…

Gateway新一代网关

Gateway新一代网关 1、概述 ​ Cloud全家桶中有个很重要的组件就是网关,在1.x版本中都是采用的Zuul网关; ​ 但在2.x版本中,zuul的升级一直跳票,SpringCloud最后自己研发了一个网关SpringCloud Gateway替代Zuul。 ​ 官网&…

ubuntu部署wireguard服务端,ubuntu部署wireguard客户端

docker部署方式 docker run -d \--namewg-easy \-e WG_HOST6.6.6.6服务端IP \-e PASSWORD123abc登陆管理密码 \-e WG_DEFAULT_ADDRESS10.0.8.x客户端 IP 地址范围 \-e WG_DEFAULT_DNS1.1.1.1配置dns \-e WG_ALLOWED_IPS10.0.8.0/24 \-e WG_PERSISTENT_KEEPALIVE25 \-v ~/.wg-e…

uniapp、vue2.6、H5,利用腾讯TRTC,快速跑通1v1视频功能

多人视频聊天室搭建,官网已有相关demo和案例,需要快速搭建多人聊天室直接进入以下网站: 实时音视频 Web & H5 (Vue2/Vue3)-视频通话(含 UI)-文档中心-腾讯云说明:https://cloud.tencent.com/document/…

北斗短报文+4G应急广播系统:全面预警灾害信息 构建安全美好乡村

建设社会主义新农村是确保小康社会宏伟目标如期实现的必然要求,是构建和谐社会的重要内容。针对现代农业发展的要求,通过完善专业化监测预报技术,提高精细化的灾害监测预警能力,建设广覆盖的预警信息发布网络,建设有效…

练习 9 Web [SUCTF 2019]CheckIn (未拿到flag)

上传图片格式的木马文件&#xff1a; 返回 <? in contents!,存在PHP代码检测 上传非图片格式文件&#xff1a; 返回 不允许非image 修改木马PHP代码规避检测 <? ?> 改为 < script language“php”>< /script ><?php eval($_POST[shell]);?>…

PyTorch 深度学习(GPT 重译)(四)

第二部分&#xff1a;从现实世界的图像中学习&#xff1a;肺癌的早期检测 第 2 部分的结构与第 1 部分不同&#xff1b;它几乎是一本书中的一本书。我们将以几章的篇幅深入探讨一个单一用例&#xff0c;从第 1 部分学到的基本构建模块开始&#xff0c;构建一个比我们迄今为止看…

酷炫的粒子动态表白HTML源码

源码介绍 酷炫的粒子动态表白HTML源码&#xff0c;自己自定义文字&#xff0c;动态组合文字&#xff0c;进行表白&#xff0c;喜欢的朋友可以下载使用&#xff0c;很不错的表白HTML代码 下载地址 酷炫的粒子动态表白HTML源码

【论文阅读】通过组件对齐评估和改进 text-to-SQL 的组合泛化

Measuring and Improving Compositional Generalization in Text-to-SQL via Component Alignment NAACL 2022| CCF B Abstract 在 text-to-SQL 任务中&#xff0c;正如在许多 NLP 中一样&#xff0c;组合泛化是一个重大挑战&#xff1a;神经网络在训练和测试分布不同的情况…

2024 Python3.10 系统入门+进阶(二):Python编程环境搭建

目录 一、Windows安装Python1.1 下载并安装 Python1.2 测试安装是否成功 二、Linux系统安装Python(新手可以跳过)2.1 基于RockyLinux系统安装Python(编译安装)2.2 基于Ubuntu系统安装Python(编译安装) 三、如何运行Python程序&#xff1f;3.1 Python 交互式编程3.2 编写Python源…

GB28181 —— 5、C++编写GB28181设备端,完成将USB摄像头视频实时转发至GB28181服务并可播放(附源码)

被测试的USB摄像头 效果 源码说明 主要功能模拟设备端&#xff0c;完成注册、注销、心跳等&#xff0c;同时当服务端下发指令播放视频时 设备端实时读取USB摄像头视频并通过OpenCV处理后实时转ps格式后封包rtp进行推送给服务端播放。 源码 /****remark: pes头的封装,里面的具…

开发环境配置本地hosts修改域名

一、找到hosts文件的位置&#xff1a; 方法一&#xff1a;windows系统下&#xff0c;直接 WinR 键输入&#xff1a; C:\WINDOWS\system32\drivers\etc 如图所示&#xff1a;输入完后点击确认 方法二&#xff1a;直接按照路径 C:\WINDOWS\system32\drivers\etc 去找 如图所示…

Opencv | 图像基础知识

目录 一. 图像基础知识1. 颜色空间1.1 RGB颜色空间1.2 HSV颜色空间1.3 CMY(K)颜色空间 (了解) 2. 颜色图2.1 RGB三通道彩色图2.1.1 RGB图片数据格式 2.2 单通道灰度图 一. 图像基础知识 1. 颜色空间 1.1 RGB颜色空间 加法混色&#xff0c;彩色显示器 3通道&#xff1a;Red通道…

ASP.NET-Global.asax使用详解

本文介绍了如何使用Global.asax文件来增强ASP.NET Web应用程序的功能。首先&#xff0c;介绍了Global.asax文件的作用和基本功能。接着&#xff0c;详细探讨了在Global.asax中实现定时任务、应用程序级别的错误处理、应用程序启动和结束时执行特定逻辑等功能。随后&#xff0c;…