近日,美国初创公司 Luma AI 宣布推出其最新的文本生成视频工具——梦幻机(Dream Machine)。这一消息发布的时间正好在中国科技公司快手推出其文本生成视频模型可灵(KLING)几天之后,标志着视频生成领域的又一突破。
梦幻机的亮点
梦幻机与市场上现有的竞争对手,如 OpenAI 的 Sora 和快手的可灵(KLING)相比,具有显著优势。Luma AI 宣称,梦幻机是一款能够从自然语言提示中生成高质量、真实视频的下一代视频模型。与 Sora 和可灵(KLING)不同,梦幻机对公众开放,任何人都可以免费使用。
根据 Luma AI 的描述,梦幻机是一种高度可扩展且高效的 Transformer 模型,直接在视频上进行训练,能够生成物理上准确的镜头。公司官网描述其为“一款从文本和图像快速制作高质量、真实视频的 AI 模型。”Luma AI 表示,梦幻机是其迈向构建通用想象引擎的第一步,目前已向所有用户开放。
功能与限制
梦幻机的主要卖点之一是其快速生成视频的能力。据悉,该工具能够在 120 秒内生成 120 帧,允许用户快速迭代。梦幻机生成的视频拥有平滑的运动、出色的摄影效果和戏剧性。它能够理解人类、动物和物体在物理世界中的互动,创建具有一致角色和准确物理效果的视频。此外,梦幻机还提供多种流畅、电影化和自然主义的摄像机运动供用户试验。
然而,梦幻机也存在一定的限制。官网列出了当前的局限性,包括变形、运动、文字和 Janus(双面神现象)。
实际测试与前景展望
尽管 Sora 能够生成长达一分钟的高清视频,可灵(KLING)能生成长达两分钟的视频,梦幻机在公开测试中的表现也备受关注。在一次测试中,使用“彼得·潘在银河之间的地毯上飞翔”的提示,梦幻机花费约一个小时生成了视频。然而,最终结果有些出人意料——彼得·潘穿着裙子,手指扭曲,而地毯则缺失。
尽管如此,梦幻机的潜力不容忽视。Luma AI 认为,这是他们迈向未来的一小步,随着技术的不断进步和改进,梦幻机有望在文本生成视频领域占据重要地位。
总的来说,Luma AI 的梦幻机为文本生成视频技术的发展注入了新的活力。尽管目前仍有一些不足,但其快速生成高质量视频的能力和公开访问的特性使其在未来有着广阔的发展前景。