Mochi 1视频生成模型亮相：动作流畅，开放源代码

前沿科技速递🚀

近日，AI公司Genmo发布了最新的开源视频生成模型Mochi 1。Mochi 1在动作质量和提示词遵循能力方面有显著提升，并且与市面上许多闭源商业模型相媲美。作为一款支持个人和商业用途的开源工具，Mochi 1不仅展示了开源技术的力量，也为开发者提供了一个强大的视频生成工具。

来源：传神社区

01 模型简介

Mochi 1 是Genmo推出的一款全新视频生成模型，它在多项技术指标上超越了市场上的一些主流模型，如Runway的Gen-3 Alpha、Luma AI的Dream Machine、快手的Kling等。最重要的是，它以开源形式发布，并且在Apache 2.0许可下可供个人和商业使用。与市面上高昂定价的闭源模型相比，Mochi 1的开源性质将大大降低视频生成的门槛，给创作者和开发者带来新的可能性。

通过提供在线体验和开源代码，任何人都可以亲身测试Mochi 1的强大功能，体验从文本生成高质量视频的便捷。

02 技术亮点

Mochi 1 在技术上取得了一些突破，尤其是在架构设计和视频生成质量方面。以下是Mochi 1的几个技术亮点：

AsymmDiT：非对称扩散变换器架构

Mochi 1采用了Genmo自主研发的AsymmDiT架构，具备100亿参数，是目前开源视频生成领域最大的一款模型。该架构在处理视觉信息时特别注重效率，使视频生成的推理过程更加平滑和流畅。视觉部分的参数量是文本部分的四倍，使得它能够捕捉到更为丰富的视觉细节。

高效视频压缩：视频VAE技术

Mochi 1引入了视频VAE（变分自编码器）技术，将原始视频数据压缩至1/128的大小，大幅减少了生成过程中的内存需求。这种高效的压缩技术降低了用户设备的资源要求，使得开发者能够在较低配置下生成高质量视频。

精确提示词遵循

该模型对提示词的遵循能力非常出色，能够根据用户输入的文本提示生成高度符合指令的视频。无论是复杂的场景、动作还是角色，Mochi 1都能准确生成符合用户预期的内容。这是通过结合多模态自注意力机制来实现的，模型能够同时关注文本和视觉tokens，并对其进行独立处理，从而达到精确控制生成视频的效果。

动作流畅性与物理模拟

Mochi 1能够生成每秒30帧的视频，视频的动作流畅且连贯，特别是在模拟复杂物理现象时表现尤为突出。例如，流体动力学和毛发的模拟在Mochi 1生成的视频中显得自然且真实。此外，Mochi 1能够跨越“恐怖谷”，在生成接近现实的人类动作时表现优异。

局限性

分辨率限制：目前Mochi 1的预览版仅支持480p分辨率的视频生成，虽然已经能够满足一些基本需求，但对于希望获得更高质量视频的用户来说，可能还有提升空间。值得期待的是，Genmo团队已经在积极开发高清版本，未来将支持更高的分辨率如720p甚至更高。

极端动作处理：在涉及一些非常复杂或极端动作的生成时，Mochi 1偶尔会出现轻微的视觉失真或形变。这种情况主要发生在动作变化较大的场景中，虽然不太常见，但仍有待进一步优化。随着模型的不断更新，这一问题可能会得到解决。

资源需求：尽管Mochi 1通过各种优化极大提升了生成效率，但目前推理仍需要较高的计算资源支持，推荐配置是4张H100 GPU。对于部分开发者和用户而言，这可能会稍微增加使用门槛。不过，随着硬件性能的不断提升和模型的持续优化，未来的资源要求可能会有所降低。

03 样例展示

示例指令："A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about."

cm2mpt4kx006t3j6pu37qg7z5

示例指令："A timelapse from the year 0 BC to the year 2000"

cm2mpt4ld007c3j6p07jlzqgt