Mochi 1视频生成模型亮相:动作流畅,开放源代码

前沿科技速递🚀

近日,AI公司Genmo发布了最新的开源视频生成模型Mochi 1。Mochi 1在动作质量和提示词遵循能力方面有显著提升,并且与市面上许多闭源商业模型相媲美。作为一款支持个人和商业用途的开源工具,Mochi 1不仅展示了开源技术的力量,也为开发者提供了一个强大的视频生成工具。

来源:传神社区

01 模型简介

Mochi 1 是Genmo推出的一款全新视频生成模型,它在多项技术指标上超越了市场上的一些主流模型,如Runway的Gen-3 Alpha、Luma AI的Dream Machine、快手的Kling等。最重要的是,它以开源形式发布,并且在Apache 2.0许可下可供个人和商业使用。与市面上高昂定价的闭源模型相比,Mochi 1的开源性质将大大降低视频生成的门槛,给创作者和开发者带来新的可能性。

通过提供在线体验和开源代码,任何人都可以亲身测试Mochi 1的强大功能,体验从文本生成高质量视频的便捷。

图片

02 技术亮点

Mochi 1 在技术上取得了一些突破,尤其是在架构设计和视频生成质量方面。以下是Mochi 1的几个技术亮点:

AsymmDiT:非对称扩散变换器架构

Mochi 1采用了Genmo自主研发的AsymmDiT架构,具备100亿参数,是目前开源视频生成领域最大的一款模型。该架构在处理视觉信息时特别注重效率,使视频生成的推理过程更加平滑和流畅。视觉部分的参数量是文本部分的四倍,使得它能够捕捉到更为丰富的视觉细节。

高效视频压缩:视频VAE技术

Mochi 1引入了视频VAE(变分自编码器)技术,将原始视频数据压缩至1/128的大小,大幅减少了生成过程中的内存需求。这种高效的压缩技术降低了用户设备的资源要求,使得开发者能够在较低配置下生成高质量视频。

精确提示词遵循

该模型对提示词的遵循能力非常出色,能够根据用户输入的文本提示生成高度符合指令的视频。无论是复杂的场景、动作还是角色,Mochi 1都能准确生成符合用户预期的内容。这是通过结合多模态自注意力机制来实现的,模型能够同时关注文本和视觉tokens,并对其进行独立处理,从而达到精确控制生成视频的效果。

图片

动作流畅性与物理模拟

Mochi 1能够生成每秒30帧的视频,视频的动作流畅且连贯,特别是在模拟复杂物理现象时表现尤为突出。例如,流体动力学和毛发的模拟在Mochi 1生成的视频中显得自然且真实。此外,Mochi 1能够跨越“恐怖谷”,在生成接近现实的人类动作时表现优异。

图片

局限性

分辨率限制:目前Mochi 1的预览版仅支持480p分辨率的视频生成,虽然已经能够满足一些基本需求,但对于希望获得更高质量视频的用户来说,可能还有提升空间。值得期待的是,Genmo团队已经在积极开发高清版本,未来将支持更高的分辨率如720p甚至更高。

极端动作处理:在涉及一些非常复杂或极端动作的生成时,Mochi 1偶尔会出现轻微的视觉失真或形变。这种情况主要发生在动作变化较大的场景中,虽然不太常见,但仍有待进一步优化。随着模型的不断更新,这一问题可能会得到解决。

资源需求:尽管Mochi 1通过各种优化极大提升了生成效率,但目前推理仍需要较高的计算资源支持,推荐配置是4张H100 GPU。对于部分开发者和用户而言,这可能会稍微增加使用门槛。不过,随着硬件性能的不断提升和模型的持续优化,未来的资源要求可能会有所降低。

03 样例展示

示例指令:"A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about."

cm2mpt4kx006t3j6pu37qg7z5

示例指令:"A timelapse from the year 0 BC to the year 2000"

cm2mpt4ld007c3j6p07jlzqgt

04 模型下载

传神社区:

https://opencsg.com/models/genmo/mochi-1-preview

huggingface:

https://huggingface.co/genmo/mochi-1-preview

欢迎加入传神社区

•贡献代码,与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟:https://github.com/OpenCSGs

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群,分享经验

图片

扫描上方二维码添加传神小助手


“      关于OpenCSG

开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

关注OpenCSG

图片

加入传神社区

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/883023.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

UEFI EDK2框架学习 (四)——UEFI图形化

一、修改protocol.c #include <Uefi.h> #include <Library/UefiLib.h> #include <Library/UefiBootServicesTableLib.h> #include <stdio.h>EFI_STATUS EFIAPI UefiMain(IN EFI_HANDLE ImageHandle,IN EFI_SYSTEM_TABLE *SystemTable ) {EFI_STATUS S…

使用 EasyExcel 相邻数据相同时行和列的合并,包括动态表头、数据

前言 在处理 Excel 文件时&#xff0c;经常会遇到需要对表格中的某些单元格进行合并的情况&#xff0c;例如合并相同的行或列。Apache POI 是一个强大的工具&#xff0c;但它使用起来相对复杂。相比之下&#xff0c;EasyExcel 是一个基于 Apache POI 的轻量级 Excel 处理库&am…

软考中级网络工程师,快背,都是精华知识点!

一、上午常考概念 计算机硬件基础&#xff1a;根据考纲分析&#xff0c;本章主要考查三个模块&#xff1a;计算机体系结构、存储系统、I/O输入输出系统&#xff0c;其中每一模块又分若干知识点。“计算机硬件基础”相当于软考中的“公共基础课”&#xff0c;不同方向、不同级别…

初始JavaEE篇——多线程(2):join的用法、线程安全问题

找往期文章包括但不限于本期文章中不懂的知识点&#xff1a; 个人主页&#xff1a;我要学编程(ಥ_ಥ)-CSDN博客 所属专栏&#xff1a;JavaEE 目录 模拟实现线程中断 join的用法 线程的状态 NEW&#xff1a; RUNNABLE&#xff1a; TIMED_WAITING&#xff1a; TERMINATED…

系统架构图设计(轻量级架构)

轻量级架构一般包括&#xff1a;表现层、业务逻辑层、持久层、数据库层 表现层架构 MVC 模型&#xff08;Model&#xff09;&#xff1a;应用程序的主体部分&#xff0c;表示业务数据和业务逻辑视图&#xff08;View&#xff09;&#xff1a;用户看到并与之交流的界面控制器&…

ESP32 S3 怎么开发基于ESP-RTC的音视频实时交互的应用,用语AI陪伴的领域

在ESP32-S3平台上开发基于ESP-RTC的音视频实时交互应用&#xff0c;尤其是在AI陪伴领域&#xff0c;涉及到音视频数据的采集、编码、传输和解码。ESP32-S3 具备较强的处理能力&#xff0c;且拥有丰富的接口和模块支持&#xff0c;可以用来实现这种功能。以下是一个完整的开发方…

【操作系统】Linux之进程管理二

第1关&#xff1a;进程等待 if(wait(&status) ! -1) { if(WIFEXITED(status)) status WEXITSTATUS(status); else status -1; } else { status -1; } 第2关&#xff1a;进程创建操作-exec函数族 void execlProcess() { pid_t pid vfork(); if(pid -1) { printf("…

Lim测试平台,五步完成批量生成数据

一、前言 在日常的测试工作中&#xff0c;我们常常需要生成大量的数据&#xff0c;例如为了测试分页功能、进行性能压力测试或准备测试所需的数据集。 虽然可以通过编写脚本或者使用如JMeter这样的工具来完成这些任务&#xff0c;但在团队合作的情境下&#xff0c;这种方法存…

打造通往自由的交易系统与策略——《以交易为生》读后感

我们知道要顺势而为&#xff0c;可什么是“势”&#xff1f;交易市场就像一片汪洋大海&#xff0c;潮起潮落的背后&#xff0c;有一套可以捕捉趋势的规律。要想看到势&#xff0c;就像软件工程中的可观测性&#xff0c;要找到合适的工具和指标&#xff0c;才能发现市场中重要的…

【云从】十、常见安全问题与云计算的计费模式

文章目录 1、常见安全问题1.1 DDoS攻击1.2 病毒攻击1.3 木马攻击1.4 代码自身漏洞 2、安全体系3、云计算的计费模式4、常见云产品的计费方案5、云产品计费案例 1、常见安全问题 1.1 DDoS攻击 通过分布在各地的大量终端&#xff0c;同时向目标发送恶意报包&#xff0c;以占满目…

微信小程序版本更新管理——实现自动更新

✅作者简介&#xff1a;2022年博客新星 第八。热爱国学的Java后端开发者&#xff0c;修心和技术同步精进。 &#x1f34e;个人主页&#xff1a;Java Fans的博客 &#x1f34a;个人信条&#xff1a;不迁怒&#xff0c;不贰过。小知识&#xff0c;大智慧。 &#x1f49e;当前专栏…

图表设计中文本的字体、大小与颜色

在创建图表时&#xff0c;我们往往过分关注图形的设计而忽视了文本的重要性。文本在图表中扮演着至关重要的角色&#xff0c;它不仅辅助图形具象化地展示数据&#xff0c;更是图表真实性和可靠性的关键。然而&#xff0c;很多人在设计图表时&#xff0c;并没有考虑到字体的选择…

生成对抗网络模拟缺失数据,辅助PAMAP2数据集仿真实验

PAMAP2数据集是一个包含丰富身体活动信息的数据集&#xff0c;它为我们提供了一个理想的平台来开发和测试HAR模型。本文将从数据集的基本介绍开始&#xff0c;逐步引导大家通过数据分割、预处理、模型训练&#xff0c;到最终的性能评估&#xff0c;在接下来的章节中&#xff0c…

PPT一键合并单元格!2个实用办公技巧,助力轻松搞定ppt!

我们都知道&#xff0c;ppt是一个多元的内容呈现媒介&#xff0c;我们可以在ppt中插入文字、图片、视频、音频和表格等&#xff0c;每种元素起到不同的作用&#xff0c;彼此间相得益彰。对于PPT中的表格&#xff0c;有时需要进行合并单元格的操作&#xff0c;即多合一&#xff…

ubuntu22.04安装Jupyter Notebook

在 Ubuntu 22.04 上安装 Jupyter Notebook 可以通过以下步骤完成&#xff1a; 1. 更新系统 首先&#xff0c;确保你的系统是最新的&#xff0c;运行以下命令更新包列表和已安装的软件包&#xff1a; sudo apt update sudo apt upgrade2. 安装 Python 及 pip Ubuntu 通常默认…

校园建筑用电安全监测装置 电气火灾监测预防设备功能介绍

在现代建筑中&#xff0c;电气火灾监测装置的作用越来越重要。随着建筑规模的扩大和电气设备的多样化&#xff0c;电气火灾的风险也随之增加。因此&#xff0c;建立有效的火灾监测和预警系统&#xff0c;对于保护人身安全和财产安全显得尤为关键。 电气火灾指由电气故障引发的…

Ubuntu(Linux)tcpdump使用方法详解

tcpdump命令 1.从所有网卡获取数据包 tcpdump -i any2.从指定网卡获取数据包 tcpdump -i eth03.指定网卡&#xff0c;IP&#xff0c;写文件 tcpdump -i eth0 host 192.168.16.101 -w ./tcp.dat //host 后面是发送方的地址4.指定网卡&#xff0c;源IP且目的IP&#xff0c;写入…

Nacos2.3.2在ubuntu中的部署

Nacos2.3.2 在ubuntu下的部署 下载地址 发布历史 | Nacos 官网 https://download.nacos.io/nacos-server/nacos-server-2.3.2.zip 修改 application.properties文件 开启鉴权 ### 开启鉴权功能 nacos.core.auth.caching.enabledtrue ### The auth system to use, current…

WebMvcConfigurer自定义配置

1. WebMvcConfigurer&#xff08;轻量级扩展配置&#xff09; 1.1 简介 WebMvcConfigurer 是 Spring 提供的接口&#xff0c;用于扩展 Spring MVC 的默认行为。它是一种非侵入式的配置方式&#xff0c;可以轻松地进行各种自定义配置&#xff0c;如拦截器、消息转换器、跨域设…

嵌入式※~MCU~LWIP~TLS/HTTPS等

单片机MCU中的加密通道, 使用各种的加密通道, http / tcp / mqtt 等 可能不在重复发了 ~~ 请看链接吧~~~ 我自己的原文哦~ https://blog.51cto.com/whaosoft/11803802