FramePack 是斯坦福大学主导开发的视频生成框架,是一种用于视频生成的下一帧(下一帧部分)预测神经网络结构,可以逐步生成视频。FramePack 主要开发者之一,就是业内大名鼎鼎的张吕敏大佬,AI领域的“赛博佛祖”,ControlNet的作者,站内也发布了他的很多项目一键包。
FramePack 的最大亮点在于其极低的硬件门槛。传统视频扩散模型通常需要高昂的显存支持,而FramePack 仅需6GB显存 即可实现全帧率(30fps)下上千帧的视频扩散生成。这一特性使得普通消费级GPU也能轻松运行复杂的视频生成任务,极大降低了技术应用的门槛。在RTX 4090上,单帧生成速度1.5秒(优化后),生成1分钟视频(1800帧)不到1小时,效率碾压同类技术。
FramePack 基于腾讯的hunyuanvideo,只需要上传一张照片,输入提示词,即可生成对应的视频。应该是目前生成效果兼顾资源占用最优的开源视频生成项目,尤其是人物视频生成,效果堪称业界翘首,AI视频生成平民化即将由此拉开序幕。
今天分享的 FramePack V2版,基于国外大佬 FurkanGozukara 的WebUI整合,新增了首尾帧生成功能(由大佬汤团猪提交)、新增LoRA支持、新增批量生成、新增gif等图像格式导出、新增生成分辨率和生成视频质量选择等。
技术特点
1. 帧上下文打包:把“无效数据”压缩到极致
传统模型处理每帧都“一视同仁”,导致显存随帧数线性增长。FramePack却像“智能数据管家”: 对关键帧(如首帧、动作变化帧)用“小补丁”精细处理,保留1536个细节token; 对次要帧(如连续动作的过渡帧)用“大补丁”压缩,仅保留192个token,显存占用指数级下降。 最终实现计算复杂度恒定(无论生成100帧还是1000帧,算力消耗不变),彻底摆脱“帧数越多越卡顿”的魔咒。
2. 抗漂移采样:告别“视频越生成越歪” 长视频生成最头疼的问题——生成到第10帧还正常,第50帧就“画风突变”,这是传统“单向依赖最后一帧”的缺陷。 FramePack用“双向记忆法”解决: 生成当前帧时,既参考最近帧的细节,又回溯首帧的核心特征,像“跟着导航走”一样始终紧扣初始设定。 实测生成1800帧(60秒)视频零漂移,从开场到结尾保持画质稳定,做剧情动画、游戏过场再也不怕“崩人设”。
3. 灵活调度策略:按需分配“算力资源” 支持4种智能模式适配不同场景: 几何压缩:重点保最近帧,适合实时直播、短视频快速生成; 首帧优先:做“图生视频”时,让首帧的细节100%保留,确保画面起点高标准; 对称压缩:均衡处理所有帧,适合需要稳定连贯的教学视频、产品演示片。
应用领域
1. 内容创作者:从“素材苦手”到“效率王者” 短视频博主:再也不用花几小时剪素材,AI直接生成30秒连贯动画,成本降90%; 自媒体团队:用普通电脑就能批量生成口播背景、动态特效,小成本做出大片感; 独立游戏开发者:实时生成游戏场景过场动画,60秒长镜头轻松实现,开发周期直接腰斩。
2. 技术开发者:低成本落地AI视频功能 中小型企业:无需采购高端服务器,用现有显卡就能在APP中嵌入“AI生成视频”功能,比如电商平台的商品3D展示、教育类APP的动态课件; 边缘设备厂商:手机、VR头显、智能车载系统,未来都可能内置FramePack,实现“本地生成视频”,隐私和效率双提升。
3. 普通玩家:人人都是“视频造物主” 用手机生成个性化短视频:比如让二次元角色在厨房跳舞、给宠物“配音”生成趣味动画; 低门槛玩AI动画:不需要懂代码,下载开源工具就能上手,真正实现“想法即生成”。
使用教程:(建议N卡,显存6G起,内存RAM建议32G起。基于CUDA12.8,支持50系显卡)
上传图片,输入提示词,生成即可。
支持首位帧生成,上传一张开始帧,一张结束帧,输入提示词,生成即可。
虽然显卡要求门槛低,但部分硬件占用会转移到内存RAM上,所以建议低显存显卡用户需要有足够的内存,建议内存32G起
类似视频生成,如果想要速度和质量并存,显卡还是硬性条件, 建议尽量显卡不要太差。所以消费级显卡只能勉强体验,速度和质量都不会太高。
下载地址:私信获取