网站建设价格差异/市场营销专业课程

网站建设价格差异,市场营销专业课程,也可以用,网站设计是平面设计吗Wan-Video 模型介绍:包括 Wan-Video-1.3B-T2V 和 Wan-Video-14B-T2V 两个版本,分别支持文本到视频(T2V)和图像到视频(I2V)生成。14B 版本需要更高的 VRAM 配置。 Wan2.1 是一套全面开放的视频基础模型&…

Wan-Video 模型介绍:包括 Wan-Video-1.3B-T2V 和 Wan-Video-14B-T2V 两个版本,分别支持文本到视频(T2V)和图像到视频(I2V)生成。14B 版本需要更高的 VRAM 配置。

Wan2.1 是一套全面开放的视频基础模型,旨在突破视频生成的界限。Wan2.1 具有以下几个关键特性:

  • SOTA 性能:Wan2.1 在多个基准测试中始终优于现有的开源模型和最先进的商业解决方案。

  • 支持消费级 GPU:T2V-1.3B 型号仅需 8.19 GB VRAM,可兼容几乎所有消费级 GPU。它可在约 4 分钟内用 RTX 4090 生成一段 5 秒的 480P 视频(未使用量化等优化技术),性能甚至可与一些闭源型号相媲美。

  • 多任务:Wan2.1 在文本转视频、图像转视频、视频编辑、文本转图像、视频转音频方面表现出色,推动了视频生成领域的发展。

  • 视觉文本生成:Wan2.1是第一个能够生成中英文文本的视频模型,具有强大的文本生成功能,可增强其实际应用。

  • 强大的视频 VAE:Wan-VAE 提供卓越的效率和性能,可对任意长度的 1080P 视频进行编码和解码,同时保留时间信息,使其成为视频和图像生成的理想基础。

相关链接

  • 推理链接:https://github.com/modelscope/DiffSynth-Studio/tree/main/examples/wanvideo?continueFlag=79104c0ee2c31191b38f9b2c59a528d9

  • 模型链接:https://huggingface.co/Wan-AI?continueFlag=79104c0ee2c31191b38f9b2c59a528d9

  • comfyui:https://github.com/kijai/ComfyUI-WanVideoWrapper?continueFlag=79104c0ee2c31191b38f9b2c59a528d9

  • 官网:https://wan.video/welcome?spm=a2ty_o02.30011076.0.0.118ce41e6cpA82

介绍

Wan2.1-I2V-14B

I2V-14B 模型的表现超越了领先的闭源模型以及所有现有的开源模型,达到了 SOTA 性能。它能够根据输入的文本和图像生成展示复杂视觉场景和运动模式的视频,包括 480P 和 720P 分辨率的模型。

Wan2.1-T2V-14B

T2V-14B 模型在开源和闭源模型中创下了 SOTA 性能新高,展现出其能够生成具有大量运动动态的高质量视觉效果的能力。它还是唯一能够同时生成中英文文本的视频模型,并支持 480P 和 720P 分辨率的视频生成。

Wan2.1-T2V-1.3B

T2V-1.3B 模型支持在几乎所有消费级 GPU 上生成视频,仅需 8.19 GB BRAM 即可生成 5 秒的 480P 视频,在 RTX 4090 GPU 上输出时间仅为 4 分钟。通过预训练和蒸馏过程,它超越了更大的开源模型,甚至达到了与一些先进的闭源模型相当的性能。

Wan2.1 以主流的扩散变换器范式为基础,通过一系列创新显著提升了生成能力,包括我们新颖的时空变分自动编码器 (VAE)、可扩展的预训练策略、大规模数据构建和自动化评估指标。这些贡献共同提升了模型的性能和多功能性。

3D 变分自动编码器

我们提出了一种专为视频生成而设计的新型 3D 因果 VAE 架构。我们结合了多种策略来改善时空压缩、减少内存使用并确保时间因果关系。这些增强功能不仅使我们的 VAE 更高效、更可扩展,而且更适合与 DiT 等基于扩散的生成模型集成。

为了高效支持任意长视频的编码和解码,我们在 3D VAE 的因果卷积模块中实现了特征缓存机制。具体来说,视频序列帧数遵循 1 + T 输入格式,因此我们将视频分成 1 + T/4 个块,与潜在特征的数量一致。在处理输入视频序列时,该模型采用逐块策略,其中每个编码和解码操作仅处理与单个潜在表示相对应的视频块。基于时间压缩比,每个处理块中的帧数最多限制为 4,从而有效防止 GPU 内存溢出。 实验结果表明,我们的视频 VAE 在两个指标上都表现出了极具竞争力的性能,展现了卓越视频质量和高处理效率的双重优势。值得注意的是,在相同的硬件环境(即单个 A800 GPU)下,我们的 VAE 的重建速度比现有的 SOTA 方法(即 HunYuanVideo)快 2.5 倍。由于我们的 VAE 模型的小尺寸设计和特征缓存机制,这种速度优势将在更高分辨率下得到进一步体现。

视频传播 DiT

Wan2.1 采用主流 Diffusion Transformers 范式中的 Flow Matching 框架进行设计。在我们的模型架构中,我们利用 T5 Encoder 对输入的多语言文本进行编码,并在每个 Transformer 块内加入交叉注意力机制,将文本嵌入到模型结构中。此外,我们还使用 Linear 层和 SiLU 层来处理输入的时间嵌入,并分别预测六个调制参数。此 MLP 在所有 Transformer 块之间共享,每个块都学习一组不同的偏差。我们的实验结果表明,在相同的参数规模下,这种方法可以显著提高性能。因此,我们在 1.3B 和 14B 模型中都实现了此架构。

模型扩展和训练效率

在训练过程中,我们使用 FSDP 进行模型分片,当与上下文并行 (CP) 结合时,FSDP 组和 CP 组相交,而不是形成模型并行 (MP) 和 CP/DP 的嵌套组合。在 FSDP 中,DP 大小等于 FSDP 大小除以 CP 大小。在满足内存和单批次延迟要求后,我们使用 DP 进行扩展。

在Inference过程中,为了降低扩展到多GPU时生成单个视频的延迟,需要选择Context Parallel进行分布式加速。另外当模型很大时,需要进行模型分片。

  • 模型分片策略:对于 14B 这样的大型模型,必须考虑模型分片。考虑到序列长度通常很长,FSDP 与 TP 相比通信开销较小,并且允许计算重叠。因此,我们选择 FSDP 方法进行模型分片,与我们的训练方法一致(注意:仅分片权重而不实现数据并行)。

  • 上下文并行策略:采用与训练时相同的 2D 上下文并行方法:对外层(机器间)采用 RingAttention,对内层(机器内)采用 Ulysses。 在万14B大模型上,采用2D Context Parallel和FSDP并行策略,DiT实现了接近线性的加速比,如下图所示。

下表中我们测试了不同Wan2.1模型在不同GPU上的计算效率,结果以总时间(s)/峰值GPU内存(GB)的格式呈现。

图像转视频

图像到视频 (I2V) 任务旨在根据输入提示将给定图像动画化为视频,从而增强视频生成的可控性。我们引入额外的条件图像作为第一帧来控制视频合成。具体而言,条件图像沿时间轴与零填充帧连接,形成指导帧。然后,这些指导帧由 3D 变分自动编码器 (VAE) 压缩为条件潜在表示。此外,我们引入了一个二元掩码,其中 1 表示保留的帧,0 表示需要生成的帧。掩码的空间大小与条件潜在表示匹配,但掩码与目标视频共享相同的时间长度。然后,将此掩码重新排列为与 VAE 的时间步幅相对应的特定形状。噪声潜在表示、条件潜在表示和重新排列的掩码沿通道轴连接并传递通过提出的 DiT 模型。由于 I2V DiT 模型的输入通道比文本转视频 (T2V) 模型多,因此使用了额外的投影层,并用零值初始化。此外,我们使用 CLIP 图像编码器从条件图像中提取特征表示。这些提取的特征由三层多层感知器 (MLP) 投影,用作全局上下文。然后通过解耦交叉注意力将此全局上下文注入 DiT 模型。

数据

我们整理并去重了一个包含大量图像和视频数据的候选数据集。在数据整理过程中,我们设计了一个四步数据清理流程,重点关注基本维度、视觉质量和运动质量。通过强大的数据处理流程,我们可以轻松获得高质量、多样化、大规模的图像和视频训练集。

与 SOTA 的比较

为了评估 Wan2.1 的性能,我们将 Wan2.1 与领先的开源和闭源模型进行了比较。我们使用精心设计的 1,035 个内部提示集进行测试,这些提示集涵盖了 14 个主要维度和 26 个子维度,涵盖了运动质量、视觉质量、风格和多目标等方面。最终,我们根据每个维度的重要性通过加权平均计算总分。详细结果如下表所示。从这些结果可以看出,我们的模型在与闭源和开源模型的全面比较中取得了最佳性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/71760.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

nuxt2 打包优化使用“compression-webpack-plugin”插件

在使用 Nuxt.js 构建项目时,为了提高性能,通常会考虑对静态资源进行压缩。compression-webpack-plugin 是一个常用的 Webpack 插件,用于在生产环境中对文件进行 Gzip 压缩。这对于减少网络传输时间和提高页面加载速度非常有帮助。下面是如何在…

大型语言模型训练的三个阶段:Pre-Train、Instruction Fine-tuning、RLHF (PPO / DPO / GRPO)

前言 如果你对这篇文章可感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。 当前的大型语言模型训练大致可以分为如下三个阶段: Pre-train:根据大量可获得的文本资料&#…

模型压缩技术(二),模型量化让模型“轻装上阵”

一、技术应用背景 在人工智能蓬勃发展的浪潮下,大模型在自然语言处理、计算机视觉等诸多领域大放异彩,像知名的GPT以及各类开源大语言模型,其规模与复杂度持续攀升。然而,这一发展也带来了挑战,模型越大,对…

【算法题】小鱼的航程

问题: 分析 分析题目,可以看出,给你一个开始的星期,再给一个总共天数,在这些天内,只有周六周日休息,其他全要游泳250公里。 那分支处理好啦 当星期为6时,需要消耗2天,…

GStreamer —— 2.5、Windows下Qt加载GStreamer库后运行 - “教程5:GUI 工具包集成(gtk)“(附:完整源码)

运行效果 简介 上一个教程演示了时间管理及seek操作。本教程介绍如何将 GStreamer 集成到图形用户中 接口 (GUI) 工具包,如 GTK。基本上 GStreamer 负责媒体播放,而 GUI 工具包处理 用户交互。最有趣的部分是那些 库必须进行交互&…

NLTK和jieba

NLTK与jieba概述 自然语言处理(NLP)领域是计算机科学领域与人工智能领域中的一个重要方向,主要研究方向是实现人与计算机之间用自然语言进行有效通信的各种理论和方法。 在自然语言处理领域中,文本类型的数据占据着很大的市场&a…

DeepSeek-R1本地化部署(Mac)

一、下载 Ollama 本地化部署需要用到 Ollama,它能支持很多大模型。官方网站:https://ollama.com/ 点击 Download 即可,支持macOS,Linux 和 Windows;我下载的是 mac 版本,要求macOS 11 Big Sur or later,Ol…

支持向量简要理解

决策方程符合感知机区分理论,我们基于线性代数来看这满足子空间理论,可以获取得到超平面。 支持向量机的目标是寻找最与超平面最近的点的最大距离,而距离计算如上,符合数学上计算点到线(面)的距离公式。 …

使用OpenCV和MediaPipe库——实现人体姿态检测

目录 准备工作如何在Windows系统中安装OpenCV和MediaPipe库? 安装Python 安装OpenCV 安装MediaPipe 验证安装 代码逻辑 整体代码 效果展示 准备工作如何在Windows系统中安装OpenCV和MediaPipe库? 安装Python 可以通过命令行运行python --versio…

5G学习笔记之BWP

我们只会经历一种人生,我们选择的人生。 参考:《5G NR标准》、《5G无线系统指南:如微见著,赋能数字化时代》 目录 1. 概述2. BWP频域位置3. 初始与专用BWP4. 默认BWP5. 切换BWP 1. 概述 在LTE的设计中,默认所有终端均能处理最大2…

Linux下安装elasticsearch(Elasticsearch 7.17.23)

Elasticsearch 是一个分布式的搜索和分析引擎,能够以近乎实时的速度存储、搜索和分析大量数据。它被广泛应用于日志分析、全文搜索、应用程序监控等场景。 本文将带你一步步在 Linux 系统上安装 Elasticsearch 7.17.23 版本,并完成基本的配置&#xff0…

NVIDIA显卡驱动、CUDA、cuDNN 和 TensorRT 版本匹配指南

一、驱动安装 1、下载驱动 前往NVIDIA驱动下载页,输入显卡型号和操作系统类型,选择≥目标CUDA版本要求的驱动版本‌。 2、安装驱动‌ ‌Windows‌:双击安装包按向导操作。‌Linux‌:建议使用apt或官方.run文件安装‌。 3、验证…

基于PyTorch的深度学习5——神经网络工具箱

可以学习如下内容: • 介绍神经网络核心组件。 • 如何构建一个神经网络。 • 详细介绍如何构建一个神经网络。 • 如何使用nn模块中Module及functional。 • 如何选择优化器。 • 动态修改学习率参数。 5.1 核心组件 神经网络核心组件不多,把这些…

模拟调制技术详解

内容摘要 本文系统讲解模拟调制技术原理及Matlab实现,涵盖幅度调制的四种主要类型:双边带抑制载波调幅(DSB-SC)、含离散大载波调幅(AM)、单边带调幅(SSB)和残留边带调幅(…

aws(学习笔记第三十一课) aws cdk深入学习(batch-arm64-instance-type)

aws(学习笔记第三十一课) aws cdk深入学习 学习内容: 深入练习aws cdk下部署batch-arm64-instance-type 1. 深入练习aws cdk下部署batch-arm64-instance-type 代码链接 代码链接 代码链接 -> batch-arm64-instance-type之前代码学习 之前学习代码链接 -> aw…

读书报告」网络安全防御实战--蓝军武器库

一眨眼,20天过去了,刷完了这本书「网络安全防御实战--蓝军武器库」,回味无穷,整理概览如下,可共同交流读书心得。在阅读本书的过程中,我深刻感受到网络安全防御是一个综合性、复杂性极高的领域。蓝军需要掌…

DeepLabv3+改进6:在主干网络中添加SegNext_Attention|助力涨点

🔥【DeepLabv3+改进专栏!探索语义分割新高度】 🌟 你是否在为图像分割的精度与效率发愁? 📢 本专栏重磅推出: ✅ 独家改进策略:融合注意力机制、轻量化设计与多尺度优化 ✅ 即插即用模块:ASPP+升级、解码器 PS:订阅专栏提供完整代码 目录 论文简介 步骤一 步骤二…

使用 Elastic-Agent 或 Beats 将 Journald 中的 syslog 和 auth 日志导入 Elastic Stack

作者:来自 Elastic TiagoQueiroz 我们在 Elastic 一直努力将更多 Linux 发行版添加到我们的支持矩阵中,现在 Elastic-Agent 和 Beats 已正式支持 Debian 12! 本文演示了我们正在开发的功能,以支持使用 Journald 存储系统和身份验…

3.9[A]csd

在传统CPU中心架构中,中央处理器通过内存访问外部存储器,而数据必须经过网络接口卡才能到达外部存储器。这种架构存在集中式计算、DRAM带宽和容量挑战、大量数据移动(服务器内和网络)以及固定计算导致工作负载容量增长等问题。 而…

ESP32S3读取数字麦克风INMP441的音频数据

ESP32S3 与 INMP441 麦克风模块的集成通常涉及使用 I2S 接口进行数字音频数据的传输。INMP441 是一款高性能的数字麦克风,它通过 I2S 接口输出音频数据。在 Arduino 环境中,ESP32S3 的开发通常使用 ESP-IDF(Espressif IoT Development Framew…