DeepSeek 发布多模态 Janus-Pro

DeepSeek在接连发布大语言模型V3，推理模型R1之后，DeepSeek随后又发布两款多模态框架：Janus-Pro 与 JanusFlow ，引领多模态模型新时代！

而且依然是保持了一贯的风格，保持了完全开源，今天我们来看看这个最新的多模态模型：Janus-Pro

Janus系列

Janus是DeepSeek在先前发布的一个自动回归框架，可以统一多模式的理解和产生。它通过将视觉编码解码为单独的路径来解决以前方法的局限性，同时仍利用单个统一的变压器体系结构进行处理。脱钩不仅减轻了视觉编码器在理解和发电中的作用之间的冲突，而且还可以增强框架的灵活性。 Janus超过了以前的统一模型，并超过了特定于任务模型的性能。 Janus的简单性，高灵活性和有效性使其成为下一代统一多模型模型的有力候选人。

Janus-Pro

Janus-Pro是先前作品Janus的高级版本。具体而言，一种在原有 Janus 模型基础上优化的多模态理解与生成统一模型。通过以下三方面的改进：（1）优化的训练策略，（2）扩展的训练数据，（3）模型规模的扩大，Janus-Pro 在多模态理解和文本到图像生成任务中均实现了显著提升。实验表明，Janus-Pro 在 MMBench、GenEval 等基准测试中超越了现有统一模型及部分任务专用模型。

PS：代码和模型已开源。

Janus-pro 效果及改进方案

根据官方给了一些生成的效果图，我们能够看到新版的Janus-pro明显强于 Janus 原版。虽比不上 Midjourney 那般艺术，但应为第一梯队。

同时官方也给出了很多，对比当下主流模型的对比数据，这里可以看出Janus-pro的厉害之处。如果是对比 OpenAI 的 DALL-E 3，参数会领先不少，并且直接霸榜。

1. 核心改进

训练策略优化
- 阶段调整：延长第一阶段（ImageNet 数据训练），跳过第二阶段中低效的 ImageNet 训练，直接使用高质量文本到图像数据，提升生成效率。
- 数据比例调整：在微调阶段减少文本到图像数据占比（从 10 降至 4），平衡生成与理解能力。
数据扩展
- 多模态理解：新增 9,000 万样本（含图像描述、表格/图表理解等），提升模型泛化能力。
- 视觉生成：引入 7,200 万合成美学数据（真实与合成数据比例 1:1），改善生成稳定性和美观性。
模型规模扩展
- 模型参数从 1.5B 扩展至 7B，验证了视觉编码解耦方法的可扩展性。大模型在损失收敛速度和任务表现上均显著优于小模型。

2. 实验结果

多模态理解
- MMBench：Janus-Pro-7B 得分 79.2，超越 TokenFlow-XL（13B，68.9）、MetaMorph（8B，75.2）。
- 细粒度任务：在 POPE（87.4）、MMMU（41.0）等任务中表现优异。
文本到图像生成
- GenEval：Janus-Pro-7B 综合得分 0.80，优于 DALL-E 3（0.67）和 SD3-Medium（0.74）。
- DPG-Bench：得分 84.19，在密集语义对齐任务中表现最佳。
定性结果
- 生成图像分辨率（384×384）虽低，但细节丰富且语义准确（如“秋叶中的金毛犬”“沙漠中的水晶球”）。

3. 局限性

多模态理解：输入分辨率限制（384×384）影响 OCR 等细粒度任务。
视觉生成：低分辨率与重建损失导致细节不足（如小面部区域）。未来可通过提升分辨率改进。

4. 开源信息

代码与模型：GitHub 项目页 https://github.com/deepseek-ai/Janus
训练框架：基于 HAI-LLM（轻量级分布式训练框架），使用 16/32 节点（A100 GPU）耗时 9/14 天完成训练。

结语

Janus-Pro在多模态理解和文本到图像指令遵循能力方面都取得了重大进展。然而，Janus-Pro仍然有一定的局限性。在多模态理解方面，输入分辨率限制在384 × 384，这影响了其在OCR等细粒度任务中的性能。对于文本到图像的生成，低分辨率加上视觉标记器带来的重建损失，导致图像虽然具有丰富的语义内容，但仍然缺乏精细的细节