DeepSeek在接连发布大语言模型V3,推理模型R1之后,DeepSeek随后又发布两款多模态框架:Janus-Pro 与 JanusFlow ,引领多模态模型新时代!
而且依然是保持了一贯的风格,保持了完全开源,今天我们来看看这个最新的多模态模型:Janus-Pro
Janus系列
Janus是DeepSeek在先前发布的一个自动回归框架,可以统一多模式的理解和产生。它通过将视觉编码解码为单独的路径来解决以前方法的局限性,同时仍利用单个统一的变压器体系结构进行处理。脱钩不仅减轻了视觉编码器在理解和发电中的作用之间的冲突,而且还可以增强框架的灵活性。 Janus超过了以前的统一模型,并超过了特定于任务模型的性能。 Janus的简单性,高灵活性和有效性使其成为下一代统一多模型模型的有力候选人。
Janus-Pro
Janus-Pro是先前作品Janus的高级版本。具体而言,一种在原有 Janus 模型基础上优化的多模态理解与生成统一模型。通过以下三方面的改进:(1)优化的训练策略,(2)扩展的训练数据,(3)模型规模的扩大,Janus-Pro 在多模态理解和文本到图像生成任务中均实现了显著提升。实验表明,Janus-Pro 在 MMBench、GenEval 等基准测试中超越了现有统一模型及部分任务专用模型。
PS:代码和模型已开源。
Janus-pro 效果及改进方案
根据官方给了一些生成的效果图,我们能够看到新版的Janus-pro明显强于 Janus 原版。虽比不上 Midjourney 那般艺术,但应为第一梯队。
同时官方也给出了很多,对比当下主流模型的对比数据,这里可以看出Janus-pro的厉害之处。如果是对比 OpenAI 的 DALL-E 3,参数会领先不少,并且直接霸榜。
1. 核心改进
- 训练策略优化
- 阶段调整:延长第一阶段(ImageNet 数据训练),跳过第二阶段中低效的 ImageNet 训练,直接使用高质量文本到图像数据,提升生成效率。
- 数据比例调整:在微调阶段减少文本到图像数据占比(从 10 降至 4),平衡生成与理解能力。
- 数据扩展
- 多模态理解:新增 9,000 万样本(含图像描述、表格/图表理解等),提升模型泛化能力。
- 视觉生成:引入 7,200 万合成美学数据(真实与合成数据比例 1:1),改善生成稳定性和美观性。
- 模型规模扩展
- 模型参数从 1.5B 扩展至 7B,验证了视觉编码解耦方法的可扩展性。大模型在损失收敛速度和任务表现上均显著优于小模型。
2. 实验结果
- 多模态理解
- MMBench:Janus-Pro-7B 得分 79.2,超越 TokenFlow-XL(13B,68.9)、MetaMorph(8B,75.2)。
- 细粒度任务:在 POPE(87.4)、MMMU(41.0)等任务中表现优异。
- 文本到图像生成
- GenEval:Janus-Pro-7B 综合得分 0.80,优于 DALL-E 3(0.67)和 SD3-Medium(0.74)。
- DPG-Bench:得分 84.19,在密集语义对齐任务中表现最佳。
- 定性结果
- 生成图像分辨率(384×384)虽低,但细节丰富且语义准确(如“秋叶中的金毛犬”“沙漠中的水晶球”)。
3. 局限性
- 多模态理解:输入分辨率限制(384×384)影响 OCR 等细粒度任务。
- 视觉生成:低分辨率与重建损失导致细节不足(如小面部区域)。未来可通过提升分辨率改进。
4. 开源信息
- 代码与模型:GitHub 项目页 https://github.com/deepseek-ai/Janus
- 训练框架:基于 HAI-LLM(轻量级分布式训练框架),使用 16/32 节点(A100 GPU)耗时 9/14 天完成训练。
结语
Janus-Pro在多模态理解和文本到图像指令遵循能力方面都取得了重大进展。然而,Janus-Pro仍然有一定的局限性。在多模态理解方面,输入分辨率限制在384 × 384,这影响了其在OCR等细粒度任务中的性能。对于文本到图像的生成,低分辨率加上视觉标记器带来的重建损失,导致图像虽然具有丰富的语义内容,但仍然缺乏精细的细节
项目信息
- 项目名称:Janus
- GitHub 链接:https://github.com/deepseek-ai/Janus
- Star 数:4K