DeepSeek 发布多模态 Janus-Pro

DeepSeek在接连发布大语言模型V3,推理模型R1之后,DeepSeek随后又发布两款多模态框架:Janus-Pro 与 JanusFlow ,引领多模态模型新时代!

而且依然是保持了一贯的风格,保持了完全开源,今天我们来看看这个最新的多模态模型:Janus-Pro

Janus系列

Janus是DeepSeek在先前发布的一个自动回归框架,可以统一多模式的理解和产生。它通过将视觉编码解码为单独的路径来解决以前方法的局限性,同时仍利用单个统一的变压器体系结构进行处理。脱钩不仅减轻了视觉编码器在理解和发电中的作用之间的冲突,而且还可以增强框架的灵活性。 Janus超过了以前的统一模型,并超过了特定于任务模型的性能。 Janus的简单性,高灵活性和有效性使其成为下一代统一多模型模型的有力候选人。

Janus-Pro

Janus-Pro是先前作品Janus的高级版本。具体而言,一种在原有 Janus 模型基础上优化的多模态理解与生成统一模型。通过以下三方面的改进:(1)优化的训练策略,(2)扩展的训练数据,(3)模型规模的扩大,Janus-Pro 在多模态理解和文本到图像生成任务中均实现了显著提升。实验表明,Janus-Pro 在 MMBench、GenEval 等基准测试中超越了现有统一模型及部分任务专用模型。

PS:代码和模型已开源。

image-20250206094519184

Janus-pro 效果及改进方案

根据官方给了一些生成的效果图,我们能够看到新版的Janus-pro明显强于 Janus 原版。虽比不上 Midjourney 那般艺术,但应为第一梯队。

image-20250206094940455

同时官方也给出了很多,对比当下主流模型的对比数据,这里可以看出Janus-pro的厉害之处。如果是对比 OpenAI 的 DALL-E 3,参数会领先不少,并且直接霸榜。
image-20250206095535363

1. 核心改进
  1. 训练策略优化
    • 阶段调整:延长第一阶段(ImageNet 数据训练),跳过第二阶段中低效的 ImageNet 训练,直接使用高质量文本到图像数据,提升生成效率。
    • 数据比例调整:在微调阶段减少文本到图像数据占比(从 10 降至 4),平衡生成与理解能力。
  2. 数据扩展
    • 多模态理解:新增 9,000 万样本(含图像描述、表格/图表理解等),提升模型泛化能力。
    • 视觉生成:引入 7,200 万合成美学数据(真实与合成数据比例 1:1),改善生成稳定性和美观性。
  3. 模型规模扩展
    • 模型参数从 1.5B 扩展至 7B,验证了视觉编码解耦方法的可扩展性。大模型在损失收敛速度和任务表现上均显著优于小模型。
2. 实验结果
  1. 多模态理解
    • MMBench:Janus-Pro-7B 得分 79.2,超越 TokenFlow-XL(13B,68.9)、MetaMorph(8B,75.2)。
    • 细粒度任务:在 POPE(87.4)、MMMU(41.0)等任务中表现优异。
  2. 文本到图像生成
    • GenEval:Janus-Pro-7B 综合得分 0.80,优于 DALL-E 3(0.67)和 SD3-Medium(0.74)。
    • DPG-Bench:得分 84.19,在密集语义对齐任务中表现最佳。
  3. 定性结果
    • 生成图像分辨率(384×384)虽低,但细节丰富且语义准确(如“秋叶中的金毛犬”“沙漠中的水晶球”)。
3. 局限性
  • 多模态理解:输入分辨率限制(384×384)影响 OCR 等细粒度任务。
  • 视觉生成:低分辨率与重建损失导致细节不足(如小面部区域)。未来可通过提升分辨率改进。
4. 开源信息
  • 代码与模型:GitHub 项目页 https://github.com/deepseek-ai/Janus
  • 训练框架:基于 HAI-LLM(轻量级分布式训练框架),使用 16/32 节点(A100 GPU)耗时 9/14 天完成训练。

结语

Janus-Pro在多模态理解和文本到图像指令遵循能力方面都取得了重大进展。然而,Janus-Pro仍然有一定的局限性。在多模态理解方面,输入分辨率限制在384 × 384,这影响了其在OCR等细粒度任务中的性能。对于文本到图像的生成,低分辨率加上视觉标记器带来的重建损失,导致图像虽然具有丰富的语义内容,但仍然缺乏精细的细节

项目信息

  • 项目名称:Janus
  • GitHub 链接:https://github.com/deepseek-ai/Janus
  • Star 数:4K

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/69207.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【QT笔记】使用QScrollArea实现多行文本样式显示

目录 一、QScrollArea 的基本概念 二、demo代码 三、实现效果 1、页面空间足够,无滚动条时显示效果 2、有滚动条时显示效果 一、QScrollArea 的基本概念 QScrollArea 是 Qt 框架中用于提供一个滚动条区域,允许用户滚动查看比当前可视区域更大的内容…

达梦数据库从单主模式转换为主备模式

目录标题 达梦数据库单主转主备配置笔记前期准备服务器环境数据库安装磁盘空间 流程流程图说明 详细步骤1. 检查主库归档模式2. 配置主库配置文件dm.ini 文件dmmal.ini 文件dmarch.ini 文件 3. 备份主库数据库4. 备库配置新建备库数据库配置备库配置文件dm.ini 文件复制主库的 …

使用C#开发一款通用数据库管理工具

由于经常使用各种数据库,笔者自己动手丰衣足食,使用C#开发了一款通用数据库管理工具,支持Mysql、Oracle、Sqlite、SQL Server等数据库的表、视图、存储过程、函数管理功能,并支持导入导出、数据字典生成、拖拽式跨机器跨库数据一键…

w193基于Spring Boot的秒杀系统设计与实现

🙊作者简介:多年一线开发工作经验,原创团队,分享技术代码帮助学生学习,独立完成自己的网站项目。 代码可以查看文章末尾⬇️联系方式获取,记得注明来意哦~🌹赠送计算机毕业设计600个选题excel文…

DeepSeek各版本说明与优缺点分析

DeepSeek各版本说明与优缺点分析 DeepSeek是最近人工智能领域备受瞩目的一个语言模型系列,其在不同版本的发布过程中,逐步加强了对多种任务的处理能力。本文将详细介绍DeepSeek的各版本,从版本的发布时间、特点、优势以及不足之处&#xff0…

OpenCV:特征检测总结

目录 一、什么是特征检测? 二、OpenCV 中的常见特征检测方法 1. Harris 角点检测 2. Shi-Tomasi 角点检测 3. Canny 边缘检测 4. SIFT(尺度不变特征变换) 5. ORB 三、特征检测的应用场景 1. 图像匹配 2. 运动检测 3. 自动驾驶 4.…

windows版的docker如何使用宿主机的GPU

windows版的docker使用宿主机的GPU的命令 命令如下 docker run -it --nethost --gpus all --name 容器名 -e NVIDIA_DRIVER_CAPABILITIEScompute,utility -e NVIDIA_VISIBLE_DEVICESall 镜像名效果 (transformer) rootdocker-desktop:/# python Python 3.9.0 (default, Nov 15 …

neo4j-在Linux中安装neo4j

目录 切换jdk 安装neo4j 配置neo4j以便其他电脑可以访问 切换jdk 因为我安装的jdk是1.8版本的,而我安装的neo4j版本为5.15,Neo4j Community 5.15.0 不支持 Java 1.8,它要求 Java 17 或更高版本。 所以我需要升级Java到17 安装 OpenJDK 17 sudo yu…

8.PPT:小李-第二次世界大战【21】

目录 NO123 ​ NO4567 ​ NO8\9\10\11​ 图片→格式→大小对话框→锁定纵横比✔动画→飞入→效果选项:方向/序列→开始→持续时间→延迟时间持续时间:1s延迟:0.5s音频剪切时间:0.5s:00:00.500自动换片时间设置&…

GAN(生成对抗网络,Generative Adversarial Network)

https://www.bilibili.com/video/BV1mp4y187dm/?spm_id_from333.788.recommend_more_video.2&vd_source35b06c13f470dff84c947fa3045bafc3

【C++】多态详细讲解

本篇来聊聊C面向对象的第三大特性-多态。 1.多态的概念 多态通俗来说就是多种形态。多态分为编译时多态(静态多态)和运⾏时多态(动态多态)。 编译时多态:主要就是我们前⾯讲的函数重载和函数模板,他们传不同类型的参数就可以调⽤不同的函数,通…

NeuralCF 模型:神经网络协同过滤模型

实验和完整代码 完整代码实现和jupyter运行:https://github.com/Myolive-Lin/RecSys--deep-learning-recommendation-system/tree/main 引言 NeuralCF 模型由新加坡国立大学研究人员于 2017 年提出,其核心思想在于将传统协同过滤方法与深度学习技术相结…

【自动化办公】批量图片PDF自定义指定多个区域识别重命名,批量识别铁路货物运单区域内容改名,基于WPF和飞桨ocr深度学习模型的解决方案

项目背景介绍 铁路货运企业需要对物流单进行长期存档,以便后续查询和审计。不同的物流单可能包含不同的关键信息,通过自定义指定多个区域进行识别重命名,可以使存档的图片文件名具有统一的规范和明确的含义。比如,将包含货物运单…

Qt跨屏窗口的一个Bug及解决方案

如果我们希望一个窗口覆盖用户的整个桌面,此时就要考虑用户有多个屏幕的场景(此窗口要横跨多个屏幕),由于每个屏幕的分辨率和缩放比例可能是不同的,Qt底层在为此窗口设置缩放比例(DevicePixelRatio&#xf…

LeetCode:63. 不同路径 II

跟着carl学算法,本系列博客仅做个人记录,建议大家都去看carl本人的博客,写的真的很好的! 代码随想录 LeetCode:63. 不同路径 II 给定一个 m x n 的整数数组 grid。一个机器人初始位于 左上角(即 grid[0][0]…

自定义数据集 使用paddlepaddle框架实现逻辑回归

导入必要的库 import numpy as np import paddle import paddle.nn as nn 数据准备: seed1 paddle.seed(seed)# 1.散点输入 定义输入数据 data [[-0.5, 7.7], [1.8, 98.5], [0.9, 57.8], [0.4, 39.2], [-1.4, -15.7], [-1.4, -37.3], [-1.8, -49.1], [1.5, 75.6…

如何利用maven更优雅的打包

最近在客户现场部署项目,有两套环境,无法连接互联网,两套环境之间也是完全隔离,于是问题就来了,每次都要远程到公司电脑改完代码,打包,通过网盘(如果没有会员,上传下载慢…

string类OJ练习题

目录 文章目录 前言 一、反转字符串 二、反转字符串 II 三、反转字符串中的单词 III 四、验证一个字符串是否是回文 五、字符串相加(大数加法) 六、字符串相乘(大数乘法) 七、把字符串转化为整数(atoi) 总结…

(一)DeepSeek大模型安装部署-Ollama安装

大模型deepseek安装部署 (一)、安装ollama curl -fsSL https://ollama.com/install.sh | sh sudo systemctl start ollama sudo systemctl enable ollama sudo systemctl status ollama(二)、安装ollama遇到网络问题,请手动下载 ollama-linux-amd64.tgz curl -L …

面对全球化的泼天流量,出海企业如何观测多地域网络质量?

作者:俞嵩、白玙 泼天富贵背后,技术挑战接踵而至 随着全球化进程,出海、全球化成为很多 Toc 产品的必经之路,保障不同地域、不同网络环境的一致的用户体验成为全球化应用的不得不面对的问题。在跨运营商、跨地域的网络环境中&am…