DeepSeek 开源模型全解析(2024.1.1–2025.2.6)

目录

一、通用大语言模型:DeepSeek-V3 系列 137

二、推理优化模型:DeepSeek-R1 系列 811

三、多模态模型:Janus 系列 10

四、生态整合与部署建议

五、总结与展望


以下为 DeepSeek 在 2024 年 1 月至 2025 年 2 月期间发布的开源模型及其核心信息,涵盖自然语言处理、多模态与推理优化三大领域:


一、通用大语言模型:DeepSeek-V3 系列 137
模型名称版本号参数规模特点公布时间下载地址
DeepSeek-V31.0总参数 671B,激活参数 37B架构创新:首款融合 FP8 混合精度训练、多头潜在注意力(MLA)与 MoE 架构的模型,显存消耗降低 30%
性能对标:在数学(MATH 评测 61.6 EM)、代码(HumanEval 65.2 Pass@1)等任务上超越 GPT-4o 与 Claude-3.5-Sonnet
效率提升:生成速度达 60 TPS(前代的 3 倍),支持 128K 长上下文
2024-12-26Hugging Face
DeepSeek-V3-Base1.0同 DeepSeek-V3- 提供原生 FP8 权重,支持 SGLang、LMDeploy 等推理框架
- 开源社区已适配 TensorRT-LLM 和 MindIE 的 BF16 推理优化
2024-12-26Hugging Face

部署要求

  • 硬件:推荐使用 4 台华为 Atlas 800I A2 服务器(每台配置 8×64G 显存)2

  • 软件:支持昇腾 MindIE 镜像(预置推理脚本)或 Hugging Face 本地部署工具链


二、推理优化模型:DeepSeek-R1 系列 811
模型名称版本号参数规模特点公布时间下载地址
DeepSeek-R11.0总参数 671B强化学习驱动:通过纯强化学习实现复杂推理能力,无需监督微调
性能对标:在 LiveCodeBench 等编程任务中超越 OpenAI o1,数学推理接近 Claude-3.5-Sonnet
思维链 API:输出包含推理过程(最长 32K tokens),支持企业级应用透明化决策
2025-01-23Hugging Face
DeepSeek-R1-Zero1.0总参数 671B纯 RL 训练:首个无需监督微调的推理模型,验证强化学习在复杂任务中的潜力
局限:输出存在重复与语言混杂问题,主要用于研究场景
2025-01-21Hugging Face
R1-Distill 系列1.015B–70B知识蒸馏:从 R1 蒸馏的小模型,32B 和 70B 版本性能对标 OpenAI-o1-mini
硬件友好:支持低显存设备部署
2025-01-23Hugging Face

部署要求

  • 硬件:R1 全量版需与 DeepSeek-V3 类似配置;蒸馏版 70B 可在单台 A100(80G)运行

  • API 集成:支持腾讯云 HAI、阿里云 PAI 等平台一键部署611


三、多模态模型:Janus 系列 10
模型名称版本号参数规模特点公布时间下载地址
Janus-Pro-7B1.07B文生图 SOTA:GenEval 准确率 80%(超 DALL-E 3 的 61%)
多模态融合:支持图像描述、视觉问答与跨模态检索
2025-01-28Hugging Face
JanusFlow1.0未公开流程优化:扩展 Janus-Pro 的视频生成与编辑能力,支持动态场景连续推理2025-01-28Hugging Face

部署要求

  • 硬件:Janus-Pro-7B 可在 RTX 4090(24G 显存)运行,FP16 量化后显存占用低于 10G

  • 框架:需搭配 Diffusers 库与 PyTorch 2.3+


四、生态整合与部署建议
  1. 云平台支持

    • 百度智能云、阿里云、华为云等均提供 DeepSeek-V3/R1 的一键部署,限时免费配额 1000 RPM613

    • 腾讯云 HAI 支持 3 分钟启动 R1 模型,集成对象存储与开发工具链11

  2. 本地优化方案

    • FP8 推理:利用 LMDeploy 压缩显存占用(V3 需 4×H800)1

    • 动态蒸馏:企业可根据场景选择 R1-Distill 系列降低算力成本8

  3. 开源协议

    • 所有模型遵循 MIT 协议,允许商业用途与二次开发11


五、总结与展望

DeepSeek 在 14 个月内通过 V3、R1、Janus 三大系列模型,实现了从通用语言模型到垂直领域推理与多模态的技术闭环。其开源策略不仅推动国产模型生态繁荣(如百度、阿里、华为云全面接入613),更以 1/10 训练成本(对比 GPT-4)重塑行业效率标准7。开发者可通过 Hugging Face 快速获取模型权重,结合昇腾或英伟达硬件构建定制化 AI 服务。未来,DeepSeek 计划扩展多模态与深度思考功能,进一步缩小开源与闭源模型的差距。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/68216.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

0207作业

思维导图 服务器 enum Type{TYPE_REGIST,TYPE_LOGIN };typedef struct Pack{int size;enum Type type;char buf[2048];}pack_t;typedef struct list{union Data{struct List* tail;char str[64];}data;struct List* next;struct List* prev; }List;List* create_node(){List* …

RabbitMQ 从入门到精通:从工作模式到集群部署实战(五)

#作者:闫乾苓 系列前几篇: 《RabbitMQ 从入门到精通:从工作模式到集群部署实战(一)》:link 《RabbitMQ 从入门到精通:从工作模式到集群部署实战(二)》: lin…

nodejs:express + js-mdict 网页查询英汉词典,能播放.spx 声音

向 DeepSeek R1 提问: 我想写一个Web 前端网页,后台用 nodejs js-mdict , 实现在线查询英语单词,并能播放.spx 声音文件 1. 项目结构 首先,创建一个项目目录,结构如下: mydict-app/ ├── public/ │ …

Linux ftrace 内核跟踪入门

文章目录 ftrace介绍开启ftraceftrace使用ftrace跟踪指定内核函数ftrace跟踪指定pid ftrace原理ftrace与stracetrace-cmd 工具KernelShark参考 ftrace介绍 Ftrace is an internal tracer designed to help out developers and designers of systems to find what is going on i…

【抽象代数】1.1. 运算及关系

集合与映射 定义1. 设 为 的子集,定义 到 的映射 : 使得 ,称 为 到 的嵌入映射。 定义2. 设 为 的子集, 为 到 的映射, 为 到 的映射,如果 ,称为的开拓, 为 的限制&…

数据库高安全—审计追踪:传统审计统一审计

书接上文数据库高安全—角色权限:权限管理&权限检查,从权限管理和权限检查方面解读了高斯数据库的角色权限,本篇将从传统审计和统一审计两方面对高斯数据库的审计追踪技术进行解读。 4 审计追踪 4.1 传统审计 审计内容的记录方式通…

第三个Qt开发实例:利用之前已经开发好的LED驱动在Qt生成的界面中控制LED2的亮和灭

前言 上一篇博文 https://blog.csdn.net/wenhao_ir/article/details/145459006 中,我们是直接利用GPIO子系统控制了LED2的亮和灭,这篇博文中我们利用之前写好的LED驱动程序在Qt的生成的界面中控制LED2的亮和灭。 之前已经在下面两篇博文中实现了LED驱动…

解决aspose将Excel转成PDF中文变成方框的乱码问题

原文网址:解决aspose将Excel转成PDF中文变成方框的乱码问题_IT利刃出鞘的博客-CSDN博客 简介 本文介绍如何解决aspose将Excel转成PDF中文变成方框的乱码问题。 问题描述 用aspose将word、excel等转成PDF后,英文展示正常,但中文全部变成了…

vue-vite axios bug

axios-bug http proxy error Error: write ECONNABORTED 代码写法 一般baseURL不是单写前缀就可以了吗,为何要写死就不会出现以上错误,求解。

【Spring】_SpringBoot配置文件

目录 1.Spring Boot配置文件 1.1 Spring Boot 的配置文件类型及命名 1.2 properties和yml的优先级 2. properties配置文件 1.1 properties语法格式 1.2 自定义配置及配置文件的读取 1.3 properties的缺点 3. yml配置文件 3.1 yml语法格式 3.2 自定义配置及配置文件的…

实操给触摸一体机接入大模型语音交互

本文以CSK6 大模型开发板串口触摸屏为例,实操讲解触摸一体机怎样快速增加大模型语音交互功能,使用户能够通过语音在一体机上查询信息、获取智能回答及实现更多互动功能等。 在本文方案中通过CSK6大模型语音开发板采集用户语音,将语音数据传输…

RabbitMQ 从入门到精通:从工作模式到集群部署实战(一)

#作者:闫乾苓 文章目录 RabbitMQ简介RabbitMQ与VMware的关系架构工作流程RabbitMQ 队列工作模式及适用场景简单队列模式(Simple Queue)工作队列模式(Work Queue)发布/订阅模式(Publish/Subscribe&#xff…

RK3568平台开发系列讲解(ConfigFS篇)ConfigFS核心数据结构

🚀返回专栏总目录 文章目录 一、数据结构二、结构体关系三、案例3.1、configfs_subsystem 实例3.2、config_group 实例化四、属性和方法五、config_item实例化沉淀、分享、成长,让自己和他人都能有所收获!😄 理解 ConfigFS 的核心数据结构对于深入使用和定制 ConfigFS 非…

微信小程序案例1——制作猫眼电影底部标签导航栏

文章目录 一、项目步骤1 新建一个无AppID的movie项目2将准备好的底部标签导航图标拷贝到movie项目下面(将图标文件夹image放到项目文件夹里)3 打开App.json配置文件,在pages数组里添加4个页面路径:电影“pages/movie/movie”、影院“pages/cinema/cinema…

CSS 伪类(Pseudo-classes)的详细介绍

CSS 伪类详解与示例 在日常的前端开发中,CSS 伪类可以帮助我们非常精准地选择元素或其特定状态,从而达到丰富页面表现的目的。本文将详细介绍以下伪类的使用: 表单相关伪类 :checked、:disabled、:enabled、:in-range、:invalid、:optional、…

Elasticsearch 开放推理 API 增加了 Azure AI Studio 支持

作者:来自 Elastic Mark Hoy Elasticsearch 开放推理 API 现已支持 Azure AI Studio。在此博客中了解如何将 Azure AI Studio 功能与 Elasticsearch 结合使用。 作为我们持续致力于为 Microsoft Azure 开发人员提供他们选择的工具的一部分,我们很高兴地宣…

JUC学习笔记02

文章目录 JUC笔记2练习题:手写线程池代码解释:AdvancedThreadPool 类:WorkerThread 内部类:AdvancedThreadPoolExample 类: 线程池的思考CPU密集型IO密集型 练习题:手写自动重试机练习题:手写定…

baigeiRSA

baigeiRSA 打开附件有两个: 1.import libnumfrom Crypto.Util import numberfrom secret import flag​size 128e 65537p number.getPrime(size)q number.getPrime(size)n p*q​m libnum.s2n(flag)c pow(m, e, n)​print(n %d % n)print(c %d % c)​​2.n…

【csp-j学习完C++语法后,如何进阶学习C++算法和数据结构?】

在掌握了 CSP - J 的 C 语法基础后,接下来的进阶学习需要系统地掌握各类算法和数据结构知识,并通过大量练习来巩固和提高应用能力。以下是一份详细的进阶学习规划: 第一阶段:基础算法学习(1 - 2 个月) 排…

QT中解决使用QCustomplot绘制高速大量数据时频谱图卡顿问题

[!!!核心方法!!!] 使用带参数的replot()函数绘制m_pCustomPlot>replot(QCustomPlot::rpQueuedReplot) 1. replot() 方法 void QCustomPlot::replot(QCustomPlot::RefreshPriority refreshPriority rp…