DeepSeek大模型的发展的十问十答

DeepSeek大模型是由杭州深度求索人工智能基础技术研究有限公司开发的一款基于Transformer架构的大型语言模型,具体介绍如下:
1. 架构基础
Transformer架构:DeepSeek大模型基于Transformer架构,该架构由Google在2017年提出,以自注意力机制为核心,能够并行处理输入序列中的每个元素,从而大大提高模型的计算效率。DeepSeek在Transformer架构的基础上进行了优化,能够高效处理文本、图像等多种数据类型。
Mixture-of-Experts(MoE)架构:DeepSeek大模型采用了混合专家(MoE)网络结构,这种设计使得模型能够智能地选择不同的专家模型进行计算,针对不同的任务激活相应的网络分支,从而实现了计算资源的高效利用。
2. 训练方式
预训练与微调:DeepSeek大模型采用了预训练加微调的训练方式。在预训练阶段,模型在大规模的无标签数据上进行学习,通过自监督学习捕捉数据的普遍特征和规律。在预训练后,模型会通过有限的标注数据进行微调,针对某一具体任务进行优化,使得模型的表现更加精准。
自监督学习:自监督学习是一种无需人工标注的学习方法,模型通过数据本身来构建学习目标。DeepSeek会通过对输入数据进行部分遮掩,然后让模型预测被遮掩的部分,从而学习到数据的潜在结构和规律。
3. 技术特点
多模态处理能力:DeepSeek大模型支持多模态输入,不仅可以处理文本数据,还能够处理图像、音频和视频等多种类型的数据。这种能力使得DeepSeek能够在不同的数据源之间建立联系,完成更加复杂的任务。
双语处理能力:DeepSeek大模型在2万亿个中英文token的数据集上进行预训练,展现出强大的双语处理能力,使得其在处理中英文混合内容或跨语言任务时具有更高的准确性和效率。
高性能与低成本:DeepSeek大模型在性能上表现出色,其最新发布的DeepSeek V3模型在多项基准测试中优于GPT-4等主流闭源模型。这得益于DeepSeek在算法和工程上的优化,使得模型在保持高精度的同时,显著降低了计算负担。
4. 应用场景
智能对话与文本生成:DeepSeek大模型能够理解用户的意图和需求,生成自然、流畅和准确的回复,在智能客服、智能助手和聊天机器人等领域具有广泛的应用前景。
语义理解与计算推理:DeepSeek大模型具备强大的语义理解和计算推理能力,能够理解复杂的语义关系和上下文信息,进行准确的计算和推理,在知识问答、文本理解和语义搜索等领域具有广泛的应用价值。
代码生成补全:DeepSeek大模型能够理解代码的语法和语义结构,根据用户的输入生成高质量的代码片段,在编程辅助、代码自动化和智能开发等领域具有广泛的应用前景。

针对DeepSeek的十问十答:

1.DeepSeek 是否会抑制算力增长?短期抑制VS 长期爆发
我们认为DeepSeek 本质是对现有AI 算法的效率优化,短期可能导致训练需求下降,但随着模型普及和应用场景扩展,长期推理需求将显著增长,这种趋势类似于"蒸汽机降低煤耗但提升煤炭总用量"的历史现象。
2.DeepSeek 是否会改变AI 算力的增长范式:目前不会
AI 算力大致分为1)用于研发前沿模型相关的探索性算力(AGI 方向),2)面向消费者的应用性算力(现有模型推理)。目前北美四大AI 公司主要通过扩大GPU 集群规模的方式探索下一代大模型。只要这个探索工作还在继续产生正向回报,AI 算力的增长范式短期或不会发生变化。
3. DeepSeek 会改变市场投资逻辑吗?软件有望跑赢硬件
我们认识到,1)未来大模型竞争中,"算法效率"的重要性或上升, 投资重点可能从"算力军备"转向"算法效率"。2)开源协议使中小开发者能基于前沿模型二次开发,创造更多创新机会。投资角度,看好美股软件表现好于硬件。
4.芯片市场格局是否会改变?高端GPU 用途受限,ASIC 占比或提升DeepSeek 的成功显示即使不使用最先进的GPU,也可以开发满足一般消费者需求的大模型。这可能意味着,英伟达的Blackwell/Rubin 等最先进的
GPU 的用途,可能会局限在探索下一代超大规模模型(Frontier Model)上。
5.DeepSeek 真的那么便宜吗?可能没有
DeepSeek 在其V3 技术报告中估计其训练成本只有557.6 万美元,根据SemiAnalysis 分析,这只包含预训练阶段的部分成本,而加上GPU 算力投资,研发、数据收集等其他重要成本或远大于这个数字。
6.DeepSeek 到底有哪些创新?混合专家MoE,强化学习,蒸馏等主要创新包括模型架构(混合专家MoE,MLA)、训练方法(纯强化学习)、蒸馏优化和推理效率提升等,显著提升了AI 算法效率和性能。
7.DeepSeek 会带动中国科技资产价值重估吗?有可能目前(2025/2/3),恒生科技指数12 月前向PE 20.0 倍,远低于纳斯达克的35.4 倍。DeepSeek 的成功可能提高中国AI 公司估值预期。
8.DeepSeek 会推动端侧智能发展吗?有可能,但需要时间DeepSeek 的高性价比模型有利于模型在智能手机和汽车等智能设备上落地,我们认为智能硬件迭代不会一蹴而就,模型能力提升只是其中一环。
9.DeepSeek 会导致美国提升出口管制压力吗?可能会我们注意到DeepSeek 发布后,美国媒体进一步限制中国发展AI 声音抬头。
建议关注后续:1)高端AI 芯片出口管制,2)前沿模型的开源限制,3)模型回传限制,4)数据获取限制等风险。
10.DeepSeek 会改变开源软件生态吗?会
目前基础大模型的开发,主要集中在OpenAI、Google、Anthropic、阿里,字节、百度的科技巨头手中。DeepSeek 这次的成功丰富了AI 开源生态,也为中小开发者依托开源生态实现快速发展提供了一条发展路径。
 

简单介绍一下 Ollama DeepSeek R1 模型的选择。可以通过以下链接下载:DeepSeek R1 模型下载

在下载页面,您会看到许多不同类型的模型,那么该选择哪个呢?

图片

这里讲一种简单粗暴的显存需求计算方法。例如,当模型精度为 FP4 时:

  • 7B 模型的显存需求 = 7000000000 (参数数量) × 0.5 byte (4-bit) = 3500000000 byte / 1024 / 1024 / 1024 ≈ 3.26 GB

  • 671B 模型的显存需求 = 671000000000 × 0.5 / 1024 / 1024 / 1024 ≈ 312.46 GB

当然,这些只是理论值。显存占用的大小不仅与模型的参数数量和大小有关,还与是否量化、精度(如 FP4、FP8、FP16、FP32)、User Prompt、Max Tokes、Context Length 等因素相关。例如,像 q4_K_M 这种量化模型,其显存占用会更低。因此,这只是一个估算值。在实际生产环境中,建议将理论值乘以 2 到 3 来预估显存需求。

以下是显存需求的大致参照表:

模型

参数数量

模型大小

显存需求(大约)

deepseek-r1:1.5b

1.5B

1.1 GB

~2 GB

deepseek-r1:7b

7B

4.7 GB

~5 GB

deepseek-r1:8b

8B

4.9 GB

~6 GB

deepseek-r1:14b

14B

9.0 GB

~10 GB

deepseek-r1:32b

32B

20 GB

~22 GB

deepseek-r1:70b

70B

43 GB

~45 GB

deepseek-r1:1.5b-qwen-distill-q4_K_M

1.5B

1.1 GB

~2 GB

deepseek-r1:7b-qwen-distill-q4_K_M

7B

4.7 GB

~5 GB

deepseek-r1:8b-llama-distill-q4_K_M

8B

4.9 GB

~6 GB

deepseek-r1:14b-qwen-distill-q4_K_M

14B

9.0 GB

~10 GB

deepseek-r1:32b-qwen-distill-q4_K_M

32B

20 GB

~22 GB

deepseek-r1:70b-llama-distill-q4_K_M

70B

43 GB

~45 GB

通过此表,可以帮助您快速选择适合自己需求的 DeepSeek R1  大模型。

有什么疑问,欢迎评论区留言!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/70666.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Avnet RFSoC基于maltab得5G 毫米波 开发工具箱

使用 MATLAB 连接到 AMD Zynq™ RFSoC 评估板。使用 RF 附加卡执行 OTA 测试。使用 HDL Coder 部署算法 版本要求: 大于 2023b 需要以下支持包之一: 适用于 Xilinx 基于 Zynq 的无线电(R2023b 及更早版本)的通信工具箱支持包适…

计算机毕业设计Python+Spark知识图谱医生推荐系统 医生门诊预测系统 医生数据分析 医生可视化 医疗数据分析 医生爬虫 大数据毕业设计 机器学习

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…

Vue事件处理 - 绑定事件

Vue 渐进式JavaScript 框架 基于Vue2的学习笔记 - Vue事件处理 - 绑定事件及事件处理 目录 事件处理 绑定方式 函数表达式 绑定函数名 输入框绑定事件 拿到输入框的值 传值加事件源 事件第三种写法 总结 事件处理 绑定方式 函数表达式 在按钮上使用函数表达式绑定事…

World of Warcraft [CLASSIC] 80 Four Horsemen (Naxxramas)

纳克萨玛斯 天启四骑士 Four Horsemen 图一:10人同生共死 图二:25人同生共死站位 图三,不做同生共死,做永恒者,击杀白马分布图,主要是不熟练乱跑,容易导致减员失败 永恒者,玩家无一…

DeepSeek与AI提示语设计的全面指南

当人人都会用AI时,你如何用得更好更出彩?本文全面介绍了DeepSeek的功能与使用方法,并深入探讨了AI提示语设计的核心技巧与进阶策略。通过精准的任务定义、提示语优化和人机协作,用户可以从AI的基础使用逐步进阶到创新应用&#xf…

HarmonyOS Next 方舟字节码文件格式介绍

在开发中,可读的编程语言要编译成二进制的字节码格式才能被机器识别。在HarmonyOS Next开发中,arkts会编译成方舟字节码。方舟字节码长什么样呢?我们以一个demo编译出的abc文件: 二进制就是长这样,怎么去理解呢&…

TCP/IP 协议图解 | TCP 协议详解 | IP 协议详解

注:本文为 “TCP/IP 协议” 相关文章合辑。 未整理去重。 TCP/IP 协议图解 退休的汤姆 于 2021-07-01 16:14:25 发布 TCP/IP 协议简介 TCP/IP 协议包含了一系列的协议,也叫 TCP/IP 协议族(TCP/IP Protocol Suite,或 TCP/IP Pr…

【C++11】lambda和包装器

1.新的类功能 1.1默认的移动构造和移动赋值 原来C类中,有6个默认成员函数:构造函数/析构函数/拷⻉构造函数/拷⻉赋值重载/取地址重 载/const 取地址重载,最后重要的是前4个,后两个⽤处不⼤,默认成员函数就是我们不写…

zabbix监控nginx指标

使用nginx作为web服务器,我们需要清晰知道: 1.nginx的工作状态 2.请求数有多少,多少是已经响应完成的,多少是响应失败的 3.nginx服务以及端口监听情况是否处于运行状态 当出现服务停止或者大量请求响应失败时,我们需要…

当Axure遇见DeepSeek:设计工具的革命性进化

从传统的平面设计软件到如今的交互原型工具,设计工具经历了多次革命性的进化。然而,随着人工智能技术的不断发展,设计工具正面临又一次重大的变革。Axure,作为设计界知名的原型设计工具,以其强大的功能和灵活的操作性&…

【Matlab优化算法-第15期】基于NSGA-II算法的铁路物流园区功能区布局优化

基于NSGA-II算法的铁路物流园区功能区布局优化 一、前言 铁路物流园区的合理布局对于提高物流效率、降低运营成本具有重要意义。随着铁路物流的快速发展,传统的铁路货场需要升级为综合物流园区,以满足多式联运和综合物流服务的需求。本文将介绍一种基于…

【韩顺平linux】部分上课笔记整理

整理一下一些韩顺平老师上课时候的笔记 课程:【小白入门 通俗易懂】韩顺平 一周学会Linux linux环境:使用阿里云服务器 笔记参考 : [学习笔记]2021韩顺平一周学会Linux 一、自定义函数 基本语法 应用实例: 计算两个参数的和…

DeepSeek-R1 本地电脑部署 Windows系统 【轻松简易】

本文分享在自己的本地电脑部署 DeepSeek,而且轻松简易,快速上手。 这里借助Ollama工具,在Windows系统中进行大模型部署~ 1、安装Ollama 来到官网地址:Download Ollama on macOS 点击“Download for Windows”下载安装包&#x…

推荐一款 免费的SSL,自动续期

支持自动续期 、泛域名 、可视化所有证书时效性 、可配置CDN 的一款工具。免费5个泛域名和1个自动更新。 链接 支持:nginx、通配符证书、七牛云、腾讯云、阿里云、CDN、OSS、LB(负载均衡) 执行自动部署脚本 提示系统过缺少crontab 安装cro…

UE5--浅析委托原理(Delegate)

委托概述 委托是一种用于事件处理的机制。通过使用委托,可以将一个或多个函数绑定到一个事件上,在事件触发时自动调用这些函数。代理也叫做委托,比如:跳,跑,开枪,伤害等响应,就是注…

ABP框架9——自定义拦截器的实现与使用

一、AOP编程 AOP定义:面向切片编程,着重强调功能,将功能从业务逻辑分离出来。AOP使用场景:处理通用的、与业务逻辑无关的功能(如日志记录、性能监控、事务管理等)拦截器:拦截方法调用并添加额外的行为,比如…

【JavaScript】this 指向由入门到精通

this 的概念 this 在JavaScript 及其其他面向对象的编程语言中,存在的目的是为了提供一种在对象方法中引用当前对象的方式。 它为方法提供了对当前实例的引用,使得方法能够访问或者修改实例的成员变量。 注意点: this 的绑定和定位的位置…

JavaScript完整版知识体系(持续更新~~)

一、Variables变量 (1)变量的声明方式。 在 JavaScript 中,let、const 和 var 是用于声明变量的关键字,但它们在作用域、可变性、以及提升(Hoisting)行为上有所不同。下面是对这三者的详细解释: 1. var: 作用域&…

git fetch和git pull 的区别

git pull 实际上就是 fetch merge 的缩写, git pull 唯一关注的是提交最终合并到哪里(也就是为 git fetch 所提供的 destination 参数) git fetch 从远程仓库下载本地仓库中缺失的提交记录,并更新远程分支指针 git pull抓取更新再合并到本地分支,相当于…

SQL Server查询计划操作符(7.3)——查询计划相关操作符(6)

7.3. 查询计划相关操作符 48)Key Lookup:该操作符对一个有簇索引的表进行书签查找。参数列包含簇索引的名字和用于查找簇索引中数据行的簇键。该操作符总是伴随一个Nested Loops操作符。如果其参数列中出现WITH PREFETCH子句,则查询处理器已决定使用异步预取(预读,read-ah…