DeepSeek大模型是由杭州深度求索人工智能基础技术研究有限公司开发的一款基于Transformer架构的大型语言模型,具体介绍如下:
1. 架构基础
Transformer架构:DeepSeek大模型基于Transformer架构,该架构由Google在2017年提出,以自注意力机制为核心,能够并行处理输入序列中的每个元素,从而大大提高模型的计算效率。DeepSeek在Transformer架构的基础上进行了优化,能够高效处理文本、图像等多种数据类型。
Mixture-of-Experts(MoE)架构:DeepSeek大模型采用了混合专家(MoE)网络结构,这种设计使得模型能够智能地选择不同的专家模型进行计算,针对不同的任务激活相应的网络分支,从而实现了计算资源的高效利用。
2. 训练方式
预训练与微调:DeepSeek大模型采用了预训练加微调的训练方式。在预训练阶段,模型在大规模的无标签数据上进行学习,通过自监督学习捕捉数据的普遍特征和规律。在预训练后,模型会通过有限的标注数据进行微调,针对某一具体任务进行优化,使得模型的表现更加精准。
自监督学习:自监督学习是一种无需人工标注的学习方法,模型通过数据本身来构建学习目标。DeepSeek会通过对输入数据进行部分遮掩,然后让模型预测被遮掩的部分,从而学习到数据的潜在结构和规律。
3. 技术特点
多模态处理能力:DeepSeek大模型支持多模态输入,不仅可以处理文本数据,还能够处理图像、音频和视频等多种类型的数据。这种能力使得DeepSeek能够在不同的数据源之间建立联系,完成更加复杂的任务。
双语处理能力:DeepSeek大模型在2万亿个中英文token的数据集上进行预训练,展现出强大的双语处理能力,使得其在处理中英文混合内容或跨语言任务时具有更高的准确性和效率。
高性能与低成本:DeepSeek大模型在性能上表现出色,其最新发布的DeepSeek V3模型在多项基准测试中优于GPT-4等主流闭源模型。这得益于DeepSeek在算法和工程上的优化,使得模型在保持高精度的同时,显著降低了计算负担。
4. 应用场景
智能对话与文本生成:DeepSeek大模型能够理解用户的意图和需求,生成自然、流畅和准确的回复,在智能客服、智能助手和聊天机器人等领域具有广泛的应用前景。
语义理解与计算推理:DeepSeek大模型具备强大的语义理解和计算推理能力,能够理解复杂的语义关系和上下文信息,进行准确的计算和推理,在知识问答、文本理解和语义搜索等领域具有广泛的应用价值。
代码生成补全:DeepSeek大模型能够理解代码的语法和语义结构,根据用户的输入生成高质量的代码片段,在编程辅助、代码自动化和智能开发等领域具有广泛的应用前景。
针对DeepSeek的十问十答:
1.DeepSeek 是否会抑制算力增长?短期抑制VS 长期爆发
我们认为DeepSeek 本质是对现有AI 算法的效率优化,短期可能导致训练需求下降,但随着模型普及和应用场景扩展,长期推理需求将显著增长,这种趋势类似于"蒸汽机降低煤耗但提升煤炭总用量"的历史现象。
2.DeepSeek 是否会改变AI 算力的增长范式:目前不会
AI 算力大致分为1)用于研发前沿模型相关的探索性算力(AGI 方向),2)面向消费者的应用性算力(现有模型推理)。目前北美四大AI 公司主要通过扩大GPU 集群规模的方式探索下一代大模型。只要这个探索工作还在继续产生正向回报,AI 算力的增长范式短期或不会发生变化。
3. DeepSeek 会改变市场投资逻辑吗?软件有望跑赢硬件
我们认识到,1)未来大模型竞争中,"算法效率"的重要性或上升, 投资重点可能从"算力军备"转向"算法效率"。2)开源协议使中小开发者能基于前沿模型二次开发,创造更多创新机会。投资角度,看好美股软件表现好于硬件。
4.芯片市场格局是否会改变?高端GPU 用途受限,ASIC 占比或提升DeepSeek 的成功显示即使不使用最先进的GPU,也可以开发满足一般消费者需求的大模型。这可能意味着,英伟达的Blackwell/Rubin 等最先进的
GPU 的用途,可能会局限在探索下一代超大规模模型(Frontier Model)上。
5.DeepSeek 真的那么便宜吗?可能没有
DeepSeek 在其V3 技术报告中估计其训练成本只有557.6 万美元,根据SemiAnalysis 分析,这只包含预训练阶段的部分成本,而加上GPU 算力投资,研发、数据收集等其他重要成本或远大于这个数字。
6.DeepSeek 到底有哪些创新?混合专家MoE,强化学习,蒸馏等主要创新包括模型架构(混合专家MoE,MLA)、训练方法(纯强化学习)、蒸馏优化和推理效率提升等,显著提升了AI 算法效率和性能。
7.DeepSeek 会带动中国科技资产价值重估吗?有可能目前(2025/2/3),恒生科技指数12 月前向PE 20.0 倍,远低于纳斯达克的35.4 倍。DeepSeek 的成功可能提高中国AI 公司估值预期。
8.DeepSeek 会推动端侧智能发展吗?有可能,但需要时间DeepSeek 的高性价比模型有利于模型在智能手机和汽车等智能设备上落地,我们认为智能硬件迭代不会一蹴而就,模型能力提升只是其中一环。
9.DeepSeek 会导致美国提升出口管制压力吗?可能会我们注意到DeepSeek 发布后,美国媒体进一步限制中国发展AI 声音抬头。
建议关注后续:1)高端AI 芯片出口管制,2)前沿模型的开源限制,3)模型回传限制,4)数据获取限制等风险。
10.DeepSeek 会改变开源软件生态吗?会
目前基础大模型的开发,主要集中在OpenAI、Google、Anthropic、阿里,字节、百度的科技巨头手中。DeepSeek 这次的成功丰富了AI 开源生态,也为中小开发者依托开源生态实现快速发展提供了一条发展路径。
简单介绍一下 Ollama DeepSeek R1 模型的选择。可以通过以下链接下载:DeepSeek R1 模型下载
在下载页面,您会看到许多不同类型的模型,那么该选择哪个呢?
这里讲一种简单粗暴的显存需求计算方法。例如,当模型精度为 FP4 时:
-
7B 模型的显存需求 = 7000000000 (参数数量) × 0.5 byte (4-bit) = 3500000000 byte / 1024 / 1024 / 1024 ≈ 3.26 GB
-
671B 模型的显存需求 = 671000000000 × 0.5 / 1024 / 1024 / 1024 ≈ 312.46 GB
当然,这些只是理论值。显存占用的大小不仅与模型的参数数量和大小有关,还与是否量化、精度(如 FP4、FP8、FP16、FP32)、User Prompt、Max Tokes、Context Length 等因素相关。例如,像 q4_K_M
这种量化模型,其显存占用会更低。因此,这只是一个估算值。在实际生产环境中,建议将理论值乘以 2 到 3 来预估显存需求。
以下是显存需求的大致参照表:
模型 | 参数数量 | 模型大小 | 显存需求(大约) |
---|---|---|---|
deepseek-r1:1.5b | 1.5B | 1.1 GB | ~2 GB |
deepseek-r1:7b | 7B | 4.7 GB | ~5 GB |
deepseek-r1:8b | 8B | 4.9 GB | ~6 GB |
deepseek-r1:14b | 14B | 9.0 GB | ~10 GB |
deepseek-r1:32b | 32B | 20 GB | ~22 GB |
deepseek-r1:70b | 70B | 43 GB | ~45 GB |
deepseek-r1:1.5b-qwen-distill-q4_K_M | 1.5B | 1.1 GB | ~2 GB |
deepseek-r1:7b-qwen-distill-q4_K_M | 7B | 4.7 GB | ~5 GB |
deepseek-r1:8b-llama-distill-q4_K_M | 8B | 4.9 GB | ~6 GB |
deepseek-r1:14b-qwen-distill-q4_K_M | 14B | 9.0 GB | ~10 GB |
deepseek-r1:32b-qwen-distill-q4_K_M | 32B | 20 GB | ~22 GB |
deepseek-r1:70b-llama-distill-q4_K_M | 70B | 43 GB | ~45 GB |
通过此表,可以帮助您快速选择适合自己需求的 DeepSeek R1 大模型。
有什么疑问,欢迎评论区留言!