【杂谈】-DeepSeek如何以560万美元突破成本障碍

DeepSeek如何以560万美元突破成本障碍

文章目录

  • DeepSeek如何以560万美元突破成本障碍
    • 1、高效人工智能的经济学
    • 2、实现不可能的工程
    • 3、人工智能生态系统的连锁反应

传统的人工智能观点认为,构建大型语言模型 (LLM)需要大量资金——通常需要数十亿美元的投资。但中国人工智能初创公司DeepSeek的最新成果打破了这一模式:仅用 560 万美元就开发出了一个世界级的人工智能模型。

DeepSeek 的V3 模型可以与谷歌 Gemini和OpenAI 的最新产品等行业巨头一较高下,同时仅使用典型计算资源的一小部分。这一成就引起了许多行业领袖的关注,尤其引人注目的是,尽管面临美国出口限制,无法获得最新的Nvidia 芯片,该公司仍取得了这一成就。

1、高效人工智能的经济学

这些数字说明了效率的惊人。虽然大多数先进的人工智能模型需要16,000到100,000个 GPU 进行训练,但DeepSeek仅用2,048个GPU运行了57天。该模型的训练在Nvidia H800芯片上消耗了278万个 GPU 小时——对于 6710 亿个参数的模型来说,这个数字非常适中。

从这个角度来看,Meta 需要大约 3080 万个GPU 小时(大约是计算能力的 11 倍)来训练其Llama 3 模型,而该模型的参数实际上更少,只有 4050 亿个。DeepSeek 的方法类似于在约束条件下进行优化的大师班。借助 H800 GPU(Nvidia 专为中国市场设计的、功能有限的 AI 芯片),该公司将潜在的限制转化为创新。他们没有使用现成的解决方案进行处理器通信,而是开发了可最大限度提高效率的定制解决方案。

尽管竞争对手仍然认为需要进行大规模投资,但 DeepSeek 已证明,独创性和高效的资源利用可以使竞争更加公平。

在这里插入图片描述

图片来源:https://artificialanalysis.ai/models/deepseek-v3

2、实现不可能的工程

DeepSeek 的成就在于其创新的技术方法,表明有时最有影响力的突破来自于在约束条件下工作,而不是投入无限的资源来解决问题。

这项创新的核心是一种称为“无辅助损失负载平衡(auxiliary-loss-free load balancing)”的策略。可以将其想象成协调一个大规模并行处理系统,传统上,您需要复杂的规则和惩罚才能使一切顺利运行。DeepSeek 颠覆了这种传统观念,开发了一种可以自然保持平衡的系统,而无需传统方法的开销。

该团队还率先采用了所谓的“多标记预测”(Multi-Token Prediction,MTP)技术,该技术通过同时预测多个标记,让模型提前思考。在实践中,这意味着这些预测在各个主题中的接受率高达 85-90%,处理速度比以前的方法快 1.8 倍。

技术架构本身就是效率的杰作。DeepSeek 的 V3 采用混合专家(mixture-of-experts,MoE)方法,总共有 6710 亿个参数,但巧妙之处在于它只为每个 token 激活 370 亿个参数。这种选择性激活意味着他们可以获得大规模模型的好处,同时保持实际效率。

他们选择 FP8 混合精度训练框架是又一次飞跃。他们没有接受传统的精度降低限制,而是开发了定制解决方案,在保持精度的同时显著降低了内存和计算要求。

3、人工智能生态系统的连锁反应

DeepSeek 的成就的影响远远超出了一个成功的模型。

对于欧洲的人工智能发展来说,这一突破意义非凡。许多先进的模型无法进入欧盟,因为像 Meta 和 OpenAI 这样的公司无法或不愿适应欧盟的《人工智能法案》。DeepSeek 的方法表明,构建尖端人工智能并不总是需要大规模的 GPU 集群——更重要的是高效利用可用资源。

这一发展也表明出口限制实际上可以推动创新。DeepSeek 对高端硬件的有限使用迫使他们以不同的方式思考,从而实现了在资源丰富的环境中可能永远不会出现的软件优化。这一原则可能会重塑我们在全球范围内处理人工智能开发的方式。

尽管行业巨头仍在投入数十亿美元,但 DeepSeek 已经为高效、经济的 AI 开发制定了蓝图。这可能会为之前因资源限制而无法竞争的小型公司和研究机构打开大门。

然而,这并不意味着大规模计算基础设施正在变得过时。业界正在将重点转向扩展推理时间——模型生成答案所需的时间。随着这一趋势的持续,大量计算资源仍将是必要的,随着时间的推移,这种需求可能会更加迫切。

但 DeepSeek 从根本上改变了这一话题。其长期影响显而易见:我们正在进入一个创新思维和高效资源利用比单纯的计算能力更重要的时代。对于人工智能社区来说,这意味着不仅要关注我们拥有什么资源,还要关注我们如何创造性和高效地利用这些资源。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/65900.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

TIOBE 指数 12 月排行榜公布,VB.Net排行第九

IT之家 12 月 10 日消息,TIOBE 编程社区指数是一个衡量编程语言受欢迎程度的指标,评判的依据来自世界范围内的工程师、课程、供应商及搜索引擎,今天 TIOBE 官网公布了 2024 年 12 月的编程语言排行榜,IT之家整理如下: …

vs2022编译opencv 4.10.0

参考:Windosw下Visual Studio2022编译OpenCV与参考区别在于,没有用cmake GUI,也没有创建build目录,直接用vs2022打开了C:\code\opencv目录,即CMakeLists.txt所在根目录。没有修改默认下载地址,采用手动下载…

未来教育:AI知识库如何重塑学习体验

在科技日新月异的今天,教育领域正经历着前所未有的变革。人工智能(AI)技术的快速发展,特别是AI知识库的广泛应用,正在重塑我们的学习体验,使之变得更加高效、个性化和智能化。本文将深入探讨AI知识库如何影…

Android Camera压力测试工具

背景描述: 随着系统的复杂化和业务的积累,日常的功能性测试已不足以满足我们对Android Camera相机系统的测试需求。为了确保Android Camera系统在高负载和多任务情况下的稳定性和性能优化,需要对Android Camera应用进行全面的压测。 对于压…

JDK8源码分析Jdk动态代理底层原理

本文侧重分析JDK8中jdk动态代理的源码,若是想看JDK17源码分析可以看我的这一篇文章 JDK17源码分析Jdk动态代理底层原理-CSDN博客 两者之间有着略微的差别,JDK17在JDK8上改进了不少 目录 源码分析 过程 生成的代理类大致结构 本文侧重分析JDK8中jdk…

Spire.PDF for .NET【页面设置】演示:向 PDF 添加平铺背景图像

平铺背景通常是指用一个或多个小图像重复填充的背景。在本文中,您将学习如何在 PDF 中平铺图像,并使用 C# 和 VB.NET 为您的 PDF 创建平铺背景。 Spire.PDF for .NET 是一款独立 PDF 控件,用于 .NET 程序中创建、编辑和操作 PDF 文档。使用 …

ImageNet 2.0?自动驾驶数据集迎来自动标注新时代

引言: 3DGS因其渲染速度快和高质量的新视角合成而备受关注。一些研究人员尝试将3DGS应用于驾驶场景的重建。然而,这些方法通常依赖于多种数据类型,如深度图、3D框和移动物体的轨迹。此外,合成图像缺乏标注也限制了其在下游任务中的…

stm32 智能语音电梯系统

做了个stm32智能语音控制的电梯模型,总结一下功能,源码用ST的HAL库写的,整体流程分明。 实物图 这个是整个板子的图片,逻辑其实并不复杂,只是功能比较多,在我看来都是一些冗余的功能,但也可能是…

多模态论文笔记——CogVLM和CogVLM2

大家好,这里是好评笔记,公主号:Goodnote,专栏文章私信限时Free。本文详细介绍多模态模型的LoRA版本——CogVLM和CogVLM2。在SD 3中使用其作为captioner基准模型的原因和优势。 文章目录 CogVLM论文背景VLMs 的任务与挑战现有方法及…

【react】Redux的设计思想与工作原理

Redux 的设计理念 Redux 的设计采用了 Facebook 提出的 Flux 数据处理理念 在 Flux 中通过建立一个公共集中数据仓库 Store 进行管理,整体分成四个部分即: View (视图层)、Action (动作)、Dispatcher (派发器)、Stor…

PCB层叠结构设计

PCB层叠结构设计 层叠结构设计不合理完整性相关案例:在构成回流路径时,由于反焊盘的存在,使高速信号回流路径增长,造成信号回流路径阻抗不连续,对信号质量造成影响。 PCB层叠结构实物:由Core 和 Prepreg&a…

【Cesium】七、设置Cesium 加载时的初始视角

文章目录 一、前言二、实现方法2.1 获取点位、视角2.2 设置 三、App.vue 一、前言 在前面的文章 【Cesium】三、实现开场动画效果 中有提到过 虽然也能回到初始点位但是有一个明显的动画过程。下面方法加载时就是在初始点位 没有动画效果,根据需求选择。 本文参考…

Edge安装问题,安装后出现:Could not find Edge installation

解决:需要再安装(MicrosoftEdgeWebView2RuntimeInstallerX64)。 网址:https://developer.microsoft.com/zh-cn/microsoft-edge/webview2/?formMA13LH#download 如果已经安装了edge,那就再下载中间这个独立程序安装就…

日期时间选择(设置禁用状态)

目录 1.element文档需要 2.禁用所有过去的时间 3.设置指定日期的禁用时间 <template><div class"block"><span class"demonstration">起始日期时刻为 12:00:00</span><el-date-pickerv-model"value1"type"dat…

【《python爬虫入门教程11--重剑无峰168》】

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 【《python爬虫入门教程11--selenium的安装与使用》】 前言selenium就是一个可以实现python自动化的模块 一、Chrome的版本查找&#xff1f;-- 如果用edge也是类似的1.chrome…

系统架构风险、敏感点和权衡点的理解

系统架构是软件开发过程中的关键环节&#xff0c;它决定了系统的可扩展性、稳定性、安全性和其他关键质量属性。然而&#xff0c;架构设计并非易事&#xff0c;其中涉及的风险、敏感点和权衡点需要仔细考虑和处理。本文将详细探讨系统架构风险、敏感点和权衡点的概念&#xff0…

leetcode热题100(79. 单词搜索)dfs回溯 c++

链接&#xff1a;79. 单词搜索 - 力扣&#xff08;LeetCode&#xff09; 给定一个 m x n 二维字符网格 board 和一个字符串单词 word 。如果 word 存在于网格中&#xff0c;返回 true &#xff1b;否则&#xff0c;返回 false 。 单词必须按照字母顺序&#xff0c;通过相邻的…

用PicGo向Github图床上传图片,然后通过markdown语言显示图片

目录 下载PicGo软件图床GitHub设置在Markdown中使用图片 下载PicGo软件 先进入Pic官网&#xff0c;然后点击下图中的免费下载 然后点击下载下图中PicGo-Setup-2.4.0-beta.9.exe这个可执行软件 图床GitHub设置 点击PicGo中的图床设置&#xff0c;再点击其中的Github&#xff…

bilibili 哔哩哔哩小游戏SDK接入

小游戏的文档 简介 bilibili小游戏bilibili小游戏具有便捷、轻量、免安装的特点。游戏包由云端托管&#xff0c;在哔哩哔哩APP内投放和运行&#xff0c;体验流畅&#xff0c;安全可靠。https://miniapp.bilibili.com/small-game-doc/guide/intro/ 没想过接入这个sdk比ios还难…

Spring Cloud Alibaba2022之Sentinel总结

Spring Cloud Alibaba2022之Sentinel学习 Sentinel介绍 Sentinel是一个面向云原生微服务的流量控制、熔断降级组件。 Sentinel 分为两个部分&#xff1a; 核心库&#xff1a;&#xff08;Java 客户端&#xff09;不依赖任何框架/库&#xff0c;能够运行于所有 Java运行时环 …