国产大模型的逆袭:技术路径的策略与实践

探索AI的无限可能,微信关注“AIGCmagic”公众号,让AIGC科技点亮生活

一.聚焦长文本,国产大模型已有赶超GPT之势

1.1 理科能力差距较大,注重文科能力的提升

整体比较而言,国内大模型与GPT-4(官网)尚存在明显差距,但个别能力上已展现出优势。
  • 理科能力差距明显。除通义千问2.1的工具使用能力较高,其它国内大模型的得分均低于GPT-4(官网)。
  • 文科能力差异缩小。GPT-4在语义理解中保持优势,国内大模型在其他能力上表现出色。
  • 通义千问2.1:在知识百科、长文本、角色扮演和生成与创作等具有突出优势,得分较GPT-4高。
  • Kimi:kimi在长文本能力上表现出色,与GPT-4的较量中得分占优。
标题图表:国内外最新大模型的综合能力比较

1.2 国内大模型长文本能力部分赶超GPT-4

大模型的长文本能力已经成为了重要的竞争力,国内长文本能力赶超了部分国外大模型。
  • 国内大模型厂商布局长文本能力。长文本能力被视为大模型竞争的重要性能指标。通义千问、360的智脑、文心一言开放长文本能力。
  • 国内头部企业展现出较强的竞争。根据基准测评报告,通义千问凭借71.8分成为全球大模型中唯一超过70分的大模型,而kimichat和山海大模型则占据第四和第五的席位。在前32名中,有20个席位被国内大模型占据。
标题图表:国内外最新大模型的长文本能力比较
Kimi率先在国内掀起大模型长文本竞赛。3月18日,月之暗面宣布在大模型长上下文窗口技术上取得突破:Kimi智能助手从支持20万字直接到支持200万字超长无损上下文,并于即日起开启产品“内测”。受此消息影响,百度、阿里等国产大模型龙头厂商陆续宣布大模型迭代进展,打响百万文本上下文竞赛。3月22日晚间,阿里的通义千问官宣升级,向所有人免费开放1000万字的长文档处理功能;360紧随其后,360智脑正式内测500万字长文本处理功能,即将入驻360AI浏览器;百度在4月将对文心一言进行升级,届时也将开放长文本能力,文本范围在200万-500万。

对比海外龙头:1)5月谷歌发布的最新Gemini 1.5 pro、1.5 flash分别支持200万(理论极限1000万)、100万(开发人员可尝试注册200万)token;2)6月,Claude 3.5Sonnet支持20万token;3)GPT-4 Turbo支持12.8万token。
标题图表:国内外主流大模型的长文本能力比较

二.长文本的三大难题和解决之道

Transformer架构的大模型在长文本中存在注意力机制计算复杂度、上下文记忆以及最长文本约束难题:
(1)注意力机制计算复杂度:注意力机制的计算时间复杂度、空间复杂度都是序列长度的二次方O(L²),随着序列变长,存在计算速度变慢和内存增长的问题,模型的训练和推
理均存在负担。
(2)上下文记忆:LLM缺乏显性的内存机制,仅依靠KV缓存来存储以前所有token之间的信息,在结束了一次查询调用操作后,除非将历史上所有token的信息重新加载到KV缓存中,否则transformer不会保存该次查询的信息。因而,每次调用时,模型只拥有较短的上下文工作内存,而不具备长期记忆。这虽然在并行计算方面有优势,但在对长期记忆有要求的聊天机器人场景中存在应用困难。
(3)最长文本约束:在训练时,由于GPU内存的限制,工程师通常会确定最长的超参数长度(如1K、2K、4K等,表示任意批训练中样本序列长度的限制),随着序列变长,模型性能可能下降。在推理过程中,Transformer在访问长文本中间时性能也会显著下降,LLM服务商通常会限制用户prompt上下文长度,以保证模型性能的稳定。
图表:Transformer模型一般架构
图表:访问长文本中间性能下降题
突破长文本限制的方法尚未收敛。目前,突破长文本的方式主要涉及优化注意力机制、长期记忆力机制、上下文处理以及位置编码外展等。
优化注意力机制:这类方法的重点是实现有效的注意机制与降低计算成本,甚至实现线性时间的复杂性,从而可以增加训练前阶段的上下文长度以及推理过程中的有效上下文长度边界。可以分成五种不同的策略,每种策略都有一个特定的重点:局部注意、分层注意、稀疏注意、近似注意和IO-觉察注意。例如,局部注意是将每个token的注意仅限于其相邻的token,而不是每个token与其他所有的token都计算attention。
标图表:长文本问题的解决之道题
长期记忆力机制:通过引入额外的记忆模块来扩展上下文窗口。1)内部记忆力缓存:利用递归等方法,将长文本分成固定长度的片段流,此上下文信息是从先前片段的缓存或提炼出的信息中获得的;2)外部知识库:在推理过程中,模型可从外部知识库中读取内容以丰富其上下文输入,并从用户的响应中写入这些知识库以刷新其长期记忆,例如RAG技术。
位置编码外展:通过设计可推广的位置嵌入方法来处理不同长度的输入,实现更长的推理长度,例如使用注意力偏差和扩展的RoPE(旋转位置编码),实现上下文长度外推。
上下文处理:在预处理和后处理阶段优化长文本处理,将预训练的LLM视为黑盒或灰盒模型,并通过多次调用模型来处理长上下文输入,确保每次调用都遵守𝐿𝑚𝑎𝑥限制。这些方法并没有增强LLM处理长上下文的固有能力,只是利用模型的上下文学习能力。例如将上下文分段、将分段的信息融合以及压缩上下文的大小。
其他方法:包括特定的优化目标、MoE、并行计算、压缩权重等其他方法,以提高LLMs在各个阶段的性能。

三.商业上降价,加速迭代卷出未来

3.1 降价抢占API调用量,撬动大模型“飞轮迭代”

随着技术进步和市场竞争,大模型训练&推理成本降低,国内大模型厂商纷纷降价,以吸引用户和提高市场份额。国内大模型降价从初创公司开启,由云厂商加速,更多初创公司并未降价。根据智东西微信公众号统计,5月6日,深度求索开源MoE模型DeepSeek-V2,百万tokens仅需1元。5月15日,字节宣布旗下通用模型豆包pro-128k版模型推理输入价格定价比行业价格低95.8%,豆包pro-32k模型推理输入降至比行业价格低99.3%。之后阿里、百度、科大讯飞、腾讯等云厂商或科技企业相继加入降价队伍。对初创公司而言,除了深度求索、智谱AI之外,包括百川智能、月之暗面、零一万物在内的几家头部大模型初创公司并未加入降价行列。
高幅度降价以轻量级、入门级模型为主,主力模型、旗舰模型降幅相比较小。降价不等于恶性竞争和模型缺陷,更多的是在技术支持下商业逻辑的打磨与模型能力的完善。云厂商降价行为更活跃,与其具备更完善的云算力基础设施息息相关,通过降价的方式积累更多的用户,进一步抢占市场份额。
图表:国内外主流大模型价格情况
图表:国内外主流大模型价格情况(续表)
大模型降价是对API调用量的“跑马圈地”。短期来看大模型性能提升遇到瓶颈,同质化严重,包括OpenAI的用户增速陷入了低迷期,降价是吸引更多开发者参与进来最直接的方法。 智东西微信公众号6月20日报道,从阿里、百度、腾讯、字节等大模型厂家的后台数据来看,在宣布降价后,各家主力模型在最近一个月调用量均大幅上扬——增长数倍到十几倍都有,甚至有个别客户如字节调用量在降价两周内增长5000倍。智谱AI、科大讯飞、DeepSeek等 大模型厂商虽未公开相关数据,但调用量可以预测也是水涨船高。
调用量提升有望撬动大模型“飞轮迭代”,打磨出更好的模型 。调用量提升能够抢夺更多的开发者→激活更多的应用场景与生态→验证大模型业务价值→加速迭代打磨出更好的模型→增强开发者粘性。
对于大模型企业而言,只有吸引越多的开发者,才能缔造更繁荣的应用生态、催生更多的应用创新。应用生态越完善,使用场景越多,用户规模越大,生成的新数据会反哺大模型性能提升。
在这过程中,开发者是核心角色。既可能通过反复调用模型打造出应用生态并提供了模型优化建议,而且可能在开发出应用后与大模型生态捆绑,从而增强大模型粘性。
图表:大模型降价提升调用量有望撬动大模型“飞轮迭代”

3.2 降价的背后是训练&推理成本的下降

训练成本下降:改善大模型训练工程与提高训练效率与算力利用率。
大模型工程改善技术:在Scalling Law驱使下,大模型迫切变大,却面临着训练成本的难题。目前,国内外主流大模型GPT-4、Gemini、Mistral、天工3.0、DeepSeek V2等均采用了MoE架构,在模型扩展性与训练成本直接达到了较好的平衡。 训练成本指数级增长是Dense模型扩展的重要难题。根据seminianalysis,训练一个1万亿参数模型的成本约为3亿美元,如果在1.25万个HGX/DGX系统中使用10万个A100,则需要大约3个月的时间进行训练;训练10万亿参数模型则需要将近300亿美元,即使在1.25万个HGX/DGX系统中使用100万个A100,也需要两年多的时间。
MoE技术原理:与传统大模型架构相比,MoE架构在数据流转过程中集成了一个专家网络层,该层的核心由门控网络和一组专家模型构成。数据进入MoE时会先通过门控网络分割数据,将每组数据分配给一个或多个专家,最终输出由所有专家结果的加权融合。
效果:与传统的Dense模型相比,MoE能够在远少于前者所需的计算资源下进行有效的预训练,计算效率更高、速度更快,进而使得模型规模得到显著扩大,让万亿参数成为可能,获得更好的AI性能。2022年,Google采用MoE架构设计的Switch Transformers模型参数达到1.57万亿,与此前的T5模型相比,在相同的计算资源下获得高达7倍的模型预训练速度提升,并实现了4倍的模型加速。
图表:MoE一般基础架构
MoE存在进一步改进空间。例如,国内DeepSeek V2采用DeepSeekMoE混合专家架构,通过细粒度的专家分割(更多的专家)和共享专家隔离(专家之间共享知识,减少知识冗余)等优化措施,实现了比传统MoE架构更低的训练成本。与初代DeepSeek 67B相比,新模型训练成本下降42.5%。
提高训练效率与算力利用率:大模型训练方法与算力基础设施能力的综合比拼。 大模型训练中存在一些的分布式并行范式可以有效优化训练过程,分别为数据并行、流水线并行和张量并行,通过训练任务的拆分、提高内存利用率等多种方式减少训练时间,提高训练效率。例如数据并行中ZeRO(Zero Redundancy Optimizer),思想就是拆分参数、梯度及优化器状态,使得节点保存部分参数、梯度及优化器状态,可以减少内存占用并提升一定的通信速率。 算力提供方可以通过一些基础工具提高算力利用率。例如,英伟达提供了Nsight System(nsys)工具查看模型运行时的CPU/GPU执行情况,可以帮助发现GPU运行时的一些问题。
图表:ZeRO方法减少了内存占用、提升通信速率
推理成本下降:目前大模型普遍支持长文本,而GPUHBM、带宽以及PCIe带宽大小有限,大模型落地应用实现规模化推广后,KV缓存给推理成本带来较大挑战,相应的成本优化路线主要围绕压缩KV缓存展开。
国产大模型DeepSeek V2压缩KV缓存的实践:
技术路线:采用多头潜在注意力机制MLA将KV缓存显著压缩成一个潜在向量来保证有效的推理,从而提高推理效率。传统MHA方法,一个Q向量与一对KV向量对应,而GQA和MQA在压缩KV缓存时,多个Q向量会对应一组KV向量,实现缓存的压缩,但一定程度上会影响模型性能。MLA使用了低秩KV缓存联合压缩的方法,通过引入低秩向量将KV压缩到低维空间,相比MHA显著降低推理过程中缓存的大小,并取得更好的性能。
根据DeepSeek-V2的技术论文,DeepSeek-V2相对上代模型KV缓存减少93.3%,最大吞吐量提升576%。简单估计,DeepSeek-V2以236B总参数、21B激活,大致达到70B~110BDense的模型能力,同时消耗的显存(KV Cache)只有同级别Dense模型的1/5~1/100,每token成本大幅降低。实际部署在8卡H800机器上,输入吞吐量超过每秒10万tokens,输出超过每秒5万tokens。
图表:MLA对KV缓存压缩幅度最大

四.一些风险层面的思考

  • 海外大模型展现闭源趋势,国内大模型技术差距扩大:海外闭源发展以及对国内的技术封闭,可能导致国内大模型与海外龙头主流大模型产生代际差;
  • 国内大模型在整体性能上未能达到商业使用的奇点:国内大模型目前与GPT-4等海外龙头大模型性能之间仍存在性能差异,大规模商业化应用仍需等待时机;
  • 国内大模型在缺乏算力支持的情况下迭代速度放缓:美国对国内AI算力硬件采取严格封锁措施,国内在缺乏先进GPU的情况下,大模型迭代速度可能放缓;
  • 国内大模型技术路线产生分歧,无法引领未来发展方向:国内大模型厂商数量众多,他们或都采取差异化的技术路线维持自身竞争力,但不利于集中力量攻克大模型发展难题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/876744.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

树与二叉树【数据结构】

前言 之前我们已经学习过了各种线性的数据结构,顺序表、链表、栈、队列,现在我们一起来了解一下一种非线性的结构----树 1.树的结构和概念 1.1树的概念 树是一种非线性的数据结构,它是由n(n>0)个有限结点组成一…

【计算机网络】ICMP报文实验

一:实验目的 1:掌握ICMP报文的各种类型及其代码。 2:掌握ICMP报文的格式。 3:深入理解TTL的含义(Time to Live,生存时间)。 二:实验仪器设备及软件 硬件:RCMS-C服务器…

等级保护测评解决方案

什么是等级保护测评? 网络安全等级保护是指对国家重要信息、法人和其他组织及公民的专有信息以及公开信息和存储、传输、处理这些信息的信息系统分等级实行安全保护,对信息系统中使用的信息安全产品实行按等级管理,对信息系统中发生的信息安全…

小模型狂飙!6家巨头争相发布小模型,Andrej Karpathy:大语言模型的尺寸竞争正在倒退...

过去一周,可谓是小模型战场最疯狂的一周,商业巨头改变赛道,向大模型say byebye~。 OpenAI、Apple、Mistral等“百花齐放”,纷纷带着自家性能优越的轻量化小模型入场。 小模型(SLM),是相对于大语言模型(LLM…

Istio 学习笔记

Istio 学习笔记 作者:王珂 邮箱:49186456qq.com 文章目录 Istio 学习笔记[TOC] 前言一、基本概念1.1 Istio定义 二、Istio的安装2.1 通过Istioctl安装2.2 通过Helm安装 三、Istio组件3.1 Gateway3.2 VirtulService3.2.1 route详解3.2.2 match详解3.2.3…

【前端 02】新浪新闻项目-初步使用CSS来排版

在今天的博文中,我们将围绕“新浪新闻”项目,深入探讨HTML和CSS在网页制作中的基础应用。通过具体实例,我们将学习如何设置图片、标题、超链接以及文本排版,同时了解CSS的引入方式和选择器优先级,以及视频和音频标签的…

【Gin】智慧架构的巧妙砌筑:Gin框架中控制反转与依赖注入模式的精华解析与应用实战(下)

【Gin】智慧架构的巧妙砌筑:Gin框架中控制反转与依赖注入模式的精华解析与应用实战(下) 大家好 我是寸铁👊 【Gin】智慧架构的巧妙砌筑:Gin框架中控制反转与依赖注入模式的精华解析与应用实战(下)✨ 喜欢的小伙伴可以点点关注 💝 …

怀旧必玩!重返童年,扫雷游戏再度登场!

Python提供了一个标准的GUI(图形用户界面)工具包:Tkinter。它可以用来创建各种窗口、按钮、标签、文本框等图形界面组件。 而且Tkinter 是 Python 自带的库,无需额外安装。 Now,让我们一起来回味一下扫雷小游戏吧 扫…

快速搞定分布式RabbitMQ---RabbitMQ进阶与实战

本篇内容是本人精心整理;主要讲述RabbitMQ的核心特性;RabbitMQ的环境搭建与控制台的详解;RabbitMQ的核心API;RabbitMQ的高级特性;RabbitMQ集群的搭建;还会做RabbitMQ和Springboot的整合;内容会比较多&#…

【C++】C++入门知识(上)

好久不见&#xff0c;本篇介绍一些C的基础&#xff0c;没有特别的主题&#xff0c;话不多说&#xff0c;直接开始。 1.C的第一个程序 C中需要把定义文件代码后缀改为 .cpp 我们在 test.cpp 中来看下面程序 #include <stdio.h> int main() {printf("hello world\n…

SQL Server 设置端口号:详细步骤与注意事项

目录 一、了解SQL Server端口号的基础知识 1.1 默认端口号 1.2 静态端口与动态端口 二、使用SQL Server配置管理器设置端口号 2.1 打开SQL Server配置管理器 2.2 定位到SQL Server网络配置 2.3 修改TCP/IP属性 2.4 重启SQL Server服务 三、注意事项 3.1 防火墙设置 3…

Java小抄|Java中的List与Map转换

文章目录 1 List<User> 转Map<User.id,User>2 基础类型的转换&#xff1a;List < Long> 转 Map<Long,Long> 1 List 转Map<User.id,User> Map<Long, User> userMap userList.stream().collect(Collectors.toMap(User::getId, v -> v, …

p28 vs环境-C语言实用调试技巧

int main() { int i0; for(i0;i<100;i) { printf("%d",i); } } 1.Debug 和Release的介绍 Debug通常称为调试版本&#xff0c;它包含调试信息&#xff0c;并且不做任何优化&#xff0c;便于程序员调试程序。 Release称为发布版本&#x…

PTPD 在 QNX 系统上的授时精度验证与误差排查

文章目录 0. 引言1.关键函数实现2. 验证策略与结果3. 授时误差的排查与解决3. 授时误差的排查与解决4. 结论 0. 引言 PTPD是一种时间同步的开源实现&#xff0c;在不同操作系统上的表现可能存在显著差异。 本文通过在QNX系统上运行PTPD&#xff0c;针对其授时精度进行详细验证…

探索算法系列 - 双指针

目录 移动零&#xff08;原题链接&#xff09; 复写零&#xff08;原题链接&#xff09; 快乐数&#xff08;原题链接&#xff09; 盛最多水的容器&#xff08;原题链接&#xff09; 有效三角形的个数&#xff08;原题链接&#xff09; 查找总价格为目标值的两个商品&…

优化算法:2.粒子群算法(PSO)及Python实现

一、定义 粒子群算法&#xff08;Particle Swarm Optimization&#xff0c;PSO&#xff09;是一种模拟鸟群觅食行为的优化算法。想象一群鸟在寻找食物&#xff0c;每只鸟都在尝试找到食物最多的位置。它们通过互相交流信息&#xff0c;逐渐向食物最多的地方聚集。PSO就是基于这…

【python_将一个列表中的几个字典改成二维列表,并删除不需要的列】

def 将一个列表中的几个字典改成二维列表(original_list,headersToRemove_list):# 初始化一个列表用于存储遇到的键&#xff0c;保持顺序ordered_keys []# 遍历data中的每个字典&#xff0c;添加其键到ordered_keys&#xff0c;如果该键还未被添加for d in original_list:for …

P4009 汽车加油行驶问题题解

P4009 汽车加油行驶问题 紫题&#xff0c;但是DFS。 思路 记忆化搜索&#xff0c;分多钟情况去搜索。 注意该题不用标记&#xff0c;有可能会往回走。 有可能这样走。 代码 #include<bits/stdc.h> #include<cstring> #include<queue> #include<set&g…

redis:清除缓存的最简单命令示例

清除redis缓存命令(执行命令列表见截图) 1.打开cmd窗口&#xff0c;并cd进入redis所在目录 2.登录redis redis-cli 3.查询指定队列当前的记录数 llen 队列名称 4.清除指定队列所有记录 ltrim 队列名称 1 0 5.再次查询&#xff0c;确认队列的记录数是否已清除

配置和连接另一台电脑上的 MySQL 数据库

要配置和连接另一台电脑上的 MySQL 数据库&#xff0c;可以按照以下步骤进行设置&#xff1a; 1. 配置 MySQL 服务器 在目标计算机上&#xff08;192.168.10.103&#xff09;进行以下操作&#xff1a; 修改 MySQL 配置文件&#xff1a; 打开 MySQL 配置文件&#xff08;通常位…