为什么说国产大模型的野心,都藏在 MaaS 的生态中

2016 年 4 月,在一场由 IDG 主办的行业峰会上。

IDG 创始董事长熊晓鸽,刚刚盘点完 IDG 深耕中国企业服务多年的成果,台下,GE 中国公司 CEO 便发出了不合时宜的灵魂一问:

「中国有很多伟大的公司,也有很多超级大的国企,但是为什么就是没有软件服务的 to B 巨头?」

热闹的会场,顿时一片沉默。

那时,将原因归咎于「投资人不给力」的熊晓鸽大概也不会意识到,他反思自谦的 2016 年,已经是国产 SaaS 行业在一级市场最热闹的日子。在此之后,中国企服领域的投融资市场,便出现了连续近十年的漫长冬天:

本该主打标准化做小客生意的 SaaS 公司,在融资文件里信誓旦旦表示,要像 Salesforce 一样,做到 SMB(小客)收入占比大于 80%;转头中国银行却直接甩出数据,中国中小企业平均寿命只有 3 年,不到美国一半,只有日本的四分之一。

转头做 KA(大客户)生意,却发现大客户全都有自己的想法,这家重销售,那家重报销,一个又一个定制化案例做下来,SaaS 变成了堆人头的苦生意。

参差不齐的数字化建设与各式各样的需求共振,于是,典型的中国式 SaaS 诞生了:

和大客要收入,标准化就会消失;向小客要增长,小客原地破产。

那到底有没有一种 to B 的商业模式,能同时做到标准化与赚钱两不误?

大模型时代的到来,一个新的答案隐隐浮现出来。

01

大模型的「拼多多时刻」

即便「是兄弟就来砍我」的拼多多,大概也预料不到国产大模型的疯狂。

「到今天为止一年多的时间,我们完成了 1 万倍的降价。」

这句话省略的主语是大模型,来自智谱 AI Open Day。

智谱是谁不必多说,公司身上的标签包括但不限于:国内最早研究大模型的团队、清华系背景、最早进行大模型商业化的团队、模型社区 Hugging face 中无数开发者接触语言模型的第一站。

只是,大模型、降价、明星独角兽、一万倍,几个关键词叠加,并没能引起太多反应。

所有人都已经见怪不怪:

过去不到一个月时间里,某金融私募背景的大模型公司打响降价第一枪后,智谱、字节、阿里、百度、讯飞、腾讯,甚至海外的 OpenAI 全数下场。

文字游戏与价格炒作齐发,大模型降价背后到底多少虚实,业内人都心知肚明。

在明处,输入价与输出价的模糊表达,轻量模型与核心产品的混为一谈,让所谓降价如同电商 618 期间的眼花缭乱的优惠券叠加,没有十年功底,根本看不出所谓降价的真实幅度。

而在暗处,当所有对手都举起降价的宣战大旗,大模型产业也随之被快进到淘汰赛的环节。敢降价只代表拿到了入场的门票,模型能力是否领先,是否敢拿出最重磅的模型参赛,以及是否敢于开源接受开发者的评判,才是关键得分赛点。

也因此,在智谱 AI Open Day 接下来的环节中,回答了是否拿出看家模型降价?降价后模型性能究竟如何?市场到底是不是买账?回答好这些具体的疑问,才是评判大模型淘汰赛的关键指标。

1、最受欢迎的产品迭代升级:推出四代 GLM 开源模型 GLM-4-9B

这里需要做一个简单翻译:GLM-4-9B 升级的前身是 2023 年智谱开源的 3 代的 6B 模型,过去一共收获了 6 万 的 GitHub 星标,并在最大的模型社区 Hugging Face 上获得了超过 1300 万次的下载,这是不少开发者接触语言模型的第一站。

而四代 GLM 开源模型 GLM-4-9B,相比前一代,**首次拥有多模态能力,并拥有更强的基础能力,更精准的函数调用和 All Tools 能力,以及更长的上下文。**比如,GLM-4-9B 模型的上下文从 128K 扩展到了 1M,换算成中文,能同时处理 200 万字的输入,约等于 2 本红楼梦或者 125 篇论文的长度。而在长度为 128K 的 LongBench-Chat 上,GLM-4-9B-Chat 模型相比上一代提升了 20%。在长度为 1M 的大海捞针测试中,GLM-4-9B-Chat-1M 获得了全绿(无损)的好成绩。

此外,基于强大的预训练基座,GLM-4-9B 的模型中英文综合性能相比 ChatGLM3-6B 提升了 40%,对比训练量更多的 Llama-3-8B 模型,不仅英文方面有小幅领先,中文学科方面更是有着高达 50% 的提升。

价格上,该模型已经被纳入智谱开放平台上的 API 的家族中,以 GLM-4-flash 版本对外服务,价格相对于之前的 GLM-3 Turbo 继续降价 10 倍,仅需要 1 毛钱就可以拥有 100 万 token

2、拿出看家产品:GLM-4 模型升级,小尺寸版本降价 99%

GLM-4 是目前智谱所有大模型产品线中最重磅的模型,多家权威英文测试榜单中,其整体效果已经逼近 GPT-4,在国内企业最需要的中文任务上,则全面超过 GPT-4。

其小尺寸 Air 版本,在性能非常接近 GLM-4 的背景下,价格直接降低至此前的 1%,达到一元/100 万 token。

GLM-4 模型本身,则进一步升级为 GLM-4-0520 版本,综合能力提升 11.9%,指令遵从能力提升了 18.6%。

3、针对企业需求:定向降价

实际部署中,大部分企业除了需要更高的性能,更快的响应速度同样重要。针对这一需求,智谱推出 GLM-4-Air 极速版,可以在效果不变的情况推理速度增加 162%,做到 71 个 token/秒,换算成中文约等于每秒展示汉字数量 100+,价格仅需 10 元/M Tokens。

除此之外,针对更多的定向需求,智谱还推出了全模型矩阵,除以上提到的明星产品外,主打图生文的 GLM-4V,主打均衡的 GLM-3-Turbo,主打文生图的 CogView-3 同样参与此次降价。

图片智谱 AI 公布主要模型产品价格|图片来源:智谱 AI

相比于市面上各种眼花缭乱,却只拿出「非主流」模型降价的做法,智谱几乎搬出了大模型全家桶「参战」。

只是,随之而来,一个新的问题产生了:

降价是门艺术活,如何降得多让用户得到实惠,只是第一层;如何降得巧,不搞亏钱换市场的流血仗,还需要更多的实力。

02

从大模型「砍一刀」,

到 MaaS 的规模效应

「能短时间成为独角兽,天时地利人和缺一不可。」

这是几乎业内所有投资人提到智谱时的第一反应。

如果对 2016 年 AlphaGo 大战李世石,点燃全球 AI 创业热情后的故事略有了解,就不难理解现当下投资人们的犹豫。

在那之后的 5 年的故事,注定成为中国 AI 产业史上浓墨重彩的一笔:

  • 2017 狂欢,投资人排队拿着钱将教授们请出象牙塔投身商业的大潮;
  • 2018 高光,AI 被写入国家规划,百亿独角兽比比皆是;
  • 2019 转型,单纯的打榜与论文不再能吸引更多的目光,商业化阴云悬浮在每个从业者的头顶;
  • 2020 逃杀,随着科创板开板一年,一级市场热情消减,项目退出、弱肉强食成为新的关键词。

——二级市场公开透明的财报已经清清楚楚的显示,算法秘籍傍身的小巨头们,一如曾经的 SaaS,已经被层出不穷的定制化需求,搞到焦头烂额。

而这种 CV 与 SaaS 跨时代的遥相呼应,表面客群选择问题,实际是商业模式问题,根子上则是技术天花板问题。传统 CV、NLP 的算法通用性不足,从开始就注定了这将是一条荆棘密布的道路。

但历史的前行,正是在无数个似曾相识的片段重复中,不断涌现新的让人眼前一亮的新质变。

MaaS,正是这一波大模型企业交出的答案。

所谓 MaaS,Model as a Service,模型即服务。参考过去 SaaS、PaaS、IaaS 的定义,基础大模型本身,就可以成为一个独立的产品,进行标准化盈利。

大模型的通用性、扩展性,使得其相比过往所有 AI 算法,都具备更强的操作系统属性。一个足够优秀的大模型本身,就足以交付用户,成为一种新的商业模式。

与此同时,MaaS 从其取名来看,就不难发现,其核心商业逻辑与各种 XaaS 相同,具有极强的规模效应与降价潜力。

对其进行拆解,MaaS 总共包括两层:

**最核心的是大模型层,这一层具备典型的互联网属性。前期研发成本极高,但后期的复制成本几乎为零,具备极强规模效应。**而这也是大模型产业能不断降价的核心驱动力。

这需要企业拥有极强的技术研发能力以及持续不断地更新迭代能力。智谱团队脱胎于清华学术搜索与挖掘平台 Aminer,几乎可以算是全国范围内对于最新科技进展最敏感的团队。

而技术上,自 2020 年开始,智谱便开始了对于大语言模型的研究,2023 年 3 月 14 号,GPT-4 发布的同一天,公司开源了一代 ChatGLM-6B 的模型,其核心产品 GLM-4 是国内最接近 GPT-4 水平的大模型之一。此次 openday 上,最新发布的 GLM-4-9B 开源模型综合能力,全面超过 Llama-3-8B-Instruct;首次开源基于 GLM 基座的视觉模型 GLM-4V-9B,多模态能力比肩 GPT-4V;GLM-4 新 API 模型 GLM-4-Air 的生成速度,更是提升 300% 达到 71 token/s。

**算法层之外,MaaS 的第二层是最基础的计算资源。**算力的发展,整体遵循摩尔定律的设定,理想的情况下,晶体管密度 18 个月增加一倍,相应的用户使用相同算力的成本则每 18 个月降低一倍。

也是因此,无数云服务大厂前赴后继将 MaaS 作为新的增长点,从建设智算中心到启动开发者计划,从自研到投资,全方位火力覆盖。

但这些还不是 MaaS 的全部潜力。

一个直观数据是,迄今为止,智谱 MaaS 大模型开放平台 bigmodel.cn 的日均调用量已经超过了 400 亿 tokens,过去 6 个月 API 每日消费量增长了 50 倍以上,企业客户超过 30 万,并实现了汽车、金融、营销、制造等多个行业覆盖,并拿下了 2000+生态合作伙伴、1000+大模型规模化应用、200 多家企业共创,其中包括金山、蒙牛、分众、智己等多个大客户。

至于关于如何避免将大模型做成一个定制化堆人头的苦生意,大模型极强的通用性特点,决定了其可以通过少数基模建设,就足以覆盖绝大多数的核心用户场景。而到了具体的产业化环节,则可以通过 MaaS 与行业合作伙伴甚至第三方合作伙伴共建,完成最后一步行业的应用落地。

这方面最典型的应用是大模型在客服对话领域对传统 NLP 的替代。OpenDay 现场,小米集团小爱团队总经理王刚讲到小米智能语音助手与智谱的合作案例:

过去在小爱同学团队内部,会将各种 NLP 任务细分出包括天气、计算器、音乐、视频、知识问答等近百个垂直领域。其中,每个垂域背后都是一些特定任务的 NLP 任务,需要专门的算法工程师去完成 NLP 的优化。这个优化过程,首先要构建专有的任务式问题,然后搜集足够多的训练数据,然后再进一步训练调优。

而随着大模型出现,小爱团队全面升级背后的架构,将近百个分任务通过大模型总结成一个通用的任务。两者之间,不仅是单纯的替代,大模型还同时将小爱的功能进一步拓展至诸如音乐、视频、商品助手、汽车助手、互联网信息汇总等更多高级形态。

图片图片来源:智谱 AI

另外,结合智谱全系列大模型降价的动作,也就有了将大模型从只能覆盖高端机,进一步下探应用到入门机型覆盖到全终端的可能——大模型以价换量的逻辑跑通。

与此同时,建立在通用性基础上,规模效应也来的顺其自然。以智谱与金山办公的合作为例,智谱主要提供基模,已经拥有大量行业知识库的金山办公则完成更擅长的场景化模型微调,两方分工协作,避免了传统 SaaS 做 KA 案例通常会陷入的过分定制化困境。

再进一步,不是所有用户都如小米与金山具备健全的数字化能力。

相比大厂做 MaaS,大模型只是引子,售卖底层的 PaaS 与 IaaS 资源才是最终目的**,智谱选择将大模型本身与硬件解耦,为客户提供四种解决方案:**

第一种,最轻量级的 API 调用模式,将模型封装成开放平台,企业按照 API 调用量进行付费。

第二种,基于云端的私有化方案。主要针对对于部分业务数据敏感,但又不希望自建算力设施的企业,通过云端算力私有化,为其开辟专门的模型的专区。

第三种,完全私有化方案,对于拥有成熟算力设施的企业,直接利用企业自身的硬件和算力的资源,为其提供大模型支持。

第四种,软硬件结合一体机方案,主要针对信创场景,通过更高的适配性免去在客户环境中部署与调试过程。

MaaS 加持下,智谱成为了中国大模型产业最独特,也最具商业化潜力的一家。

03

SaaS 的过去,

不会是 MaaS 的未来

尽管残酷,但一个不得不承认的现实是:虽然热潮才开始一年多,但大模型已经进入淘汰赛。

相比传统 CV、NLP,大模型背后的大数据、大算力、大资本投入,大模型行业从一开始就决定了只有获得更多资源加持的头部玩家,才能笑到最后。而同样也是这「三大」,导致了从公司成立伊始做出的商业模式选择,就已经为结局埋下伏笔。

而在这个过程中,MaaS 的重要性或许被大大低估了:

如果说,过去是单一算法找场景,拿着锤子找钉子,算法无法解决整体问题,导致除了人脸识别、自动驾驶外,明星场景寥寥。

MaaS 则意味着,在承认企业的需求不同、数字化能力不同的基础上,通过大模型的通用性以及生态优势,来解决这千变万化需求。

一定程度上,这是场技术你追我赶的闪电战,更是场生态与商业的持久战。

如何学习大模型

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。

作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。

再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。

因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/23971.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

用大模型实现PPT可视化几种思路

https://zhuanlan.zhihu.com/p/700685802 背景 前面一篇文章已经介绍了如何根据用户输入,用大模型实现内容检索、分析、脑图可视化的链路。然而往往投研团队需要针对重要新闻做组内分析解读,需要用ppt的方式来展现;那么优美可能让大模型直…

[office] 如何才能用EXCEL打开dat文件- #微信#学习方法

如何才能用EXCEL打开dat文件? 方法: 1、打开EXCEL软件; 2、文件,打开,选择要转化的DAT文件; 3、在弹出的向导文件(步骤1)中,选择合适的文件类型(按预览选择&#xf…

充电桩,未来出行的绿色引擎

随着新能源时代的到来,充电桩早已不再是一个陌生的词汇,它正在成为我们生活中不可或缺的一部分。 它不仅仅是一个简单的充电设备,更是未来出行的绿色引擎,驱动着我们的汽车,也驱动着这个时代的绿色梦想。 想象一下&am…

人工智能术语

1、人工智能的概念 人工智能概念,在1956年召开的达特茅斯会议上正式被提出。该会议是由信息学鼻祖克劳德.艾尔伍德.香农(ClaudeElwoodShannon)以及马文.明斯基(Marvin Minsky)、约翰.麦卡锡(JohnMcCarthy)等十位信息学、数学、计算机学的科学先驱,在美国…

智谱AI 发布最新开源模型GLM-4-9B,通用能力超Llama-3-8B,多模态版本比肩GPT-4V

自 2023 年 3 月 14 日开源 ChatGLM-6B 以来,GLM 系列模型受到广泛关注和认可。特别是 ChatGLM3-6B 开源以后,开发者对智谱AI 第四代模型的开源充满期待。 为了使小模型(10B 以下)具备更加强大的能力,GLM 技术团队进行…

如何从微软官方下载Edge浏览器的完整离线安装包

文章目录 📖 介绍 📖🏡 演示环境 🏡📒 正文内容 📒🚀 官方直链下载🚬 手动选择下载🎈 获取方式 🎈⚓️ 相关链接 ⚓️📖 介绍 📖 在网上搜索Microsoft Edge浏览器的离线安装包时,很多用户都会发现大部分都是在线安装包,无法满足他们在无网络环境下进…

DLL文件修复dffsetup3.3.90,带Keygen

之前分享过DirectX与4DDiGDLLFixer,今天再分享一款,名字叫DLLfiles Fixer,中文版带key你懂的,对于玩游戏人来说,经常因为少了某个dll文件无法运行,DLL-files Fixer能够非常方便的修复。 软件功能 可以消除…

俯视角2D游戏_03 伤害数字容器

制作思路 要创建伤害数字容器需要做以下三件事 创建伤害数字的UI控件(并添加动画效果)创建盛放伤害数字UI的容器应用伤害到伤害数字UI 调用关系 敌人蓝图——>伤害数字容器——>伤害数字UI 详细制作案例 [!NOTE] 需求简述 制作一个拥有动态效果的伤害数字UI&#xff0c…

使用Python实现深度学习模型:Transformer模型

Transformer模型自提出以来,已经成为深度学习领域,尤其是自然语言处理(NLP)中的一种革命性模型。与传统的循环神经网络(RNN)和长短期记忆网络(LSTM)不同,Transformer完全…

BIM分析简明教程

大多数建筑师和工程师都会遇到过建筑信息模型 (BIM) 的概念。 这是一种可以为你的公司带来巨大利益的方法。 建筑信息模型允许你集中项目的信息。 你可以将所有相关数据集中到一个数据库中,而不是处理大量文档。 这样做的好处是显而易见的。 随着你的项目变得越来越…

SQL自动发送邮件的方法有哪些?如何配置?

SQL自动发送邮件设置时的注意事项?邮件群发如何操作? 在现代企业中,自动化流程越来越普遍,SQL自动发送邮件作为其中一项重要功能,能够大大提高工作效率并简化数据管理流程。AokSend将介绍几种实现SQL自动发送邮件的方…

JVM基础知识

一、JVM的内存区域划分 一个进程在运行的时候,会向操作系统申请到内存资源,从来存放程序运行的相关数据。 JVM本质上就是一个java进程,在运行的时候也会从操作系统那搞一块内存,供Java代码执行使用。 JVM又把申请的一块内存根据不同的用途划分出了不同区域。 每一…

酷我音乐 v10.8.2.1 解索SVIP版,畅享无界音乐盛宴!

酷我音乐 v10.8.2.1 解索SVIP版 酷我音乐,一款多功能音乐软件,集成了音乐播放、歌曲下载、歌词同步、在线电台等多项服务。该应用致力于提供高品质的音乐欣赏体验和独特的音乐探索机会,无论用户身处何地。此外,它还支持大量付费高…

eNSP学习——配置RIP抑制接口及单播更新

目录 主要命令 原理概述 实验目的 实验内容 实验拓扑 实验编址 实验步骤 1、基本配置 2、搭建基础的RIP网络 3、配置RIP抑制接口,优化公司网络 4、配置RIP单播更新,恢复网络通信 5、验证另一种抑制接口方式 需要eNSP各种配置命令的点击链接自取&#xf…

day52 123.买卖股票的最佳时机III 188.买卖股票的最佳时机IV

123.买卖股票的最佳时机III 关键在于至多买卖两次,这意味着可以买卖一次,可以买卖两次,也可以不买卖。 动态规划五部曲 1.确定dp数组以及下标的含义 一天一共就有五个状态, 没有操作 (其实我们也可以不设置这个状态&a…

Docker 国内镜像源更换

实现 替换docker 镜像源 前提要求 安装 docker docker-compose 参考创建一键更换docker国内源 vim /docker_daemon.sh #!/bin/bash # -*- coding: utf-8 -*- # Author: make.han # Email: CIASM@CIASM # Date: 2024/06/07 # docker daemon.jsondaemon_json_file="/et…

[网络基础]——计算机网络(OSI)参考模型 详解

🏡作者主页:点击! 🌐网络通信基础TCP/IP专栏:点击! ⏰️创作时间:2024年6月2日21点59分 🀄️文章质量:93分 目录 🎟️OSI基本概念 🎄分层架构…

使用Qt实现文本文件的读写操作

文章目录 文本读写简介QFileDialog简介常用方法示例代码 QFile简介常用方法示例代码 QTextStream简介常用方法示例代码 结合使用示例完整示例代码(读写操作,可直接复制运行我使用的Qt版本为QT5.14)mainwindow.hmainwindow.cppmain.cpp代码解释 文本读写简介 在现代…

前端经典面试手写题

前端面试中常会遇到的手写题主要考察应聘者对前端基础知识的掌握程度以及编程能力。以下是一些经典的前端手写题及其解答思路: 手写深拷贝(Deep Clone) 深拷贝是指复制一个对象及其所有子对象,使得新的对象和原对象完全独立。 …

聊聊DoIP吧(二)-报文结构和时间参数

书接上回,DoIP报文及其在以太网帧中的位置:图片来自Vector官网 这里我们来看看DoIP报文结构: DoIP协议时间参数详解 - 知乎 (zhihu.com)