1毛钱1百万token，写2遍红楼梦！国产大模型下一步还想卷什么？

1毛钱1百万token，写2遍红楼梦！国产大模型下一步还想卷什么？

news/2025/1/24 22:49:52/文章来源:https://blog.csdn.net/python1222_/article/details/139678224

大模型价格战，这匹国产黑马又破纪录了！最低的GLM-4 Flash版本，百万token价格已经低至0.1元，可以说是击穿地心。MaaS 2.0大升级，让企业训练私有模型的成本无限降低。

刚刚，智谱AI开放日上，新一代MaaS平台2.0正式发布。

这次，GLM技术团队带来的是从模型，到成本、企业定制模型，以及业务场景的全面升级。

令人惊喜的是，第四代GLM系列开源模型GLM-4 9B，官宣开源免费用，还具备了多模态能力。同时，新发布的GLM-4-AIR性能媲美此前的最大基座模型，且价格降至1元/M token。

在5月这波价格战之后，国内主流大模型API调用已经直降超90%。

需要明白的是，即便token价格无限逼近零，企业需要搞清楚如何用才能发挥巨大业务价值。

否则，再便宜也是无用功。

这次的发布，直接将智谱AI带入了商业化的最后一站。新一代MaaS平台出场，便是一个很好的起点。

大模型2024：既要落地，又要开源

如果说2023年是世界发现生成式AI的一年，那么，2024年才是企业真正使用GenAI，并从中获得商业价值的一年。

麦肯锡最新的全球调查报告称，65%的受访者表示企业会经常使用生成式AI。

而这个数字，比十个月前的调查（33%），几乎翻了一番。

对于企业来说，从选用模型，到以低成本微调部署模型，并拥有灵活可用的全栈工具链，是让GenAI走向落地必不可少的过程。

那些无法「造血」没有自研模型的公司，就需要通过API、MaaS等平台，以便让LLM融入工作流。

比如，法律AI初创公司Harvey，通过OpenAI API，为律师们微调定制了一个「案例法模型」。

而且，经过测试，相较于GPT-4，有97%的律师更喜欢使用Harvey的模型。

而另一个典型的案例是，开源社区借助Llama 3之力，已经大大加速GenAI在医疗领域的应用。

在英伟达NIM推理微服务平台支持下，医疗开发者利用Llama 3已经开发出各种聊天助手、健康APP等。

反观国内，LLM落地究竟有多火，就从卷疯的token价格战，可一瞥而知。

API价格，已经卷疯

而在国产大模型的战场上，价格战也在最近卷出新高。

智谱AI开放平台的新用户，登录就送的500万token直接涨到2500万token
GLM-3-Turbo每千token从0.005元直降到0.001元
GLM-3 Turbo批处理API的价格也直接砍半，每千token砍到0.0005元

在这里插入图片描述

随后，火山引擎祭出更劲爆价格——豆包的企业定价直接击穿地心，千token低至0.0008元，比整个行业都便宜了99.3%。

智谱AI表示，基于技术突破、效率提升和成本控制三个因素综合的结果。通过大模型价格调整，更好满足开发者、客户需求。

当然，价格战仅是智谱AI贯彻MaaS战略中的一个「支点」。

大厂MaaS，如火如荼

大模型沸腾的热度，也让国内厂商的MaaS发展如火如荼。

所谓MaaS，即用户可以直接使用不同参数、不同规格的细分模型，来应对千变万化的应用场景。

商业链路打通后，蜂拥而至的开发者，就会让应用商店持续繁荣，形成「马太效应」。

今天的OpenDay上，智谱AI宣布MaaS平台不仅已经拥有了30万注册用户，而且模型的日均调用量也超过了400亿token。

在下面这条曲线中可以看出，在过去6个月中，智谱每日API的消耗量，增长了50倍以上。这正说明：已经有越来越多的企业，已经真正把模型用到了日常工作中。

GLM-4的API调用量则，则达到了90倍的增长。这也正说明，企业已经开始利用模型能力进入深水区，解决一些真正复杂的问题。

而今年，大家开始对于大模型有了一些新的期待——除了更强大、更快的模型，用户也开始对成本变得敏感。

模型升级：0.1元写2本《红楼梦》

如今，平台上已经全线接入新模型，由ChatGLM3-6B升级为GLM-4-9B，堪称“最能打的小模型”，已经全面超过了 Llama3-8B-Instruct。

在开放平台上，它变成GLM-4 Flash版本，价格相对于GLM-3-Turbo再次降价10倍，仅仅0.1元，就可以拥有一百万tokens，足够写两本四大名著了！

如果小模型不能满足需求，新推出的GLM-4-Air性能更加强大。它的性能跟和此前的GLM-4-0116相仿，但价格仅为前者的百分之一！一百万tokens，仅需一元。

而许多企业应用到深水区时，对速度也有极高的要求，在此基础之上，智谱加入了极速版。

效果不变，但推理速度直升162%。71 token每秒，相当于每秒可以直出100多个汉字！

并且，GLM-4-0116也同时升级了。

就在今天，智谱推出了GLM-4-0520，它的综合能力，已经提升了11.9%。

真正做过模型的应用的人，都明白这意味着什么：虽然在数字上看来只是一点点的提升，但这已经进一步提升了模型的天花板，极大扩展应用的范围，降低应用的成本。

如今，智谱AI已经拥有全模型矩阵。

无论是GLM-4V，还是CogView-3，降价都达到了50%-60%——一张图只需一毛钱。

开放平台升级：3步训出一个私有模型

每个企业都希望构建自己的私有模型。虽然开源生态让模型训练门槛大幅降低，但对于绝大多数企业，这个过程依然太复杂。

为此，智谱AI也全面升级了自己的平台，仅仅三步——准备数据、创建微调任务、部署模型，就能让企业训出一个私有模型了！

这个过程中，不需要任何代码功底。而且，GLM-4全系列模型都支持这样的微调。

针对企业，智谱AI提供了两种模式：LoRA微调和全参微调。

LoRA微调，可以说是性价比之王，用更低的成本达到较好的结果。

全参微调，相当于是探索模型微调的极限。

可以看到，训练成本可以降低到87%。在LoRA微调上，GLM-4每千token只需要四毛钱，GLM-4-Air则只需要三分钱。

比起训练千亿模型动辄需要的多台A100、A800，显然门槛已经大幅降低。

而即使是全参微调的情况下，GLM-4每千token也只需要六毛钱，GLM-4-Air则只需要五分钱。

下面这个例子，是一个发生在客户身上的真实实验。

客户需要模型能够提供某领域专业化的咨询服务，于是，智谱AI尝试为客户做了微调。

他们选择了6000条语料，折合下来是一千万token。

训练后，模型的可用性从60%，直接上升到了89%！

这不是一个简单的提升，而是一个本质性的飞跃，让模型从不可用，变成了完全可用，进一步探索了模型使用的边界。

所以，这次微调的成本是多少？

答案令人惊诧——如果使用LoRA的话，成本仅为300元！即使选择全参，也只需要500元。

这个具体的demo，可以让我们深刻地体会到，如今训练出一个私有模型是多么容易。

另外，在AllTools的API平台上，智能体的能力能让大模型从解决一个单一任务，变成处理一个复杂任务。

在企业端，这样让使用模型的能力大幅度放开。

从此，每一家企业都能制作自己的智能体，以及智能体平台。

它可以让模型更好拆解任务，更好调用上下文function call的能力，还为企业提供了常用的一些智能体插件。

包括代码解释器、知识库检索增强、函数调用能力等等。

开放平台地址：bigmodel.cn

国内开源，影响世界

另一边，国内模型开源掀起的风浪，已然波及到全世界。

而坚持开源，是智谱AI一直以来的传统。

他们不仅是国产LLM的领头羊，也是大模型学术生态、开源生态中，不可忽视，首屈一指的中国力量。

目前为止，智谱AI已经有三代模型全部开源。

6B系列开源模型，在Github上已累计获得超过6万star，相当于Llama系列模型的star总数，超过了Grok和其他所有模型；在Hugging Face上吸引了超过1300万次下载，四周Hugging Face趋势榜第一。

GPT-4发布的同一天，团队首次开源了ChatGLM-6B模型，随后6月开源了二代6B模型，并首次引入GQA、FlashAttention技术，将模型上下文扩充到32K，并加速了生成速度。

紧接着10月，三代6B模型开源，支持128K上下文。

GLM-4 9B系列，免费开源

今天，智谱带来了第四代开源模型最新成果——GLM-4-9B。

显然，这次开源模型最大的变化是，参数规模从6B升级到了9B，并首次拥有了多模态能力。

而且，基于强大基座模型，GLM-4-9B不仅拥有更强的基础能力，更长的上下文，更精准的函数调用和All Tools能力。

比起上一代ChatGLM3-6B，在5倍的计算量下，GLM-4 9B的性能从61.4提升到了72.4，中英文综合能力提升40%。

另外，在与训练量更多的Llama-3-8B-Instruct较量中，GLM-4-9B毫不逊色。

具体来说，英文方面，第四代模型小幅领先，而在中文学科方面实现了50%的提升。

1M上下文，一次读完2本《红楼梦》

除此以外，GLM-4-9B的上下文从128K扩展到了1M，可同时处理200万字的输入。

这相当于，能够一次读完2本《红楼梦》，又或是125篇论文。

在长度为128K的LongBench-Chat上，GLM-4-9B-Chat模型相比上一代提升了20%。同时，在长度为1M的大海捞针测试中，GLM-4-9B-Chat-1M获得了「全绿」的成绩。

演示中，在1M版本模型中，输入《三体》的三本全集，共90万字的内容。

然后，给模型prompt「请仔细阅读上面的三部小说，如果让你给这个小说写第四部，你会怎么写，请给出大纲」。

模型给出了比较合理的续写规划。

另外，GLM-4-9B函数调用能力，比上一代大幅提升40%。

在UC伯克利函数调用Leaderboard上，9B模型函数调用能力，即可媲美GPT-4-Turbo。

智谱AI在开源仓库中，还提供了一个完整的All Tools Demo，开发者可以在本地拥有一个轻量级的清言平替。

比如，先用网页搜索「马拉松的世界纪录」，然后用代码解释器去计算「跑步平均速度」。

搜索世界纪录

计算平均速度

All Tools还有非常多的组合，开发者可以自行去探索。

多模态比肩GPT-4V

除了文本模型，这次一并开源了多模态模型GLM-4V-9B。

最新模型采用了与CogVLM2相似的架构设计，能够处理高达1120 x 1120分辨率的输入，并通过降采样技术有效减少了token的开销。

与CogVLM的不同之处在于，GLM-4V-9B并没有通过引入额外的视觉专家来增加参数量，而是采用了直接混合文本和图片数据的方式进行训练。

这种训练方法使得GLM-4V-9B模型能够同时具备强大的文本和视觉处理能力，实现了真正的多模态学习。

它能够以13B总参数激活量，超越了一众多模态模型，甚至比肩GPT-4V。

不如看看，GLM-4V-9B在实际任务中的表现。

比如，让模型去识别T恤上的公式印花——麦克斯韦方程式。

你甚至，还可以追问关于方程组的细节，模型可以凭借自己的文本能力完成回答。

这从另一方面印证了，并没有因为引入多模态能力，而丧失模型原本的文本能力。

在下面这个例子中，是截取清华大学网络学堂的一个网页截图，并要求模型翻译成HTML代码。

GLM-4V-9B就可以识别出其中元素，并翻译成相应的代码。

整体来说，GLM-4-9B模型共有9.4B参数，是在10T的高质量多语言数据上，完成了预训练，几乎利用了所有网页数据。

其数据量是ChatGLM3-6B模型的3倍还要多。

与此同时，智谱AI采用了FP8精度进行高效的预训练并成功收敛，比起上一代模型，训练效率提升3.5倍。

由此，智谱AI将参数规模从6B扩展至9B，并将预训练计算量增加了5倍。

基于文本基座，打造的多模态模型GLM-4V-9B，完全融合了文本和视觉模型，并与GPT-4V不相上下。

成立于2019年，智谱AI用了4年的时间从一家明星创业公司，跻身为国内头部AI独角兽。

一直以来，外界对智谱的印象是，清华系国家队，全面对标OpenAI技术领先，to B气质强烈。

智谱不仅在大模型的能力上向OpenAI看齐，而且在投资领域布局上也不遑多让，深受资本青睐。

过去一年中，他们完成了3次基座大模型升级迭代，这次OpenDay 核心展示了面向AGI愿景的完整产品矩阵，透传出未来商业化的模式。

智谱AI正把MaaS商业模式提升到新的境界。MaaS平台2.0的诞生，将会进一步扩大智谱生态朋友圈。

如何学习AI大模型？

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/852515.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

QT 5.14.2 应用程序打包

QT 5.14.2 应用程序打包

我们可以直接通过开发工具预览我们的程序。但是当要把开发好的程序给别人使用的时候，我们就需要把程序打包成可执行的exe，然后把这个exe文件和其他相关的文件一起发给别人，这样别人就可以使用了。一、生成可独立运行的exe (一)、编译程序的Release版本 1、切换编译方式为…

阅读更多...

基于C#开发web网页管理系统模板流程-打包发布

基于C#开发web网页管理系统模板流程-打包发布

点击返回目录-> 基于C#开发web网页管理系统模板流程-总集篇-CSDN博客前言本系列中，作为开发者我们通过ASP.net Web模板设计网页，网页的任何设计、源代码都是直接可见的，在实际应用开发中，显然这些都是商业、公司机密通过打包…

阅读更多...

【Effective Web】常见的css居中方式

【Effective Web】常见的css居中方式

CSS居中方式水平居中 text-align:center 适用范围：容器中都是行内元素缺点：容器内所有元素都会居中，如果是文本描述需要左对齐，需要增加text-align:left覆盖 margin: 0 auto 适用范围：容器宽度固定。子元素宽度…

阅读更多...

UML精简概述

UML精简概述

UML精简概述 UML精简概述 UML精简概述UML的定义常见的关系在学习设计模式之前，需要掌握一些预备知识，主要包括UML类图和面向对象设计原则，它们是“基础内功”，将为后续的“深入修行”奠定基础。UML类图可用于描述每一个设计模式的…

阅读更多...

C++ 34 之单例模式

C++ 34 之单例模式

#include <iostream> #include <string.h> using namespace std;class King{// 公共的函数，为了让外部可以获取唯一的实例 public:// getInstance 获取单例约定俗成static King* getInstance(){return true_king;}private: // 私有化// 构造函数设置为…

阅读更多...

BL104钡铼多协议采集网关助力企业智能化转型

BL104钡铼多协议采集网关助力企业智能化转型

BL104钡铼多协议采集网关（PLC物联网关BL104）是为满足工业环境需求而设计的专业工业级协议转换网关。它在企业智能化转型过程中扮演着关键角色，为企业提供了高效、稳定的通信解决方案，助力企业实现智能化转型。首先，P…

阅读更多...

基于STM32和人工智能的智能家居监控系统

基于STM32和人工智能的智能家居监控系统

目录引言环境准备智能家居监控系统基础代码实现：实现智能家居监控系统 4.1 数据采集模块4.2 数据处理与分析4.3 控制系统4.4 用户界面与数据可视化应用场景：智能家居管理与优化问题解决方案与优化收尾与总结 1. 引言随着智能家居技术的快速发展&…

阅读更多...

DockerCompose+Jenkins+Pipeline流水线打包Vue项目(解压安装配置Node)入门

DockerCompose+Jenkins+Pipeline流水线打包Vue项目(解压安装配置Node)入门

场景 DockerComposeJenkinsPipeline流水线打包SpringBoot项目(解压安装配置JDK、Maven等)入门： DockerComposeJenkinsPipeline流水线打包SpringBoot项目(解压安装配置JDK、Maven等)入门-CSDN博客以上使用流水线配置和打包springboot后台项目，如果要使…

阅读更多...

开诊所的10个常见问题，欣九康为您一一解答！

开诊所的10个常见问题，欣九康为您一一解答！

开设一家诊所需要具备哪些条件？规定需要各种证件，而且医生执业满五年，备个案就行。听起来很简单是不是？但是，到了真正开始筹备诊所的时候，却是千头万绪，不知从何下手，到处都是问题&a…

阅读更多...

C语言 | Leetcode C语言题解之第148题排序链表

C语言 | Leetcode C语言题解之第148题排序链表

题目： 题解： struct ListNode* merge(struct ListNode* head1, struct ListNode* head2) {struct ListNode* dummyHead malloc(sizeof(struct ListNode));dummyHead->val 0;struct ListNode *temp dummyHead, *temp1 head1, *temp2 head2;while…

阅读更多...

推流工具OBS的下载使用

推流工具OBS的下载使用

一、下载安装 OBS，windows版本官网下载地址二、推流步骤安装好之后，打开软件 1、右下角，打开设置 2、输入推流地址，一般为rtmp格式开头的推流地址输入完成后，应用并确定关闭窗口 3、“来源”里面新建媒体源、新…

阅读更多...

《别让“想太多”挡了你的骑行路，对比一下更丝滑》

《别让“想太多”挡了你的骑行路，对比一下更丝滑》

在探索骑行的世界时，我们往往会被一些先入为主的想法所束缚。本文将带你对比骑行与其他运动和生活方式，揭示那些阻碍你爱上骑行的认知误区。一、年龄不是界限：骑行与跑步的比较与跑步相比，骑行同样适合所有年龄段，但它…

阅读更多...

从“数据孤岛”、Data Fabric（数据编织）谈逻辑数据平台

从“数据孤岛”、Data Fabric（数据编织）谈逻辑数据平台

提到逻辑数据平台，其核心在于“逻辑”，与之相对的便是“物理”。在过去，为了更好地利用和管理数据，我们通常会选择搭建数据仓库和数据湖，将所有数据物理集中起来。但随着数据量、用数需求和用数人员的持续激增&#xf…

阅读更多...

单链表经典算法题 1

单链表经典算法题 1

前言学习了单链表，我们就做一些题来巩固一下。还有就是解题方法不唯一，我就只讲述为自己的方法。目录前言 1.移除链表元素思路代码 2.反转链表思路代码 3.链表的中间节点思路代码总结 1.移除链表元素思路我们创建一个新的表…

阅读更多...

长连接的钟表程序

长连接的钟表程序

实验要求实现1个钟表程序（服务），多个用户可以从该程序获得时间并在本地显示，用户也可以修改时间。 （1）用户程序可以在计算机上运行，也可以在手机上运行； （2&#xff…

阅读更多...

【Android】Android系统性学习——Android系统架构

【Android】Android系统性学习——Android系统架构

前言部分内容参考《Android进阶解密》 – 刘望舒 1. Android版本官方链接：https://developer.android.com/studio/releases/platforms 里面有各个版本的官方文档，有些新功能的用法在这里面。现在做安卓11，有时候需要向下兼容 2. AOSP …

阅读更多...

【Python】在运行中使用warnings.filterwarnings，可以忽略测试中遇到的问题

【Python】在运行中使用warnings.filterwarnings，可以忽略测试中遇到的问题

在 Python 中，warnings 是一个内置模块，用于发出有关程序执行的警告信息，这些警告信息通常是关于程序行为的潜在问题。不过，这些问题通常不是致命的错误，只不过是展示我们代码中潜在的问题，或不推荐的做法…

阅读更多...

软件架构搞好了，还用担心代码可读性差？

软件架构搞好了，还用担心代码可读性差？

目录一、架构的概念及由来二、小系统也需要架构思想三、实现架构的思路一、架构的概念及由来嵌入式软件架构是指在嵌入式系统中用于组织和管理软件组件的结构和设计。嵌入式软件架构的出现是为了解决嵌入式系统中软件复杂度和系统要求不断增加的挑战。以下是嵌入式软件架…

阅读更多...

【STM32进阶笔记】GPIO端口

【STM32进阶笔记】GPIO端口

前段时间由于其他原因，专栏暂停更新了较长一段时间，现在恢复更新，争取继续为大家创造有价值的内容，期待大家的订阅关注，欢迎互相学习交流。在STM32速成笔记系列专栏中其实已经对GPIO的一些必要知识进行了介绍&#xf…

阅读更多...

GPT4O给Qwen2生成的高考作文打分56分，从“小白”进阶技术大神的开发者基于国产GPU推理模型效果可还行？

GPT4O给Qwen2生成的高考作文打分56分，从“小白”进阶技术大神的开发者基于国产GPU推理模型效果可还行？

OpenI启智社区上线的【芯动开源】首场活动-天数智芯挑战专场即将迎来最后一周的冲刺阶段，自2024年5月27日上线以来，这期间，我们见证了天数智芯通用GPU加速卡在适配AI模型方面的无限可能与开发者们开源精神的璀璨光辉。在短短的两周时间里&a…

阅读更多...

推荐文章

最新文章