大模型 Scaling Law 的本质是工业化思维,Token 工厂,Token 生意

🍉 CSDN 叶庭云https://yetingyun.blog.csdn.net/


1. Scaling Law 的本质是工业化思维

我认为很多人对 Scaling Law 的理解还不够深入,他们仍然只是简单地认为:效果与参数规模成等比增长,目前的瓶颈应该是数据问题。但这种思考方式是不全面的。为什么 Scaling Law 被称为 “法则” 呢?显然,它不仅仅适用于大模型领域。自人类进入工业社会以来,科技的进步主要依靠 Scaling Law,换句话说,就是工业规模化。工业规模化推动了科技的进步。工业规模化是一体两面的:一方面,它通过降低成本来实现;另一方面,它需要足够的消费量来支撑。因此,本质上是依靠海量的需求来驱动技术持续的迭代和进步

对于 OpenAI 来说,当前的瓶颈可能不主要在于数据。由于他们较早开始研究,所以拥有比大多数人更优质的数据。此外,尽管现有模型已经非常强大,半合成数据的利用率仍未达到最大,更不用说未来的全合成数据以及由于大模型推动而积累的更多物理世界数据了。显然,他们的瓶颈主要在于算力而非数据。以年初的 Sora 为例,它延续了大语言模型的发展方式,依然遵循 Scaling Law,即海量数据加大规模参数。然而,其应用受限于当前算力的高昂成本。此外,应用市场的不成熟也是一个重大问题。这意味着工业规模化的两个关键要素尚未形成有效循环,这或许是 OpenAI 目前无法推出更强大模型的根本原因。(类似的,汽车的发动机/引擎固然复杂且价值高昂,然而真正创造利润的是完整的汽车产品,尤其是在当前智能驾驶技术日益重要的背景下。)

你可以看到,OpenAI 正在不断地发展上层应用生态,并免费提供其最优秀的模型,其本质目的是提升消费端的需求,从而推动其内部大模型的工业规模化。这种焦虑在当前也是普遍存在的。以 Sora 为例,就算它被公开使用,但大部分用户可能仅仅是尝鲜后很快便较少使用。这导致市场规模不足,难以实现工业规模化,进而无法解决商业化问题。

2. 数据红利远未被充分利用

接下来,我将进一步探讨合成数据的相关问题。OpenAI 在半合成数据方面的潜力尚未完全挖掘。通过向合成数据中添加少量物理世界的元素,可以显著提升数据的效果。例如,利用多模态大模型分析视频,可以更深入地理解物理世界。从视频中抽取大量文本数据、语音和监控信息等,尽管大部分监控数据未被保留。这些数据经过大模型处理并添加了物理世界的微量元素,因此成为了高质量的半合成数据。其他公司在这方面仍面临挑战,因为他们的模型尚未达到 OpenAI 的水平,制作这种半合成数据对他们来说较为困难。

半合成数据(Semi-Synthetic Dataset)是指在真实数据和合成数据之间的一种数据形式。它通常是通过对真实数据进行一定程度的修改或混合合成数据来创建的,目的是增加数据的多样性,改善模型的泛化能力,同时避免完全依赖真实数据可能带来的成本和隐私问题。半合成数据可以用来补充真实数据的不足,特别是在数据稀缺或难以获取的情况下。此外,半合成数据还可以帮助保护个人隐私,因为它不直接使用真实的个人数据。然而,半合成数据也面临着挑战,例如如何确保合成数据的质量和真实性,以及如何平衡合成数据与真实数据的比例,以达到最佳的训练效果。

半合成数据对于多模态大模型性能的提升具有重要作用。它不仅能够丰富训练数据集,提高模型的泛化能力,还能帮助模型更好地理解和处理复杂的多模态信息。因此,在开发和训练多模态大模型时,合理利用半合成数据是非常必要的。

3. 大模型发展的终极状态

最后,再来谈谈另一个问题。大模型的最终产物是 Tokens,不同模型产出的 Tokens,其价值可能有所不同。Token 的数量乘以 Token 的价值约等于总价值产出,也可以称之为 Token GDP

我们或许还应该设立一个 Token 指数,用以衡量居民、政府和企业的 Token GDP。根据工业化的基本理念,未来将由几家主流的 Token 工厂完成 Token 的生产。未来的这些 Token 工厂可能是类似 Lepton、Anyscale、硅基流动这样的厂商,也可能是 OpenAI、月之暗面、阿里这样的原创大模型厂商,或者两者兼而有之。但为了实现规模效应,最终一定会集中于少数几家企业。Token 的消耗将会有多大?未来,人类所有的信息都将通过 Tokens 来表达。

从这个论点其实可以反推一件事:未来是否能实现 AGI 其实没想象的那么重要,只要以当前的 GPT-4-Turbo 为基准,持续逐步提升性能,并降低 Token 的生产成本,那么大模型的发展就已经算是很成功了。这看起来也是 OpenAI 正在做的事情。

4. 如何评价大模型迭代速度的减缓?

人类的注意力和资金流向哪里,哪里的发展就会加速。但大模型能吸引的注意力和资金终究有限。

由于大模型的商业化需要市场支持,而市场的发展依赖于应用,因此资金最终会加速流向有价值的应用领域。这将导致大模型的迭代速度减缓。你现在应该已经对此有所感受。

此外,2024 年 6 月,OpenAI 的 CEO 表示正在考虑将公司转变为营利性企业。过去 6 个月,OpenAI 年化收入翻倍,达到 34 亿美元,这表明这家 ChatGPT 提供商的业务仍在加速增长。据知情人士透露,OpenAI 的 CEO Sam Altman 最近向部分股东表示,公司正在考虑改变其治理结构,可能转型为一个不受非营利董事会控制的营利性公司。董事会正在考虑将公司转型为营利性公益公司,这一模式与其竞争对手 Anthropic 和 xAI 相似。这一转变将为 OpenAI 未来进行 IPO 铺平道路。目前,OpenAI 的市场估值达到了 860 亿美元。针对这一报道,OpenAI 公开声明其将继续保持非营利性质,全力以赴履行其使命,但它还将创建一个营利性实体

5. 小结一下

  • 工业化的 Scaling Law:超越参数与数据

  • 数据红利:合成数据的潜力

  • 终极目标:Token 工厂与 Token GDP


📚️ 相关链接:

  • 未来百科发现全球 10000+ 优质 AI 工具

  • 发现最好的 AI 网站和 AI 工具

  • 发现最新最佳 AI 产品和服务

  • AInav | AI 工具导航网,发现 AI 新世界

  • AIHub 专注分享全球优质 AI 产品,每日持续更新,欢迎收藏

  • AI-Bot.cn - AI 工具集

  • 未来之路,AI 先行

  • 深度 AI 导航,AI 工具集

  • AItools.fyi 是一个专注发现和分析 AI 工具的网址导航站

  • 考拉别摸鱼是一个 AI 导航网站、新媒体导航和设计导航

  • 通塔师导航

  • FutureTools Collects & Organizes All The Best AI Tools So YOU Too Can Become Superhuman!

  • Discover what AI can do for you

  • AI Top Tools - Find the Best AI Tools!

  • 13 个优秀的 AI 人工智能工具软件导航网站推荐

  • 探讨大模型未来:从 Scaling Law 到数据红利再到终极 Token 工厂

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/30391.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

军事人工智能的3个流派

在军事领域应用人工智能的态度大致分为三类:激进者、否认者、实用主义者。激进者认为,人工智能将彻底改变战争,改变战争的进行方式,有时甚至改变战争的性质及战争发生的原因。实用主义者认为,人工智能将越来越多地进入…

NSSCTF中的[WUSTCTF 2020]朴实无华、[FSCTF 2023]源码!启动! 、[LitCTF 2023]Flag点击就送! 以及相关知识点

目录 [WUSTCTF 2020]朴实无华 [FSCTF 2023]源码!启动! [LitCTF 2023]Flag点击就送! 相关知识点 1.intval 绕过 绕过的方式: 2.session伪造攻击 [WUSTCTF 2020]朴实无华 1.进入页面几乎没什么可用的信息,所以想到使用dis…

C++ Thead互斥量死锁,mutex如何防止死锁---C++11多线程快速学习

假设有两个线程 T1 和 T2,它们需要对两个互斥量 mtx1 和 mtx2 进行访问,而且需要按照以下顺序获取互斥量的所有权: - T1 先获取 mtx1 的所有权,再获取 mtx2 的所有权。 - T2 先获取 mtx2 的所有权,再获取 mtx1 的所有…

Error: MiniProgramError {“errno“:600009,“errMsg“:“request:fail invalid url \

vscode使用uniappvue3开发小程序,使用mockjs拦截接口,小程序报错: {status: 9value: "ide unknown command(empty parse result):**** }问题原因:mockjs不兼容微信小程序 解决办法,切换mockjs为better-mock npm…

Spring MVC学习记录(基础)

目录 1.SpringMVC概述1.1 MVC介绍1.2 Spring MVC介绍1.3 Spring MVC 的核心组件1.4 SpringMVC 工作原理 2.Spring MVC入门2.1 入门案例2.2 总结 3.RequestMapping注解4.controller方法返回值4.1 返回ModelAndView4.2 返回字符串4.2.1 逻辑视图名4.2.2 Redirect重定向4.2.3 forw…

PHP入门教程4:文件处理和表单处理

PHP入门教程4:文件处理和表单处理 在前几篇文章中,我们学习了PHP的基础语法、控制结构、函数的使用以及数组和字符串的操作。本文将重点介绍PHP中的文件处理和表单处理,这些是Web开发中非常常见的任务。本文将包含以下几个部分: …

SpringMVC:拦截Mybatis的mapper

我们在使用mybatis的时候会碰到一些公共添加时间,操作人员,更新时间、或者一些分页这个使我们如果要去添加每个对应的- service - dao - mapper - xml 这样就造成很多冗余代码,那这个时候我们就需要使用一些通用方法,统一就行修改…

html中如何写一个提示框,css画一个提示框

在HTML中&#xff0c;提示框通常使用<div>元素来创建&#xff0c;然后使用CSS进行样式化。以下是一个示例&#xff0c;展示如何在HTML中写一个提示框&#xff0c;并使用CSS来设计其外观。 HTML 首先&#xff0c;创建一个HTML文件&#xff0c;其中包含一个提示框的结构&…

嵌套使用模板类

#include<iostream> using namespace std;template <class Datatype> class Stack { private:Datatype* items;//栈数组int stacksize;//栈的实际大小int top;//栈顶指针 public://构造函数&#xff1a;1&#xff09;分配栈数组内存&#xff0c;2&#xff09;把栈顶…

Shopee菲律宾本土店允许中途无理由退货,如何应对退货后库存混乱问题?

Shopee菲律宾本土店最近实施了一项新政策&#xff0c;自2024年6月10日起&#xff0c;允许买家在商品仍在运输途中申请退货与退款&#xff0c;此即“在途退货/退款”功能&#xff0c;主要的目的是为了提升买家的购物体验&#xff0c;增强市场竞争力。 图源&#xff1a;Shopee菲律…

一年前 LLM AGI 碎片化思考与回顾系列⑤ · 探索SystemⅡ复杂推理的未知之境

阅读提示&#xff1a; 本篇系列内容的是建立于自己过去一年在以LLM为代表的AIGC快速发展浪潮中结合学术界与产业界创新与进展的一些碎片化思考并记录最终沉淀完成&#xff0c;在内容上&#xff0c;与不久前刚刚完稿的那篇10万字文章 「融合RL与LLM思想&#xff0c;探寻世界模型…

vue3delete请求报403forbidden,前后端解决方式,cookie无效问题

在做开发时&#xff0c;前期已经在Controller类加上CrossOrigin(origins "*")&#xff0c;发送get和post请求都没问题&#xff0c;但遇到delete请求时&#xff0c;又报出跨域问题 一.前端添加proxy代理服务器&#xff08;未能解决&#xff09; 在vue.config.js中使…

C#面:abstract 的 method 是否可同时是 static,是否可同时是 native,是否可同时是 synchronized?

abstract 的方法不能同时是 static、native 或 synchronized。 static 方法是属于类的方法&#xff0c;而 abstract 方法是需要在子类中实现的方法&#xff0c;两者的概念相互矛盾。static 方法是在编译时就确定的&#xff0c;而abstract方法需要在运行时才能确定具体实现。na…

Qt多线程技术

Qt提供了许多处理线程的类和函数。下面是Qt程序员可以用来实现多线程应用程序的四种不同方法。 QThread:带有可选事件循环的低级API QThread是Qt中所有线程控制的基础&#xff0c;每个QThread实例代表并控制一个线程。 QThread既可以被直接实例化&#xff0c;也可以被子类化。…

连接Huggingface报requests.exceptions.SSLError错误

最近在学习使用 SHAP 算法解释 BERT 模型的输出结果&#xff0c;然而在从 Huggingface 上导入模型和数据集的过程中出现了网络连接相关的错误&#xff0c;本文用于记录错误类型和解决错误的方法。 1 代码示例 SHAP 官方展示的代码如下&#xff1a; import datasets import nu…

Linux screen命令使用

文章目录 1. 前言2. screen是什么?3. screen使用场景描述3. screen常用命令4. 小结5. 参考 1. 前言 实际开发中用到的云服务器&#xff0c;如果项目使用的是python&#xff0c;需要利用项目运行一些时间较长的项目程序脚本的话&#xff0c;由于我们通过ssh连接远端服务器&…

一文详解扩散模型

文章目录 1、常见的生成模型2、变分推断简介3、文生图的评价指标4、Diffusion Models5、其他技术交流群精选 节前&#xff0c;我们星球组织了一场算法岗技术&面试讨论会&#xff0c;邀请了一些互联网大厂朋友、参加社招和校招面试的同学。 针对算法岗技术趋势、大模型落地…

软设之进度管理之pert图

pert图 优点: 不仅给出了各个任务的开始时间&#xff0c;结束时间和完成该任务所需的时间&#xff0c;还给出了任务之间的关系&#xff0c;即哪些任务完成之后才能开始另外一些任务&#xff0c;以及如期完成整个工程的关键路径。松弛时间反映了某些任务是可以推迟其开始时间或…

2024年通信安全员ABC证证考试题库及通信安全员ABC证试题解析

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 2024年通信安全员ABC证证考试题库及通信安全员ABC证试题解析是安全生产模拟考试一点通结合&#xff08;安监局&#xff09;特种作业人员操作证考试大纲和&#xff08;质检局&#xff09;特种设备作业人员上岗证考试大…

Spring Boot 开发 -- 常用加密算法简介(一)

在Spring Boot开发过程中&#xff0c;安全性始终是一个重要的考量因素。数据加密作为保护数据安全的一种有效手段&#xff0c;被广泛应用于各种应用场景中。本文将介绍几种在Spring Boot开发中常用的加密算法&#xff0c;并探讨它们的应用场景。 一、 对称加密算法 对称加密算…