大语言模型之十八-商业思考

大语言模型在翻译、知识问答、写作、摘要、搜索、代码开发等场景得到了广泛的应用,一些策略是将大语言模型集成到公司的现有产品,比如微软的Office接入ChatGPT。

当前大语言模型盈利情况堪忧,今年 5 月有媒体曝出因去年开发出 ChatGPT,OpenAI 亏损 5.4 亿美元,微软在 GitHub Copilot拥有 150 万用户的基础上,每月仍倒贴每位用户 20 美元。

前面博客主要内容围绕着优秀的基座模型、模型量化以及fine-tune等技术,其核心思想是降低中小公司的技术门槛和使用成本。

基座模型训练成本

训练一个基座模型的成本最包括计算资源、数据、研发人员,此外还有法务、安全等

OpenAI的ChatGPT模型使用了微软算力平台,微软的基础算力平台使用了数以千计的英伟达GPU,使用基于英伟达量子 InfiniBand 通信网络连接在一起,用于高性能计算,据彭博社报道,微软在该ChatGPT项目上已经花费了数亿美元。

国盛证券曾经估算,GPT-3训练一次的成本约为140万美元,对于一些更大的LLM模型,训练成本介于200万美元至1200万美元之间。

当训练一个 65B 参数的开源大语言模型Llama模型时,在 2048 A100 GPU 和 80GB 的内存上处理大约 380 个 token /秒/GPU,这意味着在1.4T 标记的数据集上进行训练大约需要 21 天。2048 个 GPU * 21*24 * 1$ ~ 100w刀,这还是确定数据集和参数后一次的训练成本。

数据成本
国外诸多问答社区、社交平台纷纷加入数据收费的队伍中,如 Reddit 对每 5000 万次 API 请求收费 1.2 万美元;Twitter 推出最便宜的套餐是每月需支付 4.2 万美元,用户可以访问 5000 万条推文;

大语言模型公司

除了互联网巨头,国内外有很多的大语言模型公司,互联公司利用自身的算力、人才、数据和成熟业务优势,能够很快训练出自己的基座模型,并且在基座模型的基础上针对自身业务微调成垂类模型在业务上使用。

互联网巨头公司竞争第一咖位是生态,其次才是结合自身业务垂类应用,Meta以开源的方式吸引大批开发者,建立生态系统,不仅能让Llama2实现快速迭代,还能帮助Meta借此机会建立自己的技术壁垒,在目前的模型之争中抢占优势,构建类似Android一样的开放系统,微软的DeepSpeed、谷歌的BERT等都是以开源构建生态为目标,国内受制于人才和整个AI工具链的完善度不足,在生态系统这一竞争下已经被国外拉开差距,远远落后。

竞争的第二咖位结合自身业务垂类应用是巨头公司不得不考虑的事,将大语言模型嵌入现有产品中,以提供工具的易用性,提高客户生产力,增强产品竞争力,如微软365集成ChatGPT,github接入Copilot,百度将AI搜索接入现有引擎等等。

很多创业公司跟着风口拿到了融资,但是因自身的资金、数据和人才所限,想搞大一统的模型只会迎来毁灭,因而在搞基座模型(我并不看好),或者在优秀的基座模型上fine-tune模型的同时,也在找应用场景、收集用户数据快速迭代,期望找到赢利点,通过fine-tune的垂类大模型落地,这瞄准的是一些小企业,他们自身条件所限而无法私有化模型,比较人力成本是很贵的,当然也可以是在toC端去尝试用户(比如情感聊天、小说写作等),创业小公司应该紧盯着这类B端和C端的痛点和需求,避开和巨头公司的正面抗争。

还有一类企业,将数据和经验看的非常重,毕竟一个企业的核心竞争力是是私有的数据和经验,其自身经济条件虽然不足以支撑从基座模型做起,但是在巨头开源构建生态的同时,私有化部署的成本也在不断降低,比如国内的中国移动等老牌国企,这类公司更倾向于fine-tune后构建/部署自己的大模型。对他们来说构建自己构建的好处有以下几点:
1.成本,比如基于开源的大语言模型,那么比直接使用toB的服务成本将更加低廉;
2.可控,因为是公司内托管的,因而LLM环境是完全可控的,包括硬件、软件以及安全性;
3.定制化,可以使用fine-tune或者不同的prompt方法提升LLM在企业特定方面的需求,而这种定制化交给第三方公司往往是比较昂贵的;
4.隐私,OpenAI之类提供API等LLM服务的公司,会收集了用户很多数据,包括用户的prompt、输入以及反馈,如果私有化那么用户数据的安全性将得到大大的保障。
5.可以充分利用国内外云服务,快速且成本低廉的验证LLM私服的各个方面,比如国内的阿里云、国外的亚马逊云,只用云服务,对于数据安全性可以采用加密以及鉴权等方式进一步确保隐私安全性。试错成本低,如果发现业务效果不好,随时停掉云服务即可,没有硬件投入损失。

大模是基于一个pipeline来支持,行业上常称为LLMOps,主要分为芯片层、框架层、模型层、数据层、应用层,以上是围绕着大模型,还有数据标注、算力云平台、向量数据库、AI工具、法务安全合规等

对于创业小公司当前迫切的任务是落地垂类模型,拿到下一场的入场券,对于巨头公司ChatGPT大模型已经有过一次掉队了,因而基座模型持续投入还是当前竞争点之一,另外就是将大模型(还有多模态模型)嵌入自身的产品更早的将模型落地,且也能够回血并加深对大模型的认知,也是在争下一个阶段大模型的领头位置。

大模型应用的商业模式

对于没有成熟业务的创业公司而言,如OpenAI的ChatGPT盈利模式主要为API、订阅制和战略合作(嵌入微软Bing、Office等软件)三种方式,并且已在用户数据积累、产品布局和生态建设层面充分领先;形成了数据、模型上升的飞轮式良性循环,占了先机,在GPT-4多模态模型上商业模式依然如此,并没有大的变化,不过目前仍然是亏损的。

微软的365或者GitHub Copilot也是采取的订阅制,国外的版权意识较强,而订阅付费制能够为公司带来源源不断稳定的现金流,这是很多美国公司喜欢的商业模式。当然也有对话聊天类产品做广告植入的。

相比国外的订阅制,国内更多的是通过广告植入、精准流量提高变现能力,比如对话AI产品插入商品广告链接,根据搜索精准推送,本质上还是更高效地解决信息不对称的问题,最终用户、平台、广告主三方都会从大模型中受益。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/111561.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

UI自动化测试的痛点

当我们找工作的时候查看招聘信息发现都需要有自动化测试经验,由此看来测试人员不会一点自动化测试技术都不好意思说自己是做软件测试的。大部分测试人员也都是从使用自动化测试工具、录制回放、测试脚本、开发小工具入门自动化测试的,然后在慢慢的接触 U…

深入探究音视频开源库 WebRTC 中 NetEQ 音频抗网络延时与抗丢包的实现机制

目录 1、引言 2、什么是NetEQ? 3、NetEQ技术详解 3.1、NetEQ概述 3.2、抖动消除技术 3.3、丢包补偿技术 3.4、NetEQ概要设计 3.5、NetEQ的命令机制 3.6、NetEQ的播放机制 3.7、MCU的控制机制 3.8、DSP的算法处理 3.9、DSP算法的模拟测试 4、NetEQ源文件…

软件项目管理【UML介绍】

目录 UML 一、什么是UML? 二、为什么要用UML? 三、UML图有哪些? 四、UML绘图工具 UML 一、什么是UML? UML(统一建模语言)图在处理复杂项目时,如软件开发、系统设计、业务流程分析或系统架…

dubbo-admin安装

一、dubbo-admin安装 1、环境准备 dubbo-admin 是一个前后端分离的项目。前端使用vue,后端使用springboot,安装 dubbo-admin 其实就是部署该项目。我们将dubbo-admin安装到开发环境上。要保证开发环境有jdk,maven,nodejs 安装no…

GaussDB for openGauss部署形态

前言 华为云数据库GaussDB是华为自主创新研发的分布式关系型数据库,具有高性能、高可用、高安全、低成本的特点,本文带你详细了解GaussDB数据库的部署形态。 1、GaussDB部署形态三种类型 GaussDB部署形态:单机 独立部署是将数据库组件部署…

1.Node.js-函数和匿名函数的用法

题记 函数和匿名函数的简单用法 定义函数 定义普通函数 function 函数名(参数) { // 函数体 } 定义参数为函数的函数 可以先定义一个函数,然后传递,也可以在传递参数的地方直接定义函数 function say(word) { console.log(word); } function execut…

常见面试题-JVM(一)

什么时候会有内存泄漏,怎么排查? 答: 首先内存泄漏是堆中的一些对象不会再被使用了,但是无法被垃圾收集器回收,如果不进行处理,最终会导致抛出 java.lang.OutOfMemoryError 异常。 内存泄露: …

VS2022更换背景壁纸逐步图示教程

🦄个人主页:修修修也 ⚙️操作环境:Visual Studio 2022 目录 一.下载壁纸插件 二.更改自定义壁纸 三.调整壁纸布局 一.下载壁纸插件 因为更改自定义壁纸需要一个插件的辅助,所以我们要先下载一个小插件 首先,打开VS2022,点击"扩展"->"管理扩…

在Js中如何实现文本朗读即文字转语音功能实现

前言 平时在做项目的过程中,有遇到场景是客户要求播放语音的场景,比如:无障碍朗读,整篇文章实现朗读,文字转语音,文字转语音播放等等。 在不使用第三方API接口的情况下,这里需要js来实现文字转语音播放的功能。能想到的也就是利用html5的个API&#xff1…

数据分析入门

B站:01第一课 数据分析岗位职责和数据分析师_哔哩哔哩_bilibili 一、岗位:数据分析师 Q1 数据分析师在公司做什么工作? 数据来源于公司核心业务,通过监测业务健康度来确定业务的健康状况; 通过对用户精细化分析&am…

vue3 + axios 中断取消接口请求

前言 最近开发过程中,总是遇到想把正在请求的axios接口取消,这种情况有很多应用场景,举几个例子: 弹窗中接口请求返回图片,用于前端展示,接口还没返回数据,此时关闭弹窗,需要中断接…

StretchBlt()、Bitblt用法详解

1、CDC::StretchBlt BOOL StretchBlt( int x, int y,int nWidth,int nHeight, CDC* pSrcDC, intxSrc, int ySrc, int nSrcWidth, int nSrcHeight, DWORD dwRop) 功能:函数从源矩形中 复制 一个位图到目标矩形,必要时按目标设备设置的模式进行图像的拉…

【安全体系架构】——防御深度架构

防御深度架构: 防御深度架构是一种多层次的安全模型,旨在通过在网络和系统的各个层次上部署多个安全措施,以抵御不同类型的威胁和攻击。这个模型承认单一的安全措施可能无法全面防御所有潜在威胁,因此采用了多层次的安全防御策略…

【网络】网络编程套接字(一)

网络编程套接字 一 一、网络编程中的一些基础知识1、认识端口号2、认识TCP协议和UDP协议3、网络字节序 二、socket编程1、sockaddr结构2、简单的UDP网络程序Ⅰ、服务器的创建Ⅱ、运行服务器Ⅲ、关于客户端的绑定问题Ⅳ、启动客户端Ⅴ、本地测试Ⅵ、网络测试 一、网络编程中的一…

泛微全新低代码平台e-builder在沪发布,超千名与会者共商数字化转型

10月18日下午,泛微低代码平台体验大会在上海顺利举办,大会以“智能、协同、全程数字化”为主题,吸引了上千位政府及企事单位的信息化负责人参与。 活动现场,参会者身临其境地体验了泛微低代码平台,了解了泛微低代码平…

[论文笔记]Sentence-BERT[v2]

引言 本文是SBERT(Sentence-BERT)论文1的笔记。SBERT主要用于解决BERT系列模型无法有效地得到句向量的问题。很久之前写过该篇论文的笔记,但不够详细,今天来重新回顾一下。 BERT系列模型基于交互式计算输入两个句子之间的相似度是非常低效的(但效果是很好的)。当然可以通过…

WebDAV之π-Disk派盘 + 密码键盘

密码键盘是一款密码管理器,可以存储和管理需要受保护的数据。为方便日常使用,同时也是一款安全输入法,帮您安全便捷地填写账号密码、通用内容、卡包信息。 密码键盘使用军事级的 PBKDF2 有损加密算法保护您的根密码,使用军事级的 AES 加密算法保护您的存储数据。云端再额外…

数据库主键设计中自增ID和Guid的比较

SQL GUID和自增列做主键的优缺点 公司的数据库全部是使用GUID做主键的,很多人习惯使用int做主键。所以呢,这里总结一下,将两种数据类型做主键进行一个比较。 主键自增为什么比随机和自定义快? 1、如果表使用自增主键&#xff0…

分类预测 | MATLAB实现基于BiLSTM-AdaBoost双向长短期记忆网络结合AdaBoost多输入分类预测

分类预测 | MATLAB实现基于BiLSTM-AdaBoost双向长短期记忆网络结合AdaBoost多输入分类预测 目录 分类预测 | MATLAB实现基于BiLSTM-AdaBoost双向长短期记忆网络结合AdaBoost多输入分类预测预测效果基本介绍模型描述程序设计参考资料 预测效果 基本介绍 1.MATLAB实现基于BiLSTM-…

【Excel单元格类型的解析校验】Java使用POI解析excel数据

一、使用的maven依赖&#xff1a; <dependency><groupId>com.alibaba</groupId><artifactId>easyexcel</artifactId><version>2.1.7</version> </dependency> <dependency><groupId>org.apache.poi</groupId&…