【布客技术评论】大模型开源与闭源:原因、现状与前景

在人工智能领域,大模型的开源与闭源一直是一个备受争议的话题。近期,某大厂厂长说了“开源模型永远超不过闭源模型”,结果,脸书就发布了开源模型Llama3,超过了OpenAI 的闭源模型 GPT4。本文将探讨大模型开源与闭源的原因、当前状况以及未来前景,以期为读者提供深入的理解和分析。

算力稀缺性的考量

算力,作为人工智能领域的核心资源,对于大模型的训练和应用至关重要。当算力稀缺时,开发者往往倾向于选择闭源模式以赚取利润。这是因为算力稀缺时,训练模型的门槛较高,入局的玩家就少,产品就具有盈利的可能。

然而,当算力不再稀缺,开发者就无法通过闭源模型提供服务获得足够的利润,他们可能会倾向于选择开源模式。开源不仅可以帮助开发者赚取名声,提升个人或团队的知名度,还能够促进技术的创新和进步。通过开源,开发者可以吸引更多的社区参与和贡献,共同推动人工智能技术的不断完善和发展。

文生图模型就是个很好的例子,此类模型中,StableDiffusion 和 NovelAI 是开源的,MidJourney 和 DALLE3 是闭源的(其前身DALLE2也是开源的)。然而模型不仅仅指代架构,还包含模型参数。如果我们按照不同参数统计模型个数,开源社区中的 StableDiffusion 模型数量远远多于其它架构的模型,并且远远多于大语言模型的个数总和。

究其原因,StableDiffusion 模型在一张 4GB 的家用显卡就能训练或者微调这类模型,因此每个文生图用户都有条件来训练新的模型。正所谓“没有人一直开源,但总有开源的人”,假设在模型训练者中,有1%~10%能够将其模型开源,开源生态也能欣欣向荣。

开源模型才是终极答案

开源模型在服务B端和C端用户方面都具有显著的优势。对于B端用户而言,他们通常有天然的保密需求,内部资料不能外传。因此,开源模型能够为他们提供一个安全、可靠的私有化部署平台,让他们在保护内部资料的同时,充分利用大模型技术的优势。此外,B端用户还可以根据自己的业务需求对开源模型进行定制和优化,以满足特定的应用场景。

对于C端用户来说,他们的需求千人千面,需要微调大语言模型来实现个性化服务。例如,很多C端用户都有强烈的角色扮演和对话需求,而模型是否能够胜任取决于是否在海量的角色扮演对话数据集上进行微调。这类短对话数据集比起互联网上大量长文本来说,简直是沧海一粟,需要特地由人工撰写或者补全。

目前来看,只有ChatGPT4和ChatGLM4这两个闭源模型能够胜任这类任务。但如果采用开源模型加微调,那就不一样了,这使得开源模型在C端市场中具有更大的应用潜力。通过微调开源模型,C端用户可以获得更加精准、个性化的服务体验,极大满足用户各方面的需求。

闭源模型并不是稳赚不赔

尽管闭源模型在一定程度上能够保护开发者的利益,但是投资做大语言模型并不是稳赚不赔的。我们都知道芯片流片一次要几百万,但是做一个大语言模型,至少要乘个几百到几千倍。就算有了充足的资金,所需的算力也并不能马上部署到位。

可见训练大模型的成本已经与定制硬件相差无几,而硬件作为模型的上游产业,其技术进步和成本变化对大模型的影响不可忽视。随着未来更先进的硬件技术的出现,人人都有可能训练出当前规模,也就是几B到几十B的大语言模型,这使得当前闭源模型的投入可能面临打水漂的风险。

假如有两个老板,一个人投资大语言模型,而另一个人投资硬件。投资硬件的人得到了单位面积算力提升几十到几百倍的芯片,使得更多的人能训练大语言模型。那么显而易见,投资大语言模型的人就玩完了。

这就好比,卖铲子的人往往比挖矿的人赚钱,因为铲子作为工具,其需求相对稳定且广泛,而挖矿则存在较大的不确定性和风险。同样地,在人工智能领域,提供大模型训练算力的公司可能会比直接训练和应用大模型的公司更具经济效益。这些公司还可以通过提供算力、数据、算法等支持服务,从多个维度获取收益,降低单一业务的风险。

未来展望

综上,大语言模型也好,文生图模型也好,无论什么模型要想更好服务人类,解放生产力,就必须能够开源并且端侧部署。这是毋庸置疑的。

随着大语言模型数量增长,越来越多的人会加入它的上游,也就是硬件领域,带来硬件的突破进展。而随着硬件的进展,越来越多的开发者将倾向于选择开源模式以共享模型、促进技人工智能进步。

可能这就是新的指数爆炸,AI 发现新的物理规律,新的物理规律能够设计更强的硬件,更强的硬件能欧训练更强的AI。比起软件领域自己的指数爆炸,新的指数爆炸贯穿了理学、硬件和软件,将我们的世界连成一个闭环。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/1482.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基础SQL DDL语句

MySQL的DDL(Data Definition Language)语句用于定义或修改数据库结构。 DDL数据库操作 查看所有的数据库 show databases; 红色圈起来的是系统数据库,是系统自带的 mysql:包含存储MySQL服务器运行时所需信息的表。这包括数据字典…

【Linux】MySQL的安装及配置(Ubuntu-18.04)

一、安装MySQL 分别安装MySQL服务器、MySQL客户端、C/C开发库 sudo apt-get install mysql-server sudo apt-get install mysql-client sudo apt-get install libmysqlclient-dev 二、配置MySQL 1.查看默认配置文件,此处的user和password为默认提供的,…

Ceph 分布式文件系统 搭建及使用

一、Ceph 介绍 在当今数据爆炸式增长的时代,企业对于可靠、可扩展的存储解决方案的需求日益迫切。Ceph 作为一种开源的、可伸缩的分布式存储解决方案,正逐渐成为企业级存储领域的热门选择。Ceph是一种由Radicalbit公司开发的开源分布式存储系统&#xf…

【数据结构】冒泡排序

冒泡排序是一种简单的排序算法。 它基于重复地交换相邻元素的位置。算法的每一步都会比较相邻的两个元素,如果它们的顺序错误(即第一个元素比第二个元素大),则交换它们。这样,每经过一轮比较和交换,数组中…

ElasticSearch虚拟机安装(单机版)

1.下载7.10.2 下载链接,选择LINUX X86_64下载 2.创建用户 useradd es也可以使用系统默认用户(非root),root用户会报错 3.解压 tar xvf elasticsearch-7.10.2-linux-x86_64.tar.gz假定目录在/home/es/elasticsearch-7.10.2-linux-x86_64 …

Spring Boot | Spring Boot 默认 “缓存管理“ 、Spring Boot “缓存注解“ 介绍

目录: 一、Spring Boot 默认 "缓存" 管理 :1.1 基础环境搭建① 准备数据② 创建项目③ 编写 "数据库表" 对应的 "实体类"④ 编写 "操作数据库" 的 Repository接口文件⑤ 编写 "业务操作列" Service文件⑥ 编写 "applic…

JavaCard学习笔记: CAP Component 之 Class Component

文章目录 整体结构tag和size字段signature_pool_length和signature_pooltype_descriptor结构导入类型编码导入项签名示例导入类导入数组导入远程方法 interfaces[]interface_info结构flagsinteface_countsuperinterfacesinterface_name class_info_compact classes[]结构flagsi…

稀碎从零算法笔记Day55-LeetCode:100291. 统计特殊字母的数量 II

今天可惜了,周赛第二题没看出来,导致第三题时间都不够,最后一题... 题目描述: 给你一个字符串 word。如果 word 中同时出现某个字母 c 的小写形式和大写形式,并且 每个 小写形式的 c 都出现在第一个大写形式的 c 之前…

基于Springboot的网上商城购物系统

基于SpringbootVue的网上商城购物系统的设计与实现 开发语言:Java数据库:MySQL技术:SpringbootMybatis工具:IDEA、Maven、Navicat 系统展示 用户登录 首页 商品信息 商品资讯 后台登录页面 后台管理首页 用户管理 商品分类管…

JAVA 整合 亚马逊AWS S3(文件上传,文件下载等)

JAVA 整合 亚马逊AWS S3(文件上传,文件下载) 1.添加依赖 因为aws需要发送请求上传、下载等api,所以需要加上httpclient相关的依赖 <dependency><groupId>software.amazon.awssdk</groupId><artifactId>s3</artifactId><version>1.12…

记录一个hive中跑insert语句说没创建spark客户端的问题

【背景说明】 我目前搭建离线数仓&#xff0c;并将hive的执行引擎改成了Spark&#xff0c;在将ods层的数据装载到dim层&#xff0c;执行insert语句时报如下错误 【报错】 [42000][40000] Error while compiling statement: FAILED: SemanticException Failed to get a spark…

星链全解1

星链基本信息 星链卫星的寿命约为5年&#xff0c;最终目标是发射42000颗卫星。最初&#xff0c;每颗卫星重约260公斤&#xff0c;与1吨以上的大卫星相比属于“小卫星”。现在&#xff0c;向V2版进化的星链卫星重量近800公斤&#xff0c;约为老一代卫星的3倍。 点击“星链地图…

【Entity Framework】聊一聊EF如何使用数据库函数

【Entity Framework】聊一聊EF如何使用数据库函数 文章目录 【Entity Framework】聊一聊EF如何使用数据库函数一、数据库函数的类型二、内置函数与用户定义的函数四、聚合函数、标量函数和表值函数五、Niladic函数六、EF Core 中的数据库函数映射6.1 内置函数映射6.2 EF.Functi…

Redis入门到通关之数据结构解析-QuickList

文章目录 ☃️前提概要☃️ 配置项相关☃️简要源码☃️总结 Redis中的 QuickList 是一种特殊的数据结构&#xff0c;用于存储列表类型的数据。它的设计目的是在内存中高效地存储和操作大量的列表元素&#xff0c;尤其是当列表长度很大时。 QuickList的内部结构是一个由多个节…

ARM与单片机有啥区别?

初学者必知&#xff1a;ARM与单片机到底有啥区别&#xff1f;1、软件方面这应该是最大的区别了。引入了操作系统。为什么引入操作系统&#xff1f;有什么好处嘛&#xff1f; 在开始前我有一些资料&#xff0c;是我根据网友给的问题精心整理了一份「ARM的资料从专业入门到高级教…

完全日期(蓝桥杯)

文章目录 完全日期题目描述模拟 完全日期 题目描述 本题为填空题&#xff0c;只需要算出结果后&#xff0c;在代码中使用输出语句将所填结果输出即可。 如果一个日期中年月日的各位数字之和是完全平方数&#xff0c;则称为一个完全日期。 例如&#xff1a;2021 年 6 月 5 日…

Z变换和离散傅里叶变换区别

Z变换和离散傅里叶变换&#xff08;DFT&#xff09;都是数字信号处理中的重要工具&#xff0c;它们之间有几个关键的区别&#xff1a; 定义域&#xff1a; Z变换是在整个Z平面上定义的&#xff0c;可以处理信号的整个频率范围。 DFT仅在单位圆上定义&#xff0c;对应于周期信号…

【Linux驱动层】iTOP-RK3568学习之路(二):vscode中设置头文件路径-完成代码自动补全

在Ubuntu下用vscode写Linux驱动层的时候&#xff0c;需要添加头文件&#xff1a; #include<linux/module.h> #include<linux/init.h> #include<linux/kernel.h>但vscode没有智能提示&#xff0c;因此需要我们手动添加自己的头文件路径&#xff1a; topeetu…

嵌入式Linux开发实操(十七):Linux Media Infrastructure userspace API

视频和无线电流媒体设备使用的Linux内核到用户空间API,包括摄像机、模拟和数字电视接收卡、AM/FM接收卡、软件定义无线电(SDR)、流捕获和输出设备、编解码器设备和遥控器。典型的媒体设备硬件如下: 媒体基础设施API就是用于控制此类设备的,分五个部分。 第一部分V4L2 API…

设计模式学习笔记 - 开源实战三(下):借助Google Guava学习三大编程范式中的函数式编程

概述 现在主流的编程范式主要有三种&#xff0c;面向过程、面向对象和函数式编程。在理论部分&#xff0c;已经介绍了前面两种编程范式。本章再讲讲剩下的编程范式&#xff0c;函数式编程。 函数式编程并非是一个很新的东西&#xff0c;早在 50 年前就已经出现。近几年&#…