2024 年 8 个顶级开源 LLM(大语言模型)

如果没有所谓的大型语言模型(LLM),当前的生成式人工智能革命就不可能实现。LLM 基于 transformers(一种强大的神经架构)是用于建模和处理人类语言的 AI 系统。它们之所以被称为“大”,是因为它们有数亿甚至数十亿个参数,这些参数是使用大量文本数据语料库预先训练的。

LLM 是流行且广泛使用的聊天机器人(如 ChatGPT 和 Google Bard)的基础模型。特别是,ChatGPT 由 OpenAI 开发和拥有的 LLM GPT-4 提供支持,而 Google Bard 则基于 Google 的 PaLM 2 模型。

ChatGPT 和 Bard 以及许多其他流行的聊天机器人都有一个共同点,即它们的基础 LLM 是专有的。这意味着它们归公司所有,只有在购买许可证后才能由客户使用。该许可证附带权利,但也对如何使用LLM进行了可能的限制,以及有关该技术背后机制的有限信息。

然而,LLM 领域的一个平行运动正在迅速加快步伐:开源 LLM。随着人们对主要由 Microsoft、Google 和 Meta 等大型科技公司控制的专有 LLM 缺乏透明度和有限可访问性的担忧日益加剧,开源 LLM 有望使快速增长的 LMM 和生成式 AI 领域更加可访问、透明和创新。

本文旨在探讨 2023 年可用的顶级开源 LLM。尽管自 ChatGPT 推出和(专有)LLM 普及以来仅一年,但开源社区已经取得了重要的里程碑,有大量开源 LLM 可用于不同目的。继续阅读以查看最受欢迎的!

使用开源 LLM 的好处

选择开源 LLM 而不是专有 LLM 有多种短期和长期好处。 下面,您可以找到最令人信服的理由列表:

增强数据安全性和隐私性

使用专有 LLM 的最大问题之一是 LLM 提供商泄露数据或未经授权访问敏感数据的风险。事实上,关于涉嫌将个人和机密数据用于培训目的,已经存在一些争议。

通过使用开源 LLM,公司将全权负责保护个人数据,因为他们将完全控制个人数据。

节省成本,减少对供应商的依赖

大多数专有的 LLM 需要许可证才能使用它们。从长远来看,这可能是一些公司,尤其是中小企业可能无法负担的重要费用。开源 LLM 并非如此,因为它们通常是免费使用的。

但是,需要注意的是,运行 LLM 需要大量资源,即使仅用于推理,这意味着您通常需要为使用云服务或强大的基础设施付费。

代码透明度和语言模型自定义

选择开源 LLM 的公司将可以访问 LLM 的工作原理,包括它们的源代码、架构、训练数据以及训练和推理机制。这种透明度是审查的第一步,也是定制的第一步。

由于每个人都可以访问开源 LLM,包括它们的源代码,因此使用它们的公司可以针对其特定用例对其进行自定义。

积极的社区支持和促进创新

开源运动有望使 LLM 和生成式 AI 技术的使用和访问民主化。允许开发人员检查 LLM 的内部工作是该技术未来发展的关键。通过降低全球编码人员的准入门槛,开源 LLM 可以通过减少偏见、提高准确性和整体性能来促进创新并改进模型。

解决人工智能对环境的影响

随着 LLM 的普及,研究人员和环境监管机构对运行这些技术所需的碳足迹和耗水量提出了担忧。专有的 LLM 很少发布有关培训和运营 LLM 所需资源的信息,也很少发布相关的环境足迹。

通过开源 LLM,研究人员有更多机会了解这些信息,这可以为旨在减少 AI 环境足迹的新改进打开大门。

2024 年 8 个顶级开源大语言模型

1. LLaMA 2

骆驼 2

LLM 领域的大多数顶级参与者都选择闭门造车地建立他们的 LLM。但 Meta 正在采取行动成为一个例外。随着其强大的开源大型语言模型 Meta AI (LLaMA) 及其改进版本 (LLaMA 2) 的发布,Meta 正在向市场发出一个重要信号。

LLaMA 2 于 2023 年 7 月实现用于研究和商业用途,是一个预训练的生成文本模型,具有 7 到 700 亿个参数。它已通过来自人类反馈的强化学习 (RLHF) 进行了微调。它是一种生成文本模型,可以用作聊天机器人,可以适应各种自然语言生成任务,包括编程任务。Meta 已经推出了  LLaMA 2, Llama Chat, 和 Code Llama 的开放定制版本。

2. BLOOM

图片6.png

BLOOM 于 2022 年推出,经过与来自 70+ 个国家的志愿者和 Hugging Face 的研究人员为期一年的合作项目,BLOOM 是一个自回归 LLM,经过训练,可以使用工业规模的计算资源在大量文本数据上从提示中连续文本化。

BLOOM 的发布标志着生成式 AI 民主化的一个重要里程碑。BLOOM 拥有 176 亿个参数,是最强大的开源 LLM 之一,能够以 46 种语言和 13 种编程语言提供连贯准确的文本。

透明度是 BLOOM 的支柱,在这个项目中,每个人都可以访问源代码和训练数据,以便运行、研究和改进它。

BLOOM 可以通过 Hugging Face 生态系统免费使用。

3. BERT

图片5.png

LLM 的底层技术是一种称为 transformer 的神经架构。它是由谷歌开发人员于 2017 年在论文《注意力是你所需要的一切》中提到的。测试 transformers 潜力的首批实验之一是 BERT。

BERT(Bidirectional Encoder Representations from Transformers)于 2018 年由 Google 作为开源 LLM 推出,在许多自然语言处理任务中迅速实现了最先进的性能。

由于其在 LLM 早期的创新功能及其开源性质,Bert 是最受欢迎和使用最广泛的 LLM 之一。例如,在 2020 年,谷歌宣布已通过 70 多种语言的 Google 搜索采用了 Bert。

目前有数以千计的开源、免费和预训练的 Bert 模型可用于特定用例,例如情感分析、临床笔记分析和有害评论检测。

4. Falcon 180B

图片2.png

如果说 Falcon 40B 已经给开源 LLM 社区留下了深刻的印象(它在 Hugging Face 的开源大型语言模型排行榜上排名 #1),那么新的 Falcon 180B 表明专有和开源 LLM 之间的差距正在迅速缩小。

Falcon 180B 由阿拉伯技术创新研究所于 2023 年 9 月发布,可以接受 1800 亿个参数和 3.5 万亿个 Token。凭借这种令人印象深刻的计算能力, Falcon 180B 在各种 NLP 任务中已经超过了 LLaMA 3 和 GPT-5.2,而 Hugging Face 表明它可以与谷歌的 PaLM 2 相媲美,后者是为 Google Bard 提供支持的 LLM。

虽然免费用于商业和研究用途,但重要的是要注意 Falcon 180B 需要珍贵的计算资源才能运行。

5. OPT-175B

图片9.png

2022 年发布的 Open Pre-trained Transformers(OPT)语言模型标志着 Meta 通过开源解放 LLM 竞赛战略的又一个重要里程碑。

OPT 包括一套仅解码器的预训练转换器,参数范围从 125M 到 175B。OPT-175B 是市场上最先进的开源 LLM 之一,是 GPT 最强大的兄弟,性能与 GPT-3 相似。预训练模型和源代码都向公众开放。

然而,如果你正在考虑开发一家具有 LLM 的人工智能驱动型公司,你最好考虑另外的模型,因为OPT-175B 是在非商业许可下发布的,只允许将该模型用于研究。

6. XGen-7B

图片8.png

越来越多的公司正在加入LLM竞赛。最后加入擂台的是 Salesforce,该公司于 2023年 7 月推出了 XGen-7B LLM。

根据作者的说法,大多数开源 LLM 专注于提供信息有限的大答案(即几乎没有上下文的简短提示)。XGen-7B 背后的想法是构建一个支持更长上下文窗口的工具。特别是,XGen (XGen-7B-8K-base) 的最高级方差允许 8K 上下文窗口,即输入和输出文本的累积大小。

效率是 XGen 的另一个重要优先事项,它只使用 7B 参数进行训练,远低于大多数强大的开源 LLM,如 LLaMA 2 或 Falcon。

尽管体积相对较小,但 XGen 仍然可以提供出色的效果。该模型可用于商业和研究目的,但 XGen-7B-{4K,8K}-inst 变体除外,该变体已在教学数据和 RLHF上进行了训练,并在非商业许可下发布。

7. GPT-NeoX 和 GPT-NeoX

图片1.png

GPT-NeoX 和 GPT-J 由非营利性 AI 研究实验室 EleutherAI 的研究人员开发,是 GPT 的两个很好的开源替代品。

GPT-NeoX 有 20 亿个参数,而 GPT-J 有 6 亿个参数。尽管大多数高级 LLM 可以使用超过 100 亿个参数进行训练,但这两个 LLM 仍然可以提供高精度的结果。

他们已经接受了来自不同来源的 22 个高质量数据集的训练,这些数据集使它们能够在多个领域和许多用例中使用。与 GPT-3 相比,GPT-NeoX 和 GPT-J 尚未使用 RLHF 进行训练。

任何自然语言处理任务都可以使用 GPT-NeoX 和 GPT-J 执行,从文本生成和情感分析到研究和营销活动开发。

这两个 LLM 都可以通过 NLP Cloud API 免费获得。

8. Vicuna 13-B

图片3.jpg

Vicuna-13B 是一个开源对话模型,通过使用从 ShareGPT 收集的用户共享对话对 LLaMa 13B 模型进行微调而训练而来。

作为一款智能聊天机器人,Vicuna-13B 的应用不胜枚举,下面在客户服务、医疗、教育、金融、旅游/酒店等不同行业进行说明。

使用 GPT-4 作为评委的初步评估显示,Vicuna-13B 达到了 ChatGPT 和 Google Bard 的 90% 以上质量,然后在超过 90% 的情况下优于 LLaMa 和 Alpaca 等其他模型。

选择适合您需求的开源 LLM

开源 LLM 空间正在迅速扩大。如今,开源 LLM 比私有 LLM 多得多,随着全球开发人员合作升级当前的 LLM 并设计更优化的 LLM,性能差距可能很快就会弥合。

在这个充满活力和令人兴奋的背景下,可能很难为您的目的选择合适的开源 LLM。以下是在选择一个特定的开源 LLM 之前您应该考虑的一些因素的列表:

  • 您要做什么?这是你要问自己的第一件事。开源 LLM 始终是开放的,但其中一些仅出于研究目的而发布。因此,如果您打算创办一家公司,请注意可能的许可限制。
  • 为什么需要大语言模型?这一点也非常重要。LLM 目前很流行。每个人都在谈论他们和他们无穷无尽的机会。但是,如果你可以在不需要 LLM 的情况下构建你的想法,那么就不要使用它们。这不是强制性的(您可能会节省很多钱并防止进一步使用资源)。
  • 您需要多大的精度?这是一个重要的方面。最先进的 LLM 的大小和准确性之间存在直接关系。这意味着,总的来说,LLM 在参数和训练数据方面越大,模型就越准确。因此,如果您需要高精度,您应该选择更大的 LLM,例如 LLaMA 或 Falcon。
  • 你想投资多少钱? 这与上一个问题密切相关。模型越大,训练和操作模型所需的资源就越多。这意味着要使用额外的基础设施或云提供商的更高账单,以防您想在云中操作 LLM。LLM 是强大的工具,但它们需要大量资源才能使用它们,即使是开源的。
  • 你能用预训练的模型实现你的目标吗?如果你可以简单地使用预先训练的模型,为什么还要投入金钱和精力从头开始训练你的 LLM?有许多版本的开源 LLM 针对特定用例进行了训练。如果您的想法适合这些用例之一,那就为它而生。

结论

开源 LLM 正处于激动人心的运作。随着它们的快速发展,生成式人工智能领域似乎不一定会被有能力构建和使用这些强大工具的大玩家所垄断。

我们列举了 8 个开源 LLM,但这个数字要高得多,而且还在快速增长。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/234137.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

iPhone手机开启地震预警功能

iPhone手机开启地震预警功能 地震预警告警开启方式 地震预警 版权:成都高新减灾研究所 告警开启方式

CSS浮动

前置传统网页布局的三种方式: 标准流(普通流/文档流): 浮动流: 定位流: 浮动: 实现元素在一行中向哪个方向排列 浮动后的元素还是可以设置边距的。 float默认是不会继承,但是可以强制设置flo…

使用Matlab实现声音信号处理

利用Matlab软件对声音信号进行读取、放音、存储 先去下载一个声音文件;使用这个代码即可 clear; clc; [y, Fs] audioread(xxx.wav); plot(y); y y(:, 1); spectrogram(y); sound(y, Fs); % player audioplayer(y, Fs);y1 diff(y(:, 1)); subplot(2, 1, 1); pl…

美国第二大互联网供应商泄露3600万用户数据

12月18日,美国第二大互联网服务供应商Xfinity 透露,10月份发生的一起网络攻击泄露了多达3600万用户的敏感数据。 Xfinity由康卡斯特公司所属,为美国用户提供宽带互联网和有线电视等服务。 该公司表示,攻击是受Citrix Bleed的 CVE…

基于PHP的蛋糕购物商城系统

有需要请加文章底部Q哦 可远程调试 基于PHP的蛋糕购物商城系统 一 介绍 此蛋糕购物商城基于原生PHP开发,数据库mysql,前端bootstrap。系统角色分为用户和管理员。 技术栈:phpmysqlbootstrapphpstudyvscode 二 功能 用户 1 注册/登录/注销…

08.queue 容器

8、queue 容器 概念: Queue 是一种先进先出(First In First Out,FIFO)的数据结构,他有两个出口 队列容器允许从一端新增元素,从另一端移除元素队列中只有队头和队尾才可以被外界使用,因此队列…

Oracle:JDBC链接Oracle的DEMO

1、引入jar包: 2、DEMO: package jdbc;import java.sql.*;public class OracleConnectionExample {public static void main(String[] args) throws SQLException {Connection conn null;PreparedStatement statement null;try {// Register JDBC dri…

基于Hadoop的农产品价格信息检测分析系统

基于Hadoop的农产品价格信息检测分析系统 前言数据处理模块1. 数据爬取2. 数据清洗与处理3. 数据存储 数据分析与检测模块1. 农产品价格趋势分析2. 农产品价格检索3. 不同市场价格对比 创新点 前言 为了更好地了解农产品市场价格趋势和不同市场之间的价格差异,我设…

Leetcode—151.反转字符串中的单词【中等】

2023每日刷题&#xff08;六十五&#xff09; Leetcode—151.反转字符串中的单词 实现代码 class Solution { public:string reverseWords(string s) {stringstream strs(s);string word;vector<string> res;while(strs >> word) {res.push_back(word);}reverse(…

Labview Vision 机器视觉使用,从下载程序安装应用,到实战找硬币并输出值

1.前言 大家好,今天我要和机器人一起配合来打算 做机器视觉 用Labview 和 Vision 联动实现机器的视觉 2.下载软件-软件的安装 我们除了基础款的labview软件 还要安装视觉四件套 1.Labview 编程平台&#xff08;我是 2023 q3&#xff09; 2. NI - IMAQdx &#xff08;驱动软…

Ubuntu 常用命令之 ifconfig 命令用法介绍

ifconfig 是一个用于配置和显示 Linux 内核中网络接口的系统管理命令。它用于配置&#xff0c;管理和查询 TCP/IP 网络接口参数。 ifconfig 命令的参数有很多&#xff0c;以下是一些常见的参数 up&#xff1a;激活指定的网络接口。down&#xff1a;关闭指定的网络接口。add&a…

蓝桥杯常用库heapq

堆的常用方法 使用list表示一个堆 将无序List转换成最小堆;heapq.heapify(a) 最小堆a中添加元素x:heapq.heappush(a, x) 弹出并返回最小元素:heapq.heappop(a) 弹出并返回最小元素&#xff0c;同时添加元素x:heapq.heapreplace(a,x) import heapqa [11, 6, 9, 8, 7, 3] heapq.…

JS中的selection事件与range

前言 本文简单总结下文本输入中的 Selection 与 Range 事件。 测试地址见: 在线效果预览 ::selection && Selection 自定义选取颜色 项目中一般有主题色的需求&#xff0c;这时候可以通过 css 中的::selection伪类可以自定义选中背景颜色 ::selection {background: yel…

【论文笔记】Distilling the Knowledge in a Neural Network

Abstract 几乎任何机器学习算法性能提升的一个非常简单的方法是在相同数据上训练多个不同的模型&#xff0c;然后对它们的预测结果进行平均。 不幸的是&#xff0c;使用整个模型集合进行预测繁琐&#xff0c;可能会因为计算成本过高而难以部署给大量用户&#xff0c;尤其是如果…

MyBatis的原始DAO开发!!!

引用&#xff1a;MyBatis的删除、修改、插入操作&#xff01;&#xff01;&#xff01;-CSDN博客的准备工作&#xff01;&#xff01;&#xff01;&#xff08;准备工作都一样只不过文件名称有所不同&#xff09; 1.利用原始DAO开发&#xff0c;查询所有的信息。 UserDao&#…

【数据库模拟题目集】选择题

数据库应用程序的编写是基于数据库三级模式中的&#xff08;外模式&#xff09; 对创建数据库模式一类的数据库对象的授权可由CREATE USER时实现。新创建的数据库用户有三种权限&#xff0c;CONNECT、RESOURCE和DBA。拥有RESOURCE权限的用户&#xff08;不能创建模式 &#xf…

关于通信基站综合防雷方案介绍

为了获取更好的通信效果&#xff0c;通信基站在选址时通常地势要高于周围环境&#xff0c;气候条件恶劣&#xff0c;夏季通讯及机房设备及发射铁塔遭受雷击灾害的风险较高&#xff0c;而现代的电信设备对雷电又较为敏感&#xff0c;使得雷害问题日益凸显出来&#xff0c;如果防…

裂解汽油行业分析:到2027 年将达到 202.4 亿美元

裂解汽油&#xff0c;又称pygas&#xff0c;是石化工业中用石脑油或瓦斯油生产乙烯和丙烯的副产品。热解气是一种复杂的碳氢化合物混合物&#xff0c;主要由苯、甲苯和二甲苯等芳烃组成。热解汽油是生产苯乙烯、苯酚和合成橡胶等化学品的宝贵原料。 全球市场&#xff1a; 预计在…

延迟消息队列的几种实现方案,哪种更适合业务,要看具体情况分析

延迟消息队列的几种实现方案&#xff0c;延迟消息怎么实现&#xff0c;很多人可能一想到的是rabbitmq的死信队列来实现&#xff0c;但是一旦引入mq的话&#xff0c;就依赖这个中间件&#xff0c;另外维护成本&#xff0c;开发成本都很大&#xff0c;那有么有简单点的实现方式呢…

Linux安全之SELinux理解

安全增强式 Linux&#xff0c;即SELinux(Security-Enhanced Linux)是一个 Linux 内核的安全模块&#xff0c;其提供了访问控制安全策略机制&#xff0c;包括了强制访问控制(Mandatory Access Control&#xff0c;MAC)。SELinux 是一组内核修改和用户空间工具&#xff0c;已经被…