最大的开源大模型:马斯克的Grok-1可供企业商用

由马斯克xAI团队研发的最大的开源大语言模型Grok-1,从头开始训练的总参数量为314B(3140亿)的混合专家(MoE)模型,其规模超过ChatGPT-3.5,目前Grok背后代码和权重架构已全部开放上线在GitHub。

下载地址:https://github.com/xai-org/grok-1

Grok 1.0利用了定制的训练技术栈,在 JAX 和 Rust 的基础上从零开始构建。该模型在 2023 年 10 月完成预训练阶段时的基础模型数据,具有高达 314B 的模型参数数量。

Grok 1.0 采用了8个MoE,每一个数据单元由 2 位专家处理,嵌入向量的维度为 6144,并采用旋转式嵌入表示。此外,Grok 1.0 具有处理更长上下文信息的能力,最大序列长度为 8192 个数据单元。

值得注意的是,由于尚未对任何特定应用(如对话系统)进行微调,Grok 1.0 在处理特定任务时的表现可能不如一些专门为任务微调过的模型。根据 Apache 2.0 许可协议,现在公众可以自由访问模型的权重和架构,这为研究人员和开发者提供了更多探索和利用的机会。

xAI团队使用了一些旨在衡量数学和推理能力的标准机器学习基准对Grok-1进行了一系列评估。在MMLU、GSM8K等一系列的基准测试中,Grok-1显示出了超强的性能,胜过其计算类中的所有其他模型,包括ChatGPT-3.5和Inflection-1,但和Claude 2以及GPT-4仍有不小的差距。

不过,xAI团队表示,由于这些基准数据可在网上找到,无法排除模型在这些数据上进行了无意的训练。因此,在收集完数据集后,根据去年 5 月底公布的 2023 年匈牙利全国高中数学期末考试题(数据截止日期之后),xAI 对他们的模型(包括 Grok 1.0、Claude-2 和 GPT-4)进行了人工评分。结果显示,Grok 1.0 和 Claude-2 都获得了 C 级(59% 和 55%),而 GPT-4 则以 B 级(68%)通过考试。xAI 表示,他们并没有为了迎接这次考试而特别准备或调整模型。

值得一提的是,Grok-1采用的是Apache 2.0 license,这意味着程序员、公司和科研机构可以将该模型的副本用于各种目的,包括商业应用。

由于模型规模较大,需要有足够GPU和内存的机器才能运行Grok。可能需要一台拥有628GB GPU、8块H100内存的服务器才能够支撑Grok的运行,目前英智未来已建立数千P不同规格的智算算力,包括NVIDIA H100、RTX 4090、A800等,程序员、公司和机构都可以租赁英智未来的智算算力,基于Grok-1等各种开源大模型用于各种AI应用程序,快速构建自己的AI应用产品。

尽管 Grok 1.0 还需要更多复杂的微调和优化,庞大的体量对计算资源的需求面临很多挑战,Grok的开源仍然是一个值得称赞的无私行为,也是迈向开源 AGI 的重要一步。伴随更多开源模型的发布,希望未来更多开发者加入人工智能行列,共同推动科技创新和发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/769698.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[简单粗暴]一文彻底搞懂Java泛型中的PECS原则(在坑里躺了多年终于爬出来了)

[简单粗暴]一文彻底搞懂Java泛型中的PECS原则(在坑里躺了多年终于爬出来了) 两种限定通配符 表示类型的上界&#xff0c;格式为&#xff1a;<&#xff1f; extends T>&#xff0c;即类型必须为T类型或者T子类表示类型的下界&#xff0c;格式为&#xff1a;<&#xf…

SqlServer服务启动报错10013

错误提示&#xff1a;MSSQLSERVER 服务启动异常不错10013 Windows不能在本地计算机启动SQLServer(MSSQLSERVER)。有关更多信 息&#xff0c;查阅系统事件日志。如果这是非Microsoft服务&#xff0c;请与服务厂商联系&#xff0c;并 参考特定服务错误代码10013。 解决 1、先禁用…

蓝桥杯 2023 省A 颜色平衡树

树上启发式合并是一个巧妙的方法。 dsu on tree&#xff0c;可以称为树上启发式合并&#xff0c;是一种巧妙的暴力。用一个全局数组存储结果&#xff0c;对于每棵子树&#xff0c;有以下操作&#xff1a; 先遍历轻儿子&#xff0c;处理完轻儿子后将数组清零&#xff08;要再…

网络七层模型之数据链路层:理解网络通信的架构(二)

&#x1f90d; 前端开发工程师、技术日更博主、已过CET6 &#x1f368; 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 &#x1f560; 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 &#x1f35a; 蓝桥云课签约作者、上架课程《Vue.js 和 E…

Day14-集合(二)--什么是数据结构

什么是数据结构 计算机存储和组织数据的方式 数据结构概述 数据结构是计算机底层存储、组织数据的方式 是指数据相互之间是以什么方式排列在一起的 数据结构是为了更加方便管理和使用数据&#xff0c;需要结合具体的业务场景来进行选择 精心选择的数据结构可以带来更高的运…

Linux相关命令(1)

1、找出文件夹下包含 “aaa” 同时不包含 “bbb”的文件&#xff0c;然后把他们重新生成一下。要求只能用一行命令。 find ./ -type f -name "*aaa*" ! -name "*bbb*" -exec touch {} \;文件系统操作命令 df&#xff1a;列出文件系统的整体磁盘使用情况 …

2024/3/23 蓝桥杯

P1102 A-B 数对 二分 import java.util.Arrays; import java.util.Scanner;public class Main {public static void main(String[] args) {//A-BCScanner sc new Scanner(System.in);int n sc.nextInt();int C sc.nextInt();int[] res new int[n1];for(int i1;i<n;i) {…

普通用户无法连接到docker服务

环境 tt:~$ lsb_release -a No LSB modules are available. Distributor ID: Ubuntu Description: Ubuntu 22.04.3 LTS Release: 22.04 Codename: jammy问题 tt:~$ sudo apt install docker.io -ytt:~$ docker info Client:Version: 24.0.5Context: d…

小孔平板应力集中问题matlab有限元编程【源码+PPT讲义】|三节点三角形单元|平面单元|稀疏矩阵 |Comsol网格

专栏导读 作者简介&#xff1a;工学博士&#xff0c;高级工程师&#xff0c;专注于工业软件算法研究本文已收录于专栏&#xff1a;《有限元编程从入门到精通》本专栏旨在提供 1.以案例的形式讲解各类有限元问题的程序实现&#xff0c;并提供所有案例完整源码&#xff1b;2.单元…

样本投递技术

投递技术 APT 组织主要以邮件作为投递载体&#xff0c;邮件的标题、正文和附件都可能携带恶意代码。主要的方式是附件是漏洞文档、附件是二进制可执行程序和正文中包含指向恶意网站的超链接这三种。 APT攻击的载荷类型&#xff1a; 文档类&#xff1a;主要是office文档、pdf文…

NEFU 《JAVA语言程序设计》实验三 类的继承、接口和多态

1. (程序题)设计具有工作能力接口Workable&#xff0c;声明抽象方法updateName()&#xff0c;通过传入的字符串修改姓名&#xff1b;声明抽象方法calculateSalary()&#xff0c;返回计算的薪资 设计员工实体类Employee&#xff0c;公司下所有员工均包含&#xff0c;姓名&#x…

数组——LEETCODE的第35题(二分法与lower_bound函数)

数组——LEETCODE的第35题&#xff08;二分法与lower_bound函数&#xff09; 本文主要是根据leetcode 35题所写的关于数组的相关内容&#xff0c;主要包括&#xff1a; 数组的的特性leetcode第35题二分法的解题lower_bound函数的使用 文章目录 数组——LEETCODE的第35题&#x…

面试题(一)

目录 1.JDK、JRE、JVM之间的区别 2.hashcode()和equals()的区别 3.String、StringBuffer、StringBuilder的区别 4.泛型中extends和super的区别 5.和equals()的区别 6.重写和重载的区别 7.List和Set的区别 8.ArrayList和LinkedList区别 9.谈谈ConcurrentHashMap的原理 …

LangChain核心模块 Retrieval——文档加载器

Retrieval ​ 许多LLM申请需要用户的特定数据&#xff0c;这些数据不属于模型训练集的一部分&#xff0c;实现这一目标的主要方法是RAG(检索增强生成)&#xff0c;在这个过程中&#xff0c;将检索外部数据&#xff0c;然后在执行生成步骤时将其传递给LLM。 ​ LangChain 提供…

Unsafe的CAS操作及线程park与unpark

如下是一个参照AQS进行的一个加锁及解锁的简单实现&#xff1a; 多线程并发进行同步业务操作&#xff1b;加锁&#xff1a;尝试进行cas 0->1操作&#xff1b;如果加锁成功则进行业务处理&#xff0c;然后进行锁释放 1->0&#xff0c;然后将列头的线程进行唤醒&#xff1…

GDAL中的地理坐标系、投影坐标系及其相互转换

目录 地理坐标系 国内常用地理坐标系 投影坐标系 国内常用投影坐标系&#xff08;不推荐使用&#xff09; 坐标转换 地理坐标转为投影坐标 投影坐标转为地理坐标 地理坐标系 原理参考这篇文章&#xff1a;地理坐标系与投影坐标系区别与联系 https://yunxingluoyun.blog.…

webserver如何从零开始?

我们要做一个项目&#xff0c;过程是怎么样的呢&#xff1f;git clone ...部署&#xff0c;测试&#xff0c;然后开始写么&#xff0c;这样你大概率会“猪脑过载”&#xff0c;对一个项目的每个部分都没有清晰认识&#xff0c;能写出什么来&#xff1f;写之前当然需要测试每个功…

Linux网络协议栈从应用层到内核层③

文章目录 1、write源码剖析2、vfs层进行数据传输3、socket层进行数据传输4、tcp层进行数据传输5、ip层进行数据传输6、网络设备层进行数据传输7、网卡驱动层进行数据传输8、数据传输的整个流程 1、write源码剖析 系统调用原型 ssize_t write(int fildes, const void *buf, si…

Linux 在线yum安装: PostgreSQL 15.6数据库

Linux 在线yum安装&#xff1a; PostgreSQL 15.6数据库 1、PostgreSQL数据库简介2、在线安装PostgreSQL15.63、配置 PostgreSQL的环境变量4、使用默认用户登录PostgreSQL5、配置 PostgreSQL 允许远程登录6、修改 PostgreSQL 默认端口7、创建数据库和表、远程用户zyl8、pgAdmin远…

MATLAB环境下基于离散小波变换和主成分平均的医学图像融合方法

随着计算机技术和生物影像工程的日趋成熟&#xff0c;医学图像为医疗诊断提供的信息越来越丰富。目前&#xff0c;由于医学成像的设备种类繁多&#xff0c;导致医生获得的图像信息差异较大。如何把这些信息进行整合供医生使用成为当务之急。基于此&#xff0c;医学图像融合技术…