源神,启动!马斯克开源史上最大模型Grok,参数高达3140亿,可商用!

马斯克真不愧是源神,自开源X的推荐算法以及特斯拉智能驾驶算法后,又说到做到,开源旗下大模型Grok!

图片

代码和模型权重已上线GitHub。官方信息显示,此次开源的Grok-1是一个3140亿参数的混合专家模型,远超OpenAI GPT-3.5的1750亿。,就是说,这是当前开源模型中参数量最大的一个,遵照Apache 2.0协议开放模型权重和架构。

消息一出,Grok-1的GitHub仓库已揽获15K标星,并且还在库库猛涨。

GitHub地址:https://github.com/xai-org/grok-1?tab=readme-ov-file

目前Grok-1的源权重数据大小大约为300GB。

图片

表情包们,第一时间被吃瓜群众们热传了起来。

图片

而ChatGPT本Chat,也现身Grok评论区,开始了和马斯克新一天的斗嘴……

图片

Grok-1介绍

此次开源,xAI发布了Grok-1的基本模型权重和网络架构。

具体来说是2023年10月预训练阶段的原始基础模型,没有针对任何特定应用(例如对话)进行微调。

Grok-1是一个混合专家(Mixture-of-Experts,MOE)大模型,这种MOE架构重点在于提高大模型的训练和推理效率,形象地理解,MOE就像把各个领域的“专家”集合到了一起,遇到任务派发给不同领域的专家,最后汇总结论,提升效率。决定每个专家做什么的是被称为“门控网络”的机制。

图片

在GitHub页面上,官方特别强调了Grok模型的巨大规模(总共314B参数),这意味着运行Grok需要强大的GPU和内存支持。

此外,模型的权重文件以磁力链接的形式提供,文件大小接近300GB,这也是一个相当庞大的数字。

图片

除了参数规模之外,Grok在工程架构上也颇具创新精神——它并没有选择常见的Python、PyTorch或Tensorflow,而是采用了Rust编程语言和新兴的深度学习框架JAX。

除了官方通告外,一些专家通过深入分析代码等方式揭示了更多关于Grok的技术细节。例如,斯坦福大学的Andrew Kean Gao就对Grok的技术细节进行了深入解释。

他指出,Grok采用了旋转的embedding方式,而非传统的固定位置embedding,旋转位置的embedding大小为6144,与输入embedding相同这种创新方法为Grok的性能和效率提供了新的可能性.

当然,还有更多的参数信息:

图片

  • Transformer层数为64,每层都有一个解码器层,包含多头注意力块和密集块;

    key value大小为128;多头注意力块中,有48 个头用于查询,8 个用于KV,KV 大小为 128;密集块(密集前馈块)扩展因子为8,隐藏层大小为32768。窗口长度为8192tokens,精度为bf16Tokenizer vocab大小为131072(2^17),与GPT-4接近;embedding大小为6144(48×128);

除了Gao,还有英伟达AI科学家Ethan He(何宜晖)指出,在专家系统的处理方面,Grok也与另一知名开源MoE模型Mixtral不同,Grok对全部的8个专家都应用了softmax函数,然后从中选择top2专家,而Mixtral则是先选定专家再应用softmax函数。

而至于有没有更多细节,可能要看官方会不会发布进一步的消息了,另外,值得一提的是,Grok-1采用的是Apache 2.0 license,也就是说,支持商用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/753935.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C语言之判断浮点数

目录 一 简介 二 代码实现 A.方法一 B.方法二 二 时空复杂度 A.方法一 B.方法二 一 简介 在C语言中,判断浮点数的算法通常涉及到比较两个浮点数是否相等或比较它们的大小。由于浮点数运算存在精度误差问题,直接使用 或 ! 进行比较可能会导致不准…

如何搭建一个 tts 语言合成模型

搭建一个文本到语音(TTS)模型是一个涉及多个步骤的过程,包括数据准备、模型选择、训练、评估和部署。以下是一个简化的指南,介绍如何搭建一个基本的TTS模型: 1. 数据准备 数据收集:获取大量的文本和相应的…

HTML选择文件的实时预览

HTML选择文件的实时预览 目录 HTML选择文件的实时预览HTML代码JS代码预览 HTML代码 <input type"file" id"adv_img_input" style"width: 1000px ;height:30px"> <img src"#"id"adv_img">JS代码 <script>…

OpenAI引领下一代AI技术,推出GPT-4 Turbo

OpenAI引领下一代AI技术&#xff1a;GPT-4 Turbo 摘要 OpenAI最近对其GPT-4和GPT-3.5语言模型进行了一系列改进&#xff0c;推出了GPT-4 Turbo&#xff0c;这是AI交互和计算语言学领域的一次重大突破。GPT-4 Turbo拥有更广泛的知识库和更大的上下文窗口&#xff0c;能够更准确…

配置OGG 如何批量修改源端及目标端序列值_满足客户变态需求学会这招你就赚了

欢迎您关注我的公众号【尚雷的驿站】 **************************************************************************** 公众号&#xff1a;尚雷的驿站 CSDN &#xff1a;https://blog.csdn.net/shlei5580 墨天轮&#xff1a;https://www.modb.pro/u/2436 PGFans&#xff1a;ht…

WanAndroid(鸿蒙版)开发的第三篇

前言 DevEco Studio版本&#xff1a;4.0.0.600 WanAndroid的API链接&#xff1a;玩Android 开放API-玩Android - wanandroid.com 其他篇文章参考&#xff1a; 1、WanAndroid(鸿蒙版)开发的第一篇 2、WanAndroid(鸿蒙版)开发的第二篇 3、WanAndroid(鸿蒙版)开发的第三篇 …

2024年3月GESP认证Scratch图形化编程四级真题及答案

GESP 图形化四级试卷 &#xff08;满分&#xff1a;100 分 考试时间&#xff1a;120 分钟&#xff09; 学校&#xff1a; 姓名&#xff1a; ​ 一、单选题&#xff08;共 10 题&#xff0c;每题 2 分&#xff0c;共 30 分&#xff09; 题号 1 2 3 4 5 6 7 8 9 10 11 1…

通信协议如何连接代码-自动窗帘系统

要将自动窗帘系统的代码与硬件通过通信协议连接起来&#xff0c;你需要确保硬件支持相应的通信接口和协议。以下是一个一般性的步骤概述&#xff0c;帮助你理解如何实现这一过程&#xff1a; (1)选择通信协议&#xff1a; 首先&#xff0c;确定你的硬件支持的通信协议。常见的通…

【开源】SpringBoot框架开发学生综合素质评价系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 学生功能2.2 教师功能2.3 教务处功能 三、系统展示四、核心代码4.1 查询我的学科竞赛4.2 保存单个问卷4.3 根据类型查询学生问卷4.4 填写语数外评价4.5 填写品德自评问卷分 五、免责说明 一、摘要 1.1 项目介绍 基于J…

数字化转型导师坚鹏:人工智能在金融机构数字化转型中的应用

人工智能在金融机构数字化转型中的应用 课程背景&#xff1a; 金融机构数字化转型离不开人工智能&#xff0c;在金融机构数字化转型中&#xff0c;人工智能起到至关重要的作用&#xff0c;很多机构存在以下问题&#xff1a; 不清楚人工智能产业对我们有什么影响&#xff1f;…

考研数学|概率应该怎么学?

考研概率论老师很多&#xff0c;但是我最推荐两个老师&#xff0c;李良和方浩 我认为李良概率论基础讲解相比于其他老师最大的优点就是&#xff0c;每一步都会耐心解释其中的逻辑。很少会像方浩老师那样过于跳跃或者频繁串联&#xff0c;这点对于零基础思维转换慢的人来说&…

Transformer self-attention源码及原理理解

自注意力计算公式&#xff1a; 在公式(1)中Q(query)是输入一个序列中的一个token&#xff0c;K(key)代表序列中所有token的特征。 可以得到当前token与序列中其他token的相关性。在论文原文中512&#xff0c;表示每个token用512维特征表示&#xff08;序列符号的embedding长度…

C语言中大小写字母如何转化

&#x1f31f; 前言 欢迎来到我的技术小宇宙&#xff01;&#x1f30c; 这里不仅是我记录技术点滴的后花园&#xff0c;也是我分享学习心得和项目经验的乐园。&#x1f4da; 无论你是技术小白还是资深大牛&#xff0c;这里总有一些内容能触动你的好奇心。&#x1f50d; &#x…

Linux TCP参数——tcp_adv_win_scale

文章目录 tcp_adv_win_scaleip-sysctl.txt解释buffering overhead内核缓存和应用缓存示例计算深入理解从2到1(tcp_adv_win_scale的值)总结 tcp_adv_win_scale adv-advise&#xff1b;win-window; 用于指示TCP中接收缓存比例的值。 static inline int tcp_win_from_space(int …

【字符串算法题】541. 反转字符串 II

题目链接 思考 把字符串以2k的步长分成count_reverse个子区间。考虑最后一个子区间的字符数量&#xff1a;1&#xff09;如果大于等于k&#xff0c;则它要和前面的子区间一样&#xff0c;要对区间内的前k个字符进行反转&#xff1b;2&#xff09;如果小于k&#xff0c;则它的…

SpringSecurity(SpringBoot2.X版本实现)

资料来源于 SpringSecurity框架教程-Spring SecurityJWT实现项目级前端分离认证授权 侵权删 目录 介绍 快速开始 认证 认证流程 登录校验流程 SpringSecurity完整流程 认证流程详解 代码实现 准备工作 mysql mybatis-plus redis 统一返回类 核心代码 密码加密存…

Mesh网格obj文件构成解析

众所周知&#xff0c;Mesh网格是三维重建的常用手法&#xff0c;通过顶点-三角面的形式来完成对三维物体的表达。其中&#xff0c;最常见的Mesh网格文件格式就是obj格式。看起来复杂的三维形状其实在数值表示上是很简单的&#xff0c;大家跟我一起来做个小实验就好&#xff1a;…

echarts散点图自定义tooltip,鼠标放上去展示多行数据

先放效果图 如图&#xff0c;就是鼠标悬停在散点上&#xff08;这里的散点我替换成了图片&#xff0c;具体做法参考这篇文章&#xff1a;echarts散点图的散点用自定义图片替代-CSDN博客&#xff09;时&#xff0c;可以展示多行数据。之前查找资料的时候&#xff0c;很多用字符串…

【兆易创新GD32H759I-EVAL开发板】 LUT功能

颜色查找表&#xff08;LUT, Lookup Table&#xff09;模式在图像处理和显示中是一种有效的数据表示和压缩方式。它通过将图像中的颜色映射到一个预定义的颜色表来实现&#xff0c;这样每个像素不是直接存储完整的颜色值&#xff0c;而是存储一个指向颜色表中特定颜色的索引。这…

练习unittest+Fixture实现

练习01 创建⼀个⽬录 case, 作⽤就是⽤来存放⽤例脚本,在这个⽬录中创建 5 个⽤例代码⽂件 , test_case1.py使⽤ TestLoader 去执⾏⽤例 将来的代码 ⽤例都是单独的⽬录中存放的 test_项⽬_模块_功能.py test_case1.py # 1. 导包 unittest import unittest # 2. 定义测试类, 只…