马斯克AI大模型Grok开源了!

2024年3月18日,马斯克的AI创企xAI兑现承诺,正式发布了此前备受期待大模型Grok-1。

代码和模型权重已上线GitHub: https://github.com/xai-org/grok-1

截止目前,Grok已经在GitHub上获得了35.2k颗Star,还在不断上升中。

在这里插入图片描述

Grok官方博客介绍:https://x.ai/blog/grok-os在这里插入图片描述

遵照Apache 2.0协议开放了Grok-1混合专家模型的权重与架构,Grok-1其参数量达到了3140亿,远超OpenAI GPT-3.5的1750亿,这是迄今为止参数量最大的开源大语言模型。

在这里插入图片描述

Grok-1模型的技术细节和设计规格如下:

  1. 基于大量文本数据上训练的基础模型,没有针对任何特定任务进行微调。
  2. 混合专家模型(MoE):采用混合专家系统设计,每个token从8个专家中选择2个进行处理。
  3. 参数数量:拥有3140亿个参数,激活权重占25%。也就是有860亿激活参数,显示出模型处理语言任务的潜力。
  4. 包含64个Transformer层,每层都有多头注意力块和密集块,注意力头数为查询48个,键/值8个。
  5. 使用旋转位置嵌入 (RoPE)处理序列数据,Tokenization词汇量为131072,嵌入大小为6144。
  6. 提供8位量化的权重,有助于减少模型的存储和计算需求,适合资源有限的环境。
  7. 运行要求:模型规模巨大(314B参数),需要具有足够GPU内存的机器运行,以每参数2字节来算,大概需要628GB的GPU内存(一张性价比最高的4090有24G显存,大概二三十张4090)。
  8. xAI 于 2023 年 10 月在 JAX 和 Rust 上使用自定义训练堆栈从头开始训练。

使用指南

当前,Grok-1 面向所有人开放,而要开始使用该模型,可以先确保下载 checkpoint 并将 ckpt-0 目录放入 checkpoint。然后,运行:

pip install -r requirements.txt
python run.py

进而测试代码。

脚本在测试输入上加载检查点和模型样本。

值得注意的事,Grok-1 参数量高达 314B 个参数,其模型体积庞大,需要配备足够 GPU 内存的机器才能使用示例代码测试模型。

xAI 团队在 GitHub 项目仓库里面也直言道:该资源库中 MoE 层的实现并不高效。选择这种实现方式是为了避免需要定制内核来验证模型的正确性。

你可以使用 torrent 客户端和下面磁铁链接下载权重:

magnet:xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

既然用户可以免费将Grok用于商业用途,进行修改和分发,而且没有附加条款,

那Grok的开源无疑将为人工智能技术的发展和应用带来新的机遇,并为互联网创作者提供新的舞台。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/757400.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

yolov9目标检测可视化图形界面GUI源码

该系统是由微智启软件工作室基于yolov9pyside6开发的目标检测可视化界面系统 运行环境: window python3.8 安装依赖后,运行源码目录下的wzq.py启动 程序提供了ui源文件,可以拖动到Qt编辑器修改样式,然后通过pyside6把ui转成python…

【11】工程化

一、为什么需要模块化 当前端工程到达一定规模后,就会出现下面的问题: 全局变量污染 依赖混乱 上面的问题,共同导致了代码文件难以细分 模块化就是为了解决上面两个问题出现的 模块化出现后,我们就可以把臃肿的代码细分到各个小文件中,便于后期维护管理 前端模块化标准…

Cookie、Session、Token详解及基于JWT的Token实现的用户登陆身份认证

目录 前置知识 Cookie 什么是Cookie Cookie的作用 Cookie的声命周期 Session 什么是Session 服务集群下Session存在的问题 集群模式下Session无法共享问题的解决 Cookie和Session的对比 Token 什么是Token 为什么产生Token 基于JWT的Token认证机制 Token的优势 …

第112讲:Mycat实践指南:字符串Hash算法分片下的水平分表详解

文章目录 1.字符串Hash算法分片的概念1.1.字符串Hash算法的概念1.2.字符串Hash算法是如何将数据路由到分片节点的 2.使用字符串Hash算法分片对某张表进行水平拆分2.1.在所有的分片节点中创建表结构2.2.配置Mycat实现字符串Hash算法分片的水平分表2.2.1.配置Schema配置文件2.2.2…

浅谈MVVM、MVC、MVP的区别

MVC、MVP 和 MVVM 是三种常见的软件架构设计模式,主要通过分离关注点的方式来组织代码结构,优化开发效率。 在开发单页面应用时,往往一个路由页面对应了一个脚本文件,所有的页面逻辑都在一个脚本文件里。页面的渲染、数据的获取&…

计算机毕业设计-基于python的旅游信息爬取以及数据分析

概要 随着计算机网络技术的发展,近年来,新的编程语言层出不穷,python语言就是近些年来最为火爆的一门语言,python语言,相对于其他高级语言而言,python有着更加便捷实用的模块以及库,具有语法简单…

S2-066漏洞分析与复现(CVE-2023-50164)

Foreword 自struts2官方纰漏S2-066漏洞已经有一段时间,期间断断续续地写,直到最近才完成,o(╥﹏╥)o。羞愧地回顾一下官方通告: 2023.12.9发布,编号CVE-2023-50164,主要影响版本是 2.5.0-2.5.32 以及 6.0…

JJJ:改善ubuntu网速慢的方法

Ubuntu 系统默认的软件下载源由于服务器的原因, 在国内的下载速度往往比较慢,这时我 们可以将 Ubuntu 系统的软件下载源更改为国内软件源,譬如阿里源、中科大源、清华源等等, 下载速度相比 Ubuntu 官方软件源会快很多!…

[AIGC] 在Spring Boot中指定请求体格式

在使用Spring Boot开发Web应用的时候,我们经常会遇到需要接收并处理HTTP请求的情况。一个HTTP请求通常包括一个请求行、若干请求头和一个请求体。请求体在POST和PUT请求中特别重要,因为它通常用于向服务器传递数据。 文章目录 创建并使用一个Java Bean指…

【技术栈】Redis 企业级解决方案

​ SueWakeup 个人主页:SueWakeup ​​​​​​​ 系列专栏:学习技术栈 ​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​ ​​​​​​​ 个性签名&…

​备案是否是《标准合同》的生效要件?​

备案是否是《标准合同》的生效要件? 备案并非是标准合同条款的生效要件。 《个人信息出境标准合同办法》第三条明确个人信息出境标准合同的使用规则是以“自主缔约与备案管理”相结合,企业不进行备案并不影响合同的效力,但是如果企业不完成备…

QT 驾校系统界面布局编写

MainWindow::MainWindow(QWidget *parent): QMainWindow(parent), ui(new Ui::MainWindow) {ui->setupUi(this);this->resize(ui->label_img->width(),ui->label_img->height());//图片自适应窗口大小ui->label_img->setScaledContents(true);//图片置…

信息发布系统

特色功能 画布功能---可任意拖动各控件的播放位置及大小,可任意选择屏幕背景色或添加背景图 同步联屏---毫秒级同步功能 视频切换无黑屏 触摸查询系统 会议预定系统 终端显示-会议综合屏 终端显示-会议预定屏 终端显示-移动端 广告发布系统 硬件产品-智能终端 硬件…

HTML_CSS学习:超链接、列表、表格、表格常用属性

一、超链接_唤起指定应用 1.相关代码 <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><title>超链接_唤起指定应用</title> </head> <body><a href"tel:10010">电话联…

C# 数组(Array)

C# 数组&#xff08;Array&#xff09; 初始化数组 声明一个数组不会在内存中初始化数组。当初始化数组变量时&#xff0c;您可以赋值给数组。 数组是一个引用类型&#xff0c;所以您需要使用 new 关键字来创建数组的实例。 例如&#xff1a; double[] b new double[10];…

编织效率之梦:Visual Studio与Windows快捷键指南

个人主页&#xff1a;日刷百题 系列专栏&#xff1a;〖C/C小游戏〗〖Linux〗〖数据结构〗 〖C语言〗 &#x1f30e;欢迎各位→点赞&#x1f44d;收藏⭐️留言&#x1f4dd; ​ ​ 前言&#xff1a; 常用快捷键整理 (用加粗标注的是我个人使用时常用的&#xff0c;其实这个…

【算法专题--双指针算法】leecode-202. 快乐数(medium)、leecode-11. 盛最多水的容器(medium)

&#x1f341;你好&#xff0c;我是 RO-BERRY &#x1f4d7; 致力于C、C、数据结构、TCP/IP、数据库等等一系列知识 &#x1f384;感谢你的陪伴与支持 &#xff0c;故事既有了开头&#xff0c;就要画上一个完美的句号&#xff0c;让我们一起加油 目录 前言1. 快乐数&#xff0…

VM创建win11虚拟机

1. 准备文件 通过微软官网下载iso磁盘映像文件Download Windows 11 2. 虚拟机创建 (1)创建新的虚拟机-导入win11 iso文件; (2)命名并选择安装位置; (3)选择加密(最好找个是方保存下密码) (4)磁盘情况默认就好。虚拟机的磁盘空间随着文件的增多物理机也会占用磁盘空间. (5) 自定…

应用方案 | D78040场扫描电路

D78040是一款场扫描电路&#xff0c;偏转电流可达1.7Ap-p&#xff0c;可用于中小型显示器。 二 特 点 1、有内置泵电源 2、垂直输出电路 3、热保护电路 4、偏转电流可达1.7Ap-p 三 基本参数 四 应用电路图 1、应用线路 2、PIN5脚输出波形如下&#xff1a;

阿里云服务器ECS u1实例199元一年性能如何?一测吓一跳

阿里云服务器u1是通用算力型云服务器&#xff0c;CPU采用2.5 GHz主频的Intel(R) Xeon(R) Platinum处理器&#xff0c;通用算力型u1云服务器不适用于游戏和高频交易等需要极致性能的应用场景及对业务性能一致性有强诉求的应用场景(比如业务HA场景主备机需要性能一致)&#xff0c…