马斯克AI大模型Grok开源了！

马斯克AI大模型Grok开源了！

news/2025/4/19 17:19:07/文章来源:https://blog.csdn.net/qq_41273999/article/details/136862586

2024年3月18日，马斯克的AI创企xAI兑现承诺，正式发布了此前备受期待大模型Grok-1。

代码和模型权重已上线GitHub: https://github.com/xai-org/grok-1

截止目前，Grok已经在GitHub上获得了35.2k颗Star，还在不断上升中。

在这里插入图片描述

Grok官方博客介绍：https://x.ai/blog/grok-os 在这里插入图片描述

遵照Apache 2.0协议开放了Grok-1混合专家模型的权重与架构，Grok-1其参数量达到了3140亿，远超OpenAI GPT-3.5的1750亿，这是迄今为止参数量最大的开源大语言模型。

在这里插入图片描述

Grok-1模型的技术细节和设计规格如下：

基于大量文本数据上训练的基础模型，没有针对任何特定任务进行微调。
混合专家模型（MoE）：采用混合专家系统设计，每个token从8个专家中选择2个进行处理。
参数数量：拥有3140亿个参数，激活权重占25%。也就是有860亿激活参数，显示出模型处理语言任务的潜力。
包含64个Transformer层，每层都有多头注意力块和密集块，注意力头数为查询48个，键/值8个。
使用旋转位置嵌入 (RoPE)处理序列数据，Tokenization词汇量为131072，嵌入大小为6144。
提供8位量化的权重，有助于减少模型的存储和计算需求，适合资源有限的环境。
运行要求：模型规模巨大（314B参数），需要具有足够GPU内存的机器运行，以每参数2字节来算，大概需要628GB的GPU内存（一张性价比最高的4090有24G显存，大概二三十张4090）。
xAI 于 2023 年 10 月在 JAX 和 Rust 上使用自定义训练堆栈从头开始训练。

使用指南

当前，Grok-1 面向所有人开放，而要开始使用该模型，可以先确保下载 checkpoint 并将 ckpt-0 目录放入 checkpoint。然后，运行：

pip install -r requirements.txt
python run.py

进而测试代码。

脚本在测试输入上加载检查点和模型样本。

值得注意的事，Grok-1 参数量高达 314B 个参数，其模型体积庞大，需要配备足够 GPU 内存的机器才能使用示例代码测试模型。

xAI 团队在 GitHub 项目仓库里面也直言道：该资源库中 MoE 层的实现并不高效。选择这种实现方式是为了避免需要定制内核来验证模型的正确性。

你可以使用 torrent 客户端和下面磁铁链接下载权重：

magnet:xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=https%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

既然用户可以免费将Grok用于商业用途，进行修改和分发，而且没有附加条款，

那Grok的开源无疑将为人工智能技术的发展和应用带来新的机遇，并为互联网创作者提供新的舞台。
在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/757400.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

yolov9目标检测可视化图形界面GUI源码

yolov9目标检测可视化图形界面GUI源码

该系统是由微智启软件工作室基于yolov9pyside6开发的目标检测可视化界面系统运行环境： window python3.8 安装依赖后，运行源码目录下的wzq.py启动程序提供了ui源文件，可以拖动到Qt编辑器修改样式，然后通过pyside6把ui转成python…

阅读更多...

【11】工程化

【11】工程化

一、为什么需要模块化当前端工程到达一定规模后，就会出现下面的问题：全局变量污染依赖混乱上面的问题，共同导致了代码文件难以细分模块化就是为了解决上面两个问题出现的模块化出现后，我们就可以把臃肿的代码细分到各个小文件中，便于后期维护管理前端模块化标准…

阅读更多...

Cookie、Session、Token详解及基于JWT的Token实现的用户登陆身份认证

Cookie、Session、Token详解及基于JWT的Token实现的用户登陆身份认证

目录前置知识 Cookie 什么是Cookie Cookie的作用 Cookie的声命周期 Session 什么是Session 服务集群下Session存在的问题集群模式下Session无法共享问题的解决 Cookie和Session的对比 Token 什么是Token 为什么产生Token 基于JWT的Token认证机制 Token的优势 …

阅读更多...

第112讲：Mycat实践指南：字符串Hash算法分片下的水平分表详解

第112讲：Mycat实践指南：字符串Hash算法分片下的水平分表详解

文章目录 1.字符串Hash算法分片的概念1.1.字符串Hash算法的概念1.2.字符串Hash算法是如何将数据路由到分片节点的 2.使用字符串Hash算法分片对某张表进行水平拆分2.1.在所有的分片节点中创建表结构2.2.配置Mycat实现字符串Hash算法分片的水平分表2.2.1.配置Schema配置文件2.2.2…

阅读更多...

Redis Pub/Sub: 实时消息传递的完美解决方案

Redis Pub/Sub: 实时消息传递的完美解决方案

Redis发布订阅（Pub/Sub）是一种消息传递模式，允许消息的发送者（发布者）将消息发送给多个接收者（订阅者）。在Redis中，发布者和订阅者之间通过频道（Channel）进行…

阅读更多...

算法刷题day33

算法刷题day33

目录引言一、动态网格二、画图三、扫雷引言这几天一直再写关于搜索的问题，我发现搜索不仅仅局限于网格中的那种搜索，还有状态的变换，也可以抽象成一个点，去找最小变换次数，这也是一种搜索，所以说还是得…

阅读更多...

SpringData JPA 快速入门案例详解

SpringData JPA 快速入门案例详解

SpringData JPA JPA 简介： JPA（Java Persistence API）是 Java 持久层规范，定义了一些列 ORM 接口，它本身是不能直接使用的，因为接口需要实现才能使用，Hibernate 框架就是实现 JPA 规范的框架。…

阅读更多...

colab中数据集保存到drive与取出的方法

colab中数据集保存到drive与取出的方法

from google.colab import drive drive.mount(/content/drive) 一、下载数据集 from datasets import load_dataset max_length 32 # Maximum length of the captions in tokens coco_dataset_ratio 50 # 50% of the COCO2014 dataset# Load the COCO2014 dataset for tr…

阅读更多...

浅谈MVVM、MVC、MVP的区别

浅谈MVVM、MVC、MVP的区别

MVC、MVP 和 MVVM 是三种常见的软件架构设计模式，主要通过分离关注点的方式来组织代码结构，优化开发效率。在开发单页面应用时，往往一个路由页面对应了一个脚本文件，所有的页面逻辑都在一个脚本文件里。页面的渲染、数据的获取&…

阅读更多...

计算机毕业设计-基于python的旅游信息爬取以及数据分析

计算机毕业设计-基于python的旅游信息爬取以及数据分析

概要随着计算机网络技术的发展，近年来，新的编程语言层出不穷，python语言就是近些年来最为火爆的一门语言，python语言，相对于其他高级语言而言，python有着更加便捷实用的模块以及库，具有语法简单…

阅读更多...

使用原生nodejs搭建一个简易的web服务器demo

使用原生nodejs搭建一个简易的web服务器demo

简易demo var http require(http); var url require("url"); const app http.createServer(function (request, response) {var urlObj url.parse(request.url,true);console.log(request.url);// 内容类型: text/plain。并用charsetUTF-8解决输出中文乱码respon…

阅读更多...

S2-066漏洞分析与复现（CVE-2023-50164）

S2-066漏洞分析与复现（CVE-2023-50164）

Foreword 自struts2官方纰漏S2-066漏洞已经有一段时间，期间断断续续地写，直到最近才完成，o(╥﹏╥)o。羞愧地回顾一下官方通告： 2023.12.9发布，编号CVE-2023-50164，主要影响版本是 2.5.0-2.5.32 以及 6.0…

阅读更多...

QT6实现创建与操作sqlite数据库三种方式方式对比（二）

QT6实现创建与操作sqlite数据库三种方式方式对比（二）

一.概述 Qt访问Sqlite数据库的三种方式(即使用三种类库去访问)，QSqlQuery、QSqlQueryModel、QSqlTableModel，对于这三种类库，可看为一个比一个上层，也就是封装的更厉害，甚至第三种QSqlTableModel，根本就不…

阅读更多...

Spring Security AuthenticatedVoter 错误访问控制漏洞复现(CVE-2024-22257)

Spring Security AuthenticatedVoter 错误访问控制漏洞复现(CVE-2024-22257)

免责声明由于传播、利用本CSDN所提供的信息而造成的任何直接或者间接的后果及损失，均由使用者本人负责，作者不为此承担任何责任，一旦造成后果请自行承担！一、产品介绍 Spring Security 是基于Spring应用程序的认证和访问控制框架。二、漏洞描述 Spring Security在处理…

阅读更多...

JJJ：改善ubuntu网速慢的方法

JJJ：改善ubuntu网速慢的方法

Ubuntu 系统默认的软件下载源由于服务器的原因， 在国内的下载速度往往比较慢，这时我们可以将 Ubuntu 系统的软件下载源更改为国内软件源，譬如阿里源、中科大源、清华源等等， 下载速度相比 Ubuntu 官方软件源会快很多！…

阅读更多...

[AIGC] 在Spring Boot中指定请求体格式

[AIGC] 在Spring Boot中指定请求体格式

在使用Spring Boot开发Web应用的时候，我们经常会遇到需要接收并处理HTTP请求的情况。一个HTTP请求通常包括一个请求行、若干请求头和一个请求体。请求体在POST和PUT请求中特别重要，因为它通常用于向服务器传递数据。文章目录创建并使用一个Java Bean指…

阅读更多...

【技术栈】Redis 企业级解决方案

【技术栈】Redis 企业级解决方案

SueWakeup 个人主页：SueWakeup 系列专栏：学习技术栈个性签名&…

阅读更多...

突发需求下的IT部门挑战与解决：沟通协作关键不可或缺

突发需求下的IT部门挑战与解决：沟通协作关键不可或缺

摘要： 在当今信息化时代，IT部门作为企业技术支持的核心，经常面临各种突发需求挑战。本文深入探讨突发需求对IT部门的影响，分析工作计划打乱、快速响应压力和协作困难等问题。重点阐述了在应对突发需求时的核心应对策略&#xff0c…

阅读更多...

备案是否是《标准合同》的生效要件？

备案是否是《标准合同》的生效要件？

备案是否是《标准合同》的生效要件？ 备案并非是标准合同条款的生效要件。《个人信息出境标准合同办法》第三条明确个人信息出境标准合同的使用规则是以“自主缔约与备案管理”相结合，企业不进行备案并不影响合同的效力，但是如果企业不完成备…

阅读更多...

在工业物联网应用中保护数据隐私和安全的最佳实践

在工业物联网应用中保护数据隐私和安全的最佳实践

在工业物联网（IIoT）应用中，保护数据隐私和安全是一项至关重要的工作，因为这些设备常常连接到关键基础设施，并处理敏感数据。以下是一些保护数据隐私和安全的最佳实践： 实施严格的访问控制： 使用…

阅读更多...

最新文章