Grok-1:参数量最大的开源大语言模型

Grok-1:参数量最大的开源大语言模型

项目简介

由马斯克领衔的大型模型企业 xAI 正式公布了一项重要动作:开源了一个拥有 3140 亿参数的混合专家模型(MoE)「Grok-1」,连同其模型权重和网络架构一并公开。

此举将 Grok-1 树立为目前最大参数量的开源大语言模型。

图片

在这个关键时刻,马斯克自然不放过机会,对 OpenAI 进行了一番讽刺,他表示:“我们很想探索 OpenAI 中‘开放’的那一部分”。

图片

模型

回到模型本身,Grok-1 是从零开始训练的,而且没有为任何特定应用(例如对话系统)进行过微调。相比之下,在 X(原名 Twitter)上使用的 Grok 大型模型已经进行了微调,因此其行为与原始权重版本不同。

Grok-1 模型的详细信息包括:

·基础模型基于大量文本数据训练,未针对任何特定任务进行微调;

·是一个包含 3140 亿参数的混合专家(MoE)模型,给定 token 的激活权重为 25%;

·2023 年 10 月,xAI 使用 JAX 库和 Rust 语言的自定义训练栈从头开始进行训练。

xAI 根据 Apache 2.0 许可证公开了 Grok-1 的权重和架构。Apache 2.0 许可证允许用户自由使用、修改和分发软件,不论是个人还是商业用途。项目发布仅10小时,就已获得 11.1k 星标,人气持续上升。

图片

Grok-1模型因其巨大的参数量—314亿个参数—而引起了网友们的极大兴趣。由于每个参数需要2字节的内存来存储,整个模型大约需要628GB的GPU内存才能运行。为了达到这样的内存需求,就需要使用多个高性能GPU。

以目前市场上的高端GPU,NVIDIA H100为例,每个提供大约80GB的显存。根据这个配置,运行完整的Grok-1模型大概需要8个H100 GPUs来提供足够的内存空间。

这是一种非常高端的配置,通常只有在专业的数据中心或者具备先进计算资源的研究机构中才能找到。对于大多数个人用户和小型开发团队来说,这种配置是不切实际的。因此,想要运行如此庞大的模型,就需要获得相应级别的硬件支持,这通常意味着相当大的投资。

使用

这个仓库包含用于加载和运行 Grok-1 开放权重模型的 JAX 示例代码。

请确保下载了检查点,并将 ckpt-0 目录放在 checkpoint 中。然后,运行

pip install -r requirements.txtpython run.py

测试代码。

该脚本加载检查点,并在一个测试输入上从模型中采样。

由于模型的体积很大(314B 参数),需要一台具有足够 GPU 内存的机器来用示例代码测试模型。这个仓库中的 MoE 层的实现并不高效。选择这种实现是为了避免需要自定义核心来验证模型的正确性。

项目链接

https://github.com/xai-org/grok-1

Grok-1:马斯克兑现诺言,发布参数量最大的开源大语言模型,发布10小时11.1k星星

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/757424.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

清华大模型ChatGLM3部署初体验

正文共:1555 字 17 图,预估阅读时间:2 分钟 ChatGLM3是智谱AI和清华大学KEG实验室联合发布的对话预训练模型。该项目在GitHub的工程链接为: https://github.com/THUDM/ChatGLM3 在人工智能领域中,类似“3B”、“6B”、…

C++--STL标准库

一.模板 模板是C中泛型编程的基础。一个模板就是一个创建类或函数的蓝图。 生活中常见的模板有: 编写一个比较两个值大小的函数,如果第一个值大于第二个值返回大于0的数字,两个值相等返回0,第一个值小于第二个值返回小于0的数字。 我们可以根据值类型定义多个函数&…

Go语言实战:深入掌握标准库flag的强大用法

Go语言实战:深入掌握标准库flag的强大用法 引言flag库基础命令行参数的基本概念使用flag库定义和解析命令行参数处理非选项命令行参数小结 高级用法自定义Flag的解析命令行参数的分组和嵌套小结 实战技巧组织复杂命令行应用的参数错误处理和用户帮助信息调试命令行应…

php基于人工智能预警突发疾病系统python-flask-django-nodejs

根据现实需要,此系统我们设计出一下功能,主要有以下功能模板。 前台功能:首页、医生、疾病知识、后台管理。 医生功能:首页、个人中心、咨询信息管理、疾病预警管理、高血压管理、糖尿病管理。 用户功能:首页、个人中心…

数据分析能力模型分析与展示

具体内容: 专业素质 专业素质-01 数据处理 能力定义•能通过各种数据处理工具及数据处理方法,对内外部海量数据进行清洗和运用,提供统一数据标准,为业务分析做好数据支持工作。 L1•掌握一…

SinoDB客户端工具dbaccess

类似Oracle的客户端工具sqlplus,Mysql的客户端工具mysql,SinoDB数据库也有自带的命令行客户端工具dbaccess。 dbaccess 识别用户输入,将用户输入的 SQL 语句打包发送给 SinoDB 数据库服务器执行,然后接收服务器的执行结果&#xf…

Leet code 238 除自身以外的数组的乘积

解题思路 以示例1为例 创建两个数组dp(统计该位置之的所有乘积) bp(统计该位置之后的所有乘积) 比如 1 2 3 4 3的dp应该等于 1*2 bp应该等于 4 这样 dp* bp就为该位置的答案 分别计算出每个位置前后的乘积然后放入数组 然…

3.leetcode---验证回文串(Java版)

链接: https://leetcode.cn/problems/XltzEq/description/ 给定一个字符串 s ,验证 s 是否是 回文串 ,只考虑字母和数字字符,可以忽略字母的大小写。 本题中,将空字符串定义为有效的 回文串 。 示例 1: 输入: s “A man, a plan…

2022年安徽省职业院校技能大赛 (高职组)“云计算”赛项样卷

#需要资源或有问题的,可私博主!!! #需要资源或有问题的,可私博主!!! #需要资源或有问题的,可私博主!!! 第一场次:私有云(5…

【Linux】自动化构建工具-make/Makefile

个人主页 : zxctscl 如有转载请先通知 文章目录 1. 前言2. 认识make/Makefile3. 了解make/Makefile原理3.1 依赖关系和依赖方法3.2 make检测的顺序3.3 PHONY:XXX 4. makefile内置符号 1. 前言 在上一篇中已经了解了【Linux】编译器-gcc/g使用,这次来一起…

具有功耗低、触控灵敏度高、抗干扰能力强等功能的单键电容式触控芯片——TS223B,适用于小家电、电子玩具等产品

•应用领域• 适用于小家电、电子玩具、智能物联网等各种触控产品方案。 •功能介绍• 这款推出的单键电容式触控芯片TS223B具有功耗低、触控灵敏度高、抗干扰能力强等众多优势,输出方式包括直接输出、电平翻转输出,并且输出的初始状态可以配置&#xff…

Outlook邮箱后缀是什么?如何改邮箱后缀?

Outlook邮箱后缀可以更改吗?微软有哪些后缀的邮箱? 对于许多刚接触Outlook邮箱的新手来说,了解Outlook邮箱后缀是必不可少的一步。那么,Outlook邮箱后缀究竟是什么呢?接下来,AokSend就来详细探讨一下这个问…

SSD203D高性能HDMI投影仪方案

一、方案描述: SSD203D是高度集成的高性能HDMI投影仪解决方案,主芯片为ARM Cortex A7,dule core,1.2GHz;内置DDR3,1Gb;支持H.264/H.265解码;支持JPEG基线编码;支持2D图形引擎;支持HDMI输出最高可达1920x1080/1920x120030fps ;支持SPI-Nor/Nand Flash;Built-in RTC;…

媒体邀约专访的意义?怎么做

传媒如春雨,润物细无声,大家好,我是51媒体网胡老师。 媒体邀约专访是指企业、组织或个人主动邀请媒体进行专题访谈的一种公关活动。这种活动对于提升品牌形象、传播信息、增强公众认知度和信任度等方面都有重要作用。以下是媒体邀约专访的一…

第1章 初识 Python 背记手册

1、print()—输出 print()函数的基本用法如下: print("输出的内容")其中,输出内容可以是数字和字符串(使用引号括起来),此类内容将直接输出,也 可 以是包含运算符的表达式,此类内容…

彻底学会系列:一、机器学习之梯度下降(2)

1 梯度具体是怎么下降的? ∂ J ( θ ) ∂ θ \frac{\partial J (\theta )}{\partial \theta} ∂θ∂J(θ)​(损失函数:用来衡量模型预测值与真实值之间差异的函数) 对损失函数求导,与学习率相乘,按梯度反方…

马斯克AI大模型Grok开源了!

2024年3月18日,马斯克的AI创企xAI兑现承诺,正式发布了此前备受期待大模型Grok-1。 代码和模型权重已上线GitHub: https://github.com/xai-org/grok-1 截止目前,Grok已经在GitHub上获得了35.2k颗Star,还在不断上升中。 Grok官方博…

yolov9目标检测可视化图形界面GUI源码

该系统是由微智启软件工作室基于yolov9pyside6开发的目标检测可视化界面系统 运行环境: window python3.8 安装依赖后,运行源码目录下的wzq.py启动 程序提供了ui源文件,可以拖动到Qt编辑器修改样式,然后通过pyside6把ui转成python…

【11】工程化

一、为什么需要模块化 当前端工程到达一定规模后,就会出现下面的问题: 全局变量污染 依赖混乱 上面的问题,共同导致了代码文件难以细分 模块化就是为了解决上面两个问题出现的 模块化出现后,我们就可以把臃肿的代码细分到各个小文件中,便于后期维护管理 前端模块化标准…

Cookie、Session、Token详解及基于JWT的Token实现的用户登陆身份认证

目录 前置知识 Cookie 什么是Cookie Cookie的作用 Cookie的声命周期 Session 什么是Session 服务集群下Session存在的问题 集群模式下Session无法共享问题的解决 Cookie和Session的对比 Token 什么是Token 为什么产生Token 基于JWT的Token认证机制 Token的优势 …